2枚の写真でビデオを「計算」できる、Redditのネットユーザーに衝撃

2枚の写真でビデオを「計算」できる、Redditのネットユーザーに衝撃

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIに2枚の画像を与えるだけで、高フレームレートのダイナミックビデオを作成できますか?

2 つの入力画像を重ねると次のようになります。

計算されたビデオは次のようになります。

はい、これもビデオ補間アルゴリズムの結果です。

RIFEと呼ばれるこの AI アルゴリズムは、古い映画をスムーズにするための極端な操作や従来の手法にも優れています。

右側のクラシックタンゴは左側のものよりもずっとスムーズに見えませんか?

古い映画だけでなく、飛行パフォーマンスの素晴らしい瞬間も、一気に毎秒24フレームから毎秒96フレームまで増やすことができます。

この新しい研究はMegviiと北京大学によるものです。古いビデオ素材を高フレームレートの需要に応え、2X/4X/8Xの高品質補間をサポートできるだけでなく、速度という最大の特徴も備えています。

QuantumBit は、T4 を使用して Colab でデモを実行しました。53 秒の 720p 25fps ビデオを 100fps に補間するのに、わずか2 分 19 秒しかかかりませんでした。

このプロジェクトは現在オープンソースであり、公式デモとサードパーティの Windows アプリケーションを試用できます。

RIFEのパフォーマンスを見たネットユーザーは、これがさまざまな復元ビデオに頻繁に登場する補間AI DAINを超え、新しいトレンドをリードすることになるのかと驚嘆せざるを得なかった。

突然、Reddit での RIFE の人気が 2.8k に急上昇しました。

それで、この効果はどのようにして達成されるのでしょうか?

双方向推定から中間フレームのワンステップ予測へ

ビデオ補間では通常、オプティカルフロー予測アルゴリズムを使用して中間フレームを予測し、それを 2 つのフレームの間に挿入します。オプティカルフローは、光の流れと同様に、画像内の物体が移動する方向を色を使用して表現する方法です。

△スパースオプティカルフローとデンスオプティカルフロー

従来のオプティカルフロー予測アルゴリズムは通常、前後の 2 つのビデオ フレームに基づいて、中央の特定のフレームがどのように見えるかを予測します。

予測画像を挿入すると、ビデオがよりスムーズに見えるようになります。

DAIN のアルゴリズムを例にとると、時刻 t のフレームを予測する場合、時刻 t の前後の 2 つのビデオ フレームが必要になりますが、これはオプティカル フロー予測アルゴリズムによって実現できます。

△DAINアルゴリズム図

ただし、このタイプのアルゴリズムには欠点があります。予測プロセス中に、2 つの画像フレームを使用して双方向オプティカル フローを生成し、線形結合を使用して中間フローを推定すると、予測結果のモーション境界領域にアーティファクトが表示されます。

このようなアーティファクトにより、中間フレーム画像の再構成の効果が不十分になります。

では、考え方を変えて、まず中間の流れを直接予測したらどうなるでしょうか?

前のフレームと次のフレームを 2 回の推定に使用するのと比較して、ここでのIFNET (Specialized and Efficient Intermediate Flow Network) アルゴリズムは、直線運動の仮定を直接使用して中間フレームを 1 回推定します

効果も明らかです。前後のフレームの双方向推定によって生成されたオプティカルフローと比較すると、IFNET によって推定されたオプティカルフローは非常に鮮明で、アーティファクトはほとんどありません。

この方法を使用して画像を再構成すると、オプティカルフローのエッジが明確になるだけでなく、速度も速くなります。

論文では、RIFE がオプティカルフローに基づく初のリアルタイム ビデオ補間ソリューションであると述べられています。

中間フレーム予測により、前のフレームと次のフレーム間の変換が線形であると直接想定されます。これは、各フレームの予測で 1 つの推定を直接削減することと同じです。

それで、このモデルは補間アルゴリズムをどの程度改善するのでしょうか?

他の方法よりもはるかに高速に実行できます

上で述べたように、RIFE の最も顕著な特徴はその速度です。

研究者らは、UCF101、Vimeo90K、Middlebury OTHER set、HDベンチマークなどのベンチマークで、RIFEをNvidiaのSoftSplatや上海交通大学のDAINなどの「先行者」と比較した。

実行時間は 640×480 ビデオを使用してテストされ、使用される GPU モデルは NVIDIA TITAN X (Pascal) です。

結果から、パフォーマンスが同等の場合、RIFE ベース モデルはすべての比較方法よりも高速に実行されることがわかります。

モデルの大型バージョンである RIFE-Large は、SOTA メソッド SoftSplat よりもパフォーマンスが優れており、実行速度が 30% 高速です。

さらに、研究者らは、Vimeo90K テスト セットに基づく視覚的な比較結果を提供しました。

緑の枠では、SepConv-L1とDAINがアーティファクトを生成し、CAINのシャベル部分が欠落していることがわかります。相対的に言えば、RIFEによって生成された結果の方が信頼性が高いです。

インストールパッケージとcolabの両方が用意されているので、安心して試すことができます

このような美しいモデルをどのように使用すればよいのでしょうか?

現在、著者らは事前トレーニング済みモデルのいくつかの使用例を示しており、ネットワーク ディスク バージョンの圧縮パッケージは GitHub プロジェクトから直接ダウンロードできます。

作者が提供しているデモでも、フレームを挿入したいサンプルでも、ぜひ試してみてください。

もちろん、このモデルには colab バージョンもあり、クラウド サーバー上で直接モデルを操作することができます。

さらに、一部のプレイヤーはすでにソフトウェアの Windows バージョンを作成しており、これをダウンロードして直接使用することができます。インターフェースは非常にシンプルです:

RIFE モデルの登場はすでに一部のゲーム愛好家を熱狂させています。

長い間埃をかぶっていた PS2 でも 4K ゲームのレベルを達成できると想像できますか?このアルゴリズムを使用すると、3 つのステップで実行できます。

しかし、一部のネットユーザーはこのアルゴリズムについて懸念を表明した。

このアルゴリズムは高速でパフォーマンスも高いのですが、実は問題があります。

このアルゴリズムは、本質的に失われたフレーム間情報を関連付けることができないため、セキュリティビデオには使用できません。

今後、これらのアプリケーションについてはさらに検討する必要があります。

著者について

[[353834]]

論文の筆頭著者である黄哲偉氏は現在Megviiのアルゴリズム研究者であり、北京大学を卒業している。

北京大学情報科学技術学院に入学して1年後、ICPC地域大会で金メダルを獲得し、Megvii Technologyのインテリジェントコンピューティンググループ(ICグループ)のインターンになりました。その後、NIPS 2017のLearning to Runコンテストに参加し、Actor-Critic Ensembleアルゴリズムを使用して2位を獲得しました。さらに、彼の論文は ICCV 2019 カンファレンスにも掲載されました。

張天元は北京大学を卒業しました。在学中、彼の論文は ICML 2019、ICCV 2019、NIPS 2019 などのトップカンファレンスで発表されました。

ヘン・ウェンは北京大学でコンピューター応用技術の修士号を取得しました。

北京大学出身の Boxin Shi 氏は、現在、北京大学情報科学技術学院の助教授(Boya Young Scholar)、研究者、博士課程の指導者を務めています。

Megvii Research InstituteのAIコンピューティンググループ責任者である周樹昌氏は、清華大学電子工学科を卒業し、中国科学院コンピューティング技術研究所で博士号を取得しました。同氏は、NeuIPS 2017 Learning to Run Challengeで2位を獲得し、米国国立標準技術研究所のNIST TRAIT 2016 OCRチャンピオンに輝きました。

プロジェクトアドレス:
https://rife-vfi.github.io/

論文の宛先:
出典:http://arxiv.org/abs/2011.06294

DAIN効果との比較:
https://www.youtube.com/watch?v=60DX2T3zyVo&feature=youtu.be

<<:  スマートホームデバイスにおける ML と IoT の融合

>>:  人工知能がフィットネス業界にもたらすイノベーション:AIパーソナルトレーナーの登場

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

勉強!機械学習アルゴリズムの長所と短所の概要

目次正規化アルゴリズムアンサンブルアルゴリズム決定木アルゴリズム回帰人工ニューラルネットワークディー...

...

AI危機の前に、この3つの資質を備えた子供たちが将来勝利するだろう

[[234521]]文|ハオ・ジンファンSF作家第74回ヒューゴー賞受賞者公式アカウント「小唐科学子...

2019年にロボット分野で注目すべき5つのトレンド

2019 年に注目すべき 5 つのロボット トレンドは次のとおりです。 [[259551]] 1. ...

インテリジェントロボットにはどのような主要なセンサー技術が使用されていますか?

今日のロボットで重要な役割を果たしているいくつかの主要なセンサー技術には、磁気位置センサー、存在セン...

...

世界錬金術時代が始まった? MIT、住宅や道路を無制限のバッテリーに変える「カーボンセメント」スーパーキャパシタを開発

おそらく今回、私たちは本当に人類の歴史における特異点に立っているのかもしれない。最近、MIT のカー...

...

空軍の最高データ・AI責任者がAIを通じて戦略的優位性を獲得する方法について語る

AI は、軍事への応用、脅威の監視、国家防衛の確保など、私たちの行動様式を変えています。 AIは軍事...

2022 年に予測されるロボット技術のトレンド トップ 10

COVID-19パンデミックは、物流やスーパーマーケットなどの分野に問題と機会の両方をもたらしまし...

気候変動と戦うには人工知能が重要

気候変動が世界中の環境、社会、政治、経済システムに大きな影響を与えることは否定できません。したがって...

なぜ人工知能は第四次産業革命と呼ばれるのでしょうか?

[[234940]]過去2年間、世界のIT大手は人工知能の分野で展開してきました。GoogleはD...

...

AI専用SoCチップのIP要件の分析

[[386797]]この記事はWeChatの公開アカウント「Smart Computing Chip...