2枚の写真でビデオを「計算」できる、Redditのネットユーザーに衝撃

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIに2枚の画像を与えるだけで、高フレームレートのダイナミックビデオを作成できますか?

2 つの入力画像を重ねると次のようになります。

計算されたビデオは次のようになります。

はい、これもビデオ補間アルゴリズムの結果です。

RIFEと呼ばれるこの AI アルゴリズムは、古い映画をスムーズにするための極端な操作や従来の手法にも優れています。

右側のクラシックタンゴは左側のものよりもずっとスムーズに見えませんか?

古い映画だけでなく、飛行パフォーマンスの素晴らしい瞬間も、一気に毎秒24フレームから毎秒96フレームまで増やすことができます。

この新しい研究はMegviiと北京大学によるものです。古いビデオ素材を高フレームレートの需要に応え、2X/4X/8Xの高品質補間をサポートできるだけでなく、速度という最大の特徴も備えています。

QuantumBit は、T4 を使用して Colab でデモを実行しました。53 秒の 720p 25fps ビデオを 100fps に補間するのに、わずか2 分 19 秒しかかかりませんでした。

このプロジェクトは現在オープンソースであり、公式デモとサードパーティの Windows アプリケーションを試用できます。

RIFEのパフォーマンスを見たネットユーザーは、これがさまざまな復元ビデオに頻繁に登場する補間AI DAINを超え、新しいトレンドをリードすることになるのかと驚嘆せざるを得なかった。

突然、Reddit での RIFE の人気が 2.8k に急上昇しました。

それで、この効果はどのようにして達成されるのでしょうか?

双方向推定から中間フレームのワンステップ予測へ

ビデオ補間では通常、オプティカルフロー予測アルゴリズムを使用して中間フレームを予測し、それを 2 つのフレームの間に挿入します。オプティカルフローは、光の流れと同様に、画像内の物体が移動する方向を色を使用して表現する方法です。

△スパースオプティカルフローとデンスオプティカルフロー

従来のオプティカルフロー予測アルゴリズムは通常、前後の 2 つのビデオフレームに基づいて、中央の特定のフレームがどのように見えるかを予測します。

予測画像を挿入すると、ビデオがよりスムーズに見えるようになります。

DAIN のアルゴリズムを例にとると、時刻 t のフレームを予測する場合、時刻 t の前後の 2 つのビデオフレームが必要になりますが、これはオプティカルフロー予測アルゴリズムによって実現できます。

△DAINアルゴリズム図

ただし、このタイプのアルゴリズムには欠点があります。予測プロセス中に、2 つの画像フレームを使用して双方向オプティカルフローを生成し、線形結合を使用して中間フローを推定すると、予測結果のモーション境界領域にアーティファクトが表示されます。

このようなアーティファクトにより、中間フレーム画像の再構成の効果が不十分になります。

では、考え方を変えて、まず中間の流れを直接予測したらどうなるでしょうか?

前のフレームと次のフレームを 2 回の推定に使用するのと比較して、ここでのIFNET (Specialized and Efficient Intermediate Flow Network) アルゴリズムは、直線運動の仮定を直接使用して中間フレームを 1 回推定します。

効果も明らかです。前後のフレームの双方向推定によって生成されたオプティカルフローと比較すると、IFNET によって推定されたオプティカルフローは非常に鮮明で、アーティファクトはほとんどありません。

この方法を使用して画像を再構成すると、オプティカルフローのエッジが明確になるだけでなく、速度も速くなります。

論文では、RIFE がオプティカルフローに基づく初のリアルタイムビデオ補間ソリューションであると述べられています。

中間フレーム予測により、前のフレームと次のフレーム間の変換が線形であると直接想定されます。これは、各フレームの予測で 1 つの推定を直接削減することと同じです。

それで、このモデルは補間アルゴリズムをどの程度改善するのでしょうか?

他の方法よりもはるかに高速に実行できます

上で述べたように、RIFE の最も顕著な特徴はその速度です。

研究者らは、UCF101、Vimeo90K、Middlebury OTHER set、HDベンチマークなどのベンチマークで、RIFEをNvidiaのSoftSplatや上海交通大学のDAINなどの「先行者」と比較した。

実行時間は 640×480 ビデオを使用してテストされ、使用される GPU モデルは NVIDIA TITAN X (Pascal) です。

結果から、パフォーマンスが同等の場合、RIFE ベースモデルはすべての比較方法よりも高速に実行されることがわかります。

モデルの大型バージョンである RIFE-Large は、SOTA メソッド SoftSplat よりもパフォーマンスが優れており、実行速度が 30% 高速です。

さらに、研究者らは、Vimeo90K テストセットに基づく視覚的な比較結果を提供しました。

緑の枠では、SepConv-L1とDAINがアーティファクトを生成し、CAINのシャベル部分が欠落していることがわかります。相対的に言えば、RIFEによって生成された結果の方が信頼性が高いです。

インストールパッケージとcolabの両方が用意されているので、安心して試すことができます

このような美しいモデルをどのように使用すればよいのでしょうか?

現在、著者らは事前トレーニング済みモデルのいくつかの使用例を示しており、ネットワークディスクバージョンの圧縮パッケージは GitHub プロジェクトから直接ダウンロードできます。

作者が提供しているデモでも、フレームを挿入したいサンプルでも、ぜひ試してみてください。

もちろん、このモデルには colab バージョンもあり、クラウドサーバー上で直接モデルを操作することができます。

さらに、一部のプレイヤーはすでにソフトウェアの Windows バージョンを作成しており、これをダウンロードして直接使用することができます。インターフェースは非常にシンプルです:

RIFE モデルの登場はすでに一部のゲーム愛好家を熱狂させています。

長い間埃をかぶっていた PS2 でも 4K ゲームのレベルを達成できると想像できますか?このアルゴリズムを使用すると、3 つのステップで実行できます。

しかし、一部のネットユーザーはこのアルゴリズムについて懸念を表明した。

このアルゴリズムは高速でパフォーマンスも高いのですが、実は問題があります。

このアルゴリズムは、本質的に失われたフレーム間情報を関連付けることができないため、セキュリティビデオには使用できません。

今後、これらのアプリケーションについてはさらに検討する必要があります。

著者について

[[353834]]

論文の筆頭著者である黄哲偉氏は現在Megviiのアルゴリズム研究者であり、北京大学を卒業している。

北京大学情報科学技術学院に入学して1年後、ICPC地域大会で金メダルを獲得し、Megvii Technologyのインテリジェントコンピューティンググループ（ICグループ）のインターンになりました。その後、NIPS 2017のLearning to Runコンテストに参加し、Actor-Critic Ensembleアルゴリズムを使用して2位を獲得しました。さらに、彼の論文は ICCV 2019 カンファレンスにも掲載されました。

張天元は北京大学を卒業しました。在学中、彼の論文は ICML 2019、ICCV 2019、NIPS 2019 などのトップカンファレンスで発表されました。

ヘン・ウェンは北京大学でコンピューター応用技術の修士号を取得しました。

北京大学出身の Boxin Shi 氏は、現在、北京大学情報科学技術学院の助教授（Boya Young Scholar）、研究者、博士課程の指導者を務めています。

Megvii Research InstituteのAIコンピューティンググループ責任者である周樹昌氏は、清華大学電子工学科を卒業し、中国科学院コンピューティング技術研究所で博士号を取得しました。同氏は、NeuIPS 2017 Learning to Run Challengeで2位を獲得し、米国国立標準技術研究所のNIST TRAIT 2016 OCRチャンピオンに輝きました。

プロジェクトアドレス:
https://rife-vfi.github.io/

論文の宛先:
出典：http://arxiv.org/abs/2011.06294

DAIN効果との比較:
https://www.youtube.com/watch?v=60DX2T3zyVo&feature=youtu.be

<<: スマートホームデバイスにおける ML と IoT の融合

>>: 人工知能がフィットネス業界にもたらすイノベーション：AIパーソナルトレーナーの登場