53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

[[424523]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

スローモーション動画を作るには、高価な高速カメラを使う必要がありますか？

いいえ！AIを使用できます。

わかりますか？これがAIによって実現された効果です！

実際の高速カメラの数千フレームには匹敵しませんが、アーティファクトやノイズなしで1 秒あたり53 フレームを960 フレームに簡単に変換できます。

多くのネットユーザーは、その結果を見て、「詳細なチュートリアルが本当に欲しい」「アプリを作れますか？」と言わずにはいられませんでした...

この素晴らしい研究成果は、CVPR 2021にも選ばれました。研究者は、ファーウェイ・チューリッヒ研究センターとチューリッヒ大学の研究者です。

もちろん、特別なカメラも使用されました

この効果を実現するために、ビデオのオプティカルフローから粒子の動きを推測するという従来のアイデアは使用されませんでした。代わりに、最初に 2 台のカメラを使用して画像をキャプチャしました。

1 つは、低フレーム (20 ～ 60 FPS) の実画像を記録する通常のカメラです。

スローモーション効果を実現するには、少なくとも 1 秒あたり 300 フレームが必要です。20 フレームのビデオでは、スローモーションに直接合成するには情報が少なすぎます。

何をするか？もう一つの特殊なカメラで——

つまり、イベントカメラ (ニューロモルフィックカメラとも呼ばれます) は、新しいタイプのセンサーを使用して「イベント」をキャプチャし、つまりピクセルの明るさの変化を記録します。

イベントカメラはまだ比較的新しいものです。研究室には数多くありますが、市場に大規模に投入されるまでには至っていません。価格は 1 台あたり 2,000 ドル以上です。

カメラに記録される情報は圧縮されるため、低解像度で高速に撮影することができ、画像情報量を増やす代わりに画質を犠牲にすることになります。

最終的な情報量は、AI が粒子の動きを理解し、その後の補間を容易にするのに十分です。

2台のカメラで同時に撮影された内容は次のとおりです。

写真を撮影した後、機械学習を使用して両方のカメラからの情報を最大限に活用して補間することができます。

ここで研究者らが提案する AI モデルは Time Lens と呼ばれ、 4 つの部分に分かれています。

まず、2 台のカメラでキャプチャされたフレーム情報とイベント情報が、最初の 2 つのモジュール (ワープベースの補間モジュールと合成補間モジュール) に送信されます。

変形ベースの補間モジュールは、U 字型ネットワークを利用して動きをオプティカルフロー表現に変換し、イベントを実際のフレームに変換します。

合成補間モジュールは、U 字型ネットワークを使用して 2 つのフレームの間にイベントを配置し、各イベントに対して新しい可能なフレームを直接生成します (同じイベントに対して 2 つのフレームが生成されます)。

このモジュールは、フレーム間で表示される新しいオブジェクトや照明の変化 (水の反射など) を非常にうまく処理します。

ただし、この時点で、合成されたビデオにノイズという問題が発生する可能性があります。

ここで、2 番目の補間合成モジュールからの新しい情報を使用して最初のモジュールを改良する 3 番目のモジュールが役立ちます。

つまり、同じイベントの生成された 2 つのフレームから最も重要な情報を抽出し、変形の最適化を実行します。U-net ネットワークを再度使用して、イベントの3 番目のフレームバージョンを生成します。

最後に、これら3 つの候補フレームは、注目度ベースの平均化モジュールに入力されます。

このモジュールは、3 つのフレーム表現の中から最適なものを選択し、それらを最終フレームに構成します。

フレーム間の最初のイベントの高解像度フレームが得られたので、イベントカメラによって提供されるすべてのイベントに対してこのプロセスを繰り返すと、必要な最終結果が得られます。

このように、AI を使用してリアルなスローモーションビデオを作成できます。どうですか？

カメラパラメータ図を添付します。

スマートフォンや他の機種では実現できない成果を実現

この AI モデルは効果的だとおっしゃっていますが、確実に知るには比較する必要があります。

たとえば、上記の比較では、最良の補間モデルの 1 つであるDAIN (CVPR 19 用に選択) とどちらが優れているかを示しています。

さらに、その補間方法の計算の複雑さも最適です。画像解像度が 640×480 の場合、DAIN モデルは研究者の GPU 上で単一の補間を実行するのに 878 ミリ秒かかりますが、AI では138 ミリ秒しかかかりません。

また、推奨はされませんが、ビデオ入力が5 フレームしかない場合でも、モデルはスローモーションを生成できます。

他のモデルとの比較実験データについては、興味のある方は論文を参照してください。

最後に、著者は結果を紹介する動画の中で、高価なプロ用機器には及ばないものの、少なくともスマートフォンや他のモデルでは達成できない結果を達成したと改めて述べた。

著者について

第一著者のStepan Tulyakov氏は、チューリッヒのHuawei Research Centerの機械学習研究者です。

共同筆頭著者のダニエル・ゲーリッグ氏はチューリッヒ大学の博士課程の学生です。チューリッヒ工科大学で機械工学の学位を取得。

論文の宛先:

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

オープンソースアドレス:

https://github.com/uzh-rpg/rpg_timelens

<<: Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

>>: MITはレーザー彫刻機にAIを搭載し、材料を自動的に識別し、98%の精度で彫刻の強度を判定した。

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

もちろん、特別なカメラも使用されました

スマートフォンや他の機種では実現できない成果を実現

著者について

機械学習を使用したデータマッピング

CityDreamer: ワンクリックで境界のない 3D 都市を生成

おそらく2030年までに、量子コンピューティングのChatGPTの瞬間が到来するだろう

写真とテキストで、3ステップで『原神』原稿がすぐに作れる！最初の70億パラメータの画像とテキストのハイブリッド作成モデルが正式にオープンソース化され、ワンクリックで傑作を生成

マスク氏がxAIの目標を設定：汎用人工知能の実現期限は2029年

現代の分散ストレージシステムをサポートするアルゴリズム

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

生成 AI は企業の知識管理をどのように改善できるのでしょうか?

Testin Cloud Testingは、ビッグモデル+ソフトウェアテストの業界リーダーの技術革新の道を模索し始めました。

推薦する

機械は倫理的な判断を下せるのか？

EasyDLは、臨床試験データの敵対的学習と複数のアルゴリズムの比較を簡単に処理します。

ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

自動運転はどこへ行ってしまったのか？

顔認識の背後にあるもの：怖いのは技術ではなく…

Githubのオブジェクトカウントアルゴリズム

輸送と物流における AI と自動化のユースケース

JD.comのインテリジェント顧客サービスブランドがリニューアル：「Yanxi」が2020 JDDカンファレンスでデビュー

私の国は、送電線の加熱を検出するために初めてAI技術を大規模に使用しました。

ResNet仮説は覆されたか？ Redditの人：長年誰もその原理を理解していなかった

より良いAIでより良い社会を築く