53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

[[424523]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

スローモーション動画を作るには、高価な高速カメラを使う必要がありますか？

いいえ！AIを使用できます。

わかりますか？これがAIによって実現された効果です！

実際の高速カメラの数千フレームには匹敵しませんが、アーティファクトやノイズなしで1 秒あたり53 フレームを960 フレームに簡単に変換できます。

多くのネットユーザーは、その結果を見て、「詳細なチュートリアルが本当に欲しい」「アプリを作れますか？」と言わずにはいられませんでした...

この素晴らしい研究成果は、CVPR 2021にも選ばれました。研究者は、ファーウェイ・チューリッヒ研究センターとチューリッヒ大学の研究者です。

もちろん、特別なカメラも使用されました

この効果を実現するために、ビデオのオプティカルフローから粒子の動きを推測するという従来のアイデアは使用されませんでした。代わりに、最初に 2 台のカメラを使用して画像をキャプチャしました。

1 つは、低フレーム (20 ～ 60 FPS) の実画像を記録する通常のカメラです。

スローモーション効果を実現するには、少なくとも 1 秒あたり 300 フレームが必要です。20 フレームのビデオでは、スローモーションに直接合成するには情報が少なすぎます。

何をするか？もう一つの特殊なカメラで——

つまり、イベントカメラ (ニューロモルフィックカメラとも呼ばれます) は、新しいタイプのセンサーを使用して「イベント」をキャプチャし、つまりピクセルの明るさの変化を記録します。

イベントカメラはまだ比較的新しいものです。研究室には数多くありますが、市場に大規模に投入されるまでには至っていません。価格は 1 台あたり 2,000 ドル以上です。

カメラに記録される情報は圧縮されるため、低解像度で高速に撮影することができ、画像情報量を増やす代わりに画質を犠牲にすることになります。

最終的な情報量は、AI が粒子の動きを理解し、その後の補間を容易にするのに十分です。

2台のカメラで同時に撮影された内容は次のとおりです。

写真を撮影した後、機械学習を使用して両方のカメラからの情報を最大限に活用して補間することができます。

ここで研究者らが提案する AI モデルは Time Lens と呼ばれ、 4 つの部分に分かれています。

まず、2 台のカメラでキャプチャされたフレーム情報とイベント情報が、最初の 2 つのモジュール (ワープベースの補間モジュールと合成補間モジュール) に送信されます。

変形ベースの補間モジュールは、U 字型ネットワークを利用して動きをオプティカルフロー表現に変換し、イベントを実際のフレームに変換します。

合成補間モジュールは、U 字型ネットワークを使用して 2 つのフレームの間にイベントを配置し、各イベントに対して新しい可能なフレームを直接生成します (同じイベントに対して 2 つのフレームが生成されます)。

このモジュールは、フレーム間で表示される新しいオブジェクトや照明の変化 (水の反射など) を非常にうまく処理します。

ただし、この時点で、合成されたビデオにノイズという問題が発生する可能性があります。

ここで、2 番目の補間合成モジュールからの新しい情報を使用して最初のモジュールを改良する 3 番目のモジュールが役立ちます。

つまり、同じイベントの生成された 2 つのフレームから最も重要な情報を抽出し、変形の最適化を実行します。U-net ネットワークを再度使用して、イベントの3 番目のフレームバージョンを生成します。

最後に、これら3 つの候補フレームは、注目度ベースの平均化モジュールに入力されます。

このモジュールは、3 つのフレーム表現の中から最適なものを選択し、それらを最終フレームに構成します。

フレーム間の最初のイベントの高解像度フレームが得られたので、イベントカメラによって提供されるすべてのイベントに対してこのプロセスを繰り返すと、必要な最終結果が得られます。

このように、AI を使用してリアルなスローモーションビデオを作成できます。どうですか？

カメラパラメータ図を添付します。

スマートフォンや他の機種では実現できない成果を実現

この AI モデルは効果的だとおっしゃっていますが、確実に知るには比較する必要があります。

たとえば、上記の比較では、最良の補間モデルの 1 つであるDAIN (CVPR 19 用に選択) とどちらが優れているかを示しています。

さらに、その補間方法の計算の複雑さも最適です。画像解像度が 640×480 の場合、DAIN モデルは研究者の GPU 上で単一の補間を実行するのに 878 ミリ秒かかりますが、AI では138 ミリ秒しかかかりません。

また、推奨はされませんが、ビデオ入力が5 フレームしかない場合でも、モデルはスローモーションを生成できます。

他のモデルとの比較実験データについては、興味のある方は論文を参照してください。

最後に、著者は結果を紹介する動画の中で、高価なプロ用機器には及ばないものの、少なくともスマートフォンや他のモデルでは達成できない結果を達成したと改めて述べた。

著者について

第一著者のStepan Tulyakov氏は、チューリッヒのHuawei Research Centerの機械学習研究者です。

共同筆頭著者のダニエル・ゲーリッグ氏はチューリッヒ大学の博士課程の学生です。チューリッヒ工科大学で機械工学の学位を取得。

論文の宛先:

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

オープンソースアドレス:

https://github.com/uzh-rpg/rpg_timelens

<<: Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

>>: MITはレーザー彫刻機にAIを搭載し、材料を自動的に識別し、98%の精度で彫刻の強度を判定した。

ブログ

AIが脳波を80%以上の精度で解読！あなたの目の中で最も美しいtaを高度に復元します

ブログ

音声認識のクロスドメインおよびクロス言語移行の難しさを少しずつ軽減するにはどうすればよいでしょうか?

ブログ

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

もちろん、特別なカメラも使用されました

スマートフォンや他の機種では実現できない成果を実現

著者について

AIが脳波を80%以上の精度で解読！あなたの目の中で最も美しいtaを高度に復元します

自動運転のテストが加速：北京と上海が重要なニュースを発表

MNISTとCIFAR 10を100%の精度で「解いた」と主張する人もいる

大雨後のドローンと衛星ネットワーク

音声認識のクロスドメインおよびクロス言語移行の難しさを少しずつ軽減するにはどうすればよいでしょうか?

推薦する

AIが消費者の選択に及ぼす影響

プログラミングアルゴリズムと人生の選択

ディープラーニングの難しさ：ニューラルネットワークが深くなるほど、最適化の問題は難しくなる

膨大なログから未知の異常な動作をオンラインでリアルタイムに検出するにはどうすればよいでしょうか?ハンシのシーケンス異常アルゴリズムを参照

OpenAI の人事異動は、Nvidia、AMD、Intel、Microsoft にどのような影響を与えるでしょうか?

無人タクシーが登場します。準備はできていますか?

Google DeepMindが復讐のために力を合わせる！ジェフ・ディーンとハサビスが1万語の記事で2023年のジェダイの反撃を要約

「ビッグアイクリップ」が生まれ変わり、ChatGPTチャットボットに変身

AIに人間のように計画を立てることを教えるにはどうすればよいでしょうか?

カリフォルニア工科大学、プロペラアームを使って滑空する二足歩行ロボットを開発