53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

[[424523]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

スローモーション動画を作るには、高価な高速カメラを使う必要がありますか?

いいえ!AIを使用できます。

わかりますか?これがAIによって実現された効果です!

実際の高速カメラの数千フレームには匹敵しませんが、アーティファクトやノイズなしで1 秒あたり53 フレーム960 フレームに簡単に変換できます。

多くのネットユーザーは、その結果を見て、「詳細なチュートリアルが本当に欲しい」「アプリを作れますか?」と言わずにはいられませんでした...

この素晴らしい研究成果は、CVPR 2021にも選ばれました。研究者は、ファーウェイ・チューリッヒ研究センターとチューリッヒ大学の研究者です。

もちろん、特別なカメラも使用されました

この効果を実現するために、ビデオのオプティカルフローから粒子の動きを推測するという従来のアイデアは使用されませんでした。代わりに、最初に 2 台のカメラを使用して画像をキャプチャしました。

1 つは、低フレーム (20 ~ 60 FPS) の実画像を記録する通常のカメラです。

スローモーション効果を実現するには、少なくとも 1 秒あたり 300 フレームが必要です。20 フレームのビデオでは、スローモーションに直接合成するには情報が少なすぎます。

何をするか?もう一つの特殊なカメラで——

つまり、イベント カメラ (ニューロモルフィック カメラとも呼ばれます) は、新しいタイプのセンサーを使用して「イベント」をキャプチャし、つまりピクセルの明るさの変化を記録します。

イベントカメラはまだ比較的新しいものです。研究室には数多くありますが、市場に大規模に投入されるまでには至っていません。価格は 1 台あたり 2,000 ドル以上です。

カメラに記録される情報は圧縮されるため、低解像度で高速に撮影することができ、画像情報量を増やす代わりに画質を犠牲にすることになります。

最終的な情報量は、AI が粒子の動きを理解し、その後の補間を容易にするのに十分です。

2台のカメラで同時に撮影された内容は次のとおりです。

写真を撮影した後、機械学習を使用して両方のカメラからの情報を最大限に活用して補間することができます。

ここで研究者らが提案する AI モデルは Time Lens と呼ばれ、 4 つの部分に分かれています。

まず、2 台のカメラでキャプチャされたフレーム情報とイベント情報が、最初の 2 つのモジュール (ワープベースの補間モジュールと合成補間モジュール) に送信されます。

変形ベースの補間モジュールは、U 字型ネットワークを利用して動きをオプティカル フロー表現に変換し、イベントを実際のフレームに変換します。

合成補間モジュールは、U 字型ネットワークを使用して 2 つのフレームの間にイベントを配置し、各イベントに対して新しい可能なフレームを直接生成します (同じイベントに対して 2 つのフレームが生成されます)。

このモジュールは、フレーム間で表示される新しいオブジェクトや照明の変化 (水の反射など) を非常にうまく処理します。

ただし、この時点で、合成されたビデオにノイズという問題が発生する可能性があります。

ここで、2 番目の補間合成モジュールからの新しい情報を使用して最初のモジュールを改良する 3 番目のモジュールが役立ちます。

つまり、同じイベントの生成された 2 つのフレームから最も重要な情報を抽出し、変形の最適化を実行します。U-net ネットワークを再度使用して、イベントの3 番目のフレーム バージョンを生成します。

最後に、これら3 つの候補フレームは、注目度ベースの平均化モジュールに入力されます。

このモジュールは、3 つのフレーム表現の中から最適なものを選択し、それらを最終フレームに構成します。

フレーム間の最初のイベントの高解像度フレームが得られたので、イベント カメラによって提供されるすべてのイベントに対してこのプロセスを繰り返すと、必要な最終結果が得られます。

このように、AI を使用してリアルなスローモーション ビデオを作成できます。どうですか?

カメラパラメータ図を添付します。

スマートフォンや他の機種では実現できない成果を実現

この AI モデルは効果的だとおっしゃっていますが、確実に知るには比較する必要があります。

たとえば、上記の比較では、最良の補間モデルの 1 つであるDAIN (CVPR 19 用に選択) とどちらが優れているかを示しています。

さらに、その補間方法の計算の複雑さも最適です。画像解像度が 640×480 の場合、DAIN モデルは研究者の GPU 上で単一の補間を実行するのに 878 ミリ秒かかりますが、AI では138 ミリ秒しかかかりません

また、推奨はされませんが、ビデオ入力が5 フレームしかない場合でも、モデルはスローモーションを生成できます。

他のモデルとの比較実験データについては、興味のある方は論文を参照してください。

最後に、著者は結果を紹介する動画の中で、高価なプロ用機器には及ばないものの、少なくともスマートフォンや他のモデルでは達成できない結果を達成したと改めて述べた。

著者について

第一著者のStepan Tulyakov氏は、チューリッヒのHuawei Research Centerの機械学習研究者です。

[[424524]]

共同筆頭著者のダニエル・ゲーリッグ氏はチューリッヒ大学の博士課程の学生です。チューリッヒ工科大学で機械工学の学位を取得。

[[424525]]

論文の宛先:

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

オープンソースアドレス:

https://github.com/uzh-rpg/rpg_timelens

<<:  Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

>>:  MITはレーザー彫刻機にAIを搭載し、材料を自動的に識別し、98%の精度で彫刻の強度を判定した。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIが消費者の選択に及ぼす影響

人工知能 (AI) は、マーケティングと広告のダイナミックな環境において変革をもたらす力として登場し...

プログラミングアルゴリズムと人生の選択

毎年、就職活動の時期になると、どうやって内定を選んだらいいのか、テンセントに行くべきか豆板に行くべき...

ディープラーニングの難しさ:ニューラルネットワークが深くなるほど、最適化の問題は難しくなる

[[192056]]ディープラーニングの中心的な問題は非常に難しい最適化問題です。そのため、ニューラ...

...

OpenAI の人事異動は、Nvidia、AMD、Intel、Microsoft にどのような影響を与えるでしょうか?

OpenAI の人事異動の影響:ウルトラマンが勝つ彼はついに株式を取得することができました!マイク...

...

無人タクシーが登場します。準備はできていますか?

[[243616]]地図: 小魚クラウド コンピューティングやビッグ データなどのアプリケーション...

...

Google DeepMindが復讐のために力を合わせる!ジェフ・ディーンとハサビスが1万語の記事で2023年のジェダイの反撃を要約

Google DeepMind、論文を提出してください!ちょうど今、ジェフ・ディーン氏とハサビス氏は...

「ビッグアイクリップ」が生まれ変わり、ChatGPTチャットボットに変身

6 月 29 日のニュースによると、かつては物議を醸し、今では懐かしく思われている Microsof...

...

...

AIに人間のように計画を立てることを教えるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

カリフォルニア工科大学、プロペラアームを使って滑空する二足歩行ロボットを開発

LEONARDO は、カリフォルニア工科大学の航空宇宙ロボット工学および制御研究所の言語の天才たちの...