53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

[[424523]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

スローモーション動画を作るには、高価な高速カメラを使う必要がありますか?

いいえ!AIを使用できます。

わかりますか?これがAIによって実現された効果です!

実際の高速カメラの数千フレームには匹敵しませんが、アーティファクトやノイズなしで1 秒あたり53 フレーム960 フレームに簡単に変換できます。

多くのネットユーザーは、その結果を見て、「詳細なチュートリアルが本当に欲しい」「アプリを作れますか?」と言わずにはいられませんでした...

この素晴らしい研究成果は、CVPR 2021にも選ばれました。研究者は、ファーウェイ・チューリッヒ研究センターとチューリッヒ大学の研究者です。

もちろん、特別なカメラも使用されました

この効果を実現するために、ビデオのオプティカルフローから粒子の動きを推測するという従来のアイデアは使用されませんでした。代わりに、最初に 2 台のカメラを使用して画像をキャプチャしました。

1 つは、低フレーム (20 ~ 60 FPS) の実画像を記録する通常のカメラです。

スローモーション効果を実現するには、少なくとも 1 秒あたり 300 フレームが必要です。20 フレームのビデオでは、スローモーションに直接合成するには情報が少なすぎます。

何をするか?もう一つの特殊なカメラで——

つまり、イベント カメラ (ニューロモルフィック カメラとも呼ばれます) は、新しいタイプのセンサーを使用して「イベント」をキャプチャし、つまりピクセルの明るさの変化を記録します。

イベントカメラはまだ比較的新しいものです。研究室には数多くありますが、市場に大規模に投入されるまでには至っていません。価格は 1 台あたり 2,000 ドル以上です。

カメラに記録される情報は圧縮されるため、低解像度で高速に撮影することができ、画像情報量を増やす代わりに画質を犠牲にすることになります。

最終的な情報量は、AI が粒子の動きを理解し、その後の補間を容易にするのに十分です。

2台のカメラで同時に撮影された内容は次のとおりです。

写真を撮影した後、機械学習を使用して両方のカメラからの情報を最大限に活用して補間することができます。

ここで研究者らが提案する AI モデルは Time Lens と呼ばれ、 4 つの部分に分かれています。

まず、2 台のカメラでキャプチャされたフレーム情報とイベント情報が、最初の 2 つのモジュール (ワープベースの補間モジュールと合成補間モジュール) に送信されます。

変形ベースの補間モジュールは、U 字型ネットワークを利用して動きをオプティカル フロー表現に変換し、イベントを実際のフレームに変換します。

合成補間モジュールは、U 字型ネットワークを使用して 2 つのフレームの間にイベントを配置し、各イベントに対して新しい可能なフレームを直接生成します (同じイベントに対して 2 つのフレームが生成されます)。

このモジュールは、フレーム間で表示される新しいオブジェクトや照明の変化 (水の反射など) を非常にうまく処理します。

ただし、この時点で、合成されたビデオにノイズという問題が発生する可能性があります。

ここで、2 番目の補間合成モジュールからの新しい情報を使用して最初のモジュールを改良する 3 番目のモジュールが役立ちます。

つまり、同じイベントの生成された 2 つのフレームから最も重要な情報を抽出し、変形の最適化を実行します。U-net ネットワークを再度使用して、イベントの3 番目のフレーム バージョンを生成します。

最後に、これら3 つの候補フレームは、注目度ベースの平均化モジュールに入力されます。

このモジュールは、3 つのフレーム表現の中から最適なものを選択し、それらを最終フレームに構成します。

フレーム間の最初のイベントの高解像度フレームが得られたので、イベント カメラによって提供されるすべてのイベントに対してこのプロセスを繰り返すと、必要な最終結果が得られます。

このように、AI を使用してリアルなスローモーション ビデオを作成できます。どうですか?

カメラパラメータ図を添付します。

スマートフォンや他の機種では実現できない成果を実現

この AI モデルは効果的だとおっしゃっていますが、確実に知るには比較する必要があります。

たとえば、上記の比較では、最良の補間モデルの 1 つであるDAIN (CVPR 19 用に選択) とどちらが優れているかを示しています。

さらに、その補間方法の計算の複雑さも最適です。画像解像度が 640×480 の場合、DAIN モデルは研究者の GPU 上で単一の補間を実行するのに 878 ミリ秒かかりますが、AI では138 ミリ秒しかかかりません

また、推奨はされませんが、ビデオ入力が5 フレームしかない場合でも、モデルはスローモーションを生成できます。

他のモデルとの比較実験データについては、興味のある方は論文を参照してください。

最後に、著者は結果を紹介する動画の中で、高価なプロ用機器には及ばないものの、少なくともスマートフォンや他のモデルでは達成できない結果を達成したと改めて述べた。

著者について

第一著者のStepan Tulyakov氏は、チューリッヒのHuawei Research Centerの機械学習研究者です。

[[424524]]

共同筆頭著者のダニエル・ゲーリッグ氏はチューリッヒ大学の博士課程の学生です。チューリッヒ工科大学で機械工学の学位を取得。

[[424525]]

論文の宛先:

http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

オープンソースアドレス:

https://github.com/uzh-rpg/rpg_timelens

<<:  Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

>>:  MITはレーザー彫刻機にAIを搭載し、材料を自動的に識別し、98%の精度で彫刻の強度を判定した。

ブログ    
ブログ    
ブログ    

推薦する

...

マイクロソフトが新たなAIアクセス原則を発表、同社史上最大の投資計画

IT Homeは2月27日、2024年のモバイル・ワールド・コングレスでマイクロソフトのブラッド・ス...

...

米国が新たなオープンソースAIアルゴリズムを開発:モザイクの美しさを自動修復

ぼやけた写真を見ると、本来の姿を復元したいという衝動にかられることはありませんか?以前の技術ではこれ...

人工知能と人間の知能のギャップは何でしょうか?

AlphaGoがイ・セドルを破った後、人類の知能の最後の高みも人工知能によって征服されたと誰もが言...

Testin Cloud Testing: テクノロジーを活用して企業の飛躍を支援

急速に発展するデジタル時代において、ビジネスの成功にとって高品質で効率的なテスト サービスが重要であ...

インテリジェントビル通信ネットワークシステムのセキュリティ管理

セキュリティ管理は常にネットワーク管理の重要な部分であり、最も重要なリンクの 1 つです。また、ユー...

MNISTとCIFAR 10を100%の精度で「解いた」と主張する人もいる

MNIST 認識の精度は 100% に達しましたか?最近、プレプリントプラットフォームarXivに掲...

IBM Watson Healthの大規模レイオフによるAI導入の苦痛

少し前、The Register紙はIBMの内部情報筋が、ワトソン・ヘルス部門が従業員の約50%から...

自動運転車におけるセンサー応用に関する重要な考慮事項

[[348758]]運転支援運転システム (ADAS) や自律走行車 (AV) 向けのセンシング技術...

AI技術の現状を理解するのに役立つ45の数字

2019年7月現在、AIの現状はどうなっているのでしょうか。最新の調査、研究、予測に基づき、AI技術...

MIT スタンフォード トランスフォーマーの最新研究: 過剰トレーニングにより、中程度のモデルが構造一般化能力を「発現」できるようになる

人間にとって、文章は階層的です。文の階層構造は表現と理解の両方にとって非常に重要です。しかし、自然言...

...

英国の反トラスト規制当局は、低性能のAIシステムの拡散を防ぐためのAI規制原則を策定した。

海外メディアの報道によると、9月19日、英国競争・市場庁(競争・市場庁)は、人工知能の規制当局や同技...

人工知能の時代において、中国語と英語のどちらがAIの母国語になるのでしょうか?

人工知能は現在非常に人気の高い技術であり、世界中の国々が研究に資金と人材を投入しています。人工知能を...