携帯電話のビデオの最大の問題は揺れですが、AIだけがそれを救えます

携帯電話でビデオを撮影するときの最大の問題は何ですか?

振る……

ビデオのジッターは緊急に解決する必要がある大きな問題のようです。

最近の研究では、ビデオのジッターの問題を効果的に解決できる可能性があります。その効果は次の通りです:

写真からわかるように、右側の動画は揺れが大幅に軽減されており、早歩きしながらの撮影でもそれほど眩しく見えません。

混雑した公共の場所で撮影されたビデオと比較すると、右側のアニメーション画像は明らかにはるかに安定しています。

導入

YouTube、Vimeo、Instagram などのオンラインプラットフォームでのビデオコンテンツの急速な増加に伴い、ビデオの安定化がますます重要になっています。専門的なビデオ安定化装置を使用せずに撮影された携帯電話のビデオは、不安定で視聴に適さないことが多く、ビデオ安定化アルゴリズムにとって大きな課題となります。既存のビデオ安定化方法では、フレーム境界のアクティブなクロッピングが必要になるか、安定化されたフレームに歪みアーティファクトが生成されます。

では、ビデオの揺れの問題を解決し、安定したビデオ撮影効果を生み出すにはどうすればよいでしょうか?国立台湾大学、Google、バージニア工科大学、カリフォルニア大学マーセド校の研究者らは、切り取りを必要としないフルフレームのビデオ安定化アルゴリズムを提案した。

論文の宛先:
出典：http://arxiv.org/pdf/2102.06205.pdf

プロジェクトアドレス:
https://github.com/alex04072000/NeRViS

具体的には、本研究では、密な歪み場を推定することでフルフレームのビデオを安定化するアルゴリズムを提案しました。このアルゴリズムは、隣接するフレームの歪んだコンテンツを融合し、フルフレームの安定化フレームを合成することができます。このアルゴリズムのコア技術は学習ベースのハイブリッド空間融合であり、不正確なオプティカルフローや高速移動する物体によって引き起こされるアーティファクトの影響を軽減できます。研究者らは、NUS および自撮りビデオデータセットでこの方法の有効性を検証しました。さらに、広範囲にわたる実験結果により、提案された方法が従来のビデオ安定化方法よりも優れていることが実証されています。

この研究の主な貢献は次のとおりです。

ニューラルレンダリング技術をビデオ安定化に適用して、フローの不正確さに対する感度を軽減します。

複数のフレームからの情報を特徴レベルと画像レベルの両方で組み合わせるハイブリッド融合メカニズムが提案され、さまざまな設計上の選択がアブレーション研究を通じて体系的に検証されます。

提案された方法は、2 つの公開データセットにおける代表的なビデオ安定化技術と比較して優れたパフォーマンスを実現します。

アルゴリズムの実装

本研究で提案されたビデオ安定化方法は、一般的に 1) 動きの推定、2) 動きのスムージング、3) フレームのワーピングとレンダリングの 3 つの段階に分かれています。この研究では、トリミングなしで高品質のフレームをレンダリングする第 3 段階に焦点を当てています。このアルゴリズムは、特定の動き推定/スムージング技術に依存しません。

実際のカメラ空間から仮想カメラ空間へのワープフィールドがビデオのすべてのフレームで利用可能であると想定します。与えられた入力ビデオに対して、まず各フレームの画像特徴をエンコードし、特定のターゲットタイムスタンプで隣接するフレームを仮想カメラ空間にワープし、次に特徴を融合して安定したフレームをレンダリングします。

図 3: 複数のフレームを融合するための設計上の選択肢。

フルフレームの安定化ビデオを合成するには、入力された不安定なビデオ内の複数の隣接するフレームの内容を整列させて融合する必要があります。図 3 に示すように、主に 3 つの部分が含まれます。

従来のパノラマ画像ステッチング（または画像ベースのレンダリング）方法では、通常、歪んだ（安定化された）画像を画像レベルで融合します。画像レベルの融合は、位置合わせが正確な場合にはうまく機能しますが、フロー推定が信頼できない場合は混合アーティファクトが発生する可能性があります。

画像は抽象的な CNN 特徴にエンコードされ、特徴空間で融合され、デコーダーは融合された特徴を出力フレームに変換するように学習されます。このアプローチはフローの不正確さに対して堅牢ですが、通常は過度にぼやけた画像が生成されます。

この研究で提案されたアルゴリズムは、これら 2 つの戦略の利点を組み合わせたものです。まず、抽象的な画像特徴を抽出し（式（6））、次に複数のフレーム歪みの特徴を融合する。各ソースフレームについて、融合された特徴マップと個々のワープされた特徴が一緒にデコードされ、出力フレームと関連する信頼度マップが生成されます。最後に、式（８）で生成された画像の加重平均を使用して、最終的な出力フレームを生成します。

歪みと融合

ワープ: 隣接するフレームをワープして、仮想カメラ空間内のターゲットフレームに合わせます。ターゲットフレームからキーフレームへのワープフィールドと、キーフレームから隣接フレームへの推定オプティカルフローがすでにあるため、フローベクトルをリンクすることで、ターゲットフレームから隣接フレームへのワープフィールドを計算できます。したがって、後方ワーピングを使用すると、隣接するフレーム I_n をターゲットフレームに合わせるようにワープできます。

ターゲットフレーム内の一部のピクセルは、遮蔽または境界の外側にあるため、隣接するフレームでは表示されません。したがって、各隣接フレームの可視性マスク {}∈ω を計算して、ソースフレーム内のピクセルが有効かどうか (1 としてマークされているかどうか) を示します。この研究では、[Sundaram et al. 2010]の方法を使用して、遮蔽されたピクセル（0としてマーク）を識別しました。

融合スペース: 整列したフレームを処理するために、いくつかの融合戦略が検討されます。まず、図3(a)に示すように、画像空間でワープされたカラーフレームを直接ブレンドして、安定した出力フレームを生成します。この画像空間融合方法は、画像ステッチ、ビデオ補間、新しい視点の合成でよく使用されます。

画像空間と特徴空間の最適な融合を組み合わせるために、本研究ではビデオ安定化のためのハイブリッド空間融合メカニズムを提案した（図3（c）） 。特徴空間融合と同様に、この研究ではまず隣接する各フレームから高次元の特徴を抽出し、次にフローを使用して特徴を歪めます。次に、特徴を最適に融合する混合重みを予測するように CNN を学習します。研究者たちは、融合された特徴マップと各隣接フレームの歪んだ特徴を連結して、画像デコーダーの入力を形成します。画像デコーダーは、ターゲットフレームと各隣接フレームの信頼マップを予測することを学習します。最後に、画像空間融合法を使用して、予測重みに従ってすべての予測ターゲットフレームを融合し、最終的な安定したフレームを取得します。

ハイブリッド空間融合と特徴空間融合の主な違いは、画像デコーダーの入力にあります。下の図5(b)の画像デコーダーは、融合された特徴のみを入力として受け取り、出力フレームを予測します。融合された特徴マップには、すでに複数のフレームからの混合情報が含まれています。したがって、画像デコーダーが鮮明な画像コンテンツを合成することが困難になる可能性があります。対照的に、図5(c)の画像デコーダーは、融合された特徴マップに基づいて、歪んだ特徴からターゲットフレームを再構築します。経験的研究により、これによりゴーストやグリッチアーティファクトを回避しながら出力フレームの鮮明度が向上することが判明しました。

図 5: 異なるブレンドスペースの効果。

実験結果

制御変数実験

融合機能。この研究では、画像空間融合、特徴空間融合、ハイブリッド空間融合を使用して提案モデルをトレーニングしました。画像の空間融合については、この研究には、マルチバンド融合とグラフカットという 2 つの従来の融合方法も含まれています。結果は以下の表1に示されています。

定量評価

この研究では、以前に提案されたいくつかの SOTA ビデオ安定化アルゴリズムを使用して提案された方法を評価し、その結果を以下の表 4 に示します。

視覚的な比較

この研究で使用された方法の安定したフレームワークと、Selfie データセットの最先端の方法を以下の図 10 に示します。この方法では、視覚的なアーティファクトが少ないフルフレームの安定化ビデオが生成されます。

図 10: SOTA メソッドとの視覚的な比較。

結果は、本研究で提案された融合方法はフレーム境界の大幅な切り取りの影響を受けず、安定したフレームをレンダリングする際のアーティファクトが DIFRINT よりも大幅に少ないことを示しています。

実行時間分析

この研究では、CPUベースの方法[Grundmann et al. 2011; Liu et al. 2013; Yu and Ramamoorthi 2018]とi7-8550U CPUラップトップの実行時間に関する実験を実施しました。さらに、この研究では、GPU ベースの方法 [Choi and Kweon 2020; Wang et al. 2018; Yu and Ramamoorthi 2020] と Nvidia Tesla V100 GPU での実行時間についても実験しました。テストビデオのフレーム解像度は 854×480 です。結果は以下の表5に示されています。

<<: レストランロボットの準備はできていますか?それが答えかもしれない

>>: 将来、人工知能に置き換えられない仕事が最も収益性が高くなるでしょう。それがどれか見てみましょう。