携帯電話のビデオの最大の問題は揺れですが、AIだけがそれを救えます

携帯電話のビデオの最大の問題は揺れですが、AIだけがそれを救えます

携帯電話でビデオを撮影するときの最大の問題は何ですか?

振る……

ビデオのジッターは緊急に解決する必要がある大きな問題のようです。

最近の研究では、ビデオのジッターの問題を効果的に解決できる可能性があります。その効果は次の通りです:

写真からわかるように、右側の動画は揺れが大幅に軽減されており、早歩きしながらの撮影でもそれほど眩しく見えません。

混雑した公共の場所で撮影されたビデオと比較すると、右側のアニメーション画像は明らかにはるかに安定しています。

導入

YouTube、Vimeo、Instagram などのオンライン プラットフォームでのビデオ コンテンツの急速な増加に伴い、ビデオの安定化がますます重要になっています。専門的なビデオ安定化装置を使用せずに撮影された携帯電話のビデオは、不安定で視聴に適さないことが多く、ビデオ安定化アルゴリズムにとって大きな課題となります。既存のビデオ安定化方法では、フレーム境界のアクティブなクロッピングが必要になるか、安定化されたフレームに歪みアーティファクトが生成されます。

では、ビデオの揺れの問題を解決し、安定したビデオ撮影効果を生み出すにはどうすればよいでしょうか?国立台湾大学、Google、バージニア工科大学、カリフォルニア大学マーセド校の研究者らは、切り取りを必要としないフルフレームのビデオ安定化アルゴリズムを提案した。

論文の宛先:
出典:http://arxiv.org/pdf/2102.06205.pdf

プロジェクトアドレス:
https://github.com/alex04072000/NeRViS

具体的には、本研究では、密な歪み場を推定することでフルフレームのビデオを安定化するアルゴリズムを提案しました。このアルゴリズムは、隣接するフレームの歪んだコンテンツを融合し、フルフレームの安定化フレームを合成することができます。このアルゴリズムのコア技術は学習ベースのハイブリッド空間融合であり、不正確なオプティカルフローや高速移動する物体によって引き起こされるアーティファクトの影響を軽減できます。研究者らは、NUS および自撮りビデオ データセットでこの方法の有効性を検証しました。さらに、広範囲にわたる実験結果により、提案された方法が従来のビデオ安定化方法よりも優れていることが実証されています。

この研究の主な貢献は次のとおりです。

ニューラル レンダリング技術をビデオ安定化に適用して、フローの不正確さに対する感度を軽減します。

複数のフレームからの情報を特徴レベルと画像レベルの両方で組み合わせるハイブリッド融合メカニズムが提案され、さまざまな設計上の選択がアブレーション研究を通じて体系的に検証されます。

提案された方法は、2 つの公開データセットにおける代表的なビデオ安定化技術と比較して優れたパフォーマンスを実現します。

アルゴリズムの実装

本研究で提案されたビデオ安定化方法は、一般的に 1) 動きの推定、2) 動きのスムージング、3) フレームのワーピングとレンダリングの 3 つの段階に分かれています。この研究では、トリミングなしで高品質のフレームをレンダリングする第 3 段階に焦点を当てています。このアルゴリズムは、特定の動き推定/スムージング技術に依存しません。

実際のカメラ空間から仮想カメラ空間へのワープ フィールドがビデオのすべてのフレームで利用可能であると想定します。与えられた入力ビデオに対して、まず各フレームの画像特徴をエンコードし、特定のターゲットタイムスタンプで隣接するフレームを仮想カメラ空間にワープし、次に特徴を融合して安定したフレームをレンダリングします。

図 3: 複数のフレームを融合するための設計上の選択肢。

フルフレームの安定化ビデオを合成するには、入力された不安定なビデオ内の複数の隣接するフレームの内容を整列させて融合する必要があります。図 3 に示すように、主に 3 つの部分が含まれます。

従来のパノラマ画像ステッチング(または画像ベースのレンダリング)方法では、通常、歪んだ(安定化された)画像を画像レベルで融合します。画像レベルの融合は、位置合わせが正確な場合にはうまく機能しますが、フロー推定が信頼できない場合は混合アーティファクトが発生する可能性があります。

画像は抽象的な CNN 特徴にエンコードされ、特徴空間で融合され、デコーダーは融合された特徴を出力フレームに変換するように学習されます。このアプローチはフローの不正確さに対して堅牢ですが、通常は過度にぼやけた画像が生成されます。

この研究で提案されたアルゴリズムは、これら 2 つの戦略の利点を組み合わせたものです。まず、抽象的な画像特徴を抽出し(式(6))、次に複数のフレーム歪みの特徴を融合する。各ソース フレームについて、融合された特徴マップと個々のワープされた特徴が一緒にデコードされ、出力フレームと関連する信頼度マップが生成されます。最後に、式(8)で生成された画像の加重平均を使用して、最終的な出力フレームを生成します。

歪みと融合

ワープ: 隣接するフレームをワープして、仮想カメラ空間内のターゲット フレームに合わせます。ターゲット フレームからキー フレームへのワープ フィールドと、キー フレームから隣接フレームへの推定オプティカル フローがすでにあるため、フロー ベクトルをリンクすることで、ターゲット フレームから隣接フレームへのワープ フィールドを計算できます。したがって、後方ワーピングを使用すると、隣接するフレーム I_n をターゲット フレームに合わせるようにワープできます。

ターゲット フレーム内の一部のピクセルは、遮蔽または境界の外側にあるため、隣接するフレームでは表示されません。したがって、各隣接フレームの可視性マスク {}∈ω を計算して、ソース フレーム内のピクセルが有効かどうか (1 としてマークされているかどうか) を示します。この研究では、[Sundaram et al. 2010]の方法を使用して、遮蔽されたピクセル(0としてマーク)を識別しました。

融合スペース: 整列したフレームを処理するために、いくつかの融合戦略が検討されます。まず、図3(a)に示すように、画像空間でワープされたカラーフレームを直接ブレンドして、安定した出力フレームを生成します。この画像空間融合方法は、画像ステッチ、ビデオ補間、新しい視点の合成でよく使用されます。

画像空間と特徴空間の最適な融合を組み合わせるために、本研究ではビデオ安定化のためのハイブリッド空間融合メカニズムを提案した(図3(c)) 。特徴空間融合と同様に、この研究ではまず隣接する各フレームから高次元の特徴を抽出し、次にフローを使用して特徴を歪めます。次に、特徴を最適に融合する混合重みを予測するように CNN を学習します。研究者たちは、融合された特徴マップと各隣接フレームの歪んだ特徴を連結して、画像デコーダーの入力を形成します。画像デコーダーは、ターゲット フレームと各隣接フレームの信頼マップを予測することを学習します。最後に、画像空間融合法を使用して、予測重みに従ってすべての予測ターゲット フレームを融合し、最終的な安定したフレームを取得します。

ハイブリッド空間融合と特徴空間融合の主な違いは、画像デコーダーの入力にあります。下の図5(b)の画像デコーダーは、融合された特徴のみを入力として受け取り、出力フレームを予測します。融合された特徴マップには、すでに複数のフレームからの混合情報が含まれています。したがって、画像デコーダーが鮮明な画像コンテンツを合成することが困難になる可能性があります。対照的に、図5(c)の画像デコーダーは、融合された特徴マップに基づいて、歪んだ特徴からターゲットフレームを再構築します。経験的研究により、これによりゴーストやグリッチアーティファクトを回避しながら出力フレームの鮮明度が向上することが判明しました。

図 5: 異なるブレンド スペースの効果。

実験結果

制御変数実験

融合機能。この研究では、画像空間融合、特徴空間融合、ハイブリッド空間融合を使用して提案モデルをトレーニングしました。画像の空間融合については、この研究には、マルチバンド融合とグラフカットという 2 つの従来の融合方法も含まれています。結果は以下の表1に示されています。

定量評価

この研究では、以前に提案されたいくつかの SOTA ビデオ安定化アルゴリズムを使用して提案された方法を評価し、その結果を以下の表 4 に示します。

視覚的な比較

この研究で使用された方法の安定したフレームワークと、Selfie データセットの最先端の方法を以下の図 10 に示します。この方法では、視覚的なアーティファクトが少ないフルフレームの安定化ビデオが生成されます。

図 10: SOTA メソッドとの視覚的な比較。

結果は、本研究で提案された融合方法はフレーム境界の大幅な切り取りの影響を受けず、安定したフレームをレンダリングする際のアーティファクトが DIFRINT よりも大幅に少ないことを示しています。

実行時間分析

この研究では、CPUベースの方法[Grundmann et al. 2011; Liu et al. 2013; Yu and Ramamoorthi 2018]とi7-8550U CPUラップトップの実行時間に関する実験を実施しました。さらに、この研究では、GPU ベースの方法 [Choi and Kweon 2020; Wang et al. 2018; Yu and Ramamoorthi 2020] と Nvidia Tesla V100 GPU での実行時間についても実験しました。テストビデオのフレーム解像度は 854×480 です。結果は以下の表5に示されています。

<<:  レストランロボットの準備はできていますか?それが答えかもしれない

>>:  将来、人工知能に置き換えられない仕事が最も収益性が高くなるでしょう。それがどれか見てみましょう。

ブログ    
ブログ    

推薦する

アリババがコアテクノロジーを公開:推論性能が2位より5倍速く、4つの世界選手権で優勝した方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

GPT-4Vに挑戦する浙江大学の卒業生が、マルチモーダル大規模モデルのオープンソース版をリリースし、GitHubで6,000以上のスターを獲得しました。

GPT-4 の視覚機能がテスト用に完全にリリースされる前に、オープンソースのライバルが華々しくデビ...

Pythonを使用して独自のTwitterボットを構築する方法を学びます

Twitter を使用すると、ユーザーはブログの投稿や記事を世界と共有できます。 Python と ...

...

自動運転の運用設計領域(ODD)に関する記事

2021年4月30日、SAEはJ3016「運転自動化分類」の第4版をリリースしました。これは、201...

人工知能は人間を監視しているのでしょうか?現在のAIと未来のAIのギャップ

アルゴリズムで構成されたAI多くの人は、一部の新しいハイテク概念は手の届かないものだと考えています。...

オブジェクト ストレージが AI と機械学習に適している 3 つの理由!

[[329860]] 【51CTO.com クイック翻訳】あらゆる種類の企業が AI や機械学習プ...

「人工知能、データサイエンス、機械学習」について語る -- 概要

[[190364]]この記事は、写真付きの 4 つの例を含む 6 時間かけて執筆されました。目的は、...

マイクロソフトが積極的に顔認識データベースを削除した秘密は何でしょうか?

1. マイクロソフトはひそかに顔認識データベースを削除したマイクロソフトは、同社最大の公開顔認識デ...

Python データ分析の基礎: 外れ値の検出と処理

機械学習において、異常検出と処理は比較的小さな分野、または機械学習の副産物です。一般的な予測問題では...

AI と SEO の組み合わせ: 祝福か呪いか?

検索エンジンは誕生以来、基本的な検索エージェントから人工知能 (AI) と機械学習 (ML) に基づ...

ビル・ゲイツ:AIが最大の影響を与えるには何十年もかかる

[[271684]]ビル・ゲイツは、世界を変えるトレンドを予見し、それを活用することで、史上最も成功...

...