これは魔法ですか？ ICCV 2023 の優秀な学生論文など、すべての情報を一度に追跡しましょう。 Githubには1.6Kのスターがあります

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1. 論文情報

今年の ICCV2023 最優秀学生論文賞は、現在カリフォルニア大学バークレー校で博士研究員を務めるコーネル大学の Qianqian Wang に授与されました。

2. 分野の背景

ビデオの動き推定の分野では、従来の方法は主にスパース特徴追跡と高密度オプティカルフローの 2 種類に分けられると著者らは指摘しています。どちらの方法もそれぞれのアプリケーションで有効性が実証されていますが、どちらもビデオ内の動きを完全にキャプチャすることはできません。ペアワイズオプティカルフローは長い時間ウィンドウ内の動きの軌跡をキャプチャできませんが、スパーストラッキングではすべてのピクセルの動きをモデル化できません。

このギャップを埋めるために、多くの研究で、ビデオ内の高密度ピクセル軌跡と長距離ピクセル軌跡の両方を推定する試みがなされてきました。これらの研究のアプローチは、2 つのフレームのオプティカルフローフィールドを単純に連結するものから、複数のフレーム内の各ピクセルの軌跡を直接予測するものまでさまざまです。しかし、これらの方法では、動きを推定する際に限られたコンテキストのみを考慮し、時間的または空間的に離れた情報を無視することがよくあります。この近視眼性により、長い軌跡での誤差の蓄積や、動きの推定における時空間的な不一致が発生する可能性があります。いくつかの方法では長期的なコンテキストを考慮しますが、それでも 2D ドメインで動作するため、オクルージョンイベント中に追跡が失われる可能性があります。

全体的に、ビデオ内の高密度かつ長距離の軌道推定は、この分野ではまだ未解決の問題です。これには、1) 長いシーケンスにわたって軌道の精度を維持すること、2) 遮蔽物の中でポイントを追跡すること、3) 時空間の一貫性を維持することという 3 つの主な課題があります。

本論文では、ビデオ内のすべての情報を活用して各ピクセルの完全な動きの軌跡を共同で推定する新しいビデオ動き推定方法を提案します。「OmniMotion」と呼ばれるこの手法では、準 3D 表現を使用します。この表現では、標準の 3D ボリュームが各フレームのローカルボリュームにマッピングされます。このマッピングは、動的マルチビュージオメトリの柔軟な拡張として機能し、カメラとシーンの両方の動きをシミュレートできます。この表現はサイクルの一貫性を保証するだけでなく、オクルージョン中のすべてのピクセルを追跡します。著者らは、この表現を各ビデオごとに最適化し、ビデオ全体の動きに対するソリューションを提供します。最適化されると、この表現をビデオ内の任意の連続座標で照会して、ビデオ全体にわたる動きの軌跡を取得できます。

私たちが提案する方法は、1) ビデオ全体のすべてのポイントに対してグローバルに一貫した完全なモーショントラジェクトリを生成し、2) オクルージョンを介してポイントを追跡し、3) さまざまなカメラとシーンモーションの組み合わせを持つ現実世界のビデオを処理できます。 TAP ビデオ追跡ベンチマークでは、当社の方法は非常に優れたパフォーマンスを発揮し、従来の方法を大幅に上回りました。

3. 方法

この論文では、ビデオシーケンスから高密度かつ長距離の動きを推定するためのテスト時間最適化ベースの方法を提案します。まず、論文で提案されている方法の概要を見てみましょう。

入力: 私たちの方法は、フレームのセットと、ノイズの多い動きの推定値のペア (例: オプティカルフローフィールド) を入力として受け取ります。
メソッドの操作: これらの入力を使用して、このメソッドはビデオ全体の完全かつ全体的に一貫したモーション表現を見つけようとします。
結果の特徴: 最適化後、この表現はビデオ内の任意のフレームの任意のピクセルで照会でき、ビデオ全体にわたってスムーズで正確なモーション軌跡が生成されます。この方法では、ポイントが遮蔽されているかどうかを識別し、遮蔽を通過するポイントを追跡することもできます。
コアコンテンツ:

OmniMotion 表現: 以降のセクションでは、まず OmniMotion と呼ばれる基本的な表現について説明します。
最適化プロセス: 次に、著者らはビデオからこの表現を回復するための最適化プロセスについて説明します。

このアプローチは、ビデオの包括的かつ一貫したモーション表現を提供し、遮蔽などの困難な問題を適切に処理できます。具体的な内容については以下で見ていきましょう。

3.1 標準的な3Dボリューム

ビデオコンテンツは、観測されたシーンの 3D マップとして機能する、 Gという典型的なボリュームによって表されます。 NeRFで行われていることと同様に、彼らは、 G内の各標準 3D 座標uvwを密度σと色cにマッピングする座標ベースのネットワークnerfを定義します。 Gに格納されている密度は、標準空間における表面の位置を示します。これを 3D バイジェクションと組み合わせると、複数のフレームにわたってサーフェスを追跡し、オクルージョン関係を把握できるようになります。 Gに保存された色により、最適化中に明るさの損失を考慮することができます。

3.2 3D一対一変換

この論文では、と表記される、3D ポイントをローカル座標系から標準 3D 座標系に変換する連続全単射マッピングを紹介します。この標準座標は、シーンポイントまたは 3D 軌跡の、時間の経過に伴う一貫した参照または「インデックス」として機能します。全単射マッピングを使用する主な利点は、すべての 3D ポイントが同じ標準ポイントから発生するため、異なるフレーム間で 3D ポイントに周期的な一貫性が提供されることです。

あるローカルフレームから別の 3D ポイントへのマッピング方程式は次のとおりです。

複雑な現実世界の動きを捉えるために、これらの全単射は可逆ニューラルネットワーク (INN) としてパラメータ化されます。 Real-NVP がモデルとして選択されたのは、その単純さと解析的可逆性の特性によるものです。 Real-NVP は、アフィン結合層と呼ばれる基本変換を使用して全単射マッピングを実現します。これらのレイヤーは入力を分割し、1 つの部分は変更されずに、別の部分はアフィン変換されます。

このアーキテクチャは、フレームごとの潜在変数latent_iを調整することでさらに強化されます。したがって、すべての可逆マッピング (mapping,i) は、単一の可逆ネットワーク (mappingnet) によって決定されますが、潜在コードは異なります。

3.3 フレーム間の動きの計算

フレーム間の動きを計算する

このセクションでは、フレーム i 内の任意のクエリピクセル querypixel の 2D モーションを計算する方法について説明します。直感的に言えば、クエリピクセルは最初にレイ上の点をサンプリングすることによって 3D に「持ち上げられ」、次にこれらの 3D 点は、全単射マッピング i とマッピング j を使用してターゲットフレーム j に「マッピング」され、次にこれらのマッピングされた 3D 点はアルファ合成を介して異なるサンプルから「レンダリング」され、最後に想定される対応関係を取得するために 2D に「投影」されます。

4. 実験比較

この実験データテーブルは、Kinetics、DAVIS、RGB-Stacking の 3 つのデータセットにおけるさまざまな動き推定方法のパフォーマンスを示しています。各方法のパフォーマンスを評価するために、AJ、平均、OA、TC の 4 つのメトリックが使用されます。著者らが提案した 2 つの方法 (Ours (TAP-Net) と Ours (RAFT)) に加えて、他に 7 つの方法があります。驚くべきことに、私たちの 2 つの方法は、ほとんどのメトリックとデータセットで非常に優れたパフォーマンスを発揮します。具体的には、当社の (RAFT) メソッドは、3 つのデータセットすべてで AJ、avg、OA に関して最良の結果を達成し、TC に関して 2 番目に優れた結果を達成しました。私たちの（TAP-Net）方法は、いくつかのメトリックで同様に優れたパフォーマンスを実現します。一方、これらの指標に関する他の方法のパフォーマンスは比較的まちまちです。私たちの方法と「変形可能なスプライト」方法は、各ビデオのテスト時間の最適化によってグローバルな動きを推定しますが、他のすべての方法は、前方方向にローカルに動きの推定を実行することに注意してください。要約すると、著者の方法は、位置精度、オクルージョン精度、および時間的連続性において、テストされた他のすべての方法を上回っており、大きな利点を示しています。

これは、DAVIS データセットのアブレーション実験結果の表です。アブレーション実験は、各コンポーネントがシステム全体のパフォーマンスにどのように貢献しているかを検証するためのものです。この表には 4 つのメソッドがリストされています。そのうち 3 つはキーコンポーネントのないバージョンであり、最後の「フル」バージョンにはすべてのコンポーネントが含まれています。

可逆性なし: このバージョンでは、「可逆性」コンポーネントが削除されます。完全な方法と比較すると、すべての指標が大幅に低下し、特にAJとこれは、可逆性がシステム全体において重要な役割を果たしていることを示唆しています。
フォトメトリックなし: このバージョンでは、「フォトメトリック」コンポーネントが削除されます。パフォーマンスは「フル」バージョンより劣りますが、「不可逆」バージョンよりは優れています。これは、測光コンポーネントがパフォーマンスの向上に役割を果たすものの、その重要性は可逆性コンポーネントよりも低い可能性があることを示唆しています。
均一サンプリング: このバージョンでは、統一されたサンプリング戦略が使用されます。また、フルバージョンよりもパフォーマンスはわずかに低くなりますが、「可逆性なし」および「軽量化なし」バージョンよりもパフォーマンスは優れています。
フル: すべてのコンポーネントが含まれ、すべてのメトリックで最高のパフォーマンスを実現する完全なバージョンです。これは、各コンポーネントがパフォーマンスの向上に貢献していることを示しています。特に、すべてのコンポーネントが統合されている場合、システムは最高のパフォーマンスを実現できます。

全体的に、このアブレーション実験は、各コンポーネントがパフォーマンスにいくらかの向上をもたらす一方で、可逆性が欠如するとパフォーマンスの低下が最も深刻になるため、可逆性が最も重要なコンポーネントである可能性が高いことを示しています。

5. 議論

この研究で実施された DAVIS データセットのアブレーション実験により、システム全体のパフォーマンスにおける各コンポーネントの重要な役割に関する貴重な洞察が得られます。実験結果から、可逆性コンポーネントが全体的なフレームワークにおいて重要な役割を果たしていることが明確にわかります。この重要なコンポーネントが欠落すると、システムのパフォーマンスが大幅に低下します。これにより、動的ビデオ分析において可逆性を考慮することの重要性がさらに強調されます。同時に、測光コンポーネントが存在しないこともパフォーマンスの低下につながりますが、パフォーマンスへの影響は可逆性ほど大きくないようです。さらに、統一サンプリング戦略はパフォーマンスに一定の影響を及ぼしますが、その影響は最初の 2 つと比較すると比較的小さくなります。最後に、完全なアプローチでは、これらすべてのコンポーネントが統合され、あらゆる考慮事項に基づいて達成できる最高のパフォーマンスが示されます。全体として、この研究は、ビデオ分析におけるさまざまなコンポーネントがどのように相互作用し、全体的なパフォーマンスに具体的にどのように貢献するかについて深い洞察を得る貴重な機会を提供し、ビデオ処理アルゴリズムを設計および最適化する際に統合アプローチを採用することの重要性を浮き彫りにしています。

しかし、多くの動き推定方法と同様に、私たちの方法は、高速で非常に非剛性な動きや小さな構造を扱うのに困難を抱えています。このような状況では、ペアワイズ対応法では、正確なグローバルな動きを計算するために十分な信頼性のある対応が得られない可能性があります。さらに、基礎となる最適化問題が非常に非凸的な性質を持つため、特定の難しいビデオでは、最適化手順が初期化に非常に敏感になる可能性があることがわかります。これにより、最適ではない局所最小値（たとえば、表面の順序が間違っていたり、標準空間内にオブジェクトが重複していたりするなど）が発生する可能性がありますが、最適化によって修正することが難しい場合があります。

最後に、現在の形での私たちのアプローチは計算コストが高くなる可能性があります。まず、フロー収集プロセスでは、フローのすべてのペアを完全に計算します。これは、シーケンスの長さの 2 乗で増加します。ただし、語彙ツリーやキーフレームベースのマッチングなど、より効率的なマッチング方法を模索し、動きからの構造抽出や SLAM の文献からインスピレーションを得ることで、このプロセスのスケーラビリティを向上できると考えています。第二に、ニューラル暗黙的表現を使用する他の方法と同様に、私たちの方法では比較的長い最適化プロセスが必要になります。この分野における最近の研究は、このプロセスを高速化し、さらに長いシーケンスに拡張するのに役立つ可能性があります。

6. 結論

本稿では、ビデオ全体にわたって完全かつ全体的に一貫した動きを推定するための新しいテスト時間最適化手法を提案します。我々は、準 3D 標準ボリュームと各フレームのローカル標準一対一変換で構成される OmniMotion と呼ばれる新しいビデオモーション表現を導入します。 OmniMotion は、さまざまなカメラ設定とシーンダイナミクスを備えた一般的なビデオを処理し、オクルージョンを備えた正確でスムーズな長距離モーションを生成できます。これまでの最先端の方法に比べて、質的にも量的にも大幅な改善が達成されています。

オリジナルリンク: https://mp.weixin.qq.com/s/HOIi5y9j-JwUImhpHPYgkg

<<: AmodalSynthDrive: 自動運転のための合成アモーダル知覚データセット

>>: Adobeは、より高品質な画像を提供するために、AI生成モデルの新世代であるFirefly Image 2をリリースしました。