DrivingDiffusion: 最初のサラウンドワールドモデル: BEV データとシミュレーションの新しいアイデア!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

著者の個人的な考え

自動運転の分野では、BEV ベースのサブタスク/エンドツーエンドソリューションの開発に伴い、高品質のマルチビュートレーニングデータとそれに対応するシミュレーションシナリオの構築がますます重要になっています。現在のタスクの問題点を考慮すると、「高品質」は次の 3 つの側面に分けられます。

さまざまな次元でのロングテールシナリオ: 障害物データ内の近距離車両や車両カット中の正確な方向角度、車線データ内の異なる曲率のカーブ、収集が困難なランプ/合流/合流点など。これらは多くの場合、大量のデータ収集と複雑なデータマイニング戦略に依存しており、コストがかかります。
3D の真実と画像間の高い一貫性: 現在の BEV データ取得は、センサーの取り付け/キャリブレーション、高精度マップ、および再構築アルゴリズム自体のエラーの影響を受けることがよくあります。このため、データ内の各 [3D 真実画像センサーパラメータ] セットの正確な一貫性を確保することが困難になります。
上記の条件に基づく時系列データ：現在の認識/予測/意思決定/エンドツーエンドのタスクに不可欠な、連続フレームのマルチビュー画像と対応する真の値。

シミュレーションでは、上記の条件を満たすビデオ生成をレイアウトを通じて直接実行できます。これは、間違いなくマルチエージェントセンサー入力を構築する最も直接的な方法です。 Driving Diffusion は、上記の問題を新たな観点から解決します。

普及を促進するものは何ですか?

DrivingDiffusion は、レイアウト制御のためのマルチビュー画像/ビデオ生成を実装し、SOTA をそれぞれ実現する、自動運転シーン生成のための拡散モデルフレームワークです。
自動運転の世界モデルである DrivingDiffusion-Future は、単一フレーム画像に基づいて将来のシーンのビデオを予測し、言語プロンプトに基づいてホスト車両や他の車両の動作計画に影響を与える機能を備えています。

DrivingDiffusionの効果は何ですか?

支援が必要な学生は、まずプロジェクトのホームページをご覧ください: https://drivingdiffusion.github.io

（１）普及の促進

レイアウト制御によるマルチビュー画像生成

この図は、レイアウト投影を入力として使用したマルチビュー画像生成の効果を示しています。

レイアウトの調整: 生成された結果を正確に制御

図の上部には、生成された結果の多様性と、後続のテキストにおけるモジュール設計の重要性が示されています。下部には、真後ろの車両に外乱を与えた結果が表示され、移動、操舵、衝突、さらには空中浮遊などのシーンが生成されます。

レイアウト制御によるマルチビュービデオ生成

上: nuScenes データでトレーニングした後の DrivingDiffusion のビデオ生成結果。下: 大量の非公開の実際のデータでトレーニングした後の DrivingDiffusion のビデオ生成結果。

（２）普及促進の推進 - 将来

入力フレーム+テキスト記述に基づいて後続のフレームを生成する

単一フレーム画像を入力として使用し、ホスト車両/他の車両のテキスト記述に基づいて後続のフレームの運転シーンが構築されます。図の最初の 3 行と 4 行目は、それぞれ、ホスト車両と他の車両の動作のテキスト記述制御後に生成された効果を示しています。 (緑のボックスは入力、青のボックスは出力)

入力フレームに基づいて後続のフレームを直接生成する

他の制御は必要ありません。後続のフレームの運転シーンを予測するための入力として、単一のフレーム画像のみが使用されます。 (緑のボックスは入力、青のボックスは出力)

DrivingDiffusion は上記の問題をどのように解決するのでしょうか?

DrivingDiffusion は、まずシーン内のすべての 3D 真理値 (障害物/道路構造) を人工的に構築し、その真理値をレイアウト画像に投影します。レイアウト画像はモデル入力として使用され、複数のカメラ視点から実際の画像/ビデオを取得します。 3D の真実 (BEV ビューまたはエンコードされたインスタンス) をモデル入力として直接使用せず、代わりに投影にパラメーターを使用する理由は、体系的な 3D-2D 一貫性エラーを排除するためです。（このようなデータセットでは、 3Dの真の値と車両パラメータの両方が実際のニーズに応じて人工的に構築されます。前者はまれなシーンデータを任意に構築する機能をもたらし、後者は従来のデータ生成における幾何学的一貫性エラーを排除します。）

この時点で、残る疑問は 1 つだけです。生成された画像やビデオの品質は、使用するのに十分でしょうか?

シナリオを構築する場合、シミュレーションエンジンの使用を考える人が多いですが、シミュレーションエンジンで生成されるデータと実際のデータの間には大きなドメインギャップがあります。 GAN ベースの方法で生成された結果は、実際のデータの分布に対して一定の偏りを持つことがよくあります。拡散モデルは、ノイズを学習することでマルコフ連鎖の特性に基づいてデータを生成します。生成された結果の忠実度が高く、実際のデータの置き換えに適しています。

DrivingDiffusion は、人工的に構築されたシナリオと車両パラメータに基づいて時系列マルチビューを直接生成します。これは、下流の自動運転タスクのトレーニングデータとして使用できるだけでなく、自動運転アルゴリズムのフィードバック用のシミュレーションシステムの構築にも使用できます。

ここでの「人工的に構築されたシーン」には障害物と道路構造情報のみが含まれていますが、DrivingDiffusion フレームワークでは、標識、信号、工事エリアなどのレイアウト情報、さらには占有グリッド/深度マップなどの低レベルの制御モードも簡単に導入できます。

DrivingDiffusion法の概要

マルチビュービデオを生成する際には、いくつかの困難があります。

一般的な画像生成と比較して、マルチビュービデオ生成では、視点とタイミングという 2 つの新しい次元が追加されます。長いビデオを生成できるフレームワークをどのように設計するのでしょうか。ビュー間の一貫性とフレーム間の一貫性を維持するにはどうすればよいですか?
自動運転タスクの観点から、シーン内のインスタンスは非常に重要です。生成されたインスタンスの品質をどのように保証できるでしょうか?

DrivingDiffusionは主に一般的なトレーニングフレームワークを設計し、画像の事前トレーニングモデルとしてstable-diffusion-v1-4モデルを使用し、3D擬似畳み込みを使用して元の画像入力を拡張し、それを使用して新しく追加された視点/時系列の次元を処理してから3D-Unetに入力します。新しく追加された次元を処理するための拡散モデルを取得した後、交互反復ビデオ拡張を実行し、キーフレーム制御と微調整操作を通じて短い時系列と長い時系列の全体的な一貫性を保証します。さらに、DrivingDiffusion は、クロスビュー/クロスフレームの一貫性とインスタンス品質の問題を解決するために、それぞれ Consistency Module と Local Prompt を提案しました。

DrivingDiffusionは長いビデオプロセスを生成します

シングルフレームマルチビューモデル: マルチビューキーフレームを生成し、
キーフレームによる追加制御と複数ビューの共有を備えた単一ビュータイミングモデル：各ビューのタイミングを並列に拡張し、
生成された結果を追加制御として備えた単一フレームのマルチビューモデル：時系列並列処理で後続のフレームを微調整する、
新しいキーフレームを識別し、スライディングウィンドウを介してビデオを拡張します。

クロスビューモデルと時間モデルのトレーニングフレームワーク

マルチビューモデルと時間モデルの場合、3D-Unet の拡張次元はそれぞれ視点と時間です。どちらにも同じレイアウトコントローラーがあります。著者らは、後続のフレームはマルチビューキーフレームからシーン内の情報を取得し、異なるターゲットの関連情報を暗黙的に学習できると考えています。これら 2 つは、それぞれ異なる一貫性アテンションモジュールと同じローカルプロンプトモジュールを使用します。
レイアウトエンコーディング: 障害物カテゴリ/インスタンス情報と道路構造セグメンテーションレイアウトは、異なる固定コーディング値を持つ RGB 画像にエンコードされ、エンコード後にレイアウトトークンが出力されます。
キーフレーム制御: すべての時間拡張プロセスでは、キーフレームのマルチビューイメージが使用されます。これは、短い時間シーケンス内の後続のフレームがキーフレームから情報を取得できるという前提に基づいています。すべての微調整プロセスは、キーフレームとそれによって生成された後続フレームのマルチビュー画像を追加制御として使用し、フレームのクロスビュー一貫性を最適化した後、マルチビュー画像を出力します。
特定の視点に基づくオプティカルフロー事前分布: 時系列モデルの場合、トレーニング中に特定の視点からのデータのみがサンプリングされます。さらに、この視点の画像内の各ピクセル位置のオプティカルフロー事前値を事前にカウントしておき、これをカメラIDトークンとしてエンコードすることで、拡散処理における時間埋め込みと同様の隠れ層のインタラクティブな制御を行います。

一貫性モジュールとローカルプロンプト

一貫性モジュールは、一貫性のある注意メカニズムと一貫性のある関連付け損失の 2 つの部分に分かれています。

一貫性のある注意メカニズムは、隣接する視点と時間関連フレーム間の相互作用に焦点を当てています。具体的には、フレーム間の一貫性の場合、重なり合う左と右の隣接する視点間の情報相互作用のみに焦点を当てます。時系列モデルの場合、各フレームはキーフレームと前のフレームのみに焦点を当てます。これにより、グローバルな相互作用によって発生する膨大な量の計算を回避できます。

一貫した関連付け損失は、ピクセルを関連付けてポーズを回帰することにより幾何学的制約を追加し、その勾配は事前トレーニング済みのポーズ回帰器によって提供されます。回帰器は、LoFTR に基づいてポーズ回帰ヘッドを追加し、対応するデータセットの実際のデータのポーズの真実を使用してトレーニングされます。このモジュールは、マルチビューモデルと時間モデルの場合、それぞれカメラの相対位置とメイン車両の動きの位置を監視します。

ローカルプロンプトとグローバルプロンプトは連携して、CLIP と stable-diffusion-v1-4 のパラメータセマンティクスを再利用し、特定のカテゴリインスタンス領域でローカル拡張を実行します。図に示すように、画像トークンとグローバルテキスト説明プロンプトの相互注意メカニズムに基づいて、著者は特定のカテゴリのローカルプロンプトを設計し、カテゴリのマスク領域の画像トークンを使用してローカルプロンプトを照会します。このプロセスでは、元のモデルパラメータのオープンドメインでテキストガイドによる画像生成の概念を最大限に活用します。

DrivingDiffusion-Future法の概要

将来のシーン構築タスクでは、DrivingDiffusion-Future は 2 つの方法を使用します。1 つは、最初のフレーム画像を介して後続のフレーム画像 (視覚分岐) を直接予測し、フレーム間のオプティカルフローを補助損失として使用する方法です。この方法は比較的単純ですが、テキストの説明に基づいて後続のフレームを生成する効果は平均的です。もう 1 つの方法は、前者に基づいてコンセプトブランチを追加することです。これは、最初のフレームの BEV ビューを通じて後続のフレームの BEV ビューを予測します。これは、BEV ビューの予測によって、モデルが運転シーンのコア情報をキャプチャし、コンセプトを確立するのに役立つためです。このとき、テキスト記述は両方のブランチに同時に作用し、概念ブランチの特徴は BEV2PV のパースペクティブ変換モジュールを介して視覚ブランチに適用されます。ここで、パースペクティブ変換モジュールの一部のパラメータは、ノイズ入力の代わりに真値画像を使用して事前トレーニングされます (その後のトレーニングで固定されます)。ホスト車両制御テキスト記述コントローラと他の車両制御/環境テキスト記述コントローラが分離されていることは注目に値します。

実験分析

モデルのパフォーマンスを評価するために、DrivingDiffusion はフレームレベルの Fréchet Inception Distance (FID) を使用して生成された画像の品質を評価し、それに応じて FVD を使用して生成されたビデオの品質を評価します。すべてのメトリックは nuScenes 検証セットに基づいて計算されます。表 1 に示すように、自動運転シナリオにおける画像生成タスク BEVGen およびビデオ生成タスク DriveDreamer と比較すると、DrivingDiffusion はさまざまな設定でパフォーマンス指標において大きな利点を持っています。

FID などの方法は画像合成の品質を測定するために一般的に使用されていますが、タスクの設計目標を完全にフィードバックすることはなく、さまざまな意味カテゴリの合成品質を反映することもできません。タスクは 3D レイアウトと一致するマルチビュー画像を生成することであるため、DrivingDiffuison は、BEV 認識モデル指標を使用して一貫性の観点からパフォーマンスを測定することを提案しています。評価子として CVT と BEVFusion の公式モデルを使用し、nuScenes 検証セットと同じ実際の 3D レイアウトで条件付けされた生成画像を採用し、生成された画像の各セットに対して CVT と BevFusion の推論を実行します。次に、予測結果を実際の結果と比較し、運転可能領域の平均交差和集合 (mIoU) スコアとすべてのオブジェクトクラスの NDS を統計的に分析します (表 2 を参照)。実験結果によると、合成データ評価セットの知覚指標は実際の評価セットの知覚指標に非常に近いことが示されており、これは生成された結果と 3D の真の値との間の高い一貫性と、画像品質の忠実度の高さを反映しています。

上記の実験に加えて、DrivingDiffusion は、自動運転における下流タスクのパフォーマンスを向上させるという主な問題に対処するために、合成データトレーニングを追加する実験を実施しました。表 3 は、BEV 認識タスクにおける合成データ拡張によって達成されたパフォーマンスの向上を示しています。元のトレーニングデータでは、特に小さなオブジェクト、近くの車両、車両の方向角度に関して、ロングテール分布の問題があります。 DrivingDiffusion は、この問題に対処するために、サンプルが制限されたカテゴリの追加データを生成することに重点を置いています。障害物の方向角度の分布を改善することに重点を置いた 2000 フレームのデータを追加した後、NDS はわずかに改善されましたが、mAOE は 0.5613 から 0.5295 に大幅に低下しました。トレーニングを支援するために、まれなシーンに焦点を当てた 6000 フレームのより包括的な合成データを使用した後、nuScenes 検証セットで大幅な改善が見られました。NDS は 0.412 から 0.434 に増加し、mAOE は 0.5613 から 0.5130 に減少しました。これは、合成データによるデータ拡張が知覚タスクに大きな改善をもたらすことができることを示しています。ユーザーは、実際のニーズに応じてデータ内の各次元の分布に関する統計を収集し、合成データを使用してターゲットを絞って補完することができます。

普及促進の意義と今後の取り組み

DrivingDiffuison は、自動運転タスクにとって非常に重要な、多視点の自動運転シーンのビデオ生成と未来予測の機能を同時に実現します。レイアウトとパラメータはすべて人工的に構築されており、学習可能なモデルパラメータに頼るのではなく、投影によって 3D と 2D 間の変換が実現されるため、以前のデータ取得プロセスにおける幾何学的エラーが排除され、大きな実用価値が生まれます。同時に、DrivingDiffuison は拡張性が高く、新しいシーンコンテンツレイアウトや追加のコントローラーの追加をサポートし、超解像度やビデオ補間技術によってロスレスで生成品質を向上させることもできます。

自動運転シミュレーションでは、Nerf の試みが増えています。しかし、街のシーン生成のタスクでは、動的コンテンツと静的コンテンツの分離、大規模なブロックの再構築、天候やその他の外見上の制御次元の分離など、膨大な量のエンジニアリング作業が必要になります。さらに、Nerf は、その後のシミュレーションで新しい視点の合成タスクをサポートする前に、特定の範囲のシーンでトレーニングする必要があることがよくあります。 Driving Diffusion には、視覚とテキストのつながりや視覚コンテンツの概念的理解など、一定の一般的な事前知識が自然に含まれています。レイアウトを構築するだけで、ニーズに応じてシーンをすばやく確立できます。しかし、前述のように、全体のプロセスは比較的複雑であり、長いビデオを生成するには、後処理モデルの微調整と拡張が必要になります。 DrivingDiffusion は、視点と時間の次元の圧縮を継続的に探求し、Nerf を組み合わせて新しい視点を生成および変換し、生成の品質とスケーラビリティを継続的に向上させていきます。

<<: 大きなモデルは本当にすべてを解決できるのでしょうか?知識駆動型自動運転に関する考察

>>: 機械学習プログラムで使用される一般的な推奨アルゴリズムの例