人気のワールドモデルとは何ですか? DriveDreamer: 実世界初の自動運転世界モデル

人気のワールドモデルとは何ですか? DriveDreamer: 実世界初の自動運転世界モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1. 背景と意義

世界モデルは、環境を理解して相互作用する能力があるため、自動運転の分野で幅広い注目を集めています。ワールドモデルは、高品質の運転ビデオの生成やエンドツーエンドの運転に大きな可能性を秘めています。しかし、自動運転分野における現在の世界モデルの研究では、主にゲーム環境やシミュレーション環境に焦点を当てており、現実世界の運転シナリオの表現が欠けています。そのため、私たちは現実世界の運転状況から完全に派生した画期的な世界モデルである DriveDreamer を導入しました。複雑な運転シナリオにおける世界のモデル化には膨大な探索空間が伴うことを考慮し、強力な拡散モデルを使用して複雑な環境の表現を構築することを提案します。さらに、2段階のトレーニングプロセスを導入します。初期段階では、DriveDreamer は構造化されたトラフィック制約を深く理解し、後続の段階では将来の状態を予測する能力を獲得します。提案された DriveDreamer は、実際の運転状況に基づいて構築された世界初のモデルです。私たちは、困難な nuScenes ベンチマークで DriveDreamer をインスタンス化し、広範な実験を実施して、DriveDreamer が現実世界の交通シナリオの構造的制約を忠実に捉えた正確で制御可能なビデオ生成を実現できることを検証しました。さらに、DriveDreamer を使用すると、現実的で妥当な運転戦略を生成することが可能になり、インタラクティブで実用的なアプリケーションへの道が開かれます。

図 1. 提案された DriveDreamer は、自動運転シナリオの包括的な理解を示しています。テキストによる指示や構造化された交通制約に適した、制御可能な運転ビデオの生成に優れています。 DriveDreamer は運転シナリオと対話し、入力された運転アクションに基づいてさまざまな将来の運転ビデオを予測することもできます。さらに、DriveDreamer は将来の運転操作を予測する機能も拡張しました。

2. 関連研究

2.1 拡散モデル

拡散モデルは、データに徐々にノイズを導入し、このプロセスを逆にしてサンプルを生成することを学習する確率的生成モデルのファミリーを表します。これらのモデルは、さまざまなアプリケーションで優れたパフォーマンスを発揮し、画像合成、ビデオ生成、3D コンテンツ生成の新しいベンチマークを確立したことで、最近大きな注目を集めています。 ControlNet、GLIGEN、T2I-Adapter、Composer などの記事では、制御可能な生成機能を強化するための追加の学習パラメータがさらに導入されています。深度マップ、セグメンテーション マップ、Canny エッジ、スケッチなどのさまざまな制御入力を利用します。一方、BEVControl と CityDreamer は、画像生成を強化するためにレイアウト条件を追加しました。拡散ベースの生成モデルの基本的な本質は、世界の複雑さを理解し、把握することです。 DriveDreamer は、これらの普及モデルの力を活用して、複雑な自動運転シナリオを理解することを目指しています。

2.2 ビデオ生成

ビデオ生成とビデオ予測は、視覚世界を理解するための効果的な方法です。ビデオ生成の分野では、変分オートエンコーダ (VAE)、自己回帰モデル、フローベースモデル、生成的敵対ネットワーク (GAN) など、いくつかの標準アーキテクチャが採用されています。最近、新たな拡散モデルはビデオ生成の分野にも拡張され、制御可能なビデオ生成機能を提供しながら、リアルなフレームとフレーム間の連続的な遷移を生成できる、より高品質のビデオ生成機能を実証しています。ビデオ予測モデルはビデオ生成モデルの特殊な形式を表し、多くの類似点を共有しています。具体的には、ビデオ予測では、過去のビデオの観察に基づいて将来のビデオの変化を予測します。 DriveGAN は、将来の運転戦略を指定することにより、運転動作とピクセル間の関連付けを確立し、それによって将来の運転ビデオを予測します。対照的に、DriveDreamer は構造化された交通状況、テキスト プロンプト、運転操作を入力として取り込み、実際の運転シナリオに密接に一致する正確でリアルなビデオとモーションの生成を実現します。

2.3 世界モデル

世界モデルは、モデルベースの模倣学習において広く研究されており、さまざまなアプリケーションで目覚ましい成功を収めています。これらの方法では通常、VAE と LSTM を使用して、変換ダイナミクスとレンダリング関数をモデル化します。世界モデルの目標は、エージェントが将来を予測できるようにする環境の動的モデルを構築することです。自動運転の分野では、安全な運転には将来の正確な予測が不可欠であるため、この点は非常に重要です。しかし、自動運転の世界モデルの構築は、主に現実世界の運転タスクに固有の高いサンプル複雑性のために、特有の課題に直面します。これらの問題に対処するために、ISO-Dream は視覚ダイナミクスを制御可能な状態と制御不可能な状態に明示的に分離します。 MILE は、世界モデリングを BEV セマンティック セグメンテーション空間に統合し、模倣学習を通じて世界モデリングを強化します。 SEM2 は Dreamer フレームワークを BEV セグメンテーション マップに拡張し、トレーニングに強化学習を使用します。世界モデルは進歩しているものの、関連研究の主な限界は、主にシミュレーション環境のモデリングに焦点を当てていることです。現実世界の運転シナリオへの移行は、まだ十分に調査されていない領域です。

3. DriveDremearメソッドの設計

DriveDreamer の全体的なフレームワークを下図に示します。フレームワークは、初期参照フレームとそれに対応する道路構造情報 (HDMap と 3D ボックス) から始まります。 DriveDreamer は、提案された ActionFormer を利用して、潜在空間における今後の道路構造の特徴を予測します。これらの予測された特徴は条件として Auto-DM に送られ、将来の運転ビデオが生成されます。同時に、テキストプロンプトを使用すると、状況(天候や時間など)に応じて運転スタイルを動的に調整できます。さらに、DriveDreamer は、Auto-DM から抽出された過去の行動情報とマルチスケールの潜在的特徴を組み合わせて、妥当な将来の運転行動を生成します。

図 2. DriveDreamer フレームワーク図

DriveDreamer は、マルチモーダル入力を統合して将来の運転ビデオと運転戦略を生成し、それによって自動運転システムの機能を向上させます。現実世界の運転シナリオで世界モデルを構築するための巨大な探索空間に関して、DriveDreamer の 2 段階トレーニング戦略を紹介します。この戦略は、サンプリング効率を大幅に向上させ、モデルの収束を加速することを目的としています。 2段階のトレーニングを下の図に示します。トレーニングの最初のフェーズには 2 つのステップがあります。最初のステップでは、単一フレームの構造化条件を使用して DriveDreamer が運転シーン画像を生成できるようにガイドし、構造的な交通制約を理解しやすくします。 2 番目のステップでは、この理解をビデオ生成にまで拡張します。 DriveDreamer は、交通構造条件を使用して、動作遷移の理解をさらに深める運転シーンのビデオを出力します。第 2 フェーズでは、DriveDreamer が環境と対話し、将来の状態を効果的に予測できるようにすることに重点を置いてトレーニングを行います。この段階では、初期フレーム イメージとそれに対応する構造化情報を入力として受け取ります。同時に、連続的な運転動作が提供され、モデルは将来の運転ビデオと将来の運転動作を生成することが期待されます。この相互作用により、DriveDreamer は将来の運転シナリオを予測し、操作できるようになります。次のセクションでは、モデル アーキテクチャとトレーニング プロセスの具体的な詳細について説明します。

図3. 2段階トレーニングフローチャート

3.1 1段階トレーニング

DriveDreamer では、実際の運転ビデオから運転シナリオをモデル化して理解するための Auto-DM を導入しました。実際の運転シナリオでは、検索空間が非常に広範囲にわたるため、ピクセル空間のみから運転シーンを理解することは困難であることに留意する価値があります。この問題を緩和するために、構造化された交通情報を条件付き入力として明示的に組み込みます。 Auto-DM の全体構造を下図に示します。構造化された交通状況が画像平面に投影され、HDMap 状況、3D ボックス状況、およびボックス カテゴリが生成されます。制御性を実現するために、HDMap 条件は 2D 畳み込みエンコードされ、順方向拡散プロセスによって生成されたノイズの多い潜在的特徴と連結されます。 3D ボックス条件では、Gated Self-Attention (GLIGEN を参照) を使用して制御条件を埋め込みます。 Auto-DM の運転ダイナミクスを理解する能力をさらに強化するために、生成された運転ビデオのフレームの一貫性を強化する時間的注意レイヤーを導入します。まず、視覚信号を N×C×H×W から RC×NHW の形状に再形成します。この形状変換は、後続の自己注意層がフレーム間の動的な関係を学習するのに役立ちます。さらに、クロスアテンションは、テキスト入力と視覚信号間の機能相互作用を促進するために使用され、テキストの説明が天気や時間などの運転シーンの属性に影響を与えることを可能にします。

図4. 自動DMフレームワーク図

3.2 2段階トレーニング

現在の第1段階のAuto-DMは、シーケンス構造情報に基づいて運転ビデオを生成できます。ただし、ビデオ予測タスクでは、現在のタイムスタンプを超えた将来の交通構造条件は利用できません。この課題に対処するために、トレーニングの第 2 段階で ActionFormer を導入します。これは、駆動アクションを活用して将来の構造条件を反復的に予測します。 ActionFormer の全体的なアーキテクチャを下図に示します。まず、初期の構造条件がエンコードされ、1D フィーチャに平坦化されます。この機能シグネチャは、自己注意層と MLP 層を通じて連結および集約され、隠れ状態 h0 が生成されます。次に、クロスアテンション層を使用して、隠れ状態と運転動作との関連付けが構築されます。将来の隠れ状態を予測するために、反復更新に Gated Recurrent Units (GRU) を使用します。これらの隠れ状態はアクション機能と連結され、将来の交通構造条件にデコードされます。特に、ActionFormer は特徴レベルで将来の交通構造の状況を予測し、ピクセルレベルでのノイズ干渉を軽減して、より堅牢な予測を実現します。 ActionFormer によって生成された交通構造条件とテキスト プロンプト条件に加えて、Video-LDM を参照して初期画像観察を処理します。最後に、取得したトラフィック構造条件、初期フレーム画像条件、テキスト条件を Auto-DM の入力として使用します。 2 段階のトレーニングでは、ビデオ予測とアクション予測の部分をガウス分布とラプラス分布としてモデル化できます。したがって、平均二乗誤差と L1 損失を使用して、ビデオ予測のトレーニングを最適化します。運転ポリシーの予測のために、まず Auto-DM からのマルチスケール UNet 機能をプールします。これらの特徴は、過去の行動の特徴と連結され、MLP レイヤーを通じてデコードされ、将来の運転行動が生成されます。これら 2 段階のトレーニングに基づいて、DriveDreamer は、交通構造の構造的制約、将来の運転状態の予測、確立された世界モデルとの相互作用など、運転の世界に関する包括的な理解を獲得しました。

図5. ActionFormer構造図

4. 実験結果

4.1 制御可能なビデオ生成

図 6 に示すように、DriveDreamer は、構造化された交通状況 (HD マップや 3D ボックスなどの要素を含む) に厳密に従ったさまざまな運転シーンのビデオを生成するのに有効であることが実証されています。重要なのは、テキストの手がかりを操作して、天気や時刻の変化など、結果として得られるビデオに変化を誘発することもできるということです。この強化された適応性により、生成されるビデオ出力の多様性が大幅に向上します。 DriveDreamer は、構造化された交通状況で運転ビデオを生成するだけでなく、さまざまな運転操作に適応することで、生成される運転ビデオの多様性を高める機能も備えています。図 7 に示すように、DriveDreamer は、初期フレームとそれに対応する構造情報から始めて、左折や右折を示すビデオなど、さまざまな運転アクションに基づいてさまざまなビデオを生成できます。要約すると、DriveDreamer は、高い制御性と多様性を備えた幅広い運転シナリオのビデオを生成するのに優れています。したがって、DriveDreamer は、限界的なケースやロングテールのシナリオを含む幅広いタスクにわたって自動運転システムをトレーニングする大きな可能性を秘めています。 2 段階のトレーニング アプローチの利点を定量化するために、第 1 段階のトレーニングを行わない DriveGAN と比較して、このアプローチではより高い FID スコアと FVD スコアが達成されることを示す定量評価 (表 1 を参照) を示します。さらに、私たちの結果では、最初の段階のトレーニングを終えた DriveDreamer は、運転シーンの構造化された情報を理解する能力が向上し、より高品質のビデオが生成されることが示されています。最後に、提案された ActionFormer が、第 1 段階のトレーニング中に取得されたトラフィック構造情報の知識を効果的に活用していることがわかります。生成されるビデオの品質がさらに向上します。

図 6. 構造化された交通状況 (HDMap と 3D ボックス) を使用して運転ビデオを生成します。テキスト キューを使用して、運転シナリオのスタイル (天候や時間など) を調整します。

図 7. 運転戦略に基づいて将来の運転ビデオを生成します。さまざまな運転アクション (左折、右折など) に応じて、対応する運転ビデオを生成できます。

表 1. nuScenes 検証セットでのビデオ生成パフォーマンス評価。

4.2 戦略立案の推進

DriveDreamer は、制御可能な運転ビデオを生成するだけでなく、妥当な運転操作を予測する機能も実証しました。図 8 に示すように、初期フレーム条件と過去の運転アクションが与えられると、DriveDreamer は現実世界のシナリオと一致する将来の運転アクションを生成できます。生成されたアクションと対応する実際のビデオの比較分析により、DriveDreamer は交差点、信号順守、方向転換などの複雑な状況でも、一貫して妥当な運転アクションを予測できることが示されました。さらに、予測精度の定量的な評価も行いました。 nuScenesデータセットのオープンループ評価結果を表2に示します。驚くべきことに、DriveDreamer は過去の運転行動のみを入力として使用することで、将来の運転行動を高い精度で予測します。ヨー角の平均予測誤差はわずか 0.49°、速度予測誤差はわずか 0.15 m/s です。さらに、マルチスケール UNet 機能と過去の運転操作を組み合わせることで、予測精度がさらに向上します。オープンループ評価には、運転操作予測の上限を定める固有の制限があることに注意することが重要です。したがって、今後の作業では、DriveDreamer のパフォーマンスをさらに検証し、強化するためのクローズドループ評価に重点を置きます。

図 8. 予測される将来の運転操作とそれに対応する実際の運転ビデオの視覚化。

表 2. nuScenes 検証セットにおける運転ポリシー予測パフォーマンス評価。

5. まとめと展望

DriveDreamer は、自動運転の分野における世界モデルの重要な探求を表しています。現実世界の運転状況に焦点を当て、拡散モデルの機能を活用することで、DriveDreamer は複雑な環境を理解し、高品質の運転ビデオを生成し、運転戦略を予測する能力を発揮します。今後の作業には、DriveDreamer によって生成されたデータを使用して運転基礎モデルをトレーニングすることが含まれます。さらに、DriveDreamer の機能を拡張して、長時間かつ高解像度のビデオ生成を可能にする予定です。さらに、クローズドループ シナリオで DriveDreamer を評価する予定です。これらの取り組みを組み合わせることで、自動運転アプリケーションにおける世界モデリングの有用性を高めることができます。

オリジナルリンク: https://mp.weixin.qq.com/s/igon7SWjxqVL_gjGNm0H8A

<<: 

>>:  データ分析とAIのミスが原因の注目度の高い事件9件

ブログ    
ブログ    

推薦する

人工知能が製造業を改善する3つの方法

製造業者は、AI を、適切に機能するために会社全体にわたるエンドツーエンドのシステムを必要とする、非...

IT リーダーが避けるべき 6 つの生成 AI の危険性

多くの場合、さまざまな組織がさまざまな方法で生成 AI テクノロジーを適用しますが、それがもたらす悪...

携帯電話のAI分析で貧困削減を狙う:バークレーの研究がネイチャー誌に掲載

COVID-19パンデミックは多くの低・中所得国に壊滅的な打撃を与え、食糧不安の拡大と生活水準の急激...

あなたは私の目です!人工知能が障害者にバリアフリーのインターネットアクセスを提供する

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

...

インメモリコンピューティング技術に基づく人工知能チップが利用可能:パフォーマンスは数十から数百倍高速

[[249742]]人工知能システム用の新しいコンピュータチップが利用可能になりました。プリンストン...

...

...

...

2017 年に最も価値のある機械学習のスキルや知識は何ですか?

2017 年に最も価値のある機械学習スキルはどれでしょうか? Quora の 2 つの回答では、最...

人工知能の分野に参入する際に Python が好まれる言語なのはなぜですか?

実際、すべてのプログラミング言語の中で、Python は新しいお気に入りではありません。最初のバージ...

高度な数学の問題解決ツール:写真を撮ってアップロードすると答えがわかる。この中国の学生は驚くべきAIを作った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Nvidiaが自動運転AIアルゴリズムをオープンソース化、チップ性能をXavierの7倍にアップグレード

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...