大規模自動運転モデル​​に関する研究と論文の簡単な説明

大規模自動運転モデル​​に関する研究と論文の簡単な説明

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

大規模モデル(LLM、VLM)と自動運転に関する最近の研究と文献の概要:

どのようなタスクに適していますか?回答:現在、私たちは基本的にシーン理解、軌道予測、行動意思決定、動作計画、エンドツーエンドの制御に取り組んでいます。

みんなどうやってやるの?

  1. 調節制御タスクの場合、LLMタイプは基本的に呼び出し+プロンプト設計であり、入力と出力の設計に重点を置いています。たとえば、入力にはメモリベースの入力である1.2 DiLuが含まれ、出力にはコスト関数である1.1 LanguageMPCが含まれ、トレーニングと微調整には1.3 Wayveが含まれます。オープンループには1.3、クローズドループには1.1と1.2があります。現在、シミュレータとデータの統一されたベンチマークは存在しません。
  2. シーン理解タスクの場合、ほとんどが QA タイプのデータセットを構築しており、よく使用されるデータセットは nuScenes です。

1. 自動運転の意思決定/計画タスク:

1. 1 LanguageMPC: 自動運転の意思決定者となる大規模言語モデル、10.4

動機: 学習ベースの意思決定システムには、理解、一般化、説明可能性が欠けています。LLM には推論と一般化の機能があります。これを下流のコントローラーとどのように組み合わせて意思決定者とすることができるでしょうか。言語アクションは MPC のコスト関数に合わせて調整されます。

プラン

LLM のタスクは、1) 主要なインタラクティブ車両を選択する、2) 現在の運転状況を評価する、3) 意思決定アクション ガイダンスを提供する、です。下流コントローラはMPCコントローラを採用しています。言語アクションの出力は、観測行列、重み行列、アクションバイアスです。前者は主要な対話型車両に対応し、後者の2つはMPCのコスト関数のパラメータ項目に対応します

上記の3つのステップで設計されたプロンプトの場合

実験環境:CARLA交差点、ラウンドアバウト等GPT3.5を呼び出して出力アクションを定義します。非視覚的な入力は、元のベクトル入力の言語化として理解できます。

1.2. DiLu: 大規模言語モデルによる自動運転への知識駆動型アプローチ、9.28

動機: LLM を使用してエージェントの一般化と解釈可能性を強化します。この記事の革新性は、メモリモジュールの導入にあります。7 月の Drive Like a Human の改良版であり、一見の価値があります。

フレームワーク: 推論出力モジュールとして GPT3.5 を使用し、リフレクション モジュールとして GPT4 を使用します。すべてのモジュールは微調整ではなく、入力適応です

興味深い結論: LLM は、適応なしでは閉ループの運転タスクを直接実行できません。メモリ モジュールのアブレーション分析によって得られました。

実験環境: HighwayEnv、閉ループ。加速、保持、追従、車線変更などの高レベルの動作。ただし、決定デコーダーとは何か、高レベルの動作を低レベルの制御にマッピングする方法については説明されていません。比較基準はRLです。

1.3 LLMによる運転:説明可能な自動運転のためのオブジェクトレベルベクトルモダリティの融合、10.3 Wayve

動機: OOD の推論と解釈可能性、オブジェクト レベルの入力、オープン ドライビング QA データ、評価ベースラインに対する LLM の事前トレーニングおよび微調整方法。関連ブログもあります: LINGO-1: 自動運転のための自然言語の探究

方法: アクション教師: RL教師; QA教師: GPT教師;

構造化言語ジェネレーター (lanGen): 数値ベクトルに基づいてプロンプト テンプレートを生成し、RL を使用してエキスパート アクション O_{rl} を生成します (シミュレーターから収集された 10 万件の質問応答データ (表現学習、推論タスク: アクション予測、注意予測を含む))

Q&A データ アノテーションの推進: ChatGPT を使用して Q&A データを自動生成する、10k

トレーニング プロセス: 最初の段階では、高次元ベクトル情報を入力として、ベクトルフォーマーをトレーニングします。2 番目の段階では、QA データを使用して LLaMA-7b を微調整します。

実験: 1,000 種類の異なる運転シナリオで評価され、指標は知覚と予測の精度です。また、オープン ワールド シナリオで評価され、ChatGPT を使用してスコアが評価されました。評価には 20 GB のビデオ メモリが必要で、トレーニングには 40 GB のビデオ メモリが必要です。

1.4 GPT-DRIVER: GPTで運転を学ぶ、10.2

動機: 推論と一般化

方法: 1. 言語トークンとしてのプランナーの入力と出力 2. 新しいプロンプト-推論-微調整戦略

入力言語はトークン化され、UniADの知覚および予測構造が使用されます。出力思考チェーンは前のものと似ています。LLMは最初に主要なインタラクティブな手段を出力し、次に行動決定アクションを判断し、最後に軌道を出力します。 chatGPTの微調整

実験環境: NuScenes、オープンループ、UniAD

1.5 話すように運転する:自動運転車における大規模言語モデルによる人間のようなインタラクションの実現,9.19

動機: LLMのエンパワーメント

  • 言語インタラクション
  • 文脈理解と推論
  • ゼロショット計画
  • 継続的な学習とパーソナライゼーション
  • 透明性と信頼

解決策: 人間と機械のコラボレーションについてさらに詳しく調べます。ドライバーが指示を出し、LLM ChatGPT 4 が認識結果を取得し、意思決定行動を出力します。実験は行われず、上記に示したケースのみが示されました

1.6 受信、推論、反応: 自動運転車における大規模言語モデルによる指示通りの運転、10.12

1.5 と同様に、ICL、CoT、パーソナライゼーション機能のさらなる分析。

1.7 自動運転のための言語エージェント、11.17 (Nvidia を使用)

動機: エージェント フレームワークを使用して、ツール ライブラリ、認知メモリ、推論エンジンという 3 つの重要なコンポーネントを含む自動運転システム Agent Driver を再構築します。

方法: 入力はセンサーデータ、出力は軌跡です。

ツール:異なるネットワーク出力を抽象化してテキストに変換します。つまり、LLMはツールを呼び出してテキスト形式で環境情報を収集します。ツールライブラリには、検出(検出結果の生成)、予測(予測結果の生成)、占有グリッド、マップの4種類のニューラルネットワークモデルがありますが、モデルによって生成される情報は冗長すぎます。LLMベースのツールの目的は、冗長な情報から必要な環境情報を抽出することです。

認知記憶:環境情報クエリに基づく交通ルール(プレーンテキスト形式、運転テスト被験者1の学習教材とみなすことができる)および類似の過去の経験(環境情報と判断)の検索。過去の経験記憶検索形式:ベクトル空間KNN + LLMベースのファジー検索

推論: LLM ベースの CoT を推論エンジンとして使用し、最終出力軌道は GPT ドライバーの形式になります。自己反映部分は衝突検出と最適化手法に基づいています。衝突が危険を検出すると、LLM によって生成された軌道は最適化されたコスト関数形式を使用して最適化されます。

この実験は、UniAD と GPT-Driver をベンチマークとして、Nusenses データセットでのオープンループ評価でした。ICL と微調整のパフォーマンスの違いはアブレーションによって分析され、ICL が第一の選択肢であるという結論に達しました。

1.8 信号のない交差点での自動運転のためのマルチタスク意思決定 GPT モデル 6.30

これは大規模なモデルではありません。トレーニングされた PPO は、マルチタスク教師データを収集するための教師として使用され、決定トランスフォーマーを使用してマルチタスク戦略をトレーニングします。見るものはあまりありません。

2. 軌道予測

2.1 何が起こっているのかテキストで伝えられますか?自動運転の軌道予測モデルに事前学習済みの言語エンコーダを統合する、9.13 Bosch

動機: LLM は、視覚的特徴とテキスト特徴を統合して最良の軌道予測結果を達成する基礎モデルと見なすことができます。

解決策: GPTシリーズでは中間特徴量を取得することが難しいため、テキストにはDistilBertを使用し、BEVのエンコーダーとしてBEiTを使用します。

2.2 MotionLM: 言語モデルとしてのマルチエージェント動作予測、ICCV、2023年、Waymo

動機: 自己回帰言語モデルは、Waymoインタラクション予測タスクでSoTAを達成するためのマルチエージェント軌道予測モデルとして使用されます。

解決策: LLM に似た自己回帰トランスフォーマー デコーダーが使用されますが、chatGPT 自体はそれとほとんど関係がありません。複数のエージェントを同時にデコードできるが、オープンソースではない。

3. エンドツーエンドの制御タスク:

3.1 DRIVEGPT4: 大規模言語モデルによる解釈可能なエンドツーエンドの自動運転、10.2

動機: 解釈可能性、一般化可能性。同時に、大規模マルチモーダルモデルは画像や動画のデータも処理でき、解釈可能なエンドツーエンドモデルはブラックボックスを使用してブラックボックスを説明し、人間とコンピュータの相互作用レベルで解釈可能性を備えています。

データセット生成: BDDKの16k固定質問応答データに基づいて、chatGPTを使用して新しい12k質問応答データを生成しました。

モデルトレーニング:ビデオトークンを言語トークンに変換するためにValleyを使用し、LLMはLLaMA 2を使用しました。事前トレーニング段階では、ビデオトークナイザーのみがトレーニングされました。微調整段階では、LLMとビデオトークナイザーは29kデータで一緒に微調整されました。質問応答能力を確保するために、80kの質問応答データでも微調整されました。

実験環境: オープン ループ、視覚入力、BDD-K、比較ベースラインは ADAPT、メトリック: ChatGPT スコアリングが使用されます。

3.2 ADAPT: アクション認識型運転字幕トランスフォーマー、ICRA、2023、オープンソースコード、中国語通訳

動機: エンドツーエンドのモデルの解釈可能性

方法: 連続したマルチフレーム画像を入力し、事前トレーニング済みのビデオ swin トランスフォーマーがビデオ トークンを取得し、制御信号とテキスト出力を予測します。

実験環境: オープンループ、BDD-K、詳細については中国語の解釈を参照してください。

4. マルチビュー視覚入力シーン理解:

4.1 自動運転のための言語プロンプト、9.8

動機: マルチビュー入力のための言語プロンプトインスタンスデータの不足

解決策: ステップ 1: 3D オブジェクトの検出。ターゲットには、色、クラス、アクション、場所の 4 種類の属性が含まれ、13k のターゲットに手動で注釈が付けられます。ステップ 2: 属性と非操作の組み合わせ。ステップ 3: GPT3.5 で説明言語プロンプト (35k) を生成します。nuScenes データセットに基づきます。

このデータセットに基づいて、プロンプト入力によるマルチターゲット追跡タスクが実行されました。全体的な効果としては、視覚と言語のプロンプトを使用して、複数の視点と連続フレームから入力されたターゲットを検出して追跡できます。

4.2 名詞を超えた3D高密度キャプション:自動運転のためのミドルウェア

動機:現在、知覚と計画を結びつける3Dシーン理解、3D高密度キャプションのためのLLMデータセットが不足している。

ソリューション: 3D ターゲット プロパティ: 外観、方向、距離、動き、道路地図

4.3 Talk2BEV: 自動運転のための言語強化鳥瞰図マップ

3.2 と同様に、BEV 入力用の言語プロンプトが提供されます。

4.4 DriveLM: 言語によるドライブ、OpenDriveLab

LLM は、知覚、予測、計画タスク、思考のグラフに使用されます。3.2 と比較すると、より多くの予測と計画が行われます。 nuScenes 上の 36 万件の注釈付き QA ペア。現在、デモ サンプルのみがオープン ソースです。

4.5 HiLM-D: 自動運転のためのマルチモーダル大規模言語モデルの高解像度理解に向けて、9.11

理由: 非 HD 画像の場合、現在の事前トレーニング済みのマルチモーダル大規模モデルでは、小さなオブジェクトを見逃したり、大きなオブジェクトに過度に焦点を当てたりすることがよくあります (事前トレーニング データが低解像度の画像であるため)。この論文では、主要なリスクターゲットに焦点を当て、予測とドライバーの意思決定の提案も出力します。

動機づけ図

解決策: 低解像度のブランチを補助するために高解像度の画像ブランチを使用することを提案し、第 23 回 CVPR の DRAMA データセットで、主要なリスク ターゲットの検出、ターゲットの意図の予測、運転の提案などの実験を実施しました。

5. シーンまたはデータの生成

5.1 シーンレベル拡散による言語誘導交通シミュレーション、Nvidia、CoRL、2023

目的: 言語記述に基づいて OpenScenarios 形式でシナリオを生成する

解決策: GPT4を使用してガイド損失を生成し、拡散モデルをガイドして指定されたシナリオを生成します。

5.2 SurrealDriver: 大規模言語モデルに基づく都市環境における生成的ドライバーエージェントシミュレーションフレームワークの設計、9.22

制御可能な運転シナリオの生成は、LLM の潜在的な方向性となるでしょう。

5.3 WEDGE: 生成視覚言語モデルから構築された多天候自動運転データセット、2023年、CVPRワークショップ

動機: OOD問題を軽減し、DALL-Eを使用して拡張画像データを生成する


<<:  口コミの逆転、Pika 1.0の試用効果は多くの人々を納得させ、「最高のビデオジェネレーター」と呼んだ

>>:  2024年の最大の落とし穴は?ディープラーニングに基づくエンドツーエンドの自動運転の最新レビュー

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIの「ショートカット」がシミュレーションを数十億倍高速化

[[314916]]シミュレーターは、NASA がエアロゾル モデルを使用してオーストラリアの火災に...

4つの業界は人工知能がもたらす混乱に注意を払う必要がある

2020 年には、AI と機械学習のテクノロジーが新興産業に継続的な影響を与え、企業だけでなく消費者...

Java プログラミング スキル - データ構造とアルゴリズム「ハッシュ テーブル」

[[388064]]基本的な紹介ハッシュ テーブル (ハッシュ テーブルとも呼ばれます) は、キー...

...

人工知能が建築を変える3つの方法

人工知能の開発は、最も急速に成長している技術分野の 1 つです。 Apple、Google、Sams...

企業がAIベースのツールを使用して脆弱性を管理する方法

脆弱性の管理は、セキュリティ専門家にとって最優先事項の 1 つです。セキュリティ チームは、サイバー...

...

このオープンソースプロジェクトは、Pytorchを使用して17の強化学習アルゴリズムを実装しています。

強化学習は過去 10 年間で大きな進歩を遂げ、現在ではさまざまな分野で最も人気のあるテクノロジーの ...

...

AI、エッジコンピューティング、IoT、クラウドコンピューティングが車両管理をどのように変えるのか

毎日生成されるデータの量は増加し続けています。その結果、これらの企業はこれまで以上に多くのデータを保...

...

...

スマートフォンアプリケーションにおける人工知能の役割

人工知能がスマートフォンアプリとユーザーエクスペリエンスをどのように変えているのか。進化し続けるテク...

Snapdragon 8の4倍のAIコンピューティングパワーハードテクノロジー:超解像度アップと信号強化ダウン、複数のアルゴリズムを同時に実行

2022年の携帯電話はこうなります。すべてのメッセージを自動的に整理し、QRコードをスキャンするため...

...