クローズドループへ！ DriveMLM: LLM と自動運転行動計画の完璧な組み合わせ!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

大規模言語モデルは、人間のような思考と認知能力を付与し、インテリジェント運転の新たな可能性を切り開きます。この論文では、自動運転 (AD) における大規模言語モデル (LLM) の可能性を詳細に調査します。そこで、シミュレーション環境で閉ループ自動運転を実現できる LLM ベースの AD フレームワークである DriveMLM を提案しました。具体的には、以下の点が挙げられます。

（１）本論文では、市販のモーションプランニングモジュールに基づいて決定状態を標準化することにより、言語決定と車両制御コマンド間のギャップを埋めます。
（２）マルチモーダルLLM（MLLM）を使用して、運転ルール、ユーザーコマンド、およびさまざまなセンサー（カメラ、ライダーなど）からの入力を入力として使用し、運転の決定を下して説明を提供するモジュラーADシステムの行動計画モジュールをモデル化します。このモデルは、閉ループ運転用の既存のADシステム（アポロなど）にプラグインできます。
（３）効率的なデータエンジンは、モデルのトレーニングと評価のために、決定状態とそれに対応する解釈可能な注釈からなるデータセットを収集するように設計されています。

最後に、DriveMLM で広範な実験を実施し、DriveMLM が CARLA Town05 Long で 76.1 の運転スコアを達成し、同じ設定で Apollo ベースラインを 4.7 ポイント上回り、DriveMLM の有効性を実証しました。この研究が LLM 自動運転のベースラインとして役立つことを願っています。

DriveMLMの紹介

近年、自動運転 (AD) は大きな進歩を遂げ、従来のルールベースのシステムから、図 1b に示すように、データ駆動型のエンドツーエンドシステムへと進化しました。従来のルールベースのシステムは、事前の知識によって提供される定義済みの一連のルールに依存しています (図 1a を参照)。これらのシステムは進歩しているものの、専門知識の限界やトレーニングデータの多様性により限界が生じています。これにより、人間のドライバーはこれらの状況を直感的に処理できるかもしれませんが、車にとってはコーナーの状況を処理することが難しくなります。これらの従来のルールベースまたはデータ駆動型の AD プランナーと比較して、Web 規模のテキストコーパスを使用してトレーニングされた大規模言語モデル (LLM) は、広範な世界知識、堅牢な論理的推論、高度な認知機能を備えています。これらの機能により、ロボットは AD システムにおける潜在的なプランナーとして位置付けられ、自律運転に対する人間のようなアプローチを提供します。

最近のいくつかの研究では、運転シナリオに対する言語ベースの意思決定の生成に重点を置き、LLM を AD システムに統合しています。ただし、これらのアプローチでは、現実の環境や現実的なシミュレーションで閉ループ運転を実行する場合には限界があります。これは、LLM の出力が主に言語と概念であり、車両制御に使用できないためです。従来のモジュール式 AD システムでは、高レベルのポリシー目標と低レベルの制御動作の間のギャップは、動作計画モジュールによって埋められます。このモジュールの決定状態は、その後の動作計画と制御によって車両制御信号に簡単に変換できます。これにより、LLM を行動計画モジュールの決定状態と整合させ、さらに、行動計画に整合された LLM を使用して、現実世界の環境でも現実的なシミュレーション環境でも動作できる LLM ベースの閉ループ AD システムを設計することになります。

これを基に、現実的なシミュレーション環境で閉ループ自動運転を実現できる初の LLM ベースの AD フレームワークである DriveMLM を提案します。これを実現するために、我々は3つの主要な設計を行っています。(1)アポロシステムの動作計画モジュールの決定状態を研究し、それをLLMで簡単に処理できる形式に変換します。（2）マルチビュー画像、ライダーポイントクラウド、交通ルール、システムメッセージ、ユーザー指示などの現在のマルチモーダル入力を受け入れ、決定状態を予測できるマルチモーダルLLM（MLLM）プランナーを開発しました。（3）行動計画状態の調整に十分なトレーニングデータを取得するために、CARLAで280時間の運転データを手動で収集し、効率的なデータエンジンを通じて決定状態と対応する説明注釈に変換しました。これらの設計を通じて、運転シナリオとユーザーのニーズに基づいて決定を下すことができる MLLM プランナーを取得でき、その決定は閉ループ運転用の車両制御信号に簡単に変換できます。

DriveMLMには以下の利点があります。(1) 一貫した決定状態のおかげで、DriveMLMは既存のモジュール式ADシステム（Apolloなど）と簡単に統合でき、大きな変更や修正なしに閉ループ運転を実現できます。（２）言語指示を入力として取り入れることで、我々のモデルはユーザー要求（例えば、車の追い越し）と高レベルのシステムメッセージ（例えば、基本的な運転ロジックの定義）の両方を処理できる。これにより、DriveMLM はより柔軟になり、さまざまな運転状況やコーナリング条件に適応できるようになります。（３）解釈可能性を提供し、さまざまな決定を説明することができる。これにより、モデルの動作と選択肢をユーザーに説明できるため、モデルの透明性と信頼性が向上します。

要約すると、DriveMLM の主な貢献は次のとおりです。

LLM の出力を行動計画モジュールの決定状態と一致させることにより、LLM と閉ループ運転の間のギャップを埋めるための LLM ベースの AD フレームワークが提案されています。
このフレームワークを実装するために、LLM で簡単に処理できる形式で一連の決定状態をカスタマイズし、決定予測用の MLLM プランナーを設計し、モデルのトレーニングと評価のための決定状態と対応する説明注釈を効率的に生成できるデータエンジンを開発します。
DriveMLM の有効性を検証するために、運転スコア (DS) や介入あたりの走行距離 (MPI) などのクローズドループ運転指標に基づいてアプローチを評価するだけでなく、精度、意思決定状態の F1 指標、意思決定の説明の BLEU-4、CIDEr、METEOR などの理解指標を使用してモデルの運転理解能力を評価します。注目すべきは、私たちの方法が CARLA Town05 Long で 76.1 DS、0.955 MPI の結果を達成したことです。これは Apollo の 4.7 ポイント、1.25 倍に相当します。さらに、図2に示すように、救急車に道を譲ることや交通ルールなど、特別な要件を言語指示で記述することで、MLLMプランナーの決定を変更することができます。

DriveMLMメソッドの紹介

概要

DriveMLM フレームワークは、大規模言語モデル (LLM) の世界知識と推論機能を自動運転 (AD) システムに統合し、現実的なシミュレーション環境で閉ループ運転を可能にします。図3に示すように、フレームワークには3つの主要な設計があります。(1)行動計画の状態の調整。このセクションでは、LLM の言語決定出力を、Apollo などの成熟したモジュール型 AD システムの動作計画モジュールと調整します。このようにして、LLM の出力は車両制御信号に簡単に変換できます。（２）MLLMプランナーこれは、マルチモーダルタガーとマルチモーダル LLM (MLLM) デコーダーの組み合わせです。マルチモーダルタガーは、さまざまな入力 (マルチビュー画像、LIDAR、交通ルール、ユーザーのニーズなど) を統合タグに変換し、MLLM デコーダーは統合タグに基づいて決定を下します。（３）効率的なデータ収集戦略LLM ベースの自動運転向けにカスタマイズされたデータ収集アプローチを導入し、決定状態、決定の説明、ユーザーコマンドを含む包括的なデータセットを保証します。

推論中、DriveMLM フレームワークはマルチモーダルデータを活用して運転の決定を下します。これらのデータには、サラウンドビュー画像とポイントクラウドが含まれます。システムメッセージは、タスク定義、トラフィックルール、および決定状態定義の集合です。これらのトークンは MLLM デコーダーに入力され、決定状態トークンと対応する説明が生成されます。最後に、決定状態が動作計画および制御モジュールに入力されます。このモジュールは、車両制御の最終軌道を計算します。

行動計画の州の整合

大規模言語モデル (LLM) からの言語選択を実行可能な制御信号に変換することは、車両制御にとって重要です。これを実現するために、LLM の出力を、一般的な Apollo システムの行動計画モジュールの意思決定段階に合わせます。一般的なアプローチによれば、意思決定プロセスを速度決定とパス決定の 2 つのカテゴリに分けます。具体的には、速度決定状態には（維持、加速、減速、停止）が含まれ、経路決定状態には（追従、左変更、右変更、左借用、右借用）が含まれます。

言語モデルがこれらの状態間で正確な予測を行えるようにするために、表 1 のシステム情報に示すように、言語記述と決定状態の間に包括的な接続を確立します。この相関関係はシステムメッセージの一部として使用され、MLLM プランナーに統合されます。したがって、LLM が何らかの状況を記述すると、予測は意思決定空間内で明確な意思決定に収束します。毎回、速度の決定と経路の決定が相互に推測され、動作計画フレームワークに送信されます。決定状態のより詳細な定義については、補足資料を参照してください。

MLLMプランナー

DriveMLM の MLLM プランナーは、マルチモーダルタガーと MLLM デコーダーの 2 つのコンポーネントで構成されています。これら 2 つのモジュールは密接に連携してさまざまな入力を処理し、運転の決定を正確に決定し、その決定の説明を提供します。

マルチモーダルタガー。このトークナイザーは、さまざまな形式の入力を効率的に処理するように設計されています。時間的なサラウンドイメージの場合: 時間的な QFormer を使用して、タイムスタンプ -T から 0 (現在のタイムスタンプ) までのサラウンドイメージを処理します。 LiDAR データの場合、まずポイントクラウドを Sparse Pyramid Transformer (SPT) バックボーンへの入力として入力し、LiDAR 機能を抽出します。システムメッセージとユーザー指示については、通常のテキストデータとして扱い、LLM のトークン埋め込みレイヤーを使用して埋め込みを抽出します。

MLLM デコーダー。デコーダーは、トークン化された入力を決定状態と決定説明に変換するコアです。この目的のために、表 1 に示すように、LLM ベースの AD 用のシステムメッセージテンプレートを設計しました。ご覧のとおり、システムメッセージには、AD タスクの説明、トラフィックルール、決定状態の定義、および各モダリティ情報がマージされる場所を示すプレースホルダーが含まれています。このアプローチにより、さまざまなモダリティとソースからの入力がシームレスに統合されます。

出力は、決定ステータス（表 1 の Q2 を参照）と決定の説明（表 1 の Q3 を参照）を提供するようにフォーマットされており、意思決定プロセスの透明性と明確性を実現します。教師あり手法に関しては、私たちのフレームワークは、次のトークンの予測にクロスエントロピー損失を使用するという一般的な方法に従います。このようにして、MLLM プランナーはさまざまなセンサーやソースからのデータを詳細に理解して処理し、適切な決定や解釈に変換することができます。

効率的なデータエンジン

CARLA シミュレーターのさまざまなシナリオから決定状態と説明注釈を作成できるデータ生成パラダイムを提案します。このパイプラインは、LLM ベースの AD システムをトレーニングするための決定状態と詳細な説明が不足している既存の運転データの制限に対処できます。私たちのパイプラインは、データ収集とデータ注釈という 2 つの主要コンポーネントで構成されています。

データ収集は、現実性を保ちながら意思決定の多様性を高めることを目的としています。まず、シミュレーション環境でさまざまな挑戦的なシナリオを構築します。安全運転には複雑な運転行動が必要です。その後、経験豊富な人間のドライバーまたはエージェントの専門家は、多数の運転可能な場所の 1 つでトリガーされたこれらのシナリオを安全に運転するように求められました。専門家がランダムに運転要求を出し、それに従って運転すると、インタラクションデータが生成されることは注目に値します。専門家が安全に目的地まで運転すると、データが記録されます。

データ注釈は主に意思決定と解釈に重点を置いています。まず、手動で作成されたルールを使用して、専門家の運転軌跡に基づいて速度と経路決定状態が自動的に注釈付けされます。次に、周囲の現在の要素によって動的に定義されるシーンに基づいて、説明の注釈が最初に生成されます。第三に、生成された説明注釈は人間による注釈によって洗練され、GPT-3.5 を通じてその多様性が拡大されます。さらに、人間のリクエストが実行または拒否されたケースを含め、対話コンテンツも人間の注釈者によって洗練されます。このようにして、コストのかかるフレームごとの決定状態の注釈や、最初から書き込まれるコストのかかる手動の説明注釈を回避し、データ注釈プロセスを大幅に高速化します。

実験

データ分析

トレーニング用に280時間の運転データを収集しました。データは、CARLA の 8 つのマップ (Town01、Town02、Town03、Town04、Town06、Town07、Town10HD、Town12) で収集された、さまざまな天候と照明条件での 30 の運転シナリオを含む 50 km のルートで構成されています。平均して、各シナリオには、各マップ上にランダムにトリガーされるトリガーポイントが約 200 個あります。それぞれの状況は、運転中によくある、あるいはまれに起こる安全上重要な状況です。これらのシナリオの詳細については、補足注記に記載されています。各フレームでは、前方、後方、左、右の 4 台のカメラからの画像と、自車の中央に追加された LiDAR センサーからのポイントクラウドを収集します。私たちが収集したすべてのデータには、シーンを前進させる解釈と正確な決定が伴っていました。

表 2 は、自然言語を使用して理解を促進するために設計された以前のデータセットとの比較を示しています。私たちのデータには 2 つのユニークな特徴があります。 1 つ目は、行動計画状態の一貫性です。これにより、MLLM プランナーの出力を制御信号に変換し、フレームワークで閉ループ運転で車両を制御できるようになります。 2つ目は対人相互作用の注釈です。人間による自然言語による指示とそれに応じた決定および解釈が特徴です。目標は、人間の指示を理解し、それに応じて対応する能力を向上させることです。

閉ループ自動運転評価

私たちは、公開されている最も広く使用されている現実的なシミュレーションベンチマークである CARLA でクローズドループドライビングを評価します。パフォーマンス比較のために、CARLA で閉ループ駆動を実行できる従来の方法が含まれています。オープンソースの Apollo も CARLA でベースラインとして評価されます。私たちのアプローチを除いて、展開と評価の準備ができている LLM ベースの方法はありません。すべての方法は、Town05 長期ベンチマークで評価されます。

表 4 に、運転スコア、ルート完了スコア、違反スコアを示します。 Apollo はルールベースのアプローチですが、そのパフォーマンスは最近のエンドツーエンドの方法とほぼ同等であることに注意してください。 DriveMLM は、運転スコアにおいて他のすべての方法を大幅に上回ります。これは、DriveMLM がハードドライブ間での状態遷移を安全に処理するのに適していることを示しています。表4の最後の列はMPI評価の結果を示しています。このメトリックは、エージェントがすべてのルートを完了する必要があるため、より包括的な運転パフォーマンスを示します。つまり、テスト対象のエージェントは、すべてのルート上のすべての状況に遭遇することになります。 Thinktwice は Interfuser よりも優れた DS を実現しますが、停止ラインを頻繁に横切るため MPI は低くなります。しかし、CARLA ではそのような行為に対する罰則は最小限です。対照的に、MPI はあらゆる交通違反を乗っ取りとみなします。 DriveMLM は他のすべての方法の中でも最高の MPI を達成し、より多くの状況を回避でき、より安全な運転体験を実現できたことを示しています。

運転知識評価

私たちは、意思決定予測や説明予測タスクを含む運転知識を評価するためにオープンループ評価を採用しています。表3は、予測された決定ペアの精度、決定予測の各決定タイプのF1スコア、および予測された説明のBLEU-4、CIDEr、METEORを示しています。 Apollo の場合、Town05 で手動で収集されたシーンが、表 3 のモデルへの入力として再生されます。再生の各タイムスタンプにおける対応するモデルの状態と出力は、メトリック計算の予測として保存されます。他の方法については、対応する画像を入力として提供し、適切なヒントを提供します。モデルの予測を手動で収集した実際の結果と比較することで、精度によって決定の正しさと人間の行動との類似性が明らかになり、F1 スコアによって各パスと速度の決定能力が示されます。 DriveMLM は全体的に最高の精度を達成し、LLaVA を 40.97% の精度で上回りました。 DriveMLM は、Apollo ベースラインと比較して高い F1 スコアを達成しており、さまざまな道路状況を解決する上でルールベースのステートマシンよりも優れていることを示しています。 LLaVA、InstructionBLIP、そして私たちが提案するDriveMLMは、質問と回答の形式で意思決定の説明を出力できます。 BLEU-4、CIDEr、METEOR の観点では、DriveMLM が最高のパフォーマンスを達成でき、DriveMLM が決定に対して最も合理的な説明を提供できることを示しています。

アブレーション実験

センサーモダリティ: 表 5 は、DriveMLM に対する入力センサーモダリティのさまざまな影響の結果を示しています。マルチビュー (MV) 画像は、パスと速度の F1 スコアの両方で大幅なパフォーマンス向上をもたらし、精度は 18.19% 向上します。テンポラルトークンを直接連結する場合と比較して、Temporal QFormer は、マルチモーダルな意思決定能力を確保しながら 7.4% という大きな改善を達成し、速度決定の平均 F1 スコアが 0.05 増加します。ポイントクラウドではパフォーマンスを向上させる能力は示されません。

ケーススタディと視覚化

人間と機械の相互作用: 図 4 は、人間のコマンドによって車両制御を実現する方法の例を示しています。制御プロセスには、道路状況の分析、意思決定オプションの作成、説明文の提供が含まれます。同じ「追い越し」指示が出された場合、DriveMLM は現在の交通状況の分析に基づいて異なる応答を表示します。右車線が占有されており、左車線が空いている場合、システムは左側からの追い越しを選択します。ただし、すべての車線が占有されている場合など、特定の指示がリスクをもたらす可能性がある状況では、DriveMLM は追い越し操作を実行せず、適切に対応することを選択します。この文脈において、DriveMLM は人間と車両の相互作用のためのインターフェースであり、交通のダイナミクスに基づいて指示の妥当性を評価し、最終的に行動方針を選択する前に、それらが事前定義されたルールに準拠していることを確認します。

実際のシナリオでのパフォーマンス: nuScenes データセットに DriveMLM を適用して、開発された運転システムのゼロショットパフォーマンスをテストします。検証セットで 6019 フレームに注釈を付け、決定精度でゼロショットパフォーマンス 0.395 を達成しました。図 5 は、DriveMLM の一般化可能性を示す 2 つの実際の運転シナリオの結果を示しています。

結論は

本研究では、大規模言語モデル (LLM) を自動運転 (AD) に活用するための新しいフレームワークである DriveMLM を提案します。 DriveMLM は、マルチモーダル LLM (MLLM) を使用してモジュラー AD システムの動作計画モジュールをモデル化することにより、現実的なシミュレーション環境で閉ループ AD を実現できます。 DriveMLM は、運転の決定について自然言語による説明を生成することもできるため、AD システムの透明性と信頼性を高めることができます。 DriveMLM は、CARLA Town05 Long ベンチマークで Apollo ベンチマークを上回るパフォーマンスを発揮することが示されました。私たちの研究が、LLM と AD の統合に関するさらなる研究につながると信じています。

オープンソースリンク: https://github.com/OpenGVLab/DriveMLM

オリジナルリンク: https://mp.weixin.qq.com/s/tQeERCbpD9H8oY8EvpZsDA

<<: エンドツーエンドの自動運転は、Apollo や autoware などのフレームワークに取って代わるでしょうか?

>>: 人工知能はディープラーニング技術を使用して先進運転支援システム（ADAS）を強化します