「クローズドループ」に向けての運転 | LMDrive: LLM に基づく初のクローズドループエンドツーエンド自動運転

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

最近、香港中文大学のMMLabとSenseTimeによる、大規模言語モデルを組み合わせた閉ループ自動運転に関する論文をarxivで見ました。残念ながら、唐氏は12月15日に亡くなりました。ご冥福をお祈りします。

自動運転の分野では近年大きな進歩が見られるものの、長期的な予期せぬ出来事や困難な都市のシナリオに直面すると、現代のアプローチは依然として困難を極め、重大な事故が発生する可能性があります。一方、大規模言語モデル（LLM）は、「汎用人工知能」に近い表現力豊かな推論能力を実証しています。一方、これまでの自動運転のアプローチでは、限られた形式の入力（センサーデータやナビゲーションウェイポイントなど）に依存することが多く、車両の言語情報の理解能力や人間との対話能力が制限されていました。この目的のために、CUHK と MMLab は、新しい言語ガイド付きのエンドツーエンドのクローズドループ自動運転フレームワークである LMDrive を立ち上げました。 LM-Drive は、マルチモーダルセンサーデータを自然言語コマンドと独自に処理および統合し、現実的な教育環境で人間やナビゲーションソフトウェアと対話できるようにします。言語ベースのクローズドループ自動運転に関するさらなる研究を促進するために、約 64K のコマンド追跡データクリップを含む対応するデータセットと、複雑なコマンドや困難な運転シナリオを処理するシステムの能力をテストする LangAuto ベンチマークも公開します。 LMDrive の有効性を実証するために、広範囲にわたる閉ループ実験が実施されます。私たちの知る限り、これは LLM を使用してクローズドループのエンドツーエンドの自動運転を実現した最初の研究です。

オープンソースリンク: https://github.com/opendilab/LMDrive

要約すると、LMDrive の主な貢献は次のとおりです。

私たちは、マルチモーダルマルチビューセンサーデータと自然言語コマンドを通じて動的環境と対話する、エンドツーエンドでクローズドループの言語ベースの新しい自律運転フレームワーク LMDrive を提案します。
約 64K のデータクリップを含むデータセットが提供され、各クリップにはナビゲーション命令、いくつかの通知命令、一連のマルチモーダルマルチビューセンサーデータ、および制御信号が含まれます。クリップの長さは 2 秒から 20 秒の範囲です。
誤解を招く/長い指示や困難な敵対的な運転シナリオを含む言語指示をナビゲーション入力として受け取る自律エージェントを評価するための新しいベンチマーク、LangAuto を提案します。
提案されたフレームワークの有効性を実証するために広範な閉ループ実験が実行され、この方向に沿った進行中の研究を明らかにするために LMDrive のさまざまなコンポーネントが分析されます。

関連作品レビュー

エンドツーエンドの自動運転

最近、エンドツーエンドの自動運転の分野では大きな進歩がありました。 UniAD は、フルスタックドライバータスクが含まれ、クエリ統合インターフェイスを使用してさまざまなタスク間で通信するフレームワークを設計します。 ThinkTwice は、主要な領域の情報を取得するための Look モジュールを設計し、これらの機能を活用して大まかな予測を精緻化します。 ReasonNet は、運転シーンの時間的および全体的な情報を活用して、認識パフォーマンスを向上させ、遮蔽検出を容易にします。 InterFuser は、マルチモーダルマルチビューセンサーからの情報を完全に融合して処理し、包括的なシーン理解を実現するトランスフォーマーベースのフレームワークを提案します。 TCP は、軌道計画と直接制御という 2 つの分野を統合した新しいマルチステップ予測方法を提案します。 LAV は、視点不変の表現を学習するためのいくつかの教師ありタスクを導入します。これにより、トレーニング中により豊富な教師信号が提供され、推論中の複雑な推論にさらに多くの情報を提供できます。これまでに説明した模倣トレーニング方法に加えて、強化学習戦略を取り入れようとするアプローチがいくつかあります。潜在 DRL は、環境観測の潜在表現を取得するために教師あり方式でトレーニングされ、この表現は強化学習の入力として使用されます。 Roach は、環境情報への特権アクセスを持つ強化学習エージェントを使用し、最終エージェントとしてモデルを抽出します。 ASAPRL と TaEcRL は、効果的な探索と報酬信号を促進することで、抽象スキルを活用して強化学習の効率と最終的なパフォーマンスを効果的に向上させます。しかし、これらのエンドツーエンドのアプローチでは、人間（乗客）と口頭またはテキストで対話する機能が欠けており、意思決定プロセスの説明可能性が低いことがよくあります。

運転タスクのための大規模言語モデル

ここ数か月で、大規模言語モデル (LLM) に新たな進歩がありました。さらに、Visual Large Language Model (VLLM) ではビジュアルエンコーダーが導入され、LLM がテキストデータだけでなく、画像や他のモダリティからのデータも解釈できるようになりました。自動運転の分野では、最近の研究では、LLM を自動運転システムに統合して、人間をより自然に解釈し対話できるようにしています。いくつかの研究では、マルチモーダル入力データを処理し、運転シナリオのテキスト説明と制御信号を提供できる視覚言語モデルアプローチを採用しています。たとえば、DRIVEGPT4 は、一連のフレームを入力として受け取り、人間のクエリに対する応答を生成し、次のステップの制御信号を予測するマルチモーダル LLM フレームワークを提案しています。ただし、フレームワークに入力コマンドがないため、予測されたコントロールは特定のナビゲーションコマンドに従うことができず、フレームワークを実際のシナリオに展開することが困難であることがわかります。一方、より多くの研究者は、運転状況をテキスト記述に変換して LLM への入力とし、合成運転状況を直接解釈して推論することに焦点を当てています。この一連の作業では、GPT-Driver は異種のシーン入力を言語トークンに変換することにより、モーションプランニングを自然言語モデリングタスクとして再定式化します。 LanguageMPC は LLM を利用して複雑なシナリオを推論し、高レベルの運転決定を出力します。次に、この方法ではパラメータマトリックスを調整して、決定を低レベルの制御信号に変換します。 LLM-Driver は数値ベクトルを入力モダリティとして利用し、ベクトル化されたオブジェクトレベルの 2D シーン表現を融合して、LLM が現在の環境に基づいて質問に答えられるようにします。

しかし、この研究では、オープンループ設定での運転問題のみを考慮しており、モデルを実際のクローズドループ運転タスクに適用するために重要な、累積誤差、時間的動作の一貫性、エンドツーエンドのトレーニング可能性などの問題は無視されています。私たちの知る限り、これは閉ループ環境における言語ベースのエンドツーエンドの自動運転アプローチとしては初めてのものです。関連するデータセット、ベンチマーク、トレーニング済みモデルもオープンソース化されており、コミュニティによるさらなる研究を促進します。

データ生成

データセットの目標は、3 つの入力ソースに基づいて運転アクションを生成できるインテリジェントな運転エージェントを開発することです。1) センサーデータ (サラウンドビューカメラと LIDAR)。これにより、エージェントは現在のシーンを認識してそれに適合するアクションを生成できます。2) ナビゲーション指示 (車線変更、曲がるなど)。これにより、エージェントは自然言語の要件 (人間またはナビゲーションソフトウェアからの指示) を満たすように運転できます。3) 人間の注意指示。これにより、エージェントは人間と対話し、人間の提案や好みに適応できます (敵対的なイベントに注意を払う、ロングテールイベントを処理するなど)。このセクションでは、エージェントのトレーニングに必要なマルチモーダルデータセットの生成方法と、ナビゲーション指示および人間への通知指示のプロンプト設計について説明します。具体的には、CARLA をシミュレーターとして選択しました。これは、実際の動的閉ループ世界をシミュレートでき、エンドツーエンドの自動運転の分野で広く採用されているためです。データ収集は、1) エキスパートエージェントを使用してセンサーデータと制御信号を収集するフェーズと、2) 指示を使用して収集したデータを解析し、ラベルを付けるフェーズの 2 つで構成されます。

センサーと制御データの収集。ルールベースのエキスパートエージェントを利用して、約 300 万の運転フレームで構成されるデータセットを作成します。エキスパートエージェントは CARLA 内の特権情報にアクセスできるため、データセットにはカメラデータ、LIDAR データ、および各フレームの制御アクションが含まれます。収集されたデータセットの多様性を高めるために、エージェントは 2.5k のルート、8 つの町、21 の環境条件 (天気、時刻など) で実行されました。 4 台の RGB カメラ (左、前、右、後ろ) と LiDAR を使用します。サイドカメラの角度は60°です。さらに、遠くの信号機の状態を捉えるために、前方の画像を中央に切り取って追加の焦点を合わせた画像として保存します。 LiDAR には 64 個のチャネルがあり、1 秒あたり 60 万ポイントを生成します。

解析と言語注釈。第 2 フェーズでは、収集したデータをクリップに解析し、各クリップに適切なナビゲーション指示とオプションの通知指示をタグ付けします。解析プロセスでは、一連のフレームを入力として受け取り、これらのフレームをクリップに分割します。各クリップはナビゲーション命令に対応します。たとえば、エージェントがフレーム T0 で左折を開始し、フレーム Tn で終了する場合、(T0、Tn) を「次の交差点で左折」という指示とともに新しいクリップとしてマークします。さらに、Ta の時点で敵対的イベント 1 が発生した場合、このセグメントに通知指示を追加して、緊急事態が発生したときに乗客またはサイドアシスタンスシステムがドライバーと通信する実際のシナリオをシミュレートします。図 2 に示すように、各セグメントには、センサーデータ、制御信号、対応するナビゲーション命令、およびオプションの通知命令が含まれます。解析されたクリップの長さと対応する指示の分布を図 3 に示します。私たちのデータセットでは、64K の解析済みスニペットと 464K の通知指示を収集しました。

命令設計。 3 種類のナビゲーションコマンド (追従、方向転換など) と 1 種類の通知コマンドを検討します。これらは合計 56 種類のコマンドで構成されます。表 1 にいくつかの例を示します。完全なリストは補足資料に記載されています。ナビゲーションソフトウェアまたは人間からの指示がある現実的な教育環境でエージェントが運転できるようにするには、次の操作を実行します。

指示の多様化: 自然言語の本来の豊かさを考慮して、各タイプの指示に対して、ChatGPT API を使用して、それぞれセマンティクスは同じですが言葉遣いが異なる 8 つの異なるバリエーションが生成されます。これにより、言語の解釈がより包括的かつ柔軟になり、同じ指示を伝えるさまざまな方法に適応できるようになります。
誤解を招く指示の包含: 現実世界では、ナビゲーションソフトウェアや乗客が AV に誤解を招く指示を与え、交通規則に違反したり、安全上の問題を引き起こしたりする可能性があります。たとえば、一方通行の道路で「左折してください」という指示に従うのは危険です。誤解を招く指示に対するモデルの堅牢性を向上させるために、これらのシナリオをシミュレートし、データセットに追加しました。
複数の指示の連結: 多くの場合、指示は「この交差点を右折し、次の交差点まで直進して再び右折する」など、2 つまたは 3 つの連続した指示で構成されます。実際のナビゲーションベースの運転シナリオをシミュレートするために、連続した複雑な指示データも作成しました。

LMDrive分析

本研究では、自然言語を介して高レベルの運転指示を理解し、それに従うことができるフレームワークである LMDrive を提案します。図 4 に示すように、LM-Drive は 2 つの主要コンポーネントで構成されています。1) シーンの理解と視覚タグの生成のためにマルチビューマルチモーダルセンサーデータ (カメラと LiDAR) を処理するビジュアルエンコーダー、2) ビジュアルタグと言語命令を受信して制御信号を予測し、特定の命令が完了したかどうかを予測する大規模言語モデルとその関連コンポーネント (タガー、Q-Former、アダプター)。

ビジョンエンコーダ

視覚言語コミュニティでは、視覚と言語を一致させる最も一般的な方法は、事前にトレーニングされた CLIP モデルを使用して画像の特徴をエンコードすることです。ただし、CLIP モデルのトリガーとパラメータのサイズが大きいため、AV システムへの導入が難しくなります。さらに、AV 認識システムは、LIDAR 入力を組み込むために 3D になることが多いです。そこで、InterFuser と TF++ にヒントを得て、センサーデータをエンコード/融合するためのマルチビューマルチモーダルビジュアルエンコーダーを設計しました。図 5 に示すように、ビジュアルエンコーダーはセンサーエンコード部分と BEV デコーダーで構成されています。センサーエンコード部分はそれぞれ画像と LIDAR 入力をエンコードし、BEV デコーダーは画像とポイントクラウドの特徴を融合してビジュアルタグを生成し、それを言語モデルに渡します。特に、視覚エンコーダーは、追加の予測ヘッドを追加することで知覚タスクで事前トレーニングされ、その後、大規模な言語モデルで後で使用するためにエンコーダーが固定されます。

センサーコーディング。各画像入力に対して、2D バックボーン ResNet を使用して画像特徴マップを抽出します。次に、特徴マップは 1 次元のトークンに平坦化されます。複数の視点からグローバルコンテキストを完全に理解するために、さまざまなビューからのトークンが標準の K レイヤートランスフォーマーエンコーダーを介して融合され、各レイヤーはマルチヘッドセルフアテンション、MLP ブロック、およびレイヤー正規化で構成されます。 LIDAR 入力の場合、3D バックボーン PointPillars を使用して、生のポイントクラウドデータを自車両を中心とした LIDAR フィーチャに処理します。各ピラーには、0.25 m×0.25 m の領域内のポイントが含まれます。次に、PointNet を使用して特徴を集約し、特徴マップを C×H×W にダウンサンプリングして、BEV クエリとして使用します。

BEVデコーダー。上記でエンコードされたセンサー機能は、BEV デコーダーに渡され、視覚的なシグネチャが生成されます。具体的には、BEV デコーダーは K 層を持つ標準トランスフォーマーとして設計されています。 BEV ポイントクラウド機能は、H×W クエリとして BEV デコーダーに供給され、マルチビュー画像機能に焦点を当てて BEV トークンを生成します。また、N 個の学習可能なクエリと 1 個の学習可能な問い合わせを BEV デコーダーに入力して、それぞれ N 個のウェイポイントトークンと 1 個の信号機トークンを生成します。したがって、3 種類の視覚ランドマーク (BEV、ウェイポイント、信号) には豊富なシーン情報が含まれ、それが大規模な言語モデルに入力されます。

事前トレーニングには予測ヘッドを使用します。私たちは、物体検出、将来のウェイポイント予測、信号機の状態分類という 3 つのビジュアルエンコーダー事前トレーニングタスクを検討しました。物体検出の場合、BEVtoken は 1 つのステージの中心点を通る Hm×Wm 領域内の物体の境界ボックスと速度を予測します。ウェイポイント予測では、N 個のウェイポイントマーカーとナビゲーションウェイポイントを GRU ネットワークに順番に渡して、N 個の将来のウェイポイントを予測します。信号機の状態分類では、信号機トークンに 2 層 MLP が適用されます。対応する損失項として、1) InterFuser での検出損失、2) l1 方向損失、3) クロスエントロピー信号状態損失の 3 つが考慮されます。これらの予測ヘッドはビジュアルエンコーダーの事前トレーニングにのみ使用され、LLM のトレーニングとモデル全体の推論の両方で破棄されることに注意してください。

指示に従う自動運転のための法学修士

図 4 に示すように、私たちのフレームワークでは、LLM は運転プロセス全体を通じて「頭脳」として機能し、各フレームのフリーズされたビジュアルエンコーダーによって生成されたセンサートークンを処理し、自然言語コマンドを理解し、必要な制御信号を生成し、特定のコマンドが完了したかどうかを予測します。具体的には、多くの言語および視覚教育適応モデルで広く使用されている LLaMA を言語バックボーンとして選択します。また、LLM と指示、視覚情報入力、および動作予測を橋渡しする 3 つの関連コンポーネント (1) タガー、2) Q-Former、3) 2 つのアダプターもあります。

指示と視覚化のトークン化。ナビゲーション指示とオプションの通知指示が与えられると、指示は LLaMA タガーを使用してテキストトークンに変換されます。 1 つの命令の実行時間は数秒から数分まで変化し、モデルは閉ループ設定で展開されることに注意してください。したがって、各フレームで、すべての履歴センサー情報（最大制限 Tmax）を活用して、累積エラーを削減し、モデルの時間的一貫性を向上させます。具体的には、マルチビューマルチモーダルセンサー入力の各フレームに対して、前のセクションで事前トレーニングされたビジュアルエンコーダーを活用して、ビジュアルマーカー (H×W BEV マーカー、N ウェイポイントマーカー、および 1 つの信号マーカー) を生成します。ただし、1 つの命令を完了するには数百のフレームが必要になることが多いため、視覚マーカーの数 (たとえば、フレームあたり 406 マーカー) は LLM にとってすぐに大きくなりすぎます。これを克服するために、本論文では BLIP-2 に従い、Q-Former を使用して視覚マーカーの数を減らします。具体的には、各フレームに対して、M 個の学習可能なクエリを使用して、交差注意レイヤーを介して視覚トークンを処理します。これにより、各フレームの視覚トークンの数を M に削減できます。次に、2 層 MLP アダプターを使用して、Q-Former によって抽出されたトークンを言語トークンと同じ次元を共有するように変換し、それを LLM に送り込みます。

行動予測。一連の指示と視覚タグを受け取った後、LLM はアクションタグを予測します。次に、別の 2 層 MLP アダプターが適用され、将来のウェイポイントを予測するとともに、特定の命令が完了したかどうかを示すフラグも適用されます。監視信号を強化するために、トレーニング中に各履歴フレームの予測も行い、推論時には最新のフレームの予測のみを実行することに注意してください。 LBC に続いて、ブレーキ、スロットル、ステアリングなどの最終的な制御信号を取得するために、予測されたウェイポイントの方向と速度をそれぞれ追跡する横方向と縦方向の制御に 2 つの PID コントローラが使用されます。

トレーニングの目的。 LLM とその関連コンポーネントを微調整する際には、2 つの損失項を考慮します。1) l1 ウェイポイント損失、2) 現在のフレームが特定の命令を完了するかどうかを判断するための分類損失 (クロスエントロピー)。

LangAutoベンチマーク

私たちは、言語コマンドによる閉ループ運転性能を評価する最初のベンチマークである LangAuto (言語ガイド付き自動運転) CARLA ベンチマークを提案します。以前の CARLA ベンチマーク Town05 および Longest6 と比較すると、私たちのベンチマークは、AV に対して自然言語ナビゲーション指示とオプションの通知指示のみを提供します。

具体的には、LangAuto ベンチマークは、さまざまなシナリオ (高速道路、交差点、ラウンドアバウトなど) を含む、CARLA の 8 つの公共都市すべてをカバーしています。また、7 つの気象条件 (晴れ、曇り、湿気、中程度の雨、曇り、大雨、小雨) と 3 つの日照条件 (夜、正午、日没) の組み合わせを含む 16 の環境条件も考慮しました。さらに、LangAuto はエージェントのコマンド追従能力を総合的にテストするための 3 つのトラックで構成されています。

LangAuto トラッキング: ルートごとに、エージェントの現在の位置に基づいてナビゲーション指示がエージェントに提供され、更新されます。また、パフォーマンスをより差別化するために、コースの長さが異なる 3 つのクラシックトラックにトラックを分割しました。ルート長が 500 メートルを超える LangAuto、ルート長が 150 メートルから 500 メートルの LangAuto Short、ルート長が 150 メートル未満の LangAuto Tiny。
LangAuto 通知トラッキング: LangAuto トラッキングに基づいて、エージェントに追加の通知指示を追加しました。このセットアップは、AV システムだけでは対応が難しい、長距離にわたる複雑または敵対的なシナリオにおいて、乗客や他の支援システムがリアルタイムの通知を提供できる現実世界の状況をシミュレートします。理想的には、指示を理解して活用できるエージェントは、より優れたパフォーマンスを達成できます。
LangAuto シーケンシャルトレース: LangAuto トレースに基づいて、連続する 2 ～ 3 個の命令の 10% を 1 つの長い命令にマージします。この設定は、乗客またはナビゲーションソフトウェアからの複数文の指示の実際のシナリオをシミュレートします。

誤解を招くような指示が、断続的にランダム（約 5%）かつ一定期間（1 ～ 2 秒）運転エージェントに提供されることに注意してください。運転エージェントは、これらの誤解を招く指示を拒否し、次の正しい指示が生成されるまで、現在のシナリオと一致する安全なアクションを実行する必要があります。

実験結果

定量的な結果

アブレーション実験

LangAuto-Notice ベンチマーク

LangAuto-Sequential ベンチマーク

結果を視覚化する

結論は

この論文では、言語ガイド付きのエンドツーエンドのクローズドループ自動運転フレームワークである LMDrive を紹介します。 LMDrive は、自然言語コマンドとマルチモーダルセンサーデータを組み合わせて、複雑な運転シナリオでの人間と機械の相互作用とナビゲーションを可能にします。また、約 64K のマルチモーダルデータセグメントと対応するナビゲーション指示で構成される言語ガイド付き運転データセットも提案します。さらに、自然言語コマンドを考慮した自動運転システムを評価するためのLangAutoベンチマークが確立されました。 LMDrive の有効性は、広範囲にわたる閉ループ実験を通じて実証されており、自律走行車と人間および環境との相互作用を改善する可能性を強調しています。私たちの研究は、言語ベースのクローズドループエンドツーエンド自動運転の分野におけるさらなる探究と開発に向けた有望な出発点となります。

オリジナルリンク: https://mp.weixin.qq.com/s/2TSWGZTiBYkwF8xteKcu8w

<<: Pandasの魅力：データ処理から機械学習まで

>>: GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身