とにかく車に乗ってください！ DriveVLM: オリンが導入した初の高速・低速デュアルシステムインテリジェント運転モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

現在の自動運転の分野では、従来の認識・予測・計画に基づく従来のエンドツーエンドの自動運転は、従来のシナリオの処理には適していますが、複雑なシナリオやロングテールのシナリオに直面すると、より大きな課題に直面します。論文の著者らは、これは主に、従来のモジュールの現在の設計には「シーンを理解する」能力が欠けていることが原因だと考えている。たとえば、知覚モジュールは、一般的なオブジェクトのみを検出して識別することが多く、ロングテールオブジェクトやオブジェクト特性の認識は無視している。近年、大規模視覚言語モデル（LVLM）の視覚理解と推論における強力な機能に鑑み、著者らはVLMを自動運転分野に適用し、特別なCoT推論プロセスを設計しました。同時に、従来の自動運転システムと組み合わせて、リアルタイム展開を確保しながら精度を向上させる方法を提案しました。

論文リンク: https://arxiv.org/abs/2402.12289

DriveVLMの主な貢献

自動運転シナリオにビッグビジュアル言語モデルを使用するDriveVLMと呼ばれる方法が提案されています。シーン記述、シーン分析、階層計画の漸進的思考連鎖（CoT）が設計されており、それぞれ従来の自動運転プロセスにおける知覚、計画、制御の3つのモジュールに対応しています。ビッグビジュアル言語モデルの強力な一般化と認知能力の助けを借りて、従来のモジュールよりも優れたパフォーマンスを達成できることが期待されています。

大規模モデルと従来の自動運転モジュールを組み合わせたDriveVLM-Dualという手法を提案しています。従来の認識モジュールと計画モジュールを選択的に相互作用させることで、一方では、対応する物体認識3D情報をVLM側に導入してより優れた特徴分析を実現し、他方では、VLMが出力した軌道ポイントを従来の計画モジュールに選択的に送信して、リアルタイムでより正確な軌道計画を実現します。

複雑でロングテールの運転シナリオをマイニングするためのデータマイニングプロセスが提案され、それに基づいて多様な SUP-AD データセットが構築されます。データマイニングプロセスには、ロングテール/困難なシーンのマイニング、手動のスクリーニングとフィルタリング、ビデオキーフレームの選択、シーンのラベル付け、手動の検査が含まれます。

DriveVLM 可視化結果

著者は DriveVLM の視覚化シナリオをいくつか提供しています。図 1 では、DriveVLM が夜間に前方を低速で走行する車両を識別し、車線を変更して追い越すための運転判断を提供します。

図 2 では、DriveVLM が倒木を識別し、わずかに右にハンドルを切るという運転決定を下しました。

図 3 では、DriveVLM が交通警察の進行継続のジェスチャーを正確に捉え、物体の動作を理解する能力を実証しています。

ドライブVLM

この図は DriveVLM のモデルパイプラインを示しています。主に、シーン記述、シーン分析、階層計画という 3 つの主要モジュール設計が含まれており、これらについては以下で紹介します。

1つ。シナリオの説明

シーン記述モジュールの機能は、主に環境記述とキーオブジェクト認識の 2 つの部分に分かれています。環境記述は主に天候や道路状況などの一般的な運転環境を記述し、キーオブジェクト認識は現在の運転決定に大きな影響を与えるキーオブジェクトを見つけることです。

環境の説明。

環境の説明には、天候、時間、道路の種類、車線の状態の 4 つの部分が含まれます。
天気 (E_weather): 晴れ、雪など、現在の運転シーンの天候状況を説明します。雨、雪、霧などの気象条件では、当然ながら、より慎重な運転戦略が必要になります。
時間 (E_time): 昼間や夜間のシーンなど、現在の時間帯を説明します。夜間は視界が悪いため、慎重な運転も必要です。
道路の種類 (E_road): 市街地、高速道路、田舎など、現在走行している道路の種類を示します。道路のセクションによって課題の種類が異なり、異なる運転スタイルが必要になる場合があります。
車線状況 (E_lane): 車両が現在走行している車線や、考えられる車線オプションなど、車線状況の説明を提供します。この情報は、車線の選択と安全な車線変更に不可欠です。

キーオブジェクト認識

DriveVLM は、検出対象となるすべての物体を検出する従来の自動運転認識モジュールとは異なり、運転時の人間の思考プロセスを活用し、現在の運転シーン内で車両の運転決定に最も影響を与える可能性の高い物体 (キーオブジェクト) を識別することに重点を置いています。膨大な量のデータによる事前トレーニングのおかげで、VLM は従来の 3D オブジェクト検出器と比較して、道路の破片や珍しい動物などのロングテールのキーオブジェクトをより正確に識別できます。 DriveVLM は、各キーオブジェクトについて、そのセマンティックカテゴリ c と対応する 2D ターゲットボックス b をそれぞれ出力します。

二。シナリオ分析

従来のエンドツーエンドの自動運転パイプラインでは、予測モジュールは通常、後続の計画モジュールの意思決定を支援するために、オブジェクトの将来の軌道のみを出力します。しかし、この単一の軌道予測では、物体が車両の運転決定に与える影響を完全に反映することはできません。多くの物体が車両に与える影響は、将来の潜在的な軌道に限定されません。大規模な視覚モデルの開発により、DriveVLM は現在の運転シナリオのより包括的なシーン分析を実行します。
キーオブジェクトの分析。 DriveVLM は、運転シーン内の主要なオブジェクトを取得した後、主要なオブジェクトの特徴と、それらが車両に及ぼす潜在的な運転への影響を分析します。ここで、著者はオブジェクトの特性を静的プロパティ (Cs)、動作状態 (Cm)、および特殊な動作 (Cp) の 3 つの側面に分類します。静的属性は、道路標識の数字やスローガン、トラックの車体の長さを超える貨物など、オブジェクトの固有の特性を表します。これらの属性は、自動運転車が潜在的な運転リスクやそれに対応するものを判断するのに役立ちます。
位置、方向、アクションを含む動作状態 (Cm) は、一定期間にわたるオブジェクトの動作状態を表します。これは、従来の軌道予測モジュールに似ています。特殊動作 (Cp) とは、交通整理をする交通警察官のジェスチャーや、前方の人が激しく手を振るジェスチャーなど、車両の運転に影響を及ぼす可能性のある、物体が行う特定の動作またはジェスチャーを指します。実際のアプリケーションでは、著者らは DriveVLM にすべての主要オブジェクトについてこれらの 3 つの情報の側面を出力するように強制するのではなく、代わりに、オブジェクトがこれら 3 つの側面で含む可能性のある側面を適応的に出力するようにモデルに教えました。

シナリオ概要

すべての主要なオブジェクトを分析した後、DriveVLM は現在の運転シナリオを要約します。以前の分析情報を集約することに加えて、いくつかの追加のシーンレベルの分析がここで完了します。その後、すべての情報は、その後の階層計画のコンテキストとして機能します。

階層的計画

DriveVLM は、自車両の将来の運転決定に対応するメタアクション、決定の説明、軌道ポイントの 3 つの計画目標を順次推論する段階的な階層型計画アプローチを提案します。
メタアクション: 各メタアクションは、運転の意思決定の基本的な粒度のアクションに対応します。一連のメタアクションは、将来の短期的な運転の意思決定をある程度説明できます。著者は、メタアクションの種類を加速、待機、左または右への車線変更など 17 のカテゴリに分類しました。特性に応じて、速度制御、ステアリング、車線制御の3つのカテゴリに分類できます。

決定の説明: 単純なアクションの粒度レベルの「メタアクション」と比較して、「決定の説明」には、運転決定のより詳細で多次元的な説明が含まれています。完全な「決定の説明」には通常、アクション A、主題 S、期間 D という 3 つの基本要素が含まれます。アクションは、「加速」、「方向転換」、「待機」など、以前のメタアクションに似ています。主語とは、歩行者、交通信号、特定の車線など、自車両のアクションが適用されるオブジェクトを指します。期間は、アクションの継続時間や開始時期など、アクションの実行時間を示します。
この記事では、対応する「意思決定の説明」の例を分析します。(A) 歩行者 (S) が道路を横断するのを待ち、(D) 加速を開始して (A) 右車線 (S) に合流します。この構造化された意思決定の説明は、VLM が標準化された使いやすい運転指示を出力するのに役立ちます。
軌道ポイント: より詳細な軌道記述を出力した後、DriveVLM は次に、将来の固定時間間隔 t における位置を表す、W = {w1、w2、...、wn}、wi = (xi、yi) で表される対応する軌道ポイント予測を出力します。この階層設計により、DriveVLM は簡単なものから難しいものまで段階的に意思決定プランを出力するようにガイドされ、最終的に、対応する軌道ポイントが専用の調整および制御モジュールに送信され、さらに改善および改良されます。

ドライブVLMデュアル

既存の大規模視覚言語モデルはロングテールオブジェクトの認識と複雑なシーンの理解に優れていますが、既存の研究と著者らの予備実験によると、オブジェクトの動きの状態の微妙な変化についての推論に関しては、VLM のパフォーマンスが低下することがあります。さらに、大規模な言語モデルには膨大な数のパラメータがあるため、モデルの推論時間は従来の自動運転システムよりも遅延が大きくなることが多く、環境への迅速なリアルタイム応答が妨げられます。この目的のために、著者らは、VLM と従来の自動運転システムが相互に連携するソリューションである DriveVLM-Dual を提案しました。この方法には、3D 知覚情報の融合と、高周波軌道改良操作という 2 つの主要な設計が含まれます。

3D知覚情報融合

従来の自動運転システムの3D検出器によって検出されたターゲットオブジェクトの場合、として記録されます。ここで、はi番目のオブジェクトの3Dターゲットボックスを表し、は対応するセマンティックカテゴリを表します。これらの 3D ターゲットフレームは、カメラの内部および外部パラメータに基づいて 2D 画像座標系に投影され、対応する 2D ターゲットフレーム表現が取得されます。 VLMブランチによって識別されたキーオブジェクトCjに対応するターゲットボックスと、近似ターゲットボックスIoUマッチングが実行されます。IoUスコアが一定の閾値を超え、同じ大きな意味カテゴリに属するキーオブジェクトは、マッチングされた重要なオブジェクトとして記録されます。条件を満たさないものは、マッチングされない重要なオブジェクトとして分類されます。このプロセスは次の式で表すことができます。

一致したキーオブジェクトについては、認識モジュールで予測された履歴の軌跡、方向、中心点の座標などが、オブジェクトの特徴の推論を支援するための言語プロンプトとして VLM のキーオブジェクト分析モジュールに送信されます。従来の 3D 認識モジュールでは識別が難しいロングテールオブジェクトなど、一致するものがないキーオブジェクトの場合、キーオブジェクト分析は実行されますが、3D 認識情報は補助として使用されません。この設計により、DriveVLM は主要なオブジェクトの空間位置と細かい動作状態の変化をより正確に把握できるようになります。

高周波軌道最適化

従来のプランナーと比較すると、視覚言語モデル (VLM) に固有のパラメーターの数が多いため、DriveVLM は軌道の生成に大幅に時間がかかります。高速かつリアルタイムの推論機能を実現するために、著者らはこれを従来のプランナーと組み合わせて、高速・低速のデュアルシステム設計を形成しました。

DriveVLM が計画された軌道 Wslow を出力すると、それは 2 段階の軌道最適化のための参照軌道として従来の計画モジュールに送信されます。具体的には、最適化ベースのプランナーの場合、Wslow は最適化ソルバーの初期ソリューションとして使用されます。ニューラルネットワークベースのプランナーの場合、Wslow は入力クエリとして使用され、元のプランナーの入力機能 f と組み合わせて、ネットワークを通じて新しい軌道 Wfast が生成されます。実際のアプリケーションでは、デュアルシステムは非同期で実行されます。VLM ブランチは主にタスクレベルの計画を担当し、従来のブランチのプランナーは主に動作レベルの計画を担当し、固定された重複時間で VLM ブランチからの軌道入力のみを受け入れます。

タスクとデータセット

SUPミッション

大規模言語モデルが複雑でロングテールの運転シナリオを処理する能力をより適切に測定するために、著者らは SUP (計画のためのシーン理解) と呼ばれるタスクと対応する評価指標を定義しました。
入力データには、周囲のカメラからのマルチビュービデオセット V と、認識モジュールからのオプションの 3D 認識結果 P が含まれます。出力には、シーンの説明 E、シーン分析 S、メタアクション A、決定の説明 D、および軌跡ポイント W が含まれます。軌跡点Wについては、変位誤差（DE）と衝突率（CR）が生成の品質を評価する指標として使用できます。しかし、シーンの記述とテキスト内容の分析、およびメタアクションシーケンスの品質については、既存の評価方法がありませんでした。そこで、著者はそれぞれLLMと動的計画法を使用した評価方法を提案しました。詳細については付録を参照してください。

データセットの構築

以前に定義された SUP タスクに対して、著者らはデータマイニングと注釈付けの方法を提案しました。これを基に、40以上のシーンカテゴリーを持つ自動運転データセットSUP-ADが構築されました。この手法のフローチャートを以下に示します。まず、大量の自動運転データからロングテールターゲットマイニングとチャレンジングシーンマイニングを実行してサンプルデータを収集します。次に、シーンごとにキーフレームを選択し、対応するシーン情報を注釈付けします。

ロングテールターゲットマイニング。著者らはまず、特殊な形状の車両、道路の破片、道路を横断する動物など、一連のロングテールのターゲットカテゴリを事前に定義します。次に、著者らは CLIP ベースの検索エンジンを使用して、大量の自動運転データからこれらのロングテールシーンをマイニングします。検索エンジンは言語クエリを使用して、大量の自動運転ビデオデータからカテゴリ関連の運転データをマイニングできます。次に、割り当てられたカテゴリと一致しないシーンを除外するための手動検査が行われます。
挑戦的なシナリオマイニング。著者らは、ロングテールオブジェクトに加えて、困難な運転シナリオも調査しました。これらのシナリオのデータでは、変化する運転条件に応じて自車両の運転戦略を調整する必要があります。これらのシナリオは通常、急ブレーキなどの記録された運転操作の変化に基づいて取得されます。該当するデータを取得した後、要件を満たさないデータを除外するための手動スクリーニングも実行されます。
キーフレームの選択。発掘された運転シーンは、いずれも10秒を超えるビデオクリップです。このような長い時間枠では、「キーフレーム」の選択が重要です。最も難しいシーンでは、キーフレームは速度や方向の大きな変更が必要になる直前の瞬間です。包括的なテストに基づいて、著者らは、運転の決定を変更する際の最適な反応時間を確保するために、実際の操作の 0.5 秒から 1 秒前をキーフレームとして選択しました。運転行動の変化を伴わないシナリオの場合、著者は現在の運転シナリオに関連するフレームをキーフレームとして選択します。
シーンの注釈。キーフレームが選択されると、アノテーターのグループが、タスクに記載されているシーンの説明、シーンの分析、計画など、データに対してシーンのアノテーションを実行します。同時に、シーンの注釈付けを容易にするために、特定の注釈コンテンツに対して対応する注釈付けと検査を簡単に実行できるビデオ注釈ツールを開発しました。シーンキーフレームの最終的な注釈結果を下の図に示します。

実験セクション

主な結果

著者らは、DriveVLM の有効性を検証するために、提案された SUP-AD および nuScenes データセットに対して対応する実験を実施しました。 SUP-AD は、トレーニングセット、検証セット、テストセットを 7.5:1:1.5 の比率に分割し、上記の 2 つの評価メトリックを使用して評価します。 nuScenes データセットでは、以前の研究に従い、変位誤差 (DE) と衝突率 (CR) をメトリックとして使用して、検証セットで軌道を生成するモデルのパフォーマンスを評価します。

SUP-ADデータセットでは、著者らは、表1に示すように、DriveVLMといくつかの大規模な視覚言語モデルの以前のパフォーマンス比較を示し、GPT-4Vと比較しました。

DriveVLM は Qwen-VL をベースモデルとして使用しており、独自の強力なモデルパフォーマンスにより、Lynx や CogVLM などの他のオープンソース VLM と比較して最高のパフォーマンスを実現します。 GPT-4V は視覚と言語処理において強力な能力を示しましたが、微調整することができず、コンテキスト内学習の形でのみテストすることができました。著者らは、これがシーン記述タスクにおいて無関係な情報の生成につながることが多いと述べています。提案された評価方法によると、この追加情報は幻覚情報として分類されることが多く、低いスコアにつながります。

著者らは、nuScenes データセットで、表 2 に示すように、DriveVLM と DriveVLM-Dual を従来の従来の方法と比較しました。 VAD と連携する場合、DriveVLM-Dual は、計画タスクの L2 メトリックと CR メトリックの両方で最先端のパフォーマンスを実現します。 DriveVLM は複雑なシーンを理解するように設計されていますが、nuScenes などの一般的なシーンでも優れたパフォーマンスを発揮します。

アブレーション研究

モデル設計。各モジュールの設計の必要性を検証するために、著者らは、表 3 に示すように、nuScenes データセットでさまざまなモジュールの組み合わせについてアブレーション実験を実施しました。このうち、「ベース」は提案された特別な CoT 推論設定を採用せずに階層計画のみを意味します。「CO」はキーオブジェクト分析の導入を意味します。「3D」は追加の言語プロンプトとして一致する 3D 認識結果の導入を意味します。

キーオブジェクト分析を組み込んだ設計により、DriveVLM は決定の精度を向上させ、より安全なナビゲーションを実現できることがわかります。 3D 認識結果を導入すると、DrvieVLM によって生成された軌道は L2 と CR が大幅に減少します。これは、3D 認識結果の導入が動作ダイナミクスを捉え、軌道予測を改善するために重要であることを示しています。

推論速度。さらに、著者らは、次の表に示すように、NVIDIA Orin プラットフォーム上で DriveVLM と DrvieVLM-Dual の推論速度もテストしました。

LLM のパラメータ数が膨大であるため、DriveVLM の推論速度は VAD などの従来の自動運転方法よりも桁違いに遅く、リアルタイム要件が高い車両環境に導入することが困難です。ただし、非同期の高速低速コラボレーションモードで従来の自動運転パイプラインと組み合わせると、全体的なレイテンシは高速ブランチの速度に依存するため、DriveVLM-Dual は実際の導入に最適なソリューションになります。

オリジナルリンク: https://mp.weixin.qq.com/s/g32V4b5VGsgsMwg-5hMkRQ

<<: 自動化の方程式: 現代の職場における AI、ロボット工学、人間のスキルのバランス

>>: CVPR'24の結果が発表され、中国の博士課程学生による3つの論文がベルサイユ賞を受賞しました！当局はネットユーザーを怒らせるためにミームを投稿した