この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と著者の個人的な理解現在の自動運転の分野では、従来の認識・予測・計画に基づく従来のエンドツーエンドの自動運転は、従来のシナリオの処理には適していますが、複雑なシナリオやロングテールのシナリオに直面すると、より大きな課題に直面します。論文の著者らは、これは主に、従来のモジュールの現在の設計には「シーンを理解する」能力が欠けていることが原因だと考えている。たとえば、知覚モジュールは、一般的なオブジェクトのみを検出して識別することが多く、ロングテールオブジェクトやオブジェクト特性の認識は無視している。近年、大規模視覚言語モデル(LVLM)の視覚理解と推論における強力な機能に鑑み、著者らはVLMを自動運転分野に適用し、特別なCoT推論プロセスを設計しました。同時に、従来の自動運転システムと組み合わせて、リアルタイム展開を確保しながら精度を向上させる方法を提案しました。 論文リンク: https://arxiv.org/abs/2402.12289 DriveVLMの主な貢献自動運転シナリオにビッグビジュアル言語モデルを使用するDriveVLMと呼ばれる方法が提案されています。シーン記述、シーン分析、階層計画の漸進的思考連鎖(CoT)が設計されており、それぞれ従来の自動運転プロセスにおける知覚、計画、制御の3つのモジュールに対応しています。ビッグビジュアル言語モデルの強力な一般化と認知能力の助けを借りて、従来のモジュールよりも優れたパフォーマンスを達成できることが期待されています。 大規模モデルと従来の自動運転モジュールを組み合わせたDriveVLM-Dualという手法を提案しています。従来の認識モジュールと計画モジュールを選択的に相互作用させることで、一方では、対応する物体認識3D情報をVLM側に導入してより優れた特徴分析を実現し、他方では、VLMが出力した軌道ポイントを従来の計画モジュールに選択的に送信して、リアルタイムでより正確な軌道計画を実現します。 複雑でロングテールの運転シナリオをマイニングするためのデータマイニングプロセスが提案され、それに基づいて多様な SUP-AD データセットが構築されます。データ マイニング プロセスには、ロングテール/困難なシーンのマイニング、手動のスクリーニングとフィルタリング、ビデオ キー フレームの選択、シーンのラベル付け、手動の検査が含まれます。 DriveVLM 可視化結果著者は DriveVLM の視覚化シナリオをいくつか提供しています。図 1 では、DriveVLM が夜間に前方を低速で走行する車両を識別し、車線を変更して追い越すための運転判断を提供します。 図 2 では、DriveVLM が倒木を識別し、わずかに右にハンドルを切るという運転決定を下しました。 図 3 では、DriveVLM が交通警察の進行継続のジェスチャーを正確に捉え、物体の動作を理解する能力を実証しています。 ドライブVLMこの図は DriveVLM のモデル パイプラインを示しています。主に、シーン記述、シーン分析、階層計画という 3 つの主要モジュール設計が含まれており、これらについては以下で紹介します。 1つ。シナリオの説明シーン記述モジュールの機能は、主に環境記述とキーオブジェクト認識の 2 つの部分に分かれています。環境記述は主に天候や道路状況などの一般的な運転環境を記述し、キーオブジェクト認識は現在の運転決定に大きな影響を与えるキーオブジェクトを見つけることです。 環境の説明。環境の説明には、天候、時間、道路の種類、車線の状態の 4 つの部分が含まれます。 キーオブジェクト認識DriveVLM は、検出対象となるすべての物体を検出する従来の自動運転認識モジュールとは異なり、運転時の人間の思考プロセスを活用し、現在の運転シーン内で車両の運転決定に最も影響を与える可能性の高い物体 (キー オブジェクト) を識別することに重点を置いています。膨大な量のデータによる事前トレーニングのおかげで、VLM は従来の 3D オブジェクト検出器と比較して、道路の破片や珍しい動物などのロングテールのキーオブジェクトをより正確に識別できます。 DriveVLM は、各キー オブジェクトについて、そのセマンティック カテゴリ c と対応する 2D ターゲット ボックス b をそれぞれ出力します。 二。シナリオ分析従来のエンドツーエンドの自動運転パイプラインでは、予測モジュールは通常、後続の計画モジュールの意思決定を支援するために、オブジェクトの将来の軌道のみを出力します。しかし、この単一の軌道予測では、物体が車両の運転決定に与える影響を完全に反映することはできません。多くの物体が車両に与える影響は、将来の潜在的な軌道に限定されません。大規模な視覚モデルの開発により、DriveVLM は現在の運転シナリオのより包括的なシーン分析を実行します。 シナリオ概要すべての主要なオブジェクトを分析した後、DriveVLM は現在の運転シナリオを要約します。以前の分析情報を集約することに加えて、いくつかの追加のシーンレベルの分析がここで完了します。その後、すべての情報は、その後の階層計画のコンテキストとして機能します。 階層的計画DriveVLM は、自車両の将来の運転決定に対応するメタアクション、決定の説明、軌道ポイントの 3 つの計画目標を順次推論する段階的な階層型計画アプローチを提案します。 決定の説明: 単純なアクションの粒度レベルの「メタアクション」と比較して、「決定の説明」には、運転決定のより詳細で多次元的な説明が含まれています。完全な「決定の説明」には通常、アクション A、主題 S、期間 D という 3 つの基本要素が含まれます。アクションは、「加速」、「方向転換」、「待機」など、以前のメタアクションに似ています。主語とは、歩行者、交通信号、特定の車線など、自車両のアクションが適用されるオブジェクトを指します。期間は、アクションの継続時間や開始時期など、アクションの実行時間を示します。 ドライブVLMデュアル既存の大規模視覚言語モデルはロングテールオブジェクトの認識と複雑なシーンの理解に優れていますが、既存の研究と著者らの予備実験によると、オブジェクトの動きの状態の微妙な変化についての推論に関しては、VLM のパフォーマンスが低下することがあります。さらに、大規模な言語モデルには膨大な数のパラメータがあるため、モデルの推論時間は従来の自動運転システムよりも遅延が大きくなることが多く、環境への迅速なリアルタイム応答が妨げられます。この目的のために、著者らは、VLM と従来の自動運転システムが相互に連携するソリューションである DriveVLM-Dual を提案しました。この方法には、3D 知覚情報の融合と、高周波軌道改良操作という 2 つの主要な設計が含まれます。 3D知覚情報融合従来の自動運転システムの3D検出器によって検出されたターゲットオブジェクトの場合、 として記録されます。ここで、 はi番目のオブジェクトの3Dターゲットボックスを表し、 は対応するセマンティックカテゴリを表します。これらの 3D ターゲット フレームは、カメラの内部および外部パラメータに基づいて 2D 画像座標系に投影され、対応する 2D ターゲット フレーム表現が取得されます。 VLMブランチによって識別されたキーオブジェクトCjに対応するターゲットボックスと、近似ターゲットボックスIoUマッチングが実行されます。IoUスコアが一定の閾値を超え、同じ大きな意味カテゴリに属するキーオブジェクトは、マッチングされた重要なオブジェクトとして記録されます。条件を満たさないものは、マッチングされない重要なオブジェクトとして分類されます。このプロセスは次の式で表すことができます。 一致したキー オブジェクトについては、認識モジュールで予測された履歴の軌跡、方向、中心点の座標などが、オブジェクトの特徴の推論を支援するための言語プロンプトとして VLM のキー オブジェクト分析モジュールに送信されます。従来の 3D 認識モジュールでは識別が難しいロングテール オブジェクトなど、一致するものがないキー オブジェクトの場合、キー オブジェクト分析は実行されますが、3D 認識情報は補助として使用されません。この設計により、DriveVLM は主要なオブジェクトの空間位置と細かい動作状態の変化をより正確に把握できるようになります。 高周波軌道最適化従来のプランナーと比較すると、視覚言語モデル (VLM) に固有のパラメーターの数が多いため、DriveVLM は軌道の生成に大幅に時間がかかります。高速かつリアルタイムの推論機能を実現するために、著者らはこれを従来のプランナーと組み合わせて、高速・低速のデュアル システム設計を形成しました。 DriveVLM が計画された軌道 Wslow を出力すると、それは 2 段階の軌道最適化のための参照軌道として従来の計画モジュールに送信されます。具体的には、最適化ベースのプランナーの場合、Wslow は最適化ソルバーの初期ソリューションとして使用されます。ニューラル ネットワーク ベースのプランナーの場合、Wslow は入力クエリとして使用され、元のプランナーの入力機能 f と組み合わせて、ネットワークを通じて新しい軌道 Wfast が生成されます。実際のアプリケーションでは、デュアル システムは非同期で実行されます。VLM ブランチは主にタスク レベルの計画を担当し、従来のブランチのプランナーは主に動作レベルの計画を担当し、固定された重複時間で VLM ブランチからの軌道入力のみを受け入れます。 タスクとデータセットSUPミッション大規模言語モデルが複雑でロングテールの運転シナリオを処理する能力をより適切に測定するために、著者らは SUP (計画のためのシーン理解) と呼ばれるタスクと対応する評価指標を定義しました。 データセットの構築以前に定義された SUP タスクに対して、著者らはデータ マイニングと注釈付けの方法を提案しました。これを基に、40以上のシーンカテゴリーを持つ自動運転データセットSUP-ADが構築されました。この手法のフローチャートを以下に示します。まず、大量の自動運転データからロングテールターゲットマイニングとチャレンジングシーンマイニングを実行してサンプルデータを収集します。次に、シーンごとにキーフレームを選択し、対応するシーン情報を注釈付けします。 ロングテールターゲットマイニング。 著者らはまず、特殊な形状の車両、道路の破片、道路を横断する動物など、一連のロングテールのターゲット カテゴリを事前に定義します。次に、著者らは CLIP ベースの検索エンジンを使用して、大量の自動運転データからこれらのロングテールシーンをマイニングします。検索エンジンは言語クエリを使用して、大量の自動運転ビデオデータからカテゴリ関連の運転データをマイニングできます。次に、割り当てられたカテゴリと一致しないシーンを除外するための手動検査が行われます。 実験セクション主な結果著者らは、DriveVLM の有効性を検証するために、提案された SUP-AD および nuScenes データセットに対して対応する実験を実施しました。 SUP-AD は、トレーニング セット、検証セット、テスト セットを 7.5:1:1.5 の比率に分割し、上記の 2 つの評価メトリックを使用して評価します。 nuScenes データセットでは、以前の研究に従い、変位誤差 (DE) と衝突率 (CR) をメトリックとして使用して、検証セットで軌道を生成するモデルのパフォーマンスを評価します。 SUP-ADデータセットでは、著者らは、表1に示すように、DriveVLMといくつかの大規模な視覚言語モデルの以前のパフォーマンス比較を示し、GPT-4Vと比較しました。 DriveVLM は Qwen-VL をベースモデルとして使用しており、独自の強力なモデルパフォーマンスにより、Lynx や CogVLM などの他のオープンソース VLM と比較して最高のパフォーマンスを実現します。 GPT-4V は視覚と言語処理において強力な能力を示しましたが、微調整することができず、コンテキスト内学習の形でのみテストすることができました。著者らは、これがシーン記述タスクにおいて無関係な情報の生成につながることが多いと述べています。提案された評価方法によると、この追加情報は幻覚情報として分類されることが多く、低いスコアにつながります。 著者らは、nuScenes データセットで、表 2 に示すように、DriveVLM と DriveVLM-Dual を従来の従来の方法と比較しました。 VAD と連携する場合、DriveVLM-Dual は、計画タスクの L2 メトリックと CR メトリックの両方で最先端のパフォーマンスを実現します。 DriveVLM は複雑なシーンを理解するように設計されていますが、nuScenes などの一般的なシーンでも優れたパフォーマンスを発揮します。 アブレーション研究モデル設計。 各モジュールの設計の必要性を検証するために、著者らは、表 3 に示すように、nuScenes データセットでさまざまなモジュールの組み合わせについてアブレーション実験を実施しました。このうち、「ベース」は提案された特別な CoT 推論設定を採用せずに階層計画のみを意味します。「CO」はキーオブジェクト分析の導入を意味します。「3D」は追加の言語プロンプトとして一致する 3D 認識結果の導入を意味します。 キーオブジェクト分析を組み込んだ設計により、DriveVLM は決定の精度を向上させ、より安全なナビゲーションを実現できることがわかります。 3D 認識結果を導入すると、DrvieVLM によって生成された軌道は L2 と CR が大幅に減少します。これは、3D 認識結果の導入が動作ダイナミクスを捉え、軌道予測を改善するために重要であることを示しています。 推論速度。さらに、著者らは、次の表に示すように、NVIDIA Orin プラットフォーム上で DriveVLM と DrvieVLM-Dual の推論速度もテストしました。 LLM のパラメータ数が膨大であるため、DriveVLM の推論速度は VAD などの従来の自動運転方法よりも桁違いに遅く、リアルタイム要件が高い車両環境に導入することが困難です。ただし、非同期の高速低速コラボレーション モードで従来の自動運転パイプラインと組み合わせると、全体的なレイテンシは高速ブランチの速度に依存するため、DriveVLM-Dual は実際の導入に最適なソリューションになります。 オリジナルリンク: https://mp.weixin.qq.com/s/g32V4b5VGsgsMwg-5hMkRQ |
<<: 自動化の方程式: 現代の職場における AI、ロボット工学、人間のスキルのバランス
>>: CVPR'24の結果が発表され、中国の博士課程学生による3つの論文がベルサイユ賞を受賞しました!当局はネットユーザーを怒らせるためにミームを投稿した
データサイエンスの分野は競争が激しく、人々はますます多くのスキルと経験を急速に身につけています。 「...
[[380706]]この記事はWeChatパブリックアカウント「Full-Stack Cultiva...
ロイター通信によると、7月5日、国連技術機関はスイスで行われた「人類の利益のためのAI」イベントで、...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ガートナー社によると、現在データサイエンスに使用されているツールは急速に変化しているという。同社は新...
明日のフライトとホテルを予約し、天気を確認する。このようなシナリオは誰もが経験したことがあると思いま...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
中国政府は人工知能を国家戦略のレベルにまで高めた。 2017年7月、国務院は「次世代人工知能発展計画...
海洋ゴミは世界的な問題となっている。たとえすべてのデータを収集できたとしても、海洋問題の専門家である...
ノアが編集制作:51CTO テクノロジースタック(WeChat ID:blog) Microsoft...
自動運転はディープラーニングの重要な応用分野です。長年にわたる蓄積の結果、現在では科学研究者が AI...