清華大学とアイデアルは、自動運転機能を向上させる視覚言語モデルDriveVLMを提案した。

清華大学とアイデアルは、自動運転機能を向上させる視覚言語モデルDriveVLMを提案した。

生成AIと比較して、自動運転も近年AIの研究開発が最も活発に行われている分野の1つです。完全自動運転システムを構築する上での主な課題は、AI によるシーン理解であり、これには悪天候、複雑な道路レイアウト、予期しない人間の行動など、複雑で予測不可能なシナリオが含まれます。

既存の自動運転システムには、通常、3D 認識、動作予測、計画コンポーネントが含まれています。具体的には、3D 認識は、よく知られたオブジェクトの検出と追跡に限定され、珍しいオブジェクトとその属性は無視されます。一方、動作予測と計画はオブジェクトの軌道に重点を置き、オブジェクトと車両間の決定レベルの相互作用を無視することがよくあります。

自動運転は、データ駆動から知識駆動へと反復する必要があります。論理的推論機能を備えた大規模モデルをトレーニングすることによってのみ、ロングテールの問題を真に解決できます。この方法でのみ、オープンワールドで L4 機能に移行できます。 GPT4 や Sora などの大規模モデルが、創発効果とスケール効果を通じて強力な少数ショット/ゼロショット機能を実証するにつれて、人々は新しい道を考えています。

清華大学学際情報科学研究所と Ideal Auto が最近提出した新しい論文で、著者らは DriveVLM を提案しました。生成 AI の分野で最近注目されている視覚言語モデル (VLM) に触発され、DriveVLM は視覚的な理解と推論において並外れた能力を発揮しました。

これは業界で初めて自動運転の高速・低速システムを提案した作品であり、主流の自動運転パイプラインと大規模モデルパイプラインを論理的思考で完全に組み合わせ、端末テストと展開の大規模モデル作品(Orinプラットフォームに基づく)を初めて完成させたものである。

DriveVLM は、シナリオ記述、シナリオ分析、階層計画という 3 つの主要モジュールを含む Chain-of-Thought (CoT) プロセスで構成されています。シーン記述モジュールは、運転環境を言葉で記述し、シーン内の主要なオブジェクトを識別します。シーン分析モジュールは、主要なオブジェクトの特性と自車両への影響を詳しく調べます。階層計画モジュールは、メタアクションと決定の記述からパスポイントまで、徐々に計画を作成します。

これらのモジュールは、従来の自動運転システム プロセスの認識、予測、計画プロセスの 3 つのコンポーネントに対応しています。違いは、これまで非常に困難であったオブジェクトの認識、意図レベルの予測、タスク レベルの計画を扱っていることです。

VLM は視覚的な理解に優れていますが、空間的な基盤と推論には限界があり、その計算能力要件によりオンサイド推論の速度に課題が生じます。そこで著者らは、DriveVLM と従来のシステムの利点を組み合わせたハイブリッド システムである DriveVLMDual をさらに提案しました。 DriveVLM-Dual は、オプションで DriveVLM を 3D オブジェクト検出器、占有ネットワーク、モーション プランナーなどの従来の 3D 認識および計画モジュールと統合し、システムが 3D グラウンディングおよび高頻度計画機能を実現できるようにします。このデュアル システム設計は、人間の脳の遅い思考プロセスと速い思考プロセスに似ており、運転シナリオのさまざまな複雑さに効果的に適応できます。

同時に、新しい研究では、シーン理解と計画 (SUP) タスクを定義し、DriveVLM と DriveVLM-Dual のシーン分析とメタアクション計画機能を評価するための新しい評価メトリックを提案しています。さらに、著者らは包括的なデータマイニングと注釈パイプラインを実行し、SUP タスク用の社内 SUP-AD データセットを構築しました。

nuScenes データセットと当社独自のデータセットでの広範な実験により、特にショット数が少ない場合に DriveVLM の優位性が実証されています。さらに、DriveVLM-Dual は最先端のエンドツーエンドのモーション プランニング手法を上回ります。

DriveVLM: 自動運転と大規模視覚言語モデルの融合

論文リンク: https://arxiv.org/abs/2402.12289

プロジェクトリンク: https://tsinghua-mars-lab.github.io/DriveVLM/

DriveVLM の全体的なプロセスを図 1 に示します。

  1. 連続フレームの視覚画像をエンコードし、特徴アライメント モジュールを通じて LMM と対話します。
  2. VLM モデルの思考を導くためのシナリオの説明から始め、まず時間、シーン、車線環境などの静的なシナリオを導き、次に運転の決定に影響を与える主要な障害を導きます。
  3. 主要な障害物を分析し、従来の 3D 検出を VLM が認識する障害物と照合し、障害物の有効性をさらに確認して錯覚を排除し、シーン内の主要な障害物の特性と運転への影響を説明します。
  4. 減速、停止、左折または右折などの主要な「メタ決定」を示し、次にメタ決定に基づいた運転戦略の説明を示し、最後にメイン車両の将来の運転軌道を示します。

図 1. DriveVLM および DriveVLM-Dual モデル パイプライン。一連の画像は大規模な視覚言語モデル (VLM) によって処理され、アドホック思考連鎖 (CoT) 推論が実行され、運転計画の結果が導き出されます。大規模 VLM には、ビジュアル トランスフォーマー エンコーダーと大規模言語モデル (LLM) が含まれます。ビジュアル エンコーダーは画像トークンを生成し、次にアテンション ベースの抽出器がこれらのトークンを LLM と揃え、最後に LLM が CoT 推論を実行します。 CoT プロセスは、シナリオ記述、シナリオ分析、階層計画の 3 つのモジュールに分けられます。

DriveVLM-Dual は、DriveVLM の環境に関する包括的な理解と意思決定軌道の推奨を活用して、従来の自動運転パイプラインの意思決定および計画機能を強化するハイブリッド システムです。 3D 認識結果を言語キューに組み込むことで 3D シーン理解機能を強化し、リアルタイムのモーション プランナーを通じて軌道ウェイポイントをさらに改良します。

VLM はロングテールの物体を認識し、複雑なシーンを理解するのに優れていますが、物体の空間的な位置や詳細な動きの状態を正確に理解することが難しい場合が多く、この欠陥が大きな課題となっています。さらに悪いことに、VLM のモデル サイズが大きいため、レイテンシが高くなり、自動運転のリアルタイム応答性が妨げられます。これらの課題に対処するために、著者らは DriveVLM が従来の自動運転システムと連携できるようにする DriveVLM-Dual を提案しました。この新しいアプローチには、高次元の運転決定情報を提供する 3D 認識と組み合わせた主要オブジェクト分析と、高頻度の軌道改良という 2 つの主要な戦略が含まれます。

さらに、複雑でロングテールの運転シナリオを処理する上で DriveVLM と DriveVLMDual の潜在能力を最大限に活用するために、研究者はシーン理解計画と呼ばれるタスクと一連の評価指標を正式に定義しました。さらに、著者らは、シーンの理解と計画データセットを管理するためのデータマイニングと注釈付けのプロトコルを提案しています。

モデルを完全にトレーニングするために、著者は Drive LLM 注釈ツールと注釈ソリューションの新しいセットを開発しました。自動マイニング、知覚アルゴリズムの事前ブラシ、GPT-4 大規模モデルの概要、手動注釈などの複数の方法を組み合わせることで、現在の効率的な注釈ソリューションのセットが形成されました。各クリップ データには、最大数十の注釈コンテンツが含まれています。

図 2. SUP-AD データセットからの注釈付きサンプル。

著者らはまた、図 3 に示すように、10 万枚以上の画像と 1,000,000 枚以上の画像とテキストのペアを含む、提案されたタスクの自動運転計画のためのシーン理解 (SUP-AD) データセットを構築するための包括的なデータ マイニングおよび注釈パイプラインを提案しました。具体的には、まずロングテールオブジェクトマイニングとチャレンジングシーンマイニングを実行して大規模なデータベースからサンプルを収集し、次に各サンプルからキーフレームを選択し、さらにシーンの注釈付けを実行します。

図 3. シーン理解および計画データセットの構築に使用されるデータ マイニングおよび注釈パイプライン (上)。データセットからランダムにサンプリングされたシーンの例 (以下) は、データセットの多様性と複雑さを示しています。

SUP-AD は、7.5:1:1.5 の比率でトレーニング、検証、テストの部分に分かれています。著者らは、トレーニング分割でモデルをトレーニングし、新たに提案されたシーン記述とメタアクションメトリックを使用して、検証/テスト分割でのモデルのパフォーマンスを評価します。

nuScenes データセットは、それぞれ約 20 秒間続く 1000 のシーンを含む大規模な都市シーンの運転データセットです。キーフレームはデータセット全体にわたって 2Hz で均一に注釈が付けられます。ここでは、変位誤差 (DE) と衝突率 (CR) をメトリックとして使用して、検証セグメンテーションにおけるモデルのパフォーマンスを評価します。

著者らは、いくつかの大規模な視覚言語モデルを使用して DriveVLM のパフォーマンスを実証し、表 1 に示すように、それらを GPT-4V と比較しています。 DriveVLM は Qwen-VL をバックボーンとして利用しており、応答性と柔軟なインタラクションを特徴とする他のオープン ソース VLM と比較して最高のパフォーマンスを実現します。最初の 2 つの大規模モデルはオープンソース化されており、微調整トレーニングに同じデータを使用しましたが、GPT-4V はプロンプト エンジニアリングに複雑なプロンプトを使用しました。

表 1. SUP-AD データセットのテストセットの結果。ここでは GPT-4V の公式 API が使用されています。Lynx と CogVLM の場合、トレーニング分割は微調整に使用されます。

表 2 に示すように、DriveVLM-Dual は、VAD と組み合わせると、nuScenes 計画タスクで最先端のパフォーマンスを実現します。これは、新しい方法が複雑なシーンを理解するために調整されているにもかかわらず、一般的なシーンでも優れたパフォーマンスを発揮することを示しています。 DriveVLM-Dual は UniAD に比べて大幅な改善を達成していることに注意してください。平均計画変位誤差は 0.64 m 減少し、衝突率は 51% 減少しました。

表 2. nuScenes 検証データセットの計画結果。 DriveVLM-Dual は最適なパフォーマンスを実現します。 † は Uni-AD を使用した知覚および占有予測の結果を示します。 ‡ は VAD で動作していることを示します。すべてのモデルは自我状態を入力として受け取ります。

図4. DriveVLMの定性的な結果。オレンジ色の曲線は、モデルが今後 3 秒間に計画する将来の軌道を表します。

DriveVLM の定性的な結果を図 4 に示します。図 4a では、DriveVLM が現在のシーンの状況を正確に予測し、近づいてくる自転車に関する思慮深い計画決定を組み込んでいます。 DriveVLM は、前方の交通警察のジェスチャーも効果的に理解し、自車にそのまま進むよう合図し、右側を走る三輪車に乗っている人物も考慮して、正しい運転判断を下しました。これらの定性的な結果は、複雑なシナリオを理解し、適切な運転計画を作成する DriveVLM モデルの優れた能力を示しています。

図 7: SUP-AD データセット内のさまざまな運転シナリオ。

図 9. SUP-AD データセット内の牛と羊の群れの例。牛の群れが車両の前をゆっくりと移動しているため、ポリシーでは車両がゆっくりと移動し、牛から安全な距離を保っていると推測する必要があります。

図 16. DriveVLM 出力の視覚化。 DriveVLM は、倒れた木とその位置を正確に検出し、適切な迂回軌道を計画できます。

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

音声認識:市場の見通しは有望だが、コア技術にはまだブレークスルーが必要

人工知能製品が私たちの生活の中でますます普及するにつれて、テクノロジーの発展は社会の関心の焦点となっ...

34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

数学的推論は言語モデルが避けることのできない問題点です。さまざまなブラックテクノロジーのサポートがあ...

モノのインターネットにおける人工知能の役割

私たちの周りのあらゆるものがどうしてこんなにスマートになったのか、不思議に思ったことはありませんか?...

...

劉烈宏:中国の中核人工知能産業の規模は今年上半期に770億元に達した

[[354052]] 11月24日、工業情報化部の劉烈宏副部長は人工知能サブフォーラム「人工知能:新...

...

中国科学院深圳先端技術研究所:新しい知識強化グラフニューラルネットワークが説明可能な推奨を実現

近年、ビッグデータとディープラーニングに基づく人工知能は、驚くべきコンピューティング能力と学習能力を...

360、認知汎用大型モデル「360 Brain 4.0」をリリース、360ファミリーバケットに完全統合

「デジタルヒューマン『周紅一』を我が社のスポークスマンにしよう。彼が正しいことを言ったら、それは私の...

IoT人工知能の将来動向

AI と IoT の融合は拡大し続けており、刺激的な将来のトレンドと機会への道を切り開いています。 ...

...

希望の産業:AIが屋内農業を再定義

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

YouTube 動画推奨アルゴリズムを破る方法

[[176814]]映画、ドラマ、テレビ番組、オンライン ビデオなどの配信チャネルのコンテンツ ワー...

2020 年の生体認証市場 - パンデミックによる業界の動向の変化

生体認証技術市場は、COVID-19の流行により大きな影響を受けるでしょう。 接触のみの生体認証を採...

人工知能トレーナーの秘密を明かす:新しい職業、AIの教師になるのは簡単ではない

[[322342]]現在、人工知能はさまざまな分野でその力を発揮しています。特に、電子商取引サービス...

AI と Wi-Fi 6: 家庭内 Wi-Fi の革命を推進

固定ネットワークが F5G (第 5 世代) 時代に入るにつれ、家庭用 Wi-Fi テクノロジも、新...