新たなレベルに到達しましょう!自動運転とインテリジェント交通における視覚言語モデルの最新の応用

新たなレベルに到達しましょう!自動運転とインテリジェント交通における視覚言語モデルの最新の応用

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文 &&いくつかの考察

現在、VLMとLLMは、特に自動運転の分野で非常に人気があります。自動運転の入力はそれ自体がマルチモーダルであり、その中で最も重要なのは画像と言語情報です。そのため、画像とテキスト情報をどのように総合的に活用するか、LLMをどのように最大限に活用するかが、現在緊急に探究される必要があります。現在、テキスト情報を活用したり、説明可能性を提供したりするために、自動運転へのVLMとLLMの応用に関するいくつかの研究が実際に行われています。しかし、実際には、自動運転へのVLMとLLMの応用はそれだけではありません。知覚、意思決定、計画など、組み合わせることができる場所はたくさんあります。これらの方向から始めて、組み合わせの方向性を探ることができます。さらに、自動運転の分野だけでなく、CV 分野全体でも、物体検出、セグメンテーション、追跡、分類、歩行者 ReID、車両 ReID など、この分野では将来的に多くの作業が行われる予定です。これらはすべて、VLM と LLM の助けを借りて新しい運転構造を再考できるため、パフォーマンスを新しいレベルに引き上げることができます。

この作品の意義

視覚言語モデル (VLM) は、その優れたパフォーマンスと大規模言語モデル (LLM) を活用する能力により、自動運転 (AD) やインテリジェント交通システム (ITS) の分野で大きな注目を集めています。言語データを統合することで、車両や交通システムは実際の環境をより深く理解し、運転の安全性と効率を向上させることができます。この研究では、現在のモデルとデータセットを含む、この分野における言語モデルの進歩に関する包括的な調査を提供します。さらに、潜在的な応用と新たな研究の方向性についても議論します。最後に、課題と研究のギャップについて包括的に議論します。

貢献とは何ですか?

スマートモビリティは現代文明に不可欠であり、経済成長を促進し、都市開発をサポートし、社会的つながりを強化します。近年、ディープラーニングとコンピューティング能力の急速な発展は輸送に大きな影響を与え、効率とインテリジェンスを向上させています。スマートモビリティの2つの新興分野は、自動運転 (AD) とインテリジェント交通システム (ITS) です。

自動運転は、車両が周囲の環境を認識してインテリジェントに運転できるようにすることを目指しています。現在の自動運転技術、特に知覚と予測に関連する技術は、コンピューター ビジョンの進歩から大きな恩恵を受けています。たとえば、認識モジュールは通常、畳み込みニューラル ネットワーク (CNN) またはトランスフォーマーを使用して、カメラや LiDAR などのセンサーからのデータを処理して、周囲のエンティティを正確に識別し、その位置を特定します。しかし、これらの技術革新にもかかわらず、現在のコンピューター ビジョン ソリューションは、複雑で急速に変化する環境において依然として困難に直面しています。複雑な詳細を捉えたり、状況を理解できなかったりすることが多く、潜在的な安全上の問題につながり、より高度な自動運転への進歩が制限されます。

一方、インテリジェント交通システムは交通の安全性とモビリティの向上を目的としていますが、その効率性と信頼性は長年にわたって向上しているものの、依然として課題が残っています。たとえば、リアルタイムの交通量予測は、天候、衝突事故、道路工事などのさまざまな環境要因の影響を受けやすくなります。

LLM と VLM の出現により、現在の自動運転システムやインテリジェント交通システムに内在する限界に対する潜在的な解決策が提供されます。これらの新しい技術は言語と視覚データを組み合わせて、車両やシステムが周囲の状況を深く理解する未来への希望をもたらします。これは、スマートで効率的かつ説明可能な輸送の新しい時代の始まりです。物体検出や交通流予測など、AD または ITS における従来のタスクの強化に加えて、次の図に示すように、ゼロショット認識や事故分析などの新しい領域も登場しています。

言語モデルを自動運転やインテリジェントシステムに適用する研究が急増していることを考えると、体系的かつ包括的な調査は研究コミュニティにとって非常に重要です。しかし、既存の研究は、LLM、VLM、AD、TS の各分野に焦点を当てており、AD および ITS における VLM の応用を体系的に検討したレビューはありません。

この目的のために、私たちは、研究コミュニティの最新の技術動向に焦点を当てながら、自動運転とインテリジェント交通システムにおける視覚言語モデルの既存のアルゴリズムをレビューします。

全体的な枠組みは以下のとおりです

この研究の主な貢献は次のように要約できます。

  • これは、自動運転およびインテリジェント交通システムにおける視覚言語モデルの応用に関する初の包括的な調査です。
  • 既存の研究とデータセットを体系的に要約し、分析します。
  • 自動運転およびインテリジェント交通システムにおける VLM の潜在的な応用と技術的進歩について説明します。
  • この分野における課題と研究のギャップについて詳細に議論します。

背景紹介

このセクションでは、主に自動運転、インテリジェント交通システム、大規模言語モデル、視覚言語モデルについて紹介します。

自動運転

自動運転の目標は、人間の介入なしに自動的にナビゲートおよび制御できる車両を開発し、事故を減らし、交通効率を向上させることです。自動車技術協会は、運転自動化レベルをレベル 0 (自動化なし) からレベル 5 (完全自動化) まで定義しています。自律性が高まるにつれて、人間の介入は減少し、車両の環境に対する理解は高まります。現在、ほとんどの商用車はレベル 2 またはレベル 3 であり、部分的な自動化は実現しているものの、依然としてドライバーによる監視が必要です。既存の自動運転ソリューションは、従来のモジュール型パラダイムとエンドツーエンドのアプローチに大別できます。しかし、これらのソリューションは、解釈可能性、一般化、因果関係の混乱、堅牢性などの深刻な課題に直面しています。研究者たちはこれらの問題に対処するためにさまざまな方法を試みてきましたが、安全で安定した説明可能な自動運転システムの構築は未解決の問題のままです。

インテリジェント交通システム

インテリジェント交通システム (ITS) は、高度なテクノロジーを使用して、より広範な輸送環境を最適化することで、輸送の効率と安全性を向上させます。 ITS では、道路センサーや道路利用者などのさまざまなソースからのリアルタイム データを統合することにより、適応型交通信号制御からリアルタイム交通監視、事故検出と予測、交通流予測、協調型車両インフラストラクチャ システムまで、幅広いサービスとアプリケーションが提供されます。 ITS センシング、通信、機械学習技術の進歩により、その応用範囲は拡大しましたが、依然としていくつかの重要な課題に対処する必要があります。運転は、他の交通参加者との頻繁なやり取りを必要とする社会的活動ですが、現在のシステムには、人間が頼りにする知性と常識がまだ欠けています。

大規模言語モデル

大規模言語モデル (LLM) とは、一般的に、多数のパラメータ (多くの場合 10 億以上) を持つ言語モデルを指します。 LLM の最も注目すべき特徴は、幅広い下流タスクで少数ショットまたはゼロショットの転移学習を実行する機能、強力なマルチステップ推論機能、および通常は小規模モデルにはない指示に従う機能など、新たな機能を発揮することです。 ChatGPT、特に GPT-3.5 は、LLM 開発におけるマイルストーンとなります。 GPT-3.5はリリース以来、その優れたパフォーマンスで注目を集めています。これまでは解決が困難であった、あるいは不可能であった問題を解決するために、LLM の強力な言語理解、解釈、分析、推論機能を探求し、活用し始めている研究者が増えています。

視覚言語モデル

ビジョン言語モデル (VLM) は、自然言語処理 (NLP) とコンピューター ビジョン (CV) の機能を組み合わせて、テキストとビジョンの境界を打ち破ります。

LLM の台頭に伴い、マルチモーダル タスクを実行するためにビジョン モジュールを LLM に効果的に統合する方法の探求にますます注目が集まっています。

AD では、主流の視覚言語モデルは、入力および出力モダリティの種類に応じて、マルチモーダルからテキスト (M2T)、マルチモーダルからビジョン (M2V)、ビジョンからテキスト (V2T) に大別されます。図に示すように、

M2T は通常、画像テキストまたはビデオテキストを入力として受け取り、出力としてテキストを生成します。同様に、M2V は画像テキストを入力として受け取り、出力として画像またはビデオを生成し、V2T は画像またはビデオを入力として受け取り、出力としてテキストを生成します。

下の図に示すように、

モダリティ間の情報接続方法に応じて、AD で使用される VLM は、Vision-Text-Fusion (VTF) と Vision-Text-Matching (VTM) に分けられます。 VTF は、さまざまな融合方法を使用して視覚埋め込みと言語埋め込みを効果的に統合し、対象タスクの特徴表現を共同で最適化します。対照的に、画像とテキストのマッチングやビデオとテキストのマッチングを含む VTM は、画像とテキストのペアを意味的に近づけ、ペアになっていないインスタンスを互いに遠ざけることで、共同表現空間を学習し、クロスモーダルな意味的整合とクロスモーダルな意味的伝播を実現します。 CLIP は VLM における重要なマイルストーンであり、多数の画像とテキストのペアの対照学習を通じて言語関連の画像特徴表現をキャプチャし、ゼロショットのサンプル転送機能を実現します。

自動運転における視覚言語モデル(VLM)の応用

VLM は自動運転においてますます研究されています。このセクションでは、知覚と理解、ナビゲーションと計画、意思決定と制御、エンドツーエンドの AD、データ生成など、AD における既存の VLM の取り組みについて紹介します。現在の方法は表にまとめられている。

認識と理解

自動運転の認識においては、特に大規模な画像とテキストのマッチングデータセットで事前トレーニングされた VLM モデルが、多くの新しい研究を推進してきました。これらの研究では、事前にトレーニングされた VLM の豊富な事前知識を活用して知覚と理解のパフォーマンスを向上させ、さらに多くの新しいタスクを導入しました。

歩行者検知

歩行者検出における固有の課題には、人間のような物体の混同や限界ケースのサンプル不足などがあります。この目的のために、VLPD は初めて視覚言語の追加注釈の方法を提案し、紛らわしい人間のような物体を区別するモデルの能力を強化しました。主な方法は、CLIP を使用してピクセルごとに明確な意味コンテキストを取得し、対照学習を通じて歩行者の特徴と他のカテゴリの特徴の間の距離を計算し、より広範囲のケースの検出能力を向上させることです。 UMPD は、CLIP のゼロショット セマンティクスも活用し、手動注釈なしで完全に教師なしのマルチビュー歩行者検出方法を提案します。

オブジェクト参照

物体検出、追跡、セマンティックセグメンテーションなどの従来の認識タスクと比較して、言語を導入することで、モデルは周囲の環境についてよりきめ細かく包括的かつ制約のない理解を得ることができます。

オブジェクト参照 (OR) はこの分野の典型的なタスクであり、その目的は言語クエリに従ってボックスまたはマスクで対応するオブジェクトを表示することです。

MSSG は、自動運転シナリオにおけるマルチモーダル 3D 単一オブジェクト表現 (SOR) タスクを提案しました。これは、鳥瞰図 (BEV) の下で画像、LiDAR、言語機能を融合してマルチモーダル シングルショット ローカリゼーション モデルをトレーニングし、後処理なしで検出器から直接オブジェクト領域を予測します。 TransRMOT は、SOR タスクをマルチオブジェクト参照および追跡 (MOR-T) に拡張し、KITTI データセットに基づいて Refer-KITTI ベースラインを構築します。言語クエリを指定すると、TransRMOT はビデオ内の任意の数の参照を検出して追跡できます。同様に、PromptTrack[21]はnuScenesデータセット用の言語プロンプトのセットを提案し、NuPromptベースラインを構築した。 ReferKITTI と比較すると、NuPrompt は nuScenes のマルチビュー プロパティを継承しているため、マルチビュー MOR-T タスクに適しています。

オープンボキャブラリー 3D オブジェクト検出とセマンティックセグメンテーション

VLM のゼロショット機能とクロスモーダル機能により、オブジェクト検出とセマンティックセグメンテーションの両方で、未知のサンプルに対してオープンボキャブラリの検出とセグメンテーションを実行できます。 UP-VL フレームワークは、まず、ポイントレベルの特徴とオブジェクトレベルの境界ボックス、およびオープン語彙のカテゴリに依存しない 3D 検出器の監視のための追跡情報を生成するための、教師なしのマルチモーダル自動ラベリング パイプラインを提案します。これは、推論時に 3D 境界ボックスを提供するのにも使用されます。 UP-VL フレームワークは、類似性マッチングによって割り当てられたセマンティック ラベルと組み合わせることで、AD シナリオにおける静止および移動中の交通参加者の教師なしオープン ボキャブラリ 3D 検出および追跡 (OV-3DOD-T) を実現します。 OpenScene は 2D-3D 投影対応を使用して、3D ポイント クラウド埋め込みと対応する融合された 2D 画像機能間の一貫性を強化します。基本的に、3D ポイント クラウド表現を CLIP の画像テキスト表現と整合させて、高密度 3D ポイント フィーチャのゼロ ショット理解機能を実現します。OpenScene は主に屋内シーンで評価されますが、Nuscenes 上でも有望なオープン ボキャブラリ 3D セマンティック セグメンテーション (OV-3DSS) 機能を発揮します。 CLIP2Scene は、CLIP を使用して自動運転における 3D シーンの理解を支援する方法を探ります。 CLIP2Scene は、ピクセル テキスト マッピングとピクセル ポイント マッピング間のモダリティ間の関連性を見つけることで、対照学習トレーニング用のポイント テキスト ペアとピクセル ポイント テキスト ペアを構築します。客観性は、3D ポイント フィーチャとそれに対応する言語が意味的な一貫性を実現し、OV-3DSS を容易にすることを保証することも目的としています。実験では、事前トレーニングとして CLIP2Scene を使用すると、他の自己教師型手法よりもはるかに優れていることが示されています。

交通現場の理解

交通状況を正確にかつ高度に理解することは、運転の安全にとって非常に重要です。下の図では、

GPT-4V の理解能力の例は、交通事故のシナリオと潜在的に危険な都市道路のシナリオで示されています。特定の下流タスクを通じて交通状況を理解するために VLM を利用する探索的な研究がいくつかあります。たとえば、シーン画像を記述することで交通シーンを理解したり、視覚情報を言語記述に変換したりして、LLM の強力な推論能力を使用して意味異常検出 (SAD) を解決できます。 NuScenes-QA は、nuScenes データセットに基づいて自動運転シナリオにおける視覚的な質問応答 (VQA) タスクのベースラインを確立し、その後の研究の基盤を提供します。 Talk2BEV は、鳥瞰図 (BEV) 検出モデル、高密度キャプション モデル、テキスト認識モデルを使用して、実際の言語を強化した BEV マップを構築し、VQA タスクに基づいて視覚的および空間的な理解におけるモデルのパフォーマンスを評価します。現在、この分野での研究はまだ初期段階にあり、今後この分野ではますます興味深い研究が行われるようになると信じています。

ナビゲーションと計画

ナビゲーションの分野では、VLM の進歩、特に CLIP の導入により、言語ガイド ナビゲーション (LGN) タスクが特定の定義済み位置の説明から自由で任意の指示へと拡大し始め、言語強化マップの開発も促進されました。

言語ナビゲーション

Talk to the Vehicle は、意味的占有と事前定義された自然言語エンコーディング (NLE) をローカルランドマークにマッピングするランドマーク生成ネットワーク (WGN) を提案します。次に、計画モジュールはローカルランドマークを使用して実行軌道を予測します。 Ground then Navigation は、CLIP を使用して言語ナビゲーション タスクを解決します。ビデオ フレーム、履歴軌道コンテキスト、言語コマンドを入力として受け取り、各タイムスタンプで予測されたナビゲーション マスクと軌道を出力するパイプラインを提案します。 ALT-Pilot は、従来のメモリと計算コストの高い HD LiDAR マップの代替として、道路標識、交通信号、その他の重要な環境特性などの言語ランドマークを組み込むことで、OpenStreetMap (OSM) 道路ネットワークを拡張します。 ALT-Pilot は、CLIP を活用して推論時に各ランドマークの特徴記述子を事前計算し、コサイン類似度を使用してピクセルレベルの視覚記述子と照合することで、口頭によるナビゲーション指示から地図上の場所への対応を容易にし、マルチモーダルな位置特定とナビゲーションを支援します。

予測と計画

LLM を使用して動作計画と軌道予測のパフォーマンスを向上させる方法を探る研究もいくつか始まっています。 GPT-driver は、動作計画を言語モデリングの問題として再定式化し、その強力な推論機能と一般化機能を活用するという考えのもと、GPT-3.5 モデルを自動運転用の動作プランナーに変換します。 CoverNet-T は、テキストベースのシーン記述とラスター化されたシーン画像を使用して、軌道予測用のジョイント エンコーダーをトレーニングする方法を提案します。これは、テキストベースのシーン表現が画像エンコーディングの利点を補完し、ジョイント エンコーダーがそれぞれのエンコーダーよりも優れていることを示しています。

意思決定と管理

自動運転の意思決定と制御の分野では、LLM の強力な常識理解と推論機能を活用してドライバーを支援したり、ドライバーをシミュレートして完全に置き換えたりする試みがいくつか行われてきました。 AD の閉ループ制御に LLM を利用することで、ほとんどの研究では、運転シーン、経験、その他の重要な運転情報を記録するためのメモリ モジュールが導入されています。

LanguageMPC は、LLM を意思決定コンポーネントとして使用し、人間の常識的な理解を必要とする複雑な自動運転シナリオを解決します。 Drive as You Speak は、LLM を自動運転に統合し、それに応じて他のモジュールを調整するためのフレームワークを提案します。ドライバーは LLM を通じて車両と直接通信できます。このフレームワークには、過去の運転シーンの経験をベクトル データベースに保存するメモリ モジュールが含まれており、これには意思決定の手がかり、推論プロセス、その他の貴重な情報が含まれます。 LLM は、得られた経験と常識に基づいて決定を下します。 DiLU は人間のドライバーの運転方法を研究し、推論、記憶、および反射モジュールを使用して LLM と環境の相互作用を促進するパラダイムを提案します。このアプローチは、人間のドライバーの知識主導の能力を自動運転システムに組み込みます。 DwLLM は、交通参加者と環境をオブジェクト レベルのベクトルとしてエンコードします。モデルが運転シナリオを理解し、運転アクションを生成できるように、2 段階の事前トレーニングと微調整のアプローチを採用しています。 SurrealDriver は、CARLA シミュレーターで実行される LLM に基づくヒューマノイド自動運転フレームワークを提案します。 LLM は、記憶と安全メカニズムを通じて、状況の理解、意思決定、行動の生成を実現できます。また、人間のドライバーの運転習慣を学習し、閉ループで運転スキルを継続的に最適化します。 DLaH は、GPT-3.5 と LLaMA-Adapter v2 に基づく自動運転システムを構築するために、推論、解釈、およびメモリ モジュールを導入しました。シーンの理解とシミュレーションにおけるロングテール問題の解決において強力な機能を発揮します。

既存の自動運転の制御と意思決定作業は完全に低レベルロジックモデル (LLM) に依存していますが、ビジョン LLM コネクタを介して認識モジュールと簡単に接続して、ミッドツーミッドまたはエンドツーエンドの自動運転を実現できます。

さらに、自動運転システム向けに特化され適用可能な視覚言語モデル (VLM) コネクタを設計することも有望な方向性です。近い将来、多くの仕事が生まれると信じています。

エンドツーエンドの自動運転

エンドツーエンドの自動運転システムは、生のセンサーデータを入力として受け取り、計画や低レベルの制御アクションを出力として生成する完全に微分可能なシステムであり、VLM の M2T モデルの構造に適合します。この自然な相乗効果により、M2T VLM モデルをエンドツーエンドの自動運転に適用する可能性を探る研究もいくつか始まっています。従来のエンドツーエンドの自動運転システムと比較して、大規模 VLM に基づくエンドツーエンドの自動運転システムは、強力な説明可能性、信頼性、および複雑なシーンの理解機能を備えており、エンドツーエンドの自動運転の実用化と実現への道を開きます。 DriveGPT4 は、大規模な VLM を使用したエンドツーエンドの自動運転タスクに関する先駆的な研究であり、生のセンサー データと人間の質問を入力として受け取り、予測された制御信号と対応する回答を出力します。 LLM の強力なゼロショット機能を保持し、未知の状況に対処できます。 ADAPT は、Transformer モデルに基づくエンドツーエンドの自動運転プロセスを提案します。ビデオ入力により、ADAPT は制御信号と、操作の説明文および推論文を継続的に出力します。 DriveGPT4 とは異なり、ADAPT には視覚的な質問回答モジュールは含まれていませんが、代わりに説明可能なエンドツーエンドの自動運転を視覚的なキャプション生成タスクに変換します。

データ生成

生成ネットワークの進歩と成功により、条件付き生成モデルを自動運転に適用することで、大規模で高品質なデータを生成できるようになり、データ駆動型自動運転の開発が促進されます。 DriveGAN は、運転中のビデオ シーケンスとそれに対応する制御信号を学習します。シーンコンポーネントをアクション依存機能とアクション非依存機能に分解することで、生成されたビデオ内の車両の動作を制御できます。この機能により、高忠実度で制御可能なニューラル シミュレーションと自動運転データの生成が可能になります。 BEVControl は、スケッチ スタイルの BEV レイアウトとテキスト プロンプトを入力として受け取り、街の風景のマルチビュー画像を生成します。コントローラーとコーディネーターの要素を導入して、スケッチと出力間の幾何学的一貫性、およびマルチビュー画像間の外観の一貫性を確保します。このアプローチにより、BEV スケッチに基づいて制御可能な自動運転シナリオのサンプル生成が可能になります。いくつかの研究では、より合理的で予測可能かつ構造化された環境シミュレーションを実現するために、自動運転データ生成に世界モデルを組み込んでいます。 DriveDreamer は、実際の運転シナリオから完全に学習した自動運転の世界モデルです。トレーニングには 2 つの段階があります。まず、実際の運転ビデオから運転シナリオを理解してモデル化し、構造化された交通情報を取得します。第 2 段階では、ビデオ予測タスクを通じて運転世界モデルを構築し、予測機能を獲得します。 GAIA-1 は、ビデオ、アクション、テキストの説明を入力として受け取り、世界モデルの力を活用して構造化された表現を学習し、環境を理解し、これらの入力を一連のトークンにエンコードします。そして、ビデオデコーダーとしてノイズ除去ビデオ拡散モデルを採用し、非常にリアルなビデオを実現します。

インテリジェント交通システムにおけるVLMの応用

インテリジェント交通システムはますます普及しつつあり、完全な自律運転機能を実現するための重要なステップとなっています。 ITS は通常、マルチセンサー セットアップで構成されており、豊富で高密度なセマンティック情報のため、カメラがほぼ常に存在します。 AD と同様に、VLM も、ITS の認識と理解、ITS 管理システム、ITS における VLM の潜在的な応用など、多くの側面で ITS の開発を促進できます。現在の作業は次の表に示されています。

ITSの認識と理解

交通インフラに設置されるマルチセンサーシステムの数が急増し、ITS の機能が大幅に強化されました。これにより、交通環境のより包括的な認識と理解が促進され、ITS は複雑な交通シナリオを正確に識別して解釈できるようになります。

言語ガイド付き車両検索

車両検索は、ITS の認識と理解の重要な要素です。この方向に研究者の注目を集めるために、AI City Challengeでは自然言語記述に基づく車両検索をチャレンジタスクとして開催しました。この共同の取り組みの一環として、自然言語ベースの車両の多粒度検索方法が提案されています。重要な概念は、言語拡張に基づいたマルチクエリ検索モジュールを導入することです。このモジュールのアイデアは、複数の不完全な言語記述を活用して、より高い堅牢性と精度を実現することです。さらに、MLVR は、テキストと画像の抽出器を使用して特徴をエンコードし、ビデオ認識モジュールを通じてビデオ ベクトル シーケンスを生成する、マルチモーダル言語車両検索フレームワークを提案しました。 MLVR は、さまざまな車両機能を組み合わせたモジュールを統合することで、マッチング制御用のより豊富な車両ベクトルを作成し、言語ガイドによる検索を可能にします。

交通視覚シーン推論

ITS において、VLM を活用するもう 1 つの新しい分野は、視覚的なシーン イベントの理解であり、これは多くの場合、視覚的な質問応答 (VQA) タスクとして定式化されます。文献70では、自動生成されたタイトルに基づいて、交通分野における弱教師付きビデオ質問応答と自動字幕作成法を提案した。主な貢献は、オンラインで利用可能な都市交通ビデオを自動生成された合成キャプションで微調整し、トレーニング済みモデルに追加の交通ドメイン知識を注入することにあります。文献71では、イベントレベルの質問推論の時間的因果関係のコンテキストを識別するために、クロスモーダル質問推論フレームワークが提案されました。注意ベースのモジュールは、時間的な因果関係のコンテキストと質問のペアを学習できます。文献 72 では、時間的な依存性を学習することで画像とビデオのドメイン間のギャップを減らすために Tem-Adapter が導入されました。交通ビデオの質問回答タスクで優れたパフォーマンスを示します。 AnomalyCLIP は、ビデオ異常検出に CLIP モデルを使用します。異常カテゴリを指定し、コンテキスト最適化を使用することで、正常なサンプルと異常なサンプルを区別し、モデルが異常なインスタンスを識別できるようになります。 AnomalyCLIP は、道路脇の異常検出を含むさまざまなデータセットで有望な結果を達成します。 VLM 強化セマンティック異常認識アルゴリズムは、ITS における災害や緊急対応にさらに拡張できます。

ITS管理システム

ITS 管理システムは、リアルタイムの認識とシーン理解に基づいて、交通システムの運用の安全性と効率性を向上させます。交通信号を管理し、道路状況の最新情報をタイムリーに提供し、タイムリーな事故警報を提供することで、スムーズな交通の流れを促進します。交通管理。先駆的な研究では、交通流管理、特に交通信号制御の分野における LLM の応用が研究されてきました。 PromptGAT は、フィールドアクション遷移に対するプロンプトベースのアプローチを導入します。これは、交通信号制御の実際のアプリケーションにおけるシミュレーションから現実への移行問題を解決するための LLM の最初のアプリケーションです。 LLM を使用して気象条件が交通状況や道路の種類に与える影響を理解することで、実際のシナリオにおけるポリシーの適用性が向上し、シミュレーションと現実のギャップが効果的に縮小されます。

潜在的な用途

さまざまなアプローチでさまざまな交通シナリオにおける VLM の機能が検討されてきましたが、ITS における VLM の潜在能力はまだ十分に活用されていません。

事故予測と検出

事故をタイムリーに検出し予測する能力は、道路の安全を確保する上で非常に重要です。現在の視覚ベースの交通事故検出 (TAD) と交通事故予測 (TAA) は、ロングテールおよび安全性が重要な属性、複雑なシーンの進化、過酷な環境、決定​​論的な不確実性など、さまざまな課題に依然として直面しています。大規模モデル VLM は、ゼロショット一般化、シーンの深い理解、境界ケースの識別、およびマルチステップ推論における優れた機能を備えており、現在の課題に対処するための有望なソリューションになります。

クラッシュレポート

迅速な衝突分析により交通効率が向上し、さらなる渋滞を防ぐことができます。 M2V 条件付き生成仮想言語モデルは潜在的な解決策を表します。運転手が録画したビデオ映像とその説明を活用することで、モデルは事故現場の物語を即座に生成することができます。事故発生時のドライバーの供述に基づき、不測の事態に対処するための対応時間を大幅に短縮できます。

駐車場管理システム

スマート パーキング ソリューションは、言語ガイド付きナビゲーションや動作計画の分野で実証された LLM の計画機能を活用して、都市部での駐車スペースの検索にかかる時間を大幅に短縮できます。駐車スペース管理システムと統合することで、車両に音声ガイドによるルート案内を提供し、駐車管理を支援することができます。このアプローチは、車両側の音声ガイド付きナビゲーション システムとインターフェイスすることでさらに強化され、自動駐車ソリューションを実現できる可能性があります。

データセット

このデータセットの詳細については、次の表を参照してください。

話し合う

このセクションでは、これまでの議論に基づいて、自動運転とインテリジェント交通システムにおける言語モデルに関連する課題と研究のギャップについて詳細に議論し、将来の研究の潜在的な方向性を概説します。

自動運転基本モデル

既存の基本モデルには、ビジュアル基本モデル、言語基本モデル、マルチモーダル基本モデルが含まれており、これらは自動運転基本モデル (ADFM) の実現可能性の基礎となります。 ADFM は、多種多様なデータセットで事前トレーニングされたモデルとして定義され、解釈可能性、推論、予測、およびイントロスペクション機能に優れ、認識、理解、計画、制御、意思決定などのさまざまな自動運転タスクで効率的です。いくつかの研究では予備的な試みがなされているが、自動運転の客観性を維持できるように既存の基本モデルをADFMに適応させる方法は、まだ比較的未開拓の領域である。

データの可用性と形式

既存の大規模な自動運転データセットは多数存在していますが、それらは AD および ITS の LLM で直接使用するには適していません。たとえば、ADFMの適応性に対応するためのADデータセットと設計命令形式に基づいて命令調整データセットを生成する方法はほとんどありません。さらに、大規模な画像テキストトラフィック固有のペアデータセットは、特にオブジェクトの検出、セマンティックセグメンテーション、言語誘導ナビゲーション、およびVTM事前トレーニングモデルに依存する言語誘導検索方法の開発にも非常に役立ちます。

安全な運転アライメント

LLMは、人間の価値と矛盾し、アライメントを必要とする偏った有害なコンテンツを生成する場合があります。同様に、10の自律運転ベースモデルをトレーニングするとき、安定した安全で健康的な運転価値を順守するために、制御戦略、意思決定、および対応メカニズムを安全基準と調整することが重要です。 LLMSアライメント調整に関しては、人間のフィードバック(RLHF)からの強化学習や監視付きアライメント調整などの既存の手法は、この分野で試す価値があります。

マルチモーダル適応性

前述のように、モーション計画、制御、および意思決定にLLMを使用した現在の方法は、多くの場合、既存の知覚アルゴリズムまたはシミュレーターから直接抽出された既存の認識アルゴリズムを介して、センサーデータをテキスト式に直接変換します。このモジュール式アプローチは実験を簡素化しますが、コンテキストと環境情報の喪失につながり、知覚アルゴリズムのパフォーマンスに大きく依存する可能性があります。したがって、自律的な運転シナリオでは、VTM、VTF、または両方のハイブリッドのいずれかを介して視覚的に言語的なつながりを確立する可能性を研究し、単純な手動改造の代替方向として追求する価値があります。

一時的なシーンの理解

自律的な運転のシーンの理解とそれは通常、ビデオからの一時的な情報を必要とし、交通環境と交通参加者のダイナミクスと因果関係を継続的に知覚し、理解する必要があります。画像レベルのVLMのみを使用するだけでは十分ではありません。たとえば、単一の画像から自動車事故の特定の原因を判断することは不可能です。下記の通り

したがって、トラフィックシーンで一時的なセンサーデータを処理する方法は、まだ調査する必要がある問題です。考えられるアプローチの1つは、ビデオから言語モデルをトレーニングすることです。このモデルでは、既存のビデオから言語へのすべてのアダプターに潜在的なアプリケーション値があります。別の可能なルートには、ビデオデータを、時間的アダプター層の必要な統合と微調整を通じて、画像言語モデルによって処理できるパラダイムに変換することにより、交通環境での時空情報を理解するモデルの能力が向上します。

コンピューティングリソースと処理速度

リアルタイム処理と限られたコンピューティングリソースは、自律運転およびインテリジェントな輸送システムの展開をモデル化するために大きな課題をもたらします。現在のLLMは通常、数十億のパラメーターを含むため、微調整と推論の両方が高度にリソース集約的であり、リアルタイムの要件を満たすことができません。これらの問題を軽減できる既存のテクノロジーがいくつかあります。たとえば、パラメーター効率的な微調整(PEFT)は、満足のいくモデルパフォーマンスを維持しながら、トレーニング可能なパラメーターの数を減らし、それにより微調整中のリソース消費を最小限に抑えます。さらに、一般的なLLMとは異なり、自律運転に必要な知識は通常、専門的でドメイン固有であり、LLMに含まれる知識のほとんどは実際に自律運転に冗長です。したがって、それは知識の蒸留を使用して、自律運転に適した小さなモデルを訓練するための実行可能なアプローチです。量子化や剪定など、深い学習における他の一般的なモデル圧縮技術もこれに適用されます。

結論は

このレビューは、自律運転およびインテリジェント輸送システムにおける視覚言語モデル(VLM)の背景、現在の進捗、潜在的なアプリケーション、および将来の開発方向を要約しています。この分野のいくつかの重要なタスク、方法、およびデータセットを包括的に要約および分析します。現在の研究に基づいて、この作業は、現在の課題、潜在的な解決策、将来の研究の方向性について詳しく説明しています。

紙リンク:https://arxiv.org/abs/2310.14414

オリジナルリンク:https://mp.weixin.qq.com/s/qggg0nk7jxv40zxj1f3kcg

<<:  GenAI はクラウド コンピューティングの ROI を向上できますか?

>>: 

ブログ    

推薦する

...

2015年9月のプログラミング言語ランキング: 新しいインデックスアルゴリズムにより急上昇が解消

9月に、TIOBE Indexは改良されたアルゴリズムを使用してプログラミング言語の人気度を計算しま...

ビッグデータの3つの柱:データ、ブロックチェーン、アルゴリズム

[[180308]]環境は常に変化し、新しいテクノロジーが登場し、新しい組織が絶えず構築されており、...

データマイニング分野のトップ10の古典的なアルゴリズムの1つであるC4.5アルゴリズム(超詳細なコード付き)

古典的なデータマイニングアルゴリズムのトップ 10 は次のとおりです。導入C4.5 は決定木アルゴリ...

セマンティックウェブからナレッジグラフへ

[[379872]] 【はじめに】「遠く離れた親友は遠い国を近づける」これは、Shi Tou兄弟が私...

ChatGPTを忘れてください。この新しいAIアシスタントは人々の働き方を永遠に変えるでしょう

翻訳者 |ブガッティレビュー | Chonglou私はしばらくの間ChatGPTとBardを使用して...

ディープラーニングモデルの圧縮と加速モデル推論

導入機械学習モデルを本番環境にデプロイする場合、モデルのプロトタイプ作成フェーズでは考慮されていなか...

...

2021年に注目すべき5つのRPAトレンド

RPA ツールの使用はここ数年で急増しています。今年のパンデミックにより、組織は、特に RPA が最...

2020年のディープラーニングに必要なGPUは?48Gのビデオメモリが推奨

ご存知のとおり、現在業界で最も強力な (SOTA) ディープラーニング モデルは、膨大な量のビデオ ...

過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)過去 2 ...