次世代の自動運転システムには大規模なモデルが必要であり、システムの研究がここにある

大規模言語モデル (LLM) とビジュアルグラウンデッドモデル (VFM) の出現により、大規模モデルの恩恵を受けるマルチモーダル AI システムは、現実世界を完全に認識し、人間のように意思決定を行う可能性を秘めています。近年、LLMは自動運転研究において大きな注目を集めています。 LLM には大きな可能性があるにもかかわらず、駆動システムにおける主要な課題、機会、将来の研究方向については、まだ論文で明らかにされていません。

この記事では、テンセントマップ、パデュー大学、UIUC、バージニア大学の研究者がこの分野で体系的な調査を実施しました。本研究では、まずマルチモーダル大規模言語モデル（MLLM）の背景、LLMを使用したマルチモーダルモデルの開発の進展を紹介し、自動運転の歴史を振り返ります。次に、この研究では、運転、交通、マッピングシステム用の既存の MLLM ツールと既存のデータセットの概要を示します。この研究では、自動運転に LLM を適用した最初のワークショップである、自動運転のための大規模言語および視覚モデル (LLVM-AD) に関する最初の WACV ワークショップの作業も要約しています。この分野の発展をさらに進めるために、本研究では、MLLM を自動運転システムに適用する方法と、学界と産業界が共同で取り組む必要があるいくつかの重要な問題についても議論します。

レビューリンク: https://arxiv.org/abs/2311.12320
ワークショップリンク: https://llvm-ad.github.io/
Github リンク: https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving

レビュー構造

マルチモーダル大規模言語モデル (MLLM) は、LLM の推論機能と画像、ビデオ、オーディオデータを組み合わせることで、画像分類、テキストと対応するビデオのアライメント、音声検出などのマルチモーダルアライメントを通じてさまざまなタスクをより効率的に実行できるため、最近、幅広い注目を集めています。さらに、いくつかの研究では、LLM がロボット工学の分野で単純なタスクを処理できることが実証されています。しかし、自動運転分野における MLLM の統合はまだ非常に遅く、GPT-4、PaLM-2、LLaMA-2 などの LLM が既存の自動運転システムを改善する可能性があるかどうか疑問に思わざるを得ません。

このレビューでは、研究者らは、LLM を自動運転の分野に統合することで、運転認識、動作計画、人間と車両の相互作用、動作制御に大きなパラダイムシフトをもたらし、ユーザー中心で、より適応性が高く、より信頼性の高い将来の交通ソリューションを提供できると主張しています。認識の面では、LLM はツール学習を使用して外部 API を呼び出し、高精度の地図、交通レポート、天気情報などのリアルタイムの情報ソースにアクセスできるため、車両は周囲の環境をより包括的に理解できるようになります。自動運転車は、リアルタイムの交通データを読み取った後、LLM を使用して混雑したルートを推測し、効率と安全運転を向上させるための代替パスを提案できます。動作計画や人間と車両の相互作用において、LLM はユーザー中心のコミュニケーションを促進し、乗客が日常言語でニーズや好みを表現できるようにします。モーションコントロールの面では、LLM はまず、ドライバーの好みに応じて制御パラメータをカスタマイズし、運転体験をパーソナライズできるようにします。さらに、LLM は、モーション制御プロセスの各ステップを説明することで、ユーザーに透明性を提供できます。このレビューでは、将来の SAE L4-L5 自動運転車では、MLLM が統合された視覚ディスプレイや音声応答を通じてリアルタイムの車内および運転フィードバックを提供することで、乗客が運転中に言語、ジェスチャー、さらにはアイコンタクトを使用して要求を伝えることができるようになると予測されています。

自動運転とマルチモーダル大規模言語モデルの開発史

自動運転 MLLM の研究概要: 現在のモデルの LLM フレームワークには、主に LLaMA、Llama 2、GPT-3.5、GPT-4、Flan5XXL、Vicuna-13b が含まれます。この表の FT、ICL、PT は、微調整、コンテキスト学習、事前トレーニングを指します。文献リンクは github リポジトリを参照できます: https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving

自動運転とLLMの架け橋を築くために、関係する研究者は、2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)で、初の自動運転向け大規模言語およびビジョンモデル (LLVM-AD) ワークショップを開催しました。このワークショップは、学術研究者と業界の専門家の協力を強化し、自動運転の分野でマルチモーダル大規模言語モデルを実装する可能性と課題を探ることを目的としています。 LLVM-AD は、後続のオープンソースの現実世界の交通言語理解データセットの開発をさらに促進します。

自動運転のための大規模言語およびビジョンモデル (LLVM-AD) に関する第 1 回 WACV ワークショップでは、合計 9 件の論文が採択されました。いくつかの論文は、自動運転におけるマルチモーダル大規模言語モデルをテーマとしており、ユーザーと車両の相互作用、動作計画、車両制御への LLM の統合に焦点を当てています。いくつかの論文では、自律走行車における人間のようなインタラクションと意思決定のための LLM の新しい応用についても検討されました。たとえば、「Drive Like a Human」や「Drive as You Speak」では、複雑な運転シナリオを解釈して推論し、人間の行動を模倣するための LLM のフレームワークを探ります。「LLM を使用した人間中心の自律システム」では、LLM のユーザー中心設計の重要性を強調し、LLM を使用してユーザーコマンドを解釈します。このアプローチは、人間中心の自律システムへの大きな転換を表しています。このワークショップでは、LLM の融合に加えて、純粋なビジョンとデータ処理に基づくいくつかの方法についても取り上げます。さらに、ワークショップでは革新的なデータ処理および評価方法も提案されました。たとえば、NuScenes-MQA は、自動運転データセット用の新しい注釈スキームを導入します。これらの論文は総合的に、言語モデルと高度な技術を自動運転に統合する進歩を示しており、より直感的で効率的、そして人間中心の自動運転車への道を開いています。

将来の発展のために、本研究では以下の研究方向を提案しています。

1. 自動運転におけるマルチモーダル大規模言語モデルのための新しいデータセット

大規模言語モデルは言語理解において成功を収めていますが、それを自動運転に適用するのは依然として困難です。これは、これらのモデルが、パノラマ画像、3D ポイントクラウド、高精度マップなどのさまざまなモダリティからの入力を統合して理解する必要があるためです。現在、データのサイズと品質に制限があるため、既存のデータセットではこれらの課題に完全に対処することが困難です。さらに、NuScenes [13]などの初期のオープンソースデータセットから注釈が付けられた視覚言語データセットは、運転シナリオにおける視覚言語理解の堅牢なベンチマークを提供しない可能性があります。したがって、自動運転アプリケーションにおけるこれらのモデルのパフォーマンスを効果的にテストし、強化するためには、広範囲の交通および運転シナリオをカバーし、以前のデータセットのロングテール（不均衡）分布問題を補う、新しい大規模なデータセットが緊急に必要です。

2. 自動運転における大規模言語モデルのハードウェアサポート

自動運転車のさまざまな機能には、さまざまなハードウェア要件があります。車内で運転計画や車両制御を行うために LLM を使用する場合、安全性を確保するためにリアルタイム処理と低遅延が求められ、計算要件が増加し、電力消費に影響します。 LLM がクラウドに導入される場合、データ交換の帯域幅がもう 1 つの重要なセキュリティ要素になります。対照的に、ナビゲーション計画や運転に関係のないコマンド（車内での音楽再生など）の分析に LLM を使用する場合、大量のクエリやリアルタイムのパフォーマンスは必要ないため、リモートサービスは実現可能なソリューションになります。将来的には、自動運転における LLM は知識の蒸留を通じて圧縮され、コンピューティング要件とレイテンシが削減される可能性があります。この分野には、まだ開発の余地が大いにあります。

3. 大規模言語モデルを用いた高精度マップの理解

HD マップは、車両が動作する物理環境に関する重要な情報を提供するため、自動運転車両技術において重要な役割を果たします。 HD マップのセマンティックマップレイヤーは、物理環境の意味とコンテキストを捉えるため、非常に重要です。この情報を次世代の LLM 駆動型自動運転に効果的にエンコードするには、これらのマルチモーダル機能を言語空間にマッピングする新しいモデルが必要です。テンセントは、アクティブラーニングに基づくTHMA高精度地図AI自動注釈システムを開発しました。これは、数十万キロメートルの高精度地図の作成とマーキングが可能です。この分野の発展を促進するため、テンセントはTHMAに基づくMAPLMデータセットを提案しました。このデータセットには、パノラマ画像、3D LIDARポイントクラウド、コンテキストベースの高精度マップ注釈、および新しい質問応答ベンチマークMAPLM-QAが含まれています。

4. 人間と車両の相互作用における大規模言語モデル

人間と車両の相互作用や人間の運転行動の理解も、自動運転における大きな課題となります。人間の運転手は、道を譲るために減速したり、ボディランゲージを使って他の運転手や歩行者とコミュニケーションをとるなど、非言語的な合図に頼ることが多いです。これらの非言語的信号は、道路上でのコミュニケーションにおいて重要な役割を果たします。自動運転車の挙動は他のドライバーにとって予期できないことが多かったため、過去には自動運転システムが関与する事故が数多く発生しています。将来的には、MLLM はさまざまなソースからの豊富なコンテキスト情報を統合し、ドライバーの視線、ジェスチャー、運転スタイルを分析して、これらの社会的信号をよりよく理解し、効率的な計画を立てることができるようになります。 LLM は他のドライバーの社会的信号を推定することで、自動運転車の意思決定能力と全体的な安全性を向上させることができます。

5. パーソナライズされた自動運転

自動運転車が開発されるにつれて、ユーザーの個々の運転の好みにどのように適応するかが重要な考慮事項になります。自動運転車はユーザーの運転スタイルを模倣すべきだという意見が広まりつつある。これを実現するには、自動運転システムは、ナビゲーション、車両メンテナンス、エンターテイメントなど、さまざまな分野でユーザーの好みを学習し、統合する必要があります。 LLM の指示調整機能とコンテキスト学習機能は、ユーザーの好みや運転履歴情報を自動運転車に統合し、パーソナライズされた運転体験を提供するのに最適です。

要約する

自動運転は長年にわたり注目を集め、多くのベンチャーキャピタリストの関心を集めてきました。 LLM を自動運転車に統合するには特有の課題がありますが、それを克服することで既存の自動運転システムが大幅に強化されます。 LLM がサポートするスマートコックピットは、運転シナリオやユーザーの好みを理解し、車両と乗員の間により深いレベルの信頼関係を確立する能力を持つことが予測されます。さらに、LLM を導入した自動運転システムは、歩行者の安全と車両乗員の安全のトレードオフを伴う倫理的なジレンマにうまく対処できるようになり、複雑な運転シナリオでも倫理的である可能性の高い意思決定プロセスを促進します。この論文は、WACV 2024 LLVM-AD ワークショップ委員会メンバーからの洞察を統合し、研究者が LLM 技術を活用した次世代の自律走行車の開発に貢献するよう刺激を与えることを目的としています。

<<:

>>: