ワールドモデルや DriveGPT などの大規模モデルは自動運転に何をもたらすのでしょうか?

ワールドモデルや DriveGPT などの大規模モデルは自動運転に何をもたらすのでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

今年はビッグモデルが大人気となり、多くの分野での応用が雨後の筍のように湧き出しました。データ生成とシーン分析・表現を中心に、ロングテール分布問題や自動運転のシーン認識の解決に重点を置いた優れた作品が数多く登場しました。本日の「Heart of Autonomous Driving」では、自動運転業界における大規模モデルアプリケーションの主なソリューションを紹介します。すべての論文は下記リンクからダウンロードできます!

1. 適応する

ADAPT: アクション認識型運転字幕トランスフォーマー(ICRA2023)

ADAPT は、エンドツーエンドのトランスフォーマーベースのアーキテクチャ ADAPT (Action-Aware Driving caption transformer) を提案します。これは、自動運転車の制御と動作のためのユーザーフレンドリーな自然言語のナレーションと推論を提供します。 ADAPT は、ビデオ表現を共有することで、運転字幕タスクと車両制御予測タスクを共同でトレーニングします。

全体的なアーキテクチャ:

ADAPTフレームワークの概要、(a) 入力は車両の前方ビュービデオであり、出力は予測された車両制御信号と、現在のアクションに関する説明と推論です。まず、ビデオ内の T フレームを高密度かつ均一にサンプリングし、学習可能なビデオ swin トランスフォーマーに送信して、ビデオ タグでラベル付けします。さまざまな予測ヘッドが最終的なモーション結果とテキスト結果を生成します。 (b) (c) 予測ヘッドを表示する

2. ベグPT

自動運転の予測、意思決定、計画のための生成型事前トレーニング済み大規模モデル。(AAAI2024)

BEVGPT は、予測、意思決定、動作計画を統合した、初めての生成型、自己教師型の事前トレーニング済み大規模モデルです。 BEV 画像を入力し、自車の軌跡を出力し、運転シナリオの予測を出力できるようにします。このソリューションでは、トレーニング用の高精度マップが必要です。 GPT と呼ばれるのは、GPT スタイルの自己回帰トレーニング方法を使用するためです。自己回帰の入力は過去の軌跡と BEV であり、ターゲットは次の BEV と軌跡です。一方、生成することも可能です。つまり、最初のフレームの BEV が与えられれば、アルゴリズムは自動的に次のマルチフレーム BEV シーンを生成することができます。この方法は、センサー入力からエンドツーエンドの方法ではなく、知覚に基づく結果として見ることができます。後続のモジュールはモデルでモデル化されます。また、実践においても重要な応用価値を持っています。たとえば、大量の運転フィードバックデータの知覚結果と軌跡の真理値に基づいて、運転エキスパートモデルをトレーニングできます。

全体構造:

3. ドライブGPT4

DriveGPT4 大規模言語モデルによる解釈可能なエンドツーエンドの自動運転

過去 10 年間で、自動運転は学界と産業界の両方で急速に発展しました。しかし、その説明可能性の限界は依然として大きな未解決の問題であり、自動運転の開発を著しく妨げています。小規模言語モデルを使用したこれまでのアプローチでは、柔軟性、一般性、堅牢性が欠如していたため、この問題に対処できませんでした。過去 2 年間、ChatGPT の登場により、マルチモーダル大規模言語モデル (LLM) は、テキストを介して非テキスト データ (画像やビデオなど) を処理して推論する能力により、研究コミュニティで大きな注目を集めています。そのため、自動運転と大規模言語モデルを組み合わせようとする取り組みが始まっています。現在、自動車業界の方々がご紹介する DriveGPT4 は、LLM の解釈可能な実装を使用するエンドツーエンドの自動運転システムです。 DriveGPT4 は、車両の動作を解釈して対応する推論を提供するだけでなく、ユーザーからのさまざまな質問に答えてインタラクションを強化することができます。さらに、DriveGPT4 は、エンドツーエンドで車両の動作制御を予測します。これらの機能は、自動運転専用に設計されたカスタム調整された視覚指示データセットから得られます。 DriveGPT4 は、説明可能なエンドツーエンドの自動運転に焦点を当てた世界初の研究でもあります。 DriveGPT4 は、従来の方法やビデオ理解 LLM と並行して複数のタスクで評価した場合、最先端の定性的および定量的パフォーマンスを示します。

4. 人間のように運転する

人間のように運転する: 大規模言語モデルによる自動運転の再考。

コード: https://github.com/PJLab-ADG/DriveLikeAHuman

著者らは、理想的な AD システムは人間のように運転し、継続的な運転を通じて経験を積み、常識を使って問題を解決するべきだと提案しています。この目標を達成するために、AD システムに必要な 3 つの主要な機能、つまり推論、解釈、記憶を特定しました。 LLM の理解と環境相互作用機能を実証するための閉ループ システムを構築することで、運転シナリオで LLM を使用する実現可能性が実証されます。広範囲にわたる実験により、LLM がロングテールケースを推論して解決する優れた能力を発揮することが実証され、人間のような自動運転の開発に貴重な洞察を提供します。

5. LLM取得者と運転

LLM を使用した運転: 説明可能な自動運転のためのオブジェクトレベルのベクトル モダリティの融合。

大規模言語モデル (LLM) は、特に一般化と解釈可能性の点で、自動運転の分野で有望であることが示されています。この論文では、ベクトル化されたデジタル モダリティと事前トレーニング済みの LLM を組み合わせて、運転状況におけるコンテキストの理解を向上させる、独自のターゲット レベルのマルチモーダル LLM アーキテクチャを紹介します。この論文では、10,000 の運転シーンからの 160,000 の QA ペアと、RL エージェントによって収集された高品質の制御コマンド、および教師 LLM (GPT-3.5) によって生成された質問と回答のペアで構成される新しいデータセットも提案しています。独自の事前トレーニング戦略は、ベクトル字幕言語データを使用して、数値ベクトル モダリティを静的 LLM 表現と一致させるように設計されています。この論文では、運転品質保証の評価基準も紹介し、運転シナリオの解釈、質問への回答、意思決定における LLM ドライバーの熟練度を実証しています。従来の行動クローニングと比較して、LLM ベースの運転アクション生成の可能性が強調されています。さらに調査を進めるためのベンチマーク、データセット、モデルも提供しています。

モデル構造:

LLM 運転アーキテクチャの概要。運転シミュレータからのオブジェクトレベルのベクトル入力を使用して、LLM 経由でアクションを予測する方法を示します。

6. ヒルム-D

HiLM-D: 自動運転のためのマルチモーダル大規模言語モデルにおける高解像度の理解に向けて。

自動運転システムでは通常、タスクごとに別々のモデルが使用されるため、設計が複雑になります。単一のマルチモーダル大規模言語モデル (MLLM) を利用して、ビデオ内の複数の自動運転タスク、つまり危険物体の位置特定と意図および提案予測 (ROLISP) タスクを統合するのは今回が初めてです。 ROLISP は自然言語を使用して、危険なオブジェクトを同時に識別および解釈し、自車両の意図を理解し、アクションの提案を提供するため、タスク固有のアーキテクチャが不要になります。しかし、高解像度 (HR) 情報が不足しているため、既存の MLLM を ROLISP に適用すると、小さなオブジェクト (例: 交通コーン) を見逃したり、目立つオブジェクト (例: 大型トラック) に過度に焦点を当てたりする傾向があります。本稿では、ROLISPタスクのMLLMに人材情報を組み込む効果的な方法であるHiLM-D(自動運転のためのMLLMの高解像度理解に向けて)を提案します。

HiLM-D は 2 つのブランチを統合します。

(i)低解像度推論ブランチは、低解像度のビデオを処理して危険なオブジェクトを描写し、自車両の意図/提案を識別する任意のMLLMです。

(ii) HiLM-Dの顕著な高解像度知覚ブランチ(HR-PB)は、HR画像を取り込み、視覚的に特定のHR特徴マップをキャプチャし、顕著なオブジェクトのみよりもすべての潜在的なリスクを優先することで検出を強化します。HR-PBは、現在のMLLMにシームレスに適応するプラグアンドプレイモジュールとして機能します。 ROLISP ベンチマークの実験では、HiLM-D が主要な MLLM に比べて大きな利点を達成し、字幕の BLEU-4 で 4.8% の改善、検出の mIoU で 17.2% の改善を達成していることが示されています。

7. 言語MPC

LanguageMPC: 自動運転の意思決定者としての大規模言語モデル。

この研究では、人間の常識的な理解を必要とする複雑な AD シナリオの意思決定コンポーネントとして、大規模言語モデル (LLM) を導入しています。認知経路は LLM の包括的な推論を可能にするように設計され、LLM の決定を実行可能な運転コマンドに変換するためのアルゴリズムが開発されました。このアプローチでは、ガイド付きパラメータ マトリックス適応を介して、LLM の意思決定が低レベル コントローラーとシームレスに統合されます。広範囲にわたる実験により、提案された方法は単一車両タスクにおいてベースライン方法よりも一貫して優れているだけでなく、LLM の常識的推論能力により、複雑な運転行動や複数車両の調整にも役立つことが実証されています。この論文は、セキュリティ、効率性、一般化可能性、相互運用性の観点から、複雑な AD シナリオに対する効果的な意思決定者として LLM を活用するための第一歩を踏み出したものであり、この分野の将来の研究のインスピレーションの源となることを願っています。

ネットワーク構造:

8. 計画指向型自動運転

今年のCVPR2023の最優秀論文です! UniAD は、認識、予測、決定のプロセスに従って、トークンの形式で各タスクを機能レベルで深く統合し、各タスクが相互にサポートしてパフォーマンスの向上を実現します。 nuScenes データセットのすべてのタスクにおいて、UniAD は SOTA パフォーマンスを達成します。これは、他のすべてのエンドツーエンド メソッドよりも優れており、特に予測と計画においては他のモデルをはるかに上回っています。 UniADは、統合された知覚と意思決定を実現する業界初の汎用大規模自動運転モデル​​として、運転計画の支援を強化し、「マルチタスク」と「高性能」を実現し、車両運転の信頼性と安全性を確保します。これを踏まえると、UniAD には大きな応用可能性と価値があります。

9. ウェッジ

WEDGE: 生成視覚言語モデルから構築された、多天候自動運転データセット。

開けた道路では、極端な天候など、自律的な認識に多くの課題が伴います。 Good Weather データセットでトレーニングされたモデルは、これらの分布外データ (OOD) 設定では検出に失敗することがよくあります。知覚における敵対的堅牢性を高めるために、プロンプトを介して視覚言語生成モデルによって生成された合成データセットである WEDGE (DALL-E GEneration による天気画像) を導入します。 WEDGE は、16 の極端な気象条件下における 3360 枚の画像で構成され、16513 個の境界ボックスで手動で注釈が付けられており、気象分類と 2D オブジェクト検出タスクの研究をサポートします。著者らは研究の観点からWEDGEを分析し、極端な気象の自律的認識におけるその有効性を検証した。著者らはまた、テスト精度 53.87%、mAP 45.41 で分類と検出のベースライン パフォーマンスを確立しました。 WEDGE を使用すると検出器を微調整でき、トラックなどのカテゴリでは実際の気象ベンチマーク (DAWN など) での SOTA パフォーマンスが 4.48 AP 向上します。

オリジナルリンク: https://mp.weixin.qq.com/s/jJkwrf_-1mjO4yGjbJXb3Q

<<:  自動運転のためのエンドツーエンドの計画方法の概要

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ロボットをもっと速く走らせたい?人工知能で制御しよう

四足歩行ロボットはもはや誰にとっても馴染みのない存在ではないはずです。ほとんどの人はメディアや企業の...

...

能力が高くても給料が高くならない?これらの考えはあなたに合うでしょう

2019年ももうすぐ終わり。何もなかったこの一年を振り返って、最も給与が高い職種はどれでしょうか?ア...

Google Brain の公開: アルゴリズムのエラー修正と AI バイアスの解決に重点を置く

テンセントテクノロジーニュース、1月29日、海外メディアの報道によると、グーグルCEOサンダー・ピチ...

LangChain と Redis が協力して何かを実現しています!財務文書分析の精度を向上させるツールを作成する

著者 | タニスタ編纂者:Xing Xuan制作:51CTO テクノロジースタック(WeChat I...

座標系の変換を本当に理解していますか?自動運転にはマルチセンサーが不可欠

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?以前、Google の大ヒット...

ディープラーニングフィードフォワードニューラルネットワークの簡単な紹介

索引多層パーセプトロン (MLP) 入門ディープニューラルネットワークの活性化関数ディープニューラル...

...

ChatGPT を使用すると、開発と学習の効率が向上するだけでなく、奥さんとの関係にも役立ちますか?

2024年初頭にChatGPTが人気を博して以来、コーディングを支援するさまざまなAIGCツールに...

Java プログラミング スキル - データ構造とアルゴリズム「基数ソート」

[[394975]]基数ソート基数ソートは「分散ソート」に属し、「バケット ソート」または「ビン ...

...

モデル量子化とエッジAIがインタラクションを定義する方法

AI とエッジ コンピューティングの融合により、多くの業界が変革されるでしょう。移植性を向上させ、モ...

...