マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

大規模なマルチモーダルモデルを自動運転の意思決定者として使用すると、驚くほど効果的ですか?

SenseTime の最新の自動運転モデルである DriveMLM は、閉ループテストの最も権威のあるリストである CARLA で SOTA 結果を達成しました。

実行スコアはベースラインの Apollo より 4.7 ポイント高く、従来のモジュール方式やエンドツーエンド方式はすべて比較にならないほど劣っています。

このモデルでは、画像、LIDAR 情報、交通ルール、さらには乗客のニーズを入力するだけで、車両を直接制御し、なぜこのように運転する必要があるのかを伝えてくれるような運転プランを提供できます。

これにより、運転ロジックが制御可能になり、プロセスが説明可能になるだけでなく、特殊で複雑な状況の解決も改善されます。

緊急車両に道を譲るなどでしょうか?小型ケース:

急いでいると言っていましたが、追い越しできますか？また、柔軟に対応することもできます (a は追い越し成功、b は車線が空いておらず追い越しが拒否される)。

あまり驚かないでくださいね〜

どのように実装されているかを確認するために論文を見てみましょう。

マルチモーダルLLMが自動運転の問題を解決

現在、自動運転システムには、モジュール型とエンドツーエンド型の 2 つの主なソリューションがあります。

名前が示すように、モジュール式ソリューションは、自動運転タスクを、認識、位置決め、調整と制御の 3 つのモジュールに分割します。各モジュールは独自のタスクを完了し、最終的に車両制御信号を出力します。

エンドツーエンドモデルは、知覚や測位など上記すべてのモジュールの機能を包含し、最終的に車両制御信号を出力する全体モデルです。

しかし、これら 2 つのソリューションにはそれぞれ欠点があります。

モジュラーソリューションのアルゴリズムは専門知識に依存しており、すべてのルールを手書きで事前に定義する必要があります。実際の運転シナリオで事前にシステムを書き込んでいないと、システム障害が発生する可能性が高くなります。例えば、救急車や消防車など交通ルールを守らない車両は、自動運転システムに任せてしまうと簡単にミスを犯してしまう可能性があります。

エンドツーエンドのソリューションはデータ駆動型に依存しています。大量の実際の運転データに依存してシステム機能の反復を継続的に駆動できますが、入力データに対する要件も非常に高く、大量のラベル付きデータが必要になるため、システムのトレーニングと反復のコストが必然的に増加します。

同時に、現在まで、エンドツーエンドソリューションのニューラルネットワークは依然として「ブラックボックス」であり、意思決定と計画はすべてシステム内で完了しており、説明可能性に欠けています。問題が発生した場合、モジュール式ソリューションの場合のように、どの部分に問題があるのかを突き止めるのは困難です。

エンドツーエンドのソリューションの解釈可能性を高めるために、近年の多くの研究では、大規模言語モデル (LLM) を自動運転システムに導入しています。ただし、LLM の出力は主に言語であり、車両制御にさらに使用できないという欠点があります。

これに対し、SenseTimeは、既存の自動運転システム行動計画モジュールの決定状態と一致し、閉ループテストで車両を制御できるDriveMLMモデルを提案し、従来のエンドツーエンドおよびルールベースの自動運転システム方式を上回りました。

与えられた画像に基づいて軌道を予測するオープンループテストと比較して、クローズドループテストは実際の環境とシナリオをシミュレートでき、実際の運転効果に近くなります。

具体的には、その全体的な枠組みを図に示します。

まず、LLM の言語決定出力を、成熟したモジュールソリューション内の規制および制御部分の決定ステータスと一致させ、LLM によって出力された言語信号を車両制御信号に変換できるようにします。

次に、DriveMLM の MLLM プランナーモジュールは、マルチモーダルトークナイザーと MLLM デコーダーの 2 つの部分で構成されています。

前者は、カメラ、LIDAR、ユーザー言語要件、交通ルールなどのさまざまな入力を統一されたトークン埋め込みに変換する役割を担い、後者、つまり MLLM デコーダーは、ここで生成されたトークンに基づいて、画像の説明、運転の決定、および決定の説明を生成します。

DriveMLM は、280 時間の運転データ (50,000 ルート、さまざまな天候や照明条件の 30 のシナリオ) に基づいてトレーニングされています。

このデータはすべて、現在自動運転の分野で最も広く使用されているオープンソースのシミュレーションツールおよびクローズドループテストベンチマークである CARLA シミュレーターから収集されます。

形式は次のとおりです。各フレームには、対応する画像の説明、運転の決定、決定の説明の 3 つの部分が含まれます。

△データケース

既存の自動運転データと比較すると、DriveMLM のデータは 2 つの点で異なります。

まず、決定部分を実際の行動決定モジュールと調整できるため、MLLMプランナーの出力を制御信号に変換して、閉ループ運転で車両を直接制御することが容易になります。

2 つ目は、人間とのインタラクションデータが含まれるため、システムが人間の指示を理解して応答する能力が向上することです。

では、上記のすべての実装に基づいて、DriveMLM の具体的な効果は何でしょうか?

実際に実行でき、説明可能

まず、業界の他の運転方法と比較して、DriveMLM はクローズドループテストで SOTA 結果を達成します。

CARLA で広く使用されている Town05Long ベンチマークでは、その運転スコアとルート完了は、Apollo などの非大規模モデル手法よりも大幅に高くなっています。

唯一僅差で負けたのは違反スコアでしたが、アポロとほぼ同じでした。

これは、DriveMLM が交通規制を遵守しながら、より良い決定を下すことができることを示唆しています。

さらに、DriveMLM (Miles Per Intervention) は MPI 指標でもかなりのリードを持っており、同じ走行距離内での手動による引き継ぎが少なく、より信頼性が高いことを示しています。

以下のデモから、DriveMLM が未知の障害物の回避など、さまざまな複雑な状況に対処できることがわかります。

たとえば、緊急車両に道を譲るには:

特に注目すべきは、大型モデルの自然言語処理能力によって、より人間味が増している点です。言語指示を通じて、人間の乗客の特別なニーズにも対応でき、MLLM プランナーの決定をさらに変えることができます。

例えば、「急いでいるから、もっとスピードを出してくれないかな？」と聞かれても、実際の道路状況に合わせて柔軟に対応してくれます。追い越せるときは追い越し、無理なときは断るなど、かなり「思いやり」があります。

第二に、GPT-4V などの他の大規模なマルチモーダルモデルと比較して、DriveMLM のパフォーマンスも優れており、決定精度が高く、説明も合理的です。

下の図に示すように、GPT-4V は多くのことを説明しましたが、赤信号 (a) / 前方の車両 (b) を認識できず、間違った提案をしました。一方、DriveMLM は両方のシナリオでシンプルでわかりやすく、正しい運転方法を示しました。

最後に、DriveMLM は、実際の運転シナリオ (nuScenes 検証セットに基づく) でゼロショット機能も実証しました。

下の図に示すように、DriveMLM は実際の環境で赤信号を認識して停止したり (左)、実際の交差点の位置を推測して事前に減速したり (右) することができます。

一般的に、上記のテストは、マルチモーダル大規模モデルの機能の助けを借りて、SenseTime が提案する DriveMLM が実際にインテリジェント運転に大きな可能性を示したことを証明しています。

一連の従来の方法と比較すると、その最大の利点と価値は主に次の 3 つの側面にあります。

まず、一貫した意思決定指示設定により、DriveMLM は既存のモジュール式 AD システム (Apollo など) に直接接続できるため、大きな変更を加えることなく閉ループ運転を実現し、実際に車を走らせることができます。

2 番目に、自然言語コマンドを直接入力して、乗客のニーズや高レベルのシステムメッセージを伝え、モデルに処理させることができます。

このようにして、自動運転システムは、より多様で高度な運転シナリオに適応することができます。

3 番目に、ビッグモデルに基づいて、結果を出力するだけでなく、論理的推論プロセスの特性も示します。DriveMLM によって実行されるすべてのアクションと選択には、その理由を説明する詳細な説明が続きます。

言うまでもなく、説明可能性と安全性の間には強い相関関係があります。DriveMLM の高い説明可能性は、より安全で透明性の高い自動運転システムを継続的に開発するのに役立ちます。

自動運転の未来は大きなモデルにかかっている

自動運転には間違いなく ChatGPT の時代が来ると信じる人もおり、早ければ今年中にも実現するかもしれません。

どうやって到着しますか？

業界では一般的に大型モデルに注目が集まっています。

センスタイムの共同創設者兼主任科学者である王暁剛氏は最近、次のように意見を述べた。

今後1～2年は、スマートカーにおける重要な進歩が起こる時期となるでしょう。
エンドツーエンドのデータ駆動型自動運転であれ、インテリジェントコックピットブレインであれ、それらは大規模なモデルに基づいているでしょう。

彼は次のように指摘した。「インテリジェント運転の面では、このビッグモデルは、知覚、融合、位置決め、意思決定、調整、制御などの一連のモジュールの機能を網羅し、接続し、さまざまなコーナーケースを真に解決します。」

センスタイムの今回の成果は、大規模モデル、特に複数の種類のデータを処理できるマルチモーダル LLM を使用して意思決定を行うことで、自動運転機能を大幅に向上できることを示しています。

最も重要なことは、自動運転システムが人間に近づき、一定レベルの常識を持ち、運転環境とルールを適切に理解できることです。

そのため、システムは手書きのルールへの依存から解放され、前述の前方の道路の曲がり角や事前の減速の必要性など、これまで遭遇したことのない運転シナリオに遭遇した場合、システムが自動的に対処することができます。

これまでのセンサーデータに加え、人間の言語入力も車両制御プロセスに参加できます。システムは意図を理解し、実際の状況に基づいて運転の決定を下すことができます。

実際、大規模なモデルを自動運転に適用することに関しては、SenseTime DriveMLM は業界の前例ではありません。

しかし、ビッグモデルを運転判断に適用する業界初のソリューションとして、車両の実際の制御を実現し、車両側でのエンドツーエンドのソリューションの構築を容易にします。ビッグモデルという新しいソリューションの大きな可能性を見ることができるので、注目する価値があります。

また、センスタイムといえば、自動運転の経験も持っています。

つい最近、彼らの自動運転のための統合知覚および意思決定の汎用大規模モデルが、CVPR 2023「計画指向の自動運転」の最優秀論文に選ばれました。DriveMLMはこの成果に基づくフォローアップ研究です。

最後に、DriveMLM が実際に量産車両に搭載される日が待ち遠しいです。

それで、このビッグモデルの新しいソリューションは有望だと思いますか?まだ取り組む必要がある課題は何だと思いますか?

<<: 賈陽青の新たな起業：AIGCプロンプトツールのリリース、SDXLを詳細にプレイするのに役立ついくつかの言葉

>>: OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

ブログ

AIOps 実装をスムーズに開始するための 3 つのヒント

ブログ

マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

マルチモーダルLLMが自動運転の問題を解決

△データケース

実際に実行でき、説明可能

自動運転の未来は大きなモデルにかかっている

AIOps 実装をスムーズに開始するための 3 つのヒント

C++ kmp アルゴリズムテンプレートコード解釈

南京大学の周志華氏と清華大学の胡世民氏が学者候補に選出されました！コンピュータ分野合計7名

Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

金融AIの実装は難しいですか？ガートナー: AI のユースケースを 3 倍にするには 4 つのステップが必要

持続可能なAI: イノベーションと環境責任のバランス

推薦する

InnoDB ストレージエンジンの 3 つの行ロックアルゴリズムの図解と例の分析

ついに、データ、情報、アルゴリズム、統計、確率、データマイニングをわかりやすく説明してくれる人がいました!

コグニティブコンピューティングによる運用・保守は効果的でしょうか?

ラブライブ！AI論文発表：生成モデルが楽譜を自動生成

Appleは自動車製造を諦めてAIに目を向けたが、Li Xiang氏はこう答えた。「その通りだ！」その背後にある真実は人々に深く考えさせる

人工知能は人類を情報社会から知能社会へと導く

オフライン認識率が最大99%のオープンソースPython顔認識システム〜

ゲーム開発における機械学習の活用

AIをホームセキュリティに活用する方法

仮想現実プログラムを使用してテストされた人工視覚技術は、視覚障害者の自立を支援する

マイクロソフトは、対話してマルチモーダルコンテンツを生成できる AI モデル CoDi をリリースしました。