マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

大規模なマルチモーダルモデルを自動運転の意思決定者として使用すると、驚くほど効果的ですか?

SenseTime の最新の自動運転モデル​​である DriveMLM は、閉ループ テストの最も権威のあるリストである CARLA で SOTA 結果を達成しました。

実行スコアはベースラインの Apollo より 4.7 ポイント高く、従来のモジュール方式やエンドツーエンド方式はすべて比較にならないほど劣っています。

このモデルでは、画像、LIDAR 情報、交通ルール、さらには乗客のニーズを入力するだけで、車両を直接制御し、なぜこのように運転する必要があるのか​​を伝えてくれるような運転プランを提供できます。

これにより、運転ロジックが制御可能になり、プロセスが説明可能になるだけでなく、特殊で複雑な状況の解決も改善されます。

緊急車両に道を譲るなどでしょうか?小型ケース:

急いでいると言っていましたが、追い越しできますか?また、柔軟に対応することもできます (a は追い越し成功、b は車線が空いておらず追い越しが拒否される)。

あまり驚かないでくださいね〜

どのように実装されているかを確認するために論文を見てみましょう。

マルチモーダルLLMが自動運転の問題を解決

現在、自動運転システムには、モジュール型とエンドツーエンド型の 2 つの主なソリューションがあります。

名前が示すように、モジュール式ソリューションは、自動運転タスクを、認識、位置決め、調整と制御の 3 つのモジュールに分割します。各モジュールは独自のタスクを完了し、最終的に車両制御信号を出力します。

エンドツーエンドモデルは、知覚や測位など上記すべてのモジュールの機能を包含し、最終的に車両制御信号を出力する全体モデルです。

しかし、これら 2 つのソリューションにはそれぞれ欠点があります。

モジュラーソリューションのアルゴリズムは専門知識に依存しており、すべてのルールを手書きで事前に定義する必要があります。実際の運転シナリオで事前にシステムを書き込んでいないと、システム障害が発生する可能性が高くなります。例えば、救急車や消防車など交通ルールを守らない車両は、自動運転システムに任せてしまうと簡単にミスを犯してしまう可能性があります。

エンドツーエンドのソリューションはデータ駆動型に依存しています。大量の実際の運転データに依存してシステム機能の反復を継続的に駆動できますが、入力データに対する要件も非常に高く、大量のラベル付きデータが必要になるため、システムのトレーニングと反復のコストが必然的に増加します。

同時に、現在まで、エンドツーエンドソリューションのニューラルネットワークは依然として「ブラックボックス」であり、意思決定と計画はすべてシステム内で完了しており、説明可能性に欠けています。問題が発生した場合、モジュール式ソリューションの場合のように、どの部分に問題があるのか​​を突き止めるのは困難です。

エンドツーエンドのソリューションの解釈可能性を高めるために、近年の多くの研究では、大規模言語モデル (LLM) を自動運転システムに導入しています。ただし、LLM の出力は主に言語であり、車両制御にさらに使用できないという欠点があります。

これに対し、SenseTimeは、既存の自動運転システム行動計画モジュールの決定状態と一致し、閉ループテストで車両を制御できるDriveMLMモデルを提案し、従来のエンドツーエンドおよびルールベースの自動運転システム方式を上回りました。

与えられた画像に基づいて軌道を予測するオープンループテストと比較して、クローズドループテストは実際の環境とシナリオをシミュレートでき、実際の運転効果に近くなります。

具体的には、その全体的な枠組みを図に示します。

まず、LLM の言語決定出力を、成熟したモジュール ソリューション内の規制および制御部分の決定ステータスと一致させ、LLM によって出力された言語信号を車両制御信号に変換できるようにします。

次に、DriveMLM の MLLM プランナー モジュールは、マルチモーダル トークナイザーと MLLM デコーダーの 2 つの部分で構成されています。

前者は、カメラ、LIDAR、ユーザー言語要件、交通ルールなどのさまざまな入力を統一されたトークン埋め込みに変換する役割を担い、後者、つまり MLLM デコーダーは、ここで生成されたトークンに基づいて、画像の説明、運転の決定、および決定の説明を生成します。

DriveMLM は、280 時間の運転データ (50,000 ルート、さまざまな天候や照明条件の 30 のシナリオ) に基づいてトレーニングされています。

このデータはすべて、現在自動運転の分野で最も広く使用されているオープンソースのシミュレーション ツールおよびクローズドループ テスト ベンチマークである CARLA シミュレーターから収集されます。

形式は次のとおりです。各フレームには、対応する画像の説明、運転の決定、決定の説明の 3 つの部分が含まれます。

△データケース

既存の自動運転データと比較すると、DriveMLM のデータは 2 つの点で異なります。

まず、決定部分を実際の行動決定モジュールと調整できるため、MLLMプランナーの出力を制御信号に変換して、閉ループ運転で車両を直接制御することが容易になります。

2 つ目は、人間とのインタラクション データが含まれるため、システムが人間の指示を理解して応答する能力が向上することです。

では、上記のすべての実装に基づいて、DriveMLM の具体的な効果は何でしょうか?

実際に実行でき、説明可能

まず、業界の他の運転方法と比較して、DriveMLM はクローズドループ テストで SOTA 結果を達成します。

CARLA で広く使用されている Town05Long ベンチマークでは、その運転スコアとルート完了は、Apollo などの非大規模モデル手法よりも大幅に高くなっています。

唯一僅差で負けたのは違反スコアでしたが、アポロとほぼ同じでした。

これは、DriveMLM が交通規制を遵守しながら、より良い決定を下すことができることを示唆しています。

さらに、DriveMLM (Miles Per Intervention) は MPI 指標でもかなりのリードを持っており、同じ走行距離内での手動による引き継ぎが少なく、より信頼性が高いことを示しています。

以下のデモから、DriveMLM が未知の障害物の回避など、さまざまな複雑な状況に対処できることがわかります。

たとえば、緊急車両に道を譲るには:

特に注目すべきは、大型モデルの自然言語処理能力によって、より人間味が増している点です。言語指示を通じて、人間の乗客の特別なニーズにも対応でき、MLLM プランナーの決定をさらに変えることができます。

例えば、「急いでいるから、もっとスピードを出してくれないかな?」と聞かれても、実際の道路状況に合わせて柔軟に対応してくれます。追い越せるときは追い越し、無理なときは断るなど、かなり「思いやり」があります。

第二に、GPT-4V などの他の大規模なマルチモーダル モデルと比較して、DriveMLM のパフォーマンスも優れており、決定精度が高く、説明も合理的です。

下の図に示すように、GPT-4V は多くのことを説明しましたが、赤信号 (a) / 前方の車両 (b) を認識できず、間違った提案をしました。一方、DriveMLM は両方のシナリオでシンプルでわかりやすく、正しい運転方法を示しました。

最後に、DriveMLM は、実際の運転シナリオ (nuScenes 検証セットに基づく) でゼロショット機能も実証しました。

下の図に示すように、DriveMLM は実際の環境で赤信号を認識して停止したり (左)、実際の交差点の位置を推測して事前に減速したり (右) することができます。

一般的に、上記のテストは、マルチモーダル大規模モデルの機能の助けを借りて、SenseTime が提案する DriveMLM が実際にインテリジェント運転に大きな可能性を示したことを証明しています。

一連の従来の方法と比較すると、その最大の利点と価値は主に次の 3 つの側面にあります。

まず、一貫した意思決定指示設定により、DriveMLM は既存のモジュール式 AD システム (Apollo など) に直接接続できるため、大きな変更を加えることなく閉ループ運転を実現し、実際に車を走らせることができます。

2 番目に、自然言語コマンドを直接入力して、乗客のニーズや高レベルのシステム メッセージを伝え、モデルに処理させることができます。

このようにして、自動運転システムは、より多様で高度な運転シナリオに適応することができます。

3 番目に、ビッグ モデルに基づいて、結果を出力するだけでなく、論理的推論プロセスの特性も示します。DriveMLM によって実行されるすべてのアクションと選択には、その理由を説明する詳細な説明が続きます。

言うまでもなく、説明可能性と安全性の間には強い相関関係があります。DriveMLM の高い説明可能性は、より安全で透明性の高い自動運転システムを継続的に開発するのに役立ちます。

自動運転の未来は大きなモデルにかかっている

自動運転には間違いなく ChatGPT の時代が来ると信じる人もおり、早ければ今年中にも実現するかもしれません。

どうやって到着しますか?

業界では一般的に大型モデルに注目が集まっています。

センスタイムの共同創設者兼主任科学者である王暁剛氏は最近、次のように意見を述べた。

今後1~2年は、スマートカーにおける重要な進歩が起こる時期となるでしょう。

エンドツーエンドのデータ駆動型自動運転であれ、インテリジェントコックピットブレインであれ、それらは大規模なモデルに基づいているでしょう。

彼は次のように指摘した。「インテリジェント運転の面では、このビッグモデルは、知覚、融合、位置決め、意思決定、調整、制御などの一連のモジュールの機能を網羅し、接続し、さまざまなコーナーケースを真に解決します。」

センスタイムの今回の成果は、大規模モデル、特に複数の種類のデータを処理できるマルチモーダル LLM を使用して意思決定を行うことで、自動運転機能を大幅に向上できることを示しています。

最も重要なことは、自動運転システムが人間に近づき、一定レベルの常識を持ち、運転環境とルールを適切に理解できることです。

そのため、システムは手書きのルールへの依存から解放され、前述の前方の道路の曲がり角や事前の減速の必要性など、これまで遭遇したことのない運転シナリオに遭遇した場合、システムが自動的に対処することができます。

これまでのセンサーデータに加え、人間の言語入力も車両制御プロセスに参加できます。システムは意図を理解し、実際の状況に基づいて運転の決定を下すことができます。

実際、大規模なモデルを自動運転に適用することに関しては、SenseTime DriveMLM は業界の前例ではありません。

しかし、ビッグモデルを運転判断に適用する業界初のソリューションとして、車両の実際の制御を実現し、車両側でのエンドツーエンドのソリューションの構築を容易にします。ビッグモデルという新しいソリューションの大きな可能性を見ることができるので、注目する価値があります。

また、センスタイムといえば、自動運転の経験も持っています。

つい最近、彼らの自動運転のための統合知覚および意思決定の汎用大規模モデルが、CVPR 2023「計画指向の自動運転」の最優秀論文に選ばれました。DriveMLMはこの成果に基づくフォローアップ研究です。

最後に、DriveMLM が実際に量産車両に搭載される日が待ち遠しいです。

それで、このビッグモデルの新しいソリューションは有望だと思いますか?まだ取り組む必要がある課題は何だと思いますか?

<<:  賈陽青の新たな起業:AIGCプロンプトツールのリリース、SDXLを詳細にプレイするのに役立ついくつかの言葉

>>:  OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

推薦する

人工知能は止められない。アドバンテックのWISE-PaaS 3.0がイノベーションを推進

アドバンテックは、2018年11月1日~2日に開催されたアドバンテックIoT共創サミットにおいて、プ...

...

素晴らしいディープラーニング コース 8 つ (評価付き)

エンジニアリング分野では、機械学習の応用は想像されているほど一般的ではありませんが、ディープラーニン...

...

Huawei NoahのPangu Agentは、インテリジェントエージェントが構造化推論を学習するのを支援します

AI の誕生以来、複雑なタスクを解決し、適応できるマルチタスク エージェントの開発は重要な目標でした...

懸念にもかかわらず、CIOはAIGCの利点を探求し、活用し続けています。

OpenAIは2022年11月にChatGPTをリリースし、その後Microsoftから100億ド...

AI 駆動型スマートビルは将来のトレンドになるでしょうか?

人工知能 (AI) は、建物の管理と制御の方法に革命をもたらし、これまで以上に効率的でコスト効率の高...

...

人工知能の分野は大きな需要があり、金融​​人材の将来性は有望である

[[408300]]重慶ビジネスデイリー・商油新聞記者が本について語る大学入試願書を記入中です。専攻...

ChatGPTはカスタムコマンドを起動します。一度言って覚えておけば、話すたびにそれに従います。

「私は小学校の理科の先生です。科学的な概念について説明していただきたいです。例や類推などのテクニッ...

物を掴んで楽々と移動できる柔らかいロボットを見たことがありますか?

ソフトロボット分野の研究者は、人間にとってより安全に操作できる新世代の機械を生み出すことを望んでおり...

シンプルで強力な顔認識プロジェクトがGitHubのトレンドリストに登場

最近、face_recognitionという顔認識プロジェクトがGitHubのトレンドリストに掲載さ...

...

投票の未来: AI、ブロックチェーン、生体認証

投票攻撃は止まらない2016年の米国大統領選挙は紆余曲折を経て、最終的にトランプ氏が米国大統領に選出...

ByteDanceが大規模モデルトレーニングフレームワークveGiantModelをオープンソース化、パフォーマンスが最大6.9倍向上

最近、ByteDanceの応用機械学習チームは、veGiantModelという大規模モデルトレーニン...