馬はとても速いですね！上海AIラボ、人間の学習パラダイムを模倣した初の自動運転意思決定フレームワーク「DiLu」をリリース

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

DiLuは、AIエージェントパラダイムに基づく初の知識駆動型自動運転フレームワークです。常識的な知識と大規模な言語モデルを組み合わせ、メモリモジュールを使用して閉ループの自動運転意思決定を実現し、継続的に進化する能力を備えています。生涯学習は、環境との関わりを通じて常に経験を積み重ね、自己反省を通じて誤った判断を修正することで達成できます。 DiLu は現在 GitHub でオープンソース化されており、誰でも体験することができます。

論文情報

論文タイトル: DiLu: 大規模言語モデルによる自動運転への知識駆動型アプローチ （ICLR 2024に採択）
論文の発行元：上海人工知能研究所、華東師範大学、香港中文大学
論文アドレス: https://arxiv.org/abs/2309.16292
コードアドレス: https://github.com/PJLab-ADG/DiLu

研究の動機

近年、自動運転技術は急速に発展していますが、依然として多くの課題に直面しています。主な課題の 1 つは、データセットの偏りと過剰適合です。現在のシステムのほとんどは、データ駆動型のディープラーニング手法に基づいています。これは、標準化された単純な運転シナリオでは優れたパフォーマンスを発揮しますが、複雑で変化する現実世界の環境では困難に直面することがよくあります。同時に、現在の自動運転システムには、複雑な交通環境を理解し、他の車両や歩行者の行動を予測する上で依然として欠陥があります。

ヤン・ルカン氏は次のように指摘しています[1]。「今日の最高の自動運転システムには、何十億ものトレーニングデータと仮想環境での数百万回の強化学習試行が必要なのに、なぜ車を運転したことのない10代の若者が20時間で運転を習得できるのでしょうか？」

こうした問題の根本的な原因は、既存のシステムが環境に対する深い理解と適応力を欠いており、未知または複雑なシナリオに直面したときのパフォーマンスが人間のドライバーに比べてはるかに劣っていることです。人間のドライバーは、豊富な運転経験と常識的な知識を活用して、さまざまな運転状況に柔軟に対応することができます。この能力は、環境の理解、経験の蓄積、論理的推論に基づいて意思決定を行うという、人間の知識主導の行動に由来します。これをきっかけに、私たちは、人間の知識主導型のアプローチを自動運転システムに適用し、継続的に経験を蓄積して複雑な環境でのパフォーマンスを向上させる方法について考えるようになりました。

知識主導型自動運転パラダイム

上記の動機に基づいて、私たちは知識主導型の自動運転パラダイムを提案しました。このパラダイムは人間の運転行動にヒントを得たものです。新しい運転状況に直面したとき、人間の運転手は蓄積された経験と常識に頼って判断を下します。例えば、前方の車両が荷物を落とす可能性がある状況に遭遇した場合、人間は常識に基づいて安全な距離を保ちます。この知識ベースの意思決定プロセスは、特定のシナリオに適合するために大量の類似データに依存しているものの、環境に対する深い理解が欠けているデータ駆動型のアプローチとはまったく対照的です。

上の図では、このパラダイムの考え方を示しています。図のドライバーエージェントには、Recall、Reflect、Reason という 3 つの主要な機能があります。これらの機能により、インテリジェントエージェントは、メモリモジュール (メモリ) から過去の経験を抽出してシナリオ分析や意思決定を実行できるだけでなく、環境 (環境) との継続的な相互作用とメモリの更新を通じて継続的な進化を実現できます。従来のデータ駆動型の方法と比較して、知識駆動型の自動運転パラダイムは、環境についての理解と推論、および自己継続学習の能力にさらに重点を置いています。

知識駆動型自動運転のより詳しい紹介については、私たちのチームのレビュー「知識駆動型自動運転に向けて」（ https://arxiv.org/abs/2312.04316）を参照してください。[2]

DiLu フレームワークの紹介

上記の知識主導型の自動運転の新しいパラダイムに基づいて、私たちはまったく新しい自動運転フレームワークである DiLu を試し、実装しました。このフレームワークは、大規模言語モデル (LLM) を統合して活用し、常識に基づく意思決定と運転経験の継続的な蓄積を実現します。このフレームワークは、環境、推論、反映、メモリの 4 つのコアモジュールで構成されています。下の図は、環境認識、推論決定の生成、決定の反映評価、メモリの更新と蓄積など、DiLu フレームワークのワークフローと各モジュール間の相互作用を詳細に示しています。

推論モジュールはDiLu フレームワークの重要なコンポーネントであり、LLM の常識的な知識とメモリモジュールに保存された経験を活用して、数回の試行で意思決定を行います。具体的には、推論モジュールはまず環境からシーンの説明を取得し、次にメモリモジュール内の同様の経験を組み合わせて、意思決定に必要なプロンプトを生成します。これらのプロンプトは LLM に入力され、LLM はこの情報に基づいて現在のフレームの運転決定を生成し、それを環境に入力して決定ループを閉じます。下の図は、シーン記述の生成、メモリモジュールの呼び出し、プロンプトの生成、LLM の決定デコードプロセスを含む推論モジュールのワークフローを示しています。

リフレクションモジュールは、DiLu フレームワークのもう 1 つの中核部分であり、推論モジュールによって行われた決定を評価して修正する役割を担います。このモジュールは、記録された意思決定シーケンスを分析して安全でない、または不正確な意思決定を識別し、LLM のインテリジェンスを使用してこれらの誤った意思決定を修正します。修正された決定はメモリモジュールに更新され、システムの継続的な学習と進化が可能になります。下の図は、意思決定の評価、主要な意思決定フレームのサンプリング、エラー修正、エクスペリエンスの更新を含むリフレクションモジュールのワークフローを示しています。

実験結果

DiLu は、閉ループ実験テストに Highway-env シミュレーション環境を使用します。 Highway-env [3]はOpenAI Gymをベースに開発されたPython環境です。自動運転システムの意思決定アルゴリズムの開発とテストに特化して設計されており、挑戦的な複数車両のインタラクティブな道路環境を提供します。以下のビデオでは、DiLu フレームワークが閉ループ実験で複雑な交通シナリオでどのように決定を下すかを示しています。動画では、緑の車は車線変更に成功して速度を上げただけでなく、危険な運転戦略を取らずに、熟練したドライバーのように前の車との安全な距離を保っていました。同時に、DiLu は各決定ノードで正確な運転決定を下せるだけでなく、完全な推論プロセスも実証しており、これは当社のフレームワークの優れた解釈可能性を反映しています。

さらに、自動運転のクローズドループ意思決定における DiLu フレームワークのパフォーマンスを検証するために、慎重に設計された一連の定量的実験を実施しました。 Highway-env下でDiLuを既存の強化学習法GRAD [4]と比較する。 DiLu は、メモリモジュール内の 40 の経験のみを使用して 600,000 エピソードをトレーニングした強化学習方法のクローズドループパフォーマンスを上回ることがわかりました。同時に、DiLu は一般化能力においても大きな利点を示し、特に高密度トラフィック環境では優れたクローズドループ成功率を発揮します。データ駆動型の強化学習手法と比較すると、DiLu はよりスマートであるだけでなく、より強力な一般化機能も備えています。さらに、私たちの実験では、DiLu フレームワークがメモリモジュール内の経験を効果的に活用して、意思決定の品質とシステム全体のパフォーマンスを継続的に向上できることも確認されました。

要約する

DiLu は、AI エージェントパラダイムに基づく初の知識駆動型自動運転フレームワークであり、LLM と自動運転の意思決定を組み合わせた初の取り組みとなる可能性があります。具体的には、DiLu は常識的な知識と大規模言語モデル技術を組み合わせ、メモリモジュールを使用して運転の意思決定を実現し、進化し続ける能力を備えています。 DiLu は、環境との継続的な相互作用を通じて経験を積み、自己反省を通じて誤った決定を修正することで、生涯学習を達成できます。広範囲にわたる実験を通じて、DiLu フレームワークは経験の蓄積と一般化機能において大きな利点があり、LLM の開発と連動してパフォーマンスを向上できることを実証しました。さらに、DiLu は現実世界のデータセットから直接経験を得ることもできるため、実際の自動運転システムへの応用の可能性も広がります。

オリジナルリンク: https://mp.weixin.qq.com/s/2sKGP7HfxVQgEMqqez-dNA

<<: RadOcc: レンダリング支援蒸留によるクロスモーダル占有知識の学習

>>: 自動運転車におけるサイバーセキュリティの役割