大きなモデルは本当にすべてを解決できるのでしょうか?知識駆動型自動運転に関する考察

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

先週、私は「知識主導型自動運転」についての講演を依頼されました。私はこの機会を利用して、チームと私が以前に持っていた学術的な考えの一部を整理し、要約しました。一部のコンテンツは共有して議論する価値があると感じたので、重要なコンテンツの一部を共有するためにこのスレッドを作成しました。第一に、これは年末に私たちのチームの仕事を定期的にレビューすることであり、第二に、これは自動運転の将来の発展についての私の見解を説明する出発点であり、第三に、これらのコンテンツを使用して、学術の原点に戻る議論を引き起こすことを望んでいます。では、これ以上前置きせずに、本題に入りましょう。

注 1: これはスライドから改変した投稿であるため、内容が少し断片的でつながっていない可能性がありますが、ご容赦ください。今後、ご興味がございましたら、より完全な論理的連鎖を備えた純粋な記事をいくつか書きたいと思います。

今年は自動運転が非常に注目される年です。産業界でも学術界でも、新しい技術、新しい発見、新しいアイデアが絶えず生まれています。一方で、自動運転に関する研究は徐々に収束しつつあり、これまで認識、意思決定、規制と制御に取り組んでいた同僚たちは皆、大規模なモデルを試してみたいと考えている。しかし他方では、新しい技術の出現は状況の再編を意味し、誰もが同じスタートラインに戻ることになる。トレンドの面では、2023 年の自動運転には、以下の進化が含まれると考えていますが、これらに限定されるわけではありません。

まず、従来の知覚が認知へと変化しています。これは、主に画像分類、ターゲット検出、セマンティックセグメンテーションなどのタスクに焦点を当てたディープラーニング時代の CV 分野の初期の頃と同じです。その本質は、下流のタスクを通じてシステム全体を「インテリジェント」にすることです (最近私が賛同した文章: 評価方法が開発の方向性を導きます)。しかし、これらの視覚タスクをうまく実行できるモデルは本当に「インテリジェント」なモデルなのでしょうか?行動主義の観点から見ると、多くのタスクは確かにうまく完了することができ、そのパフォーマンスは人間のレベルに達するか、あるいはそれを超えることさえあり、知的な行動を反映しています。しかし、いくつかの敵対的攻撃などの研究により、これらの SOTA は敵対的サンプルに対して非常に脆弱であり、真の「人工知能」の実現にはまだまだ遠いことが明らかになっています。そのため、2010 年頃には、CV コミュニティでは、より魔法のようなタスクや、イメージキャプション、グラウンディング、VQA、さらにはシーングラフなどの複雑な構造によってサポートされる複雑なタスクを完了するためのテキストなどの他のモダリティでのデータの導入など、「認知」を探求する熱意が高まりました。 2016年頃だったと記憶していますが、当時のトップカンファレンスのタイトルを分析した人がいました。「セマンティック」という言葉が含まれていれば、論文が採択される可能性が格段に高まると。学術界では「認知」「意味論」「理解」「知識」などの概念を追求していることがわかります。そして今、自動運転も同様の局面を迎えていると痛感しています。過去 2 年間、自動運転の認識の分野では、誰もが検出やセグメンテーションなどの古典的なタスクに重点を置いてきました。最近は、自動運転のシナリオの説明（キャプション）や質疑応答（VQA）など、「理解」と切り離せないタスクに注目が集まり始めており、より「派手」な方向へと人々の関心が移り始めています。

2つ目に、誰もが期待しているエンドツーエンドの自動運転は知識主導型で実現します。個人的には、エンドツーエンドの自動運転はさらに2つのタイプに分けられると考えています。 1 つは、2023 CVPR ベストペーパーの 1 つである UniAD のように、複数のモジュールをカスケード接続して実装することです。その全体的な構成は、損失を行うことができる一種のマルチタスク学習に属します。複数のモジュールをカスケードし、各モジュールの損失を制約としてとることで、各モジュールはトレーニングプロセス中に「全体的な最適性」の方向に向かって移動するようにされ、全体的な最適化プロセスでエンドツーエンドの多様体空間を見つける可能性が高くなります。もう 1 つのタイプは完全にエンドツーエンドであり、トレーニング側からのデータ入力とポリシー (制御) 出力を実装します。このプロセスは人間の運転行動に似ています。目は視覚入力信号として使用され、それがステアリングホイールとブレーキペダルに直接作用します。しかし、このエンドツーエンドのアプローチの最大の課題は、継続的な学習をどのように達成するかということです。この直接的なエンドツーエンドのアプローチは、モデルの検索空間を潜在的に拡張し、特定のシナリオでシステムが過剰適合するのを防ぐために、より多くのデータ、より大きなモデル、より強力な計算能力を必要とします。

第三に、大型モデルの出現により、自動運転の研究機会がさらに広がります。特に、大規模なオープンドメインデータのトレーニングを通じて獲得された大規模モデルの一般的な認識機能は、強力な一般化機能を備えており、自動運転シナリオにおけるさまざまなコーナーケースを解決する能力さえも備えています。現在、大規模モデルがエンドツーエンドの結果を達成する可能性を持つと多くの人が信じている声が（主に業界内で）高まっています。しかし、ビッグモデルをエンドツーエンドと単純に同一視することはできないと感じています。ビッグモデルが自動運転に使用できるかどうかも、検討する必要がある問題です。しかし、大きなモデルは本当にすべての問題を解決できるのでしょうか?大型モデルで制御される自動運転システムがいつの日か登場するのでしょうか?大規模なモデルには問題が多すぎるため、私は実はかなり悲観的です。ビッグモデルに直接運転を教えることを期待するのではなく、AIエージェントと具現化された知能におけるビッグモデルの進歩にもっと注意を払う方が良いでしょう。

私のチームと私が現在研究している方向性は、「知識主導型の自動運転」と呼んでいるもので、これがこの記事の主題でもあります。自動運転の再考 - 知識主導型からデータ主導型へ。

まず背景をご紹介します。現在の自動運転システムにはまだまだ課題が多くあります。

たとえば、ロングテールの難しい例の問題は、オープンシナリオでの高度な自動運転の適用において常に悩みの種となってきました。

例えば、左の図のように、自動運転システムの認識モジュールをゼロから構築する場合。コールドスタートアルゴリズムでは、最初は建設車両を区別できません。しかし、杭打ちバレルを認識すると、自動運転システムが道路工事が進行中であると誤って認識する可能性があります。結局、間違った認識は間違った決断につながります。

ロングテールの困難なケースを解決するために、データ収集の範囲を広げることができます。たとえば、より多くのエンジニアリング車両を収集し、ラベルを付けることによって、車両サンプルの数を増やすことができます。より多くのデータが収集されるにつれて、交通コーンを積んだ建設車両を識別するという問題に実際に対処できるようになるかもしれません。しかし、サンプルが右の写真の場合はどうでしょうか?コーナーケースは常に無限に存在し、その多くは実際に起こるまで想像することが困難です。

この図は、自動運転の目的の機能の安全性に関する ISO 21448 SOTIF 規格からの抜粋です。横軸は安全と非安全、縦軸は既知と未知に分かれています。

安全とわかっている緑色の領域については、アルゴリズムで解決できる問題です。安全でないとは、アルゴリズムがまだ解決できない問題を指します。私たちはアルゴリズムを調整し、より良い学習を通じて多くの危険なシナリオを安全にしたいと考えています。一方、不明領域を圧縮するために、より多くのドライブテストを実施することでデータカバレッジを向上させることができます。しかし、「カバレッジの改善」には限界的な効果があります。外部の知識が関与しなければ、分布外のシナリオ、つまり時折発生するコーナーケースが常に発生し、システム全体の障害の原因となります。

しかし、他の多くの分野とは異なり、自動運転にはバレル効果があります。したがって、アルゴリズムの設計時に考慮されていなかったこれらのシナリオを解決することが重要になります。たとえば、物体検出システムが人、車、非自動車のみを考慮するように設計されている場合です。そうすると、杭打ち機と地面に置かれたビニール袋を区別できなくなるかもしれません。したがって、オープン語彙の物体検出に関するその後の研究や、テスラの占有に関する研究はすべて、できるだけ多くの解決策をカバーできるほど十分に大きな解決策空間を持つように知覚問題を定義しようとしました。

現在の自動運転システムのほとんどは、このようなデータ駆動型モデルに基づいて構築されていると言えます。これにより、データクローズドループなどの重量級ミドルウェアも登場しました。つまり、ロードテスト、データ収集、データラベリング、モデルトレーニングを繰り返し、その後ロードテスト、データ収集、モデルトレーニングを繰り返し、このサイクルを継続的に繰り返すことになります。これらのプロセスを制度化することでコストを削減します。しかし、問題は本質的に未解決のままです。

なぜ？なぜなら、数え切れないほどのコーナーケースに加えて、もう 1 つの重要な要素があるからです。既存のシステムの多くは、最適化手法に基づいています。しかし、最適化には忘れることによる災難という問題があります。すべての最適化の本質は、グローバルな最適解が見つからない場合は、妥協してローカルな最適解に到達するしかないということです。これは、頻繁に発生する一般的なケースが支配的な要因となり、時折発生するコーナーケースは異常な外れ値として無視され、システム全体が低エントロピーの安定した状態になることを意味します。一方、モデルの容量が十分に大きくない場合、コーナーケースに重点を置きすぎると、一般的なケースが悪化する可能性があります。一つの問題を抑圧することによる影響はより深刻です。これは、自動運転システムが安全性を追求するという事実に反する。

したがって、データ駆動型自動運転システムの不可能三角形をまとめると、安全かつ安価な自動運転システムを望むなら、それは非効率的でなければなりません (掃除ロボットなど)。安価かつ効率的を望むなら、それは非常に危険でなければなりません (無謀な車の効率は驚くべきものです)。そして、安全かつ効率的であれば、それは非常に高価でなければなりません。

データ駆動型ではこれら 3 つすべてを実現することはできませんが、人間はそれらのバランスを見つけることができます。

では、なぜ人間がそれほど強力なのかを分析する必要があるのでしょうか?

2022年、ルカン氏は汎用人工知能に関する研究の開始時に、2つの疑問を提起しました。1. なぜ10代の若者は、約20分の練習で基本的な自動車運転スキルを習得できるのか？ 2. 人間は、これまで見たことのない状況に遭遇したときに、なぜ正しい反応や判断を下すことができるのでしょうか?

実際、ここで重要な要素は知識と推論の応用にあります。例えば、上の 5 つの図を見たことがある人は多いでしょう。データはラベル付けによって情報になり、その後統合されて徐々に知識から知恵へと変化していきます。

自動操縦システムと比較するとそうだと思います。これまでのデータ駆動型自動運転では、データと情報しか活用できず、情報間の相関関係を探ることが困難でした。関連性によって、他の状況について推論する能力があるかどうかが決まるからです。したがって、今こそ知識主導型自動運転の観点から AD2.0 を検討する良い機会だと考えています。（もちろん、AD2.0のコンセプトは私たちが提案したものではなく、Wayveなどの企業によって提案されたものです）。

一般的に、現段階では自動運転の第一原理は知識であると私は信じています。

人間の知識、ドメイン横断的な知識、一般的な知識を直接的および間接的に活用してさまざまな問題に対処し、自動運転システムをより一般化可能で堅牢なものにする方法は、常に私たちのチームの研究方向であり、この記事のテーマでもあります。

次に、私が考える知識駆動型自動運転とは何かを紹介します。

マクロレベルでは、自動運転システムは3つの主要なカテゴリーに分けられます。

ルール駆動型のアプローチでは、人間が実際のシナリオを観察し、独自の考えを統合し、それを説明可能で実行可能なルールに抽象化します。この方法は、運転シナリオの性質をよく反映できます。しかし、ルールの作成自体は複雑で相互に制限のある問題です。完全に手動で行う場合、スケールアップは困難です。

データ駆動型アプローチは、入力から出力へのマッピング関係を確立しようとします。このプロセスでは、運転シーンを圧縮された表現空間に変換することで、運転シーンを可能な限り抽出します。圧縮は知性であるという格言があるからです。ただし、下流のタスクの制限により、このスペースは、交通シナリオを真に理解するのではなく、タスクスペースに過剰適合する可能性があります。データ駆動型は、一種の行動主義に似ており、インテリジェントな行動を反映するだけで、シナリオを実際に理解するわけではないため、パフォーマンスに限界があります。

知識駆動型の自動運転には、まずシナリオを理解し、共通の一般ルールを要約し、それを実際の理解空間に推論する能力が必要です。しかし、「知識」という概念は「知能」と同じくらい定義が難しいため、知識主導型の自動運転を実現する方法については、行動主義の観点からしか観察できません。

私たちは、知識駆動型自動運転の3つの重要な特性は、一般化、説明可能性、生涯学習能力であると考えています。

知識駆動型自動運転を実現し、実用化するために、これら3つの特性を満たす必要があると考えられます。

まず一般化について話しましょう

前述したように、データ駆動型の方法は、ドメイン外の問題に直面した場合、解決が困難です。たとえば、ミッションを設計する際に、飛行機が道路に緊急着陸するといった極端なコーナーケースを考慮することは困難です。

知識主導型アプローチでは、大量のオープンドメインデータの事前トレーニングを通じて一般的な知識を取得し、分布外のデータを理解できるようになります。

一般化は未知の問題を解決するための鍵であり、コーナーケースに対処する反復的な作業からエンジニアを解放することが期待されています。この図を使って説明しましょう。上の行はシーン空間、下の行は運転能力空間を表します。

シングルドメインのデータ駆動型アプローチでは、シーン空間からデータを収集し、運転能力空間へのマッピングを学習するようにモデルをトレーニングすると同時に、ドメインの一般化スピルオーバーも生成します。たとえば、高速道路データのみでトレーニングされたモデルは、高架道路にも適用できる可能性があります。しかし、ドメイン外への一般化はまだ弱いです。例えば、高速データのみで学習したモデルは、上海の梧桐区（運転や駐車が難しい上海の開けた道路）では使用できません。

そこで、私たちはデータ収集の観点から始め、データ範囲を拡大し、さまざまなデータを混合して複数ドメインデータを形成しました。結果として得られるモデルは、独自のドメインを処理できるだけでなく、いくつかの予備的な一般化機能も備えています。たとえば、晴れた日と雨の日に収集されたデータを使用してトレーニングされたモデルは、曇りの日にも役立つ可能性があります。しかし、このタイプのデータ収集では、いくつかの異なるシナリオしか解明できず、ごくまれに発生するコーナーケースについては、人間のようにシーンを理解する観点から正しい分析や説明を行うことはできません。

3 番目の列は知識主導型のアプローチを表します。さまざまなドメインの膨大なデータ間の本質的なつながりを掘り起こす方法があり、予備的な一般的な理解能力があれば、人間と同じように、偶発的なシナリオについて推論を導き出すことが可能になります。究極の一般化機能を実現します。

したがって、一般化は自動運転の分野における研究の焦点であるだけでなく、知識主導型開発の特徴と現れでもあります。

2 番目のポイントである説明可能性についてお話ししましょう。解釈可能性はなぜ重要なのでしょうか?

まず、説明可能性は「理解」と「知識」の証拠として機能します。説明可能性は知性にとって十分な条件ですが、必要条件ではありません。これはチューリングテストを彷彿とさせます。
第二に、完全なブラックボックスはデータ駆動型の手段を通じてのみトレーニングすることができ、これは古い方法に戻ることになります。ですから、個人的には、完全なエンドツーエンドをあまり信じていません。
3 番目に、説明を反映することで、モデルのより直接的な修正、つまり非勾配法が可能になります。たとえば、モデルがどこで失敗したかを反映させたときに、その理由を説明できれば、そのモデルには強力な機能があるということになります。
4 番目に、解釈可能性は生涯学習を達成するための明確な方法であり、前提条件であると考えています。

たとえば、大規模なモデルを使用して以前のシナリオを説明しようとしたところ、操作が説明可能になると、決定が信頼でき、合理的になることがわかりました。（これは初期の試みでした。当時は、画像の説明を実装するために LLaMA-Adapter が使用され、決定と判断を行うために GPT3.5 が使用されていました）

3点目は生涯学習です。

生涯学習はなぜ重要なのでしょうか?ロボットや具現化された知能の観点から見ると、エージェントの脳には実際の環境のモデルが含まれているからです。生涯学習能力は、脳内の世界と現実世界との差異の度合いを決定します。

たとえば、現在のデータ駆動型の方法は、その機能の範囲を制限する人工的に組み立てられたタスクが原因で、「チューブを通してヒョウを見る」方法でしか世界をモデル化できず、最終的には、世界は他の人が見せている世界と同じであると考える、井の中の蛙になってしまいます。

人間の考え方に関しては、経験は年齢とともに蓄積されるだけです。新人ドライバーも経験を積むことで熟練ドライバーになれます。そして、多くの運転経験は運転そのものから得られるのではなく、他の多くの分野での継続的な学習から得られます。

生涯学習も、システム全体を実装する上での決定的な要素です。ここで付け加えておきたいのは、テスラが以前実証したエンドツーエンドの手法のいくつかは魅力的に見えますが、実際には多くの課題があるということです。最大の課題は、中間プロセスの監督なしに大規模モデルの継続学習/生涯学習をどのように実現するかということです。したがって、途中に supervise を挿入できる例として UniAD を使用する方が現実的かもしれません。（ワールドモデルが実際に実装されない限り、これについては後で詳しく説明します）

知識駆動型自動運転の基本的な定義を紹介した後、最近登場したLLMが知識駆動型自動運転に役立つのかどうかについてお話しします。

実際、私の考えでは、知識主導が第一原則ですが、LLM はそうではありません。 LLM は、この段階では知識を応用する能力を実証できるツールにすぎません。基本的な一般的な理解力は備えていますが、すべてが LLM に依存するわけではありません。 LLM に主導権を握らせるのは長期的な方向性ではありません。

まず、用語を統一しましょう。

業界で「ビッグモデル」という概念が導入されたとき、多くの用語上の混乱が生じていることがわかりました。「大型モデル」とは、大型のモデルという意味ですか？たとえば、SAM は大規模モデルと見なされますか? BEV アルゴリズムは大規模なモデルですか?トランスフォーマーは大きなモデルだと言う人もいます。

しかし、学術的には、LLM には明確な方向性があります。

（LLMに関する以下の段落はあまり厳密ではないので、批判的に読んでください）

トランスフォーマーや大量のデータの使用は必ずしも LLM を意味するわけではありません。ここで議論する LLM とは、LLM または VLM アーキテクチャの使用と大規模データでのトレーニング、そしてスケーリング則に従う現象の出現を指します。

LLM の開発の詳細を説明するには長い記事が必要になりますが、それはこの記事の焦点ではありません。以下に簡単な概要を説明します。

初期の大規模モデルとは、BERT、ELMo、GPTなど、Transformer以降に登場した言語モデルです。その本質は、文の出現確率をモデル化するために使用される言語モデルです。トレーニング方法は、1番目からt-1番目のトークンを入力し、t番目のトークンが何であるかを予測することです。当時、私たちは大量のプレーンテキストデータを使用して、一部の単語をランダムにマスクしたり、2 つの文の順序を入れ替えたりするなど、さまざまな下流タスクを実行し、文に含まれる意味をよりよく理解できるようにモデルを強制しました。それは NLP の黄金時代でした。大規模なモデルが膨大な量のデータを通じて基本的な言語理解機能を獲得し、多くのタスクが大規模なモデルを使用して画期的な進歩を達成できたからです。

すると、大規模モデルは生涯学習の問題にも直面することになります。以前は、多くの大型モデルが主に研究に使用されていましたが、その後、大型モデルは杭の性能に応じて継続的に増加できることを発見した研究がいくつか登場しました。これにより業界は刺激を受けました。産業界は、投資されたすべてのお金に計算可能な期待収益があるため、このような強力で収益性の高いモデルを好みます。それから、現在のような大規模模型研究の流行が始まりました。その後、In-Cotext LearningやChain-of-Thoughtなどのさまざまな技術が登場し、プロンプトワードエンジニアリングという産業も誕生しました。

現在、大規模モデルのパラダイムは基本的に統一されています。まず、膨大な数のパラメータを持つ Foundation Model があり、次にいくつかのタスク関連データが Instruct-tuning に使用されます。たとえば、ChatGPT は、GPT 基盤モデル内の少量の高品質な会話データに合わせた会話モデルです。後者のプロセスは通常、トレーニングではなくアライメントと呼ばれます。これは、基盤モデルがすでに非常に強力な機能を備えているためであり、少量の指示調整は、大規模モデルにタスク要件を示し、大規模モデルのパフォーマンスを予想される人間の動作に合わせるためだけであると私は個人的に感じています。

大規模モデルの興味深い現象について説明します。それは、コンテキスト内学習によって、いくつかのタスクが数回のショットで完了できるということです。また、SFT を通じてこれらの機能を大きなモデルに内部化することもできます。

最近、LLM+AD の研究が盛んに行われていますが、ここでは簡単に紹介しますが、この記事の焦点ではありません。

LanguageMPC は LLM を使用してきめ細かな決定を下し、シーンをテキストに構造化してそれを大規模モデルに取り込むことで環境と対話します。特定の運転行動の出力は、特定の行動制御モジュールを接続することによって実現されます。主に大規模なモデルの機能を利用してシーンをエンコードします。

DriveGPT4 は、入力ビデオを理解し、プロンプトに基づいていくつかの QA タスクを完了するために、ビジョンを備えた VLM を導入しようとします。制御信号の生成などを含みます。

↑この作品も制御作業を行うため大型の模型を使用しています。シーンをベクトル化し、いくつかのデータを介して大規模モデルに SFT を実行すると、制御信号を出力できる大規模モデルになります。

上記の LLM+AD の作業とは別に、私が伝えたい重要なポイントは次のスライドです。

これらの LLM+AD の作業は本当にすべての問題を解決できるのでしょうか?私はそうは思わない。

大規模なモデルは一般化と解釈可能性を実証できると思います。しかし、まだ多くの問題が残っています。

幻覚: LLM のトレーニング方法により、必然的に何らかのテキストが出力されます。セキュリティと正確性に直接影響します。
応答速度が遅い: リアルタイムのパフォーマンスに影響し、最終的には安全性と効率性が損なわれます。
アライメント税: 自動運転タスクの SFT に移行すると、実際には汎用性と一般性がいくらか失われます。
さらに、SFT はコストがかかり、SFT を通じて生涯学習を達成することは困難です。

実際、私が常に考えてきたことの 1 つは、 「知識主導型は第一原則だが、LLM はそうではない」というものでした。 LLM は、この段階では知識を応用する能力を実証できるツールにすぎません。基本的な一般的な理解力は備えていますが、すべてが LLM に依存するわけではありません。 LLM に運転を任せるのは得策ではありません。したがって、私たちに必要なのは、LLM にすべてを投入して LLM を汎用ツールにするのではなく、LLM の機能を活用することです。

最近のマルチエージェントと組み込み AI の研究に触発され、LLM を CPU として使用し、その一般化と解釈可能性を活用し、メモリと連携して生涯学習を実現し、外部のエキスパートシステムと検索拡張生成技術を組み合わせて幻覚の問題を解決し、共同でドライバーエージェントを構築できると考えています。

そこで次に、私が考えている知識駆動型自動運転のアーキテクチャを紹介します。

まず、LLM の制約から脱却し、認知の観点から一般的な知識主導のフレームワークについて説明しましょう。これは、AD における Embodied AI アーキテクチャのアプリケーションに似ています。

上の図は、エージェントを使用してツールを操作し、計画を実行し、最終的にメモリメカニズムと組み合わせてアクションを生成するアーキテクチャを示しています。このアーキテクチャは、人間が世界を理解し、意思決定を行うフレームワークに似ています。

さらに、このようなフレームワークを使用することで、知識駆動型の自動運転も実現できると考えています（上図の下部参照）。中核となるのはドライバーエージェントです。ドライバーエージェントは環境を観察し、メモリから過去の経験を照会し、最終的に総合的な判断を下し、その判断の実行を修正信号として使用してメモリを修正します。

これを自動運転のシナリオにさらに適用していきます。まず、シーン理解システムを使用してシーンを表現します。そして、これらの表現に基づいて決定を下します。過去の経験が意思決定プロセスに関与します。決定が正しければ、それは経験の一部としてメモリモジュールに蓄積されます。決定に誤りが発生した場合、システムはその誤りを反映し、修正された経験をメモリシステムに再度追加する必要があります。システム全体は絶えず反復しています。最終的に記憶は知識の現れとなります。

システム全体の中で、一部の作業にLLMを参加させることはできますが、LLMだけに頼るわけにはいかないので、そのようなシステムを構築しました。この記事のタイトルは「DiLu: 大規模言語モデルによる自動運転への知識主導型アプローチ」です。 (私たちの知る限りでは、この論文はおそらく LLM+Agent+AD を探求した非常に初期の研究であり、私たちの他の研究である Drive Like A Human は、大規模なモデルを自動運転と組み合わせることができるかどうかを探求した最初の研究である可能性があります。)

システム全体には、推論、反映、記憶の 3 つのモジュールが含まれています。まず、いくつかの運転体験の動作がメモリモジュールに保存されます。本質的にはベクターデータベースです。鍵となるのは、シーンのセマンティックベクトル表現です (類似したシーンのベクトルは類似しており、異なるシーンのベクトルは類似していません)。値には、このシナリオで行われた決定が自然言語テキストで記述されて保存されます。

推論モジュールでは、まず環境をエンコードし、このエンコードを使用してメモリモジュールから同様のシーンを照会します。そして、この情報は、現在のシーンとともに、大きなモデルへのプロンプトおよび入力として使用されます。つまり、このときビッグモデルは現在のシーンの記述を入力するだけでなく、記憶内の類似シーンとそのときに下された決定も共通情報として入力し、最終的に決定意見を与えます。この決定を環境の制御信号に変換し、仮想環境での車両の運転を制御します。

運転中に、この決定が正しいかどうかを知ることができます。決定が正しければ、ここでのシーン表現ベクトルをキーとして使用し、決定の説明を値として使用して、メモリモジュール内のエクスペリエンスを更新します。一方、衝突やその他の危険な動作など、決定が間違っていた場合は、ビッグモデルを使用して自分自身を振り返り、その振り返りプロセス全体をメモリモジュールに追加します。

ここから、先ほど述べた 3 つの特性、つまり一般化、解釈可能性、生涯学習の重要性がわかります。まず、一般化機能により、さまざまなドメイン外のシナリオを普遍的に理解できるようになります。私たちは、説明可能な情報をメモリシステムとして使用します。このメモリシステムでは、一方では、すべての決定を遡って追跡し、他方では、反省などの複雑なコンテンツを人間が理解できる方法で完了することができます。さらに、経験は自然言語で定義された解釈可能なテキストであり、これらのテキストはドメインの変化によってあまり変動しない普遍的な情報であることが多いからです。経験ベース全体が継続的に蓄積され、生涯学習が実現します。

この記事の推論モジュールと反映モジュールもあります。具体的な内容はここでは紹介しませんので、論文を読んでください。

こちらはデモンストレーションのタイムラプスビデオです。シミュレーション環境として Highway Env を使用し、各ステップは大きなモデルによって決定され、シミュレータに引き渡されて実行されました。

これは写真なので動かすことはできません。動画は下のリンクをクリックしてください。

ビデオについては、リンクをクリックしてください：DiLu：大規模言語モードによる自動運転への知識主導型アプローチ_哔哩哔哩_bilibili

スライドの後に実験分析がいくつかありますが、ここでは詳しく説明しません。記事が長くなりすぎるからです。（これまでに約10,000語になりました）。要約すると、私たちはいくつかの発見をしました:

メモリメカニズムは本当に便利です。この方法は、RAG (Retrieval Augmented Generation) と同様に、SFT モデルなしで継続学習の機能を実現できます (ただし、Highway Env がまだおもちゃすぎるため、生涯学習はまだ試されていません)。
これは本当に一般化可能です。ドメインAのシーンから得た記憶をドメインBで直接使用し、
これは本当に説明可能です。メモリ内のキーはシーン表現ベクトルであり、値は単なるプレーンテキストです。判断が正しいか間違っているかは一目でわかり、反映して記憶を修正することもできます。

ここでは、リフレクションモジュールの機能の一部を紹介します。たとえば、ここでは間違った決定が下されました。

この時点で、大きなモデルによって衝突の原因と教訓を説明し、修正された決定を下します。私たちはこれらのテキストをすべて、経験としてメモリモジュールに保存します。

この作業は非常に予備的なものであり、それが選択する環境、それが行うことができる意思決定スペースなどは非常に限られています。それで、まだ多くの未解決の問題があります：

シナリオ理解：キーを構築する方法は？
メモリをどのように表現する必要がありますか：自然なテキストを明示的に使用していますか？画像？それとも暗黙の表現ですか？
答えを覚えていますか？または、「意思決定プロセス」を覚えていますか？
人間の思考の観点からさらに、それをシステムI（高速システム）およびシステムII（スローシステム）と組み合わせる方法は？

私が非常に興味深いと思うもう1つの作品は、エージェントドライバー（[2311.10813]自律運転の言語エージェント（arxiv.org））です。これは、ドライブに大きなモデルを教えるのではなく、エージェントを使用します。しかし、私はスライドを作っていたときにそれを紹介するのを忘れていました。

DILUに加えて、知識駆動型に関連していると思われる他の作品を紹介したいと思います。この作業の一部は、私たちのチームによっても行われています。

まず、未来を想像してみましょう。この写真は、最近の調査の1つから来ています（調査と呼ばれますが、実際には多くの考えが含まれています）：知識主導の自律運転に向けて。

一方では、現実の世界から情報を抽出し、常識的な知識を蓄積します。一方、現実世界のデータは、高品質の仮想シミュレーションエンジンを構築するために使用されます。シミュレーションエンジンにインタラクティブな知識を蓄積することにより。このプロセスを何度も繰り返すと、生涯学習が達成されます。

これにより、3つの探査方向につながりました。これは、現在、学界（言い換えれば、非常に人気のあるトピック）のホットなトピックであると考えています。

まず第一に、基礎モデルをどのように使用しますか？これは、一般的な大規模なモデルを理解する能力に依存している可能性があり、また、大きなモデルを使用した自律運転の分野でのSFTの調査が必要です。

しかし、このリンクへの大きなモデルの参加は、シーンの理解と意思決定に反映される可能性があると思います。これらの機能は、分散型の問題とそのマクロ決定機能を処理する大きなモデルの能力を完全に示しているためです。そして、ステアリングホイールは大きなモデルに直接引き渡されていないため、幻想の問題はある程度緩和される可能性があります。

私が非常に興味深く、大きな可能性を持っていると思うもう1つの分野は、世界モデリングです。

世界モデルは、2018年以前には、次のフレーム予測を使用して、モデルが全世界を理解できるように提案されています。世界モデルのアプリケーションポイントの1つは、シーンの理解だと思います。次のフレームがどのように見えるかを正しく予測できるため、中間ベクトルにシーン全体のエンコードされた表現が含まれていることを意味します。

世界モデルの概念に基づいて、WayveはGAIA-1を提案しました。これは、自律運転の分野で最初の世界モデルである可能性があります。

また、Tsinghua大学と協力してJijia Technologyという国内会社によって立ち上げられたDreivedReamerもあります。私たちは彼らとかなり多くのコミュニケーションをとりますが、今のところ市場に屈する必要があるようです。世界モデルを使用してデータを生成して販売しています。

DrivedReamerは、主にテキスト、参照画像、HDMAP、3Dボックス、対応するアクションなど、複数のプロンプト入力をサポートしています。このモデルは、これらの信号によって制御されるビデオの将来のフレームを出力します。

先月リリースされたばかりのAdriver-Iは、VLMを使用して画像を生成します。世界モデルとLLMを組み合わせるような気がします。

特別な注意に値する2番目の方向はシミュレーションです。

自律運転用のシミュレーションエンジンは、それほど新しいトピックではありません。実際、Carla、VTDなど、広く使用されている多くのシミュレーションエンジンがあります。しかし、これらのシミュレーションエンジンにはまだ多くの問題があります。たとえば、センサーシミュレーションは十分に現実的ではなく、多くのトラフィックフローはルールまたはメカニズムモデルに基づいているため、エンドツーエンドの閉ループシミュレーションテストを実施することが困難です。

実際、私たちのチームは、過去2年間、高品質のエンドツーエンドの閉ループシミュレーションエンジンを構築するために多くの努力を費やしてきました。

非常に一貫したシミュレーションセンサーデータを取得するために、神経レンダリングのアイデアを採用しました。この方法は、高品質の3次元でシーンとオブジェクトを自動的に再構築できます。

OASIMと呼ばれるニューラルレンダリングベースの自律運転シミュレーターを構築しました（これはまもなくオープンになります）。

カメラ、リダーなどを含むセンサーをシミュレートできます。また、技術的なルートはNERFのボリュームレンダリングとは異なりますが、代わりにSDFベースの表面レンダリングを使用しているため、形状と外観の両方を同時に再構築することができ、データ生成にも使用して、知覚モデルトレーニングを支援することができます。

もともとはデモ画面の録音であり、後でそれをオープンソースの機会があるときにリリースされます。

そのため、再構築から一般化、次に世代へのリンク全体を開きました。 LIDARデータをシミュレートして生成することもできます。

3番目のポイントは、エージェントと自律運転を組み合わせることです。これは、DILUのフォローアップ研究方向でもあります。それは、単に大きなモデルを運転するように教えることではなく、大きなモデルの一般的な理解能力を活用し、さまざまな外部ツールを使用して自律的な運転を実用的に実装することです。 LLMを使用するためだけに使用することはできません。

現在、オープンループデータセットでのみトレーニングと評価が疲れると思うため、閉ループ評価を調査しています。シミュレーションエンジンに基づいた一部の閉ループトレーニングはすでに表示されていますが、評価はオープンループです。現在、フル機能エージェントに基づいてパイプラインを構築して、自律運転のための漸進的な学習や生涯学習さえ実現しようとしています。

最後に、知識主導の広告に関連していると思われるいくつかの作業と指示を紹介しましょうが、まだ時間がかかるかもしれません。

まず、1Bモデルなどの小さな大きなモデルでバスに乗ると、すでに端で推論（または訓練する）能力がある場合があります。そして、いつかバスに乗ることができれば、線形変圧器の仕事は楽しいでしょう。なぜなら、今日では、その本質が一般的なモデルであるため、大規模なモデルはしばしば非常に大きいからです。しかし、特定のサブフィールドに一般モデルの機能のほんの一部しか必要ない場合、そんなに大きなものを持っていないことは大丈夫ですか？

第二に、最近の概念：スーパーアライメント。それは、自由なときに小さなサイズの大きなモデルを監督するために小型の大型モデルを使用できるかどうかを意味します。小さなモデルを使用して適切なコーパスを生成し、大規模なモデルを養成してトレーニングするのが簡単かもしれないので、小さなモデルを使用して大規模なモデルトレーニングの監督を提供する方が簡単かもしれません。 Openaiはそれを使用してRLHFなどの簡単なタスクで人材を置き換えることができますが、慎重に考えると、これは次世代の「シャドウモード」ですか？

第三に、広告アルゴリズムを世界モデルで直接訓練します。実際、これは私が思う世界モデルの本質です。全世界をモデル化できるモデルは、間違いなく世界を完全に理解することができ、自律運転アルゴリズム自体を監督するためにも使用できますか？

第四に、再構成は知覚です。これは、マルチモーダルセンサー融合の知覚のピットに最初に入ったときの考え方でもあります。つまり、実際には、マルチモーダルセンサーの融合、サラウンドビューカメラフュージョン、またはフュージョンアルゴリズムであろうと、エッセンスは「整列」することです。これらのアルゴリズムの目標は、さまざまな場所やさまざまなモードからのデータを統一された空間に並べることです。次に、後続のアルゴリズムがこの統一された空間から始まります。実際、それについて慎重に考えると、それが柱、ボクセル、後のbev、および占有であろうと、それらの本質は、それを1つずつ処理するために使用される統一された空間です。スペースが非常に多いので、どのスペースが最適ですか？一般的に、入力空間からマニホールド空間へのマッピングを学ぶことを楽しみにしています（何年も前にマニホールド空間について答えがありました。それを見ることができます。マニホールド学習の基本的なアイデアを簡単に紹介したいですか？）。では、最も標準的なアライメントスペースはどのスペースですか？ 3Dスペースだと思います。異なるモードのセンサーは、同じ3D空間に整列されています。実際、この問題の本質は、3次元再構成を行うことです。。。ですから、暗闇の中では、 「三次元の再構築」と「シーン理解」がいつか1つに融合すると思います。再建は知覚です。

これを書いた後、この記事は基本的に終わりました。主に私の最近の考えと私たちのチームからのいくつかの努力のために、私は多くのナンセンスについて話します。最後に、メインテーマを確認しましょう

LLM+ADの出現は、これがデータ駆動型から知識駆動型までの機会であることを誰もが認識していることを意味します。
知識駆動型には、一般化、解釈可能性、継続的な学習の3つの特性と目標がある場合があります。
個人的には、LLMを使用してエンドツーエンドの自律運転を追求する必要はないと思います。大きなモデルには、幻覚やゆっくりとした推論など、多くの問題があるためです。 LLMの知識アプリケーション能力と推論能力を使用する必要があり、エージェントの観点から、LLMを利用できるがLLMに依存しないアーキテクチャを調査して、徐々に自律運転システムを構築します。

<<: ロボットとAIがサプライチェーンを自動化する方法

>>: DrivingDiffusion: 最初のサラウンドワールドモデル: BEV データとシミュレーションの新しいアイデア!