最近人気の大型モデルや自動運転コンセプトについてお話ししましょう。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

最近はビッグモデルのさまざまな応用が盛んに行われており、10月初旬には自動運転にビッグモデルを適用しようとする注目の記事が相次いだ。最近、多くの友人と多くの関連する話題について話しました。この記事を書いた理由は、一方では、私自身も含め、過去に非常に関連しているものの実際には異なる概念を混同していたことに気づいたからです。他方では、これらの概念から、みんなと共有して議論する価値のある興味深い考えが生まれました。

ビッグ（言語）モデル

これは間違いなく現在最も人気のある方向性であり、最も集中した論文が掲載されている最もホットなトピックでもあります。では、大規模言語モデルは自動運転にどのように役立つのでしょうか?一方で、GPT-4Vと同様に、画像との整合を通じて非常に強力な意味理解機能を提供しますが、これについてはここでは説明しません。他方、LLMは、運転行動を直接実装するためのエージェントとして使用されます。後者は、実は現在最も魅力的な研究方向であり、具現化された AI シリーズの作業と密接に関連しています。

これまでに見てきた後者の研究のほとんどは、運転タスクに LLM を使用するというものでした。1) 直接使用する、2) 教師あり学習を通じて微調整する、3) 強化学習を通じて微調整する、というものです。本質的には、学習方法に基づいた運転という従来のパラダイムの枠組みから抜け出せていないのです。すると、非常に直接的な質問は、なぜこれを行うのに LLM を使用する方が良いのかということです。直感的に言えば、言語を使って運転するのは非常に非効率的で冗長なことです。ある日突然、LLM が実際に言語を通じてエージェントの事前トレーニングを実装していることに気付きました。 RL の一般化が困難だった重要な理由の 1 つは、さまざまなタスクを統合し、事前トレーニングにさまざまな共通データを使用することが困難だったことです。各タスクは最初からしかトレーニングできませんでしたが、LLM はこの問題を非常にうまく解決しました。しかし、実際には十分に解決されていない問題がいくつかあります。1) 事前トレーニングを完了した後、出力インターフェースとして言語を保持する必要がありますか?これは実際には多くのタスクで大きな不便をもたらし、ある程度の冗長な計算も引き起こします。 2) LLM をエージェントとして利用するアプローチでは、既存の RL モデルフリー手法の本質的な問題は依然として解決されていません。モデルフリー手法の問題はすべて依然として存在しています。最近、モデルベース + LLM をエージェントとして利用する試みもいくつか見られましたが、これは興味深い方向性かもしれません。

最後に、各論文について不満を述べたいと思います。LLMを接続して LLM に理由を出力させるだけでは、モデルを解釈可能にすることはできません。この理由はまだナンセンスかもしれません。。。以前は保証されていなかったものが、文章を出力するだけでは保証されなくなります。

大きな（視覚的な）モデル

純粋に全体像を捉えた視覚モデルは、その魔法のような「出現」の瞬間をまだ経験していません。ビッグビジュアルモデルという場合、一般的に2つの意味が考えられます。1つは、CLIP、DINO、SAMなどの大規模なWebデータで事前トレーニングして実装された超強力な視覚情報特徴抽出器であり、モデルの意味理解能力が大幅に向上します。もう1つは、GAIAに代表される世界モデルによって実装された（画像、アクションなど）の結合モデルを指します。

実際、前者は従来の考え方に沿って直線的なスケールアップを続けてきた結果に過ぎないと思います。現状では、自動運転において量的な変化の可能性を見出すことは難しいです。後者は、今年 Wayve と Tesla が継続的に宣伝されたことにより、実際に研究者の視野に入ってきました。人々が世界モデルについて話すとき、このモデルはエンドツーエンド（アクションを直接出力する）であり、LLM に関連しているという点が混同されることがよくあります。実際のところ、そのような仮定は一方的です。私の世界モデルに対する理解も非常に限られています。ここでは、Lecun のインタビューと @俞扬のモデルベース RL に関する調査をお勧めしますが、これについては詳しく説明しません。

楊宇：世界モデルの研究
https://zhuanlan.zhihu.com/p/533855468

ピュアビジョン自動運転

これは実はとても分かりやすいです。視覚センサーだけに頼った自動運転システムのことを指します。実はこれこそが自動運転の究極の願いなのです。人間と同じように目だけで運転する。このような概念は、一般的に上記の 2 つの大きなモデルに関連付けられます。これは、画像の複雑なセマンティクスでは、有用な情報を抽出するために強力な抽象化機能が必要になるためです。テスラの最近の宣伝キャンペーンでは、このコンセプトは以下で説明するエンドツーエンドとも重なります。しかし実際には、純粋な視覚的な運転を実現する方法はたくさんあります。エンドツーエンドは当然その 1 つですが、唯一の方法ではありません。純粋に視覚的な自動運転を実現する上で最も難しい問題は、視覚が本質的に 3D 情報に鈍感であり、大規模なモデルでもこれが根本的に変わらないことです。具体的には、1) 電磁波の受動的な受信は、視覚が他のセンサーのように 3D 空間の幾何学的情報を測定できないことを意味します。2) 遠近法によって、遠くの物体は誤差に対して非常に敏感になります。これは、デフォルトで同等のエラーを伴う 3D 空間で実装される下流の計画と制御にとって非常に不親切です。しかし、視覚に基づいて運転するということは、3D の距離と速度を正確に推定できるということでしょうか?これは、意味理解に加えて、純粋に視覚的な自動運転においてさらに研究する価値のある表現の問題だと思います。

エンドツーエンドの自動運転

この概念は、センサーから最終的な出力制御信号までの共同最適化モデルの使用を指します（実際には、上流の計画層のウェイポイント情報も広く含まれると思います）。これは、センサーデータを入力し、ニューラルネットワークを介して直接制御信号を出力する 1980 年代の ALVINN のような直接的なエンドツーエンドのアプローチである場合もあれば、今年の CVPR 最優秀論文である UniAD のような段階的なエンドツーエンドのアプローチである場合もあります。ただし、これらの方法の共通点は、各モジュールが独自の最適化目標を持つのではなく、下流の監視信号を上流に直接送信できることです。全体的に、これは正しい考えです。結局のところ、ディープラーニングはこのような共同最適化に依存しています。しかし、自動運転や汎用ロボットなど、極めて複雑で物理的な世界を扱うシステムの場合、エンジニアリングの実装やデータの整理・利用効率の面で克服すべき課題が数多くあります。

フィードフォワードエンドツーエンド自動運転

この概念についてはあまり言及されていないようですが、エンドツーエンドの存在自体は価値があるのですが、問題は観測のためのフィードフォワードの使用にあると私は考えています。実際、私を含め、エンドツーエンドの運転はフィードフォワード形式である必要があると常に想定してきました。これは、現在のディープラーニングベースの方法の 99% がそのような構造、つまり、関心のある最終出力 (制御信号など) u = f(x)、x がセンサーのさまざまな観測値であると想定しているためです。ここで f は非常に複雑な関数になることがあります。しかし実際には、いくつかの問題では、最終出力が特定のプロパティを満たすか、それに近づくことが期待されるため、フィードフォワード形式ではそのような保証を与えることが困難です。そこで、別の方法があります。u* = argmin g(u, x) st h(u, x) <= c のような制約付き最適化形式で記述できます (ある意味では、これもフィードバックを導入しますが、正確にはフィードバックエンドツーエンド自動運転とは呼びません)。実際、CV 分野では、両方の利点を組み合わせようとする研究がいくつかあります。たとえば、以前の記事で何度も言及されている Implict Function を通じて導関数を構築する方法の方が私にはよく知られています。このパラダイムは、両方の長所を取り入れた完璧なエンドツーエンドのソリューションになると信じています。

大規模モデルの開発により、この直接フィードフォワードのエンドツーエンドの自動運転ソリューションが復活しました。ビッグモデルは当然非常に強力ですが、皆さんに考えていただきたい疑問があります。ビッグモデルがエンドツーエンドで全能であるならば、それはビッグモデルがエンドツーエンドで Go/Gobang をプレイできるはずであることを意味するのでしょうか? AlphaGo のようなパラダイムは無意味なのでしょうか?答えはノーだということは誰もが知っていると思います。もちろん、このフィードフォワードアプローチは高速な近似ソルバーとして使用でき、ほとんどのシナリオで良好な結果を達成できます。

ニューラルプランナーの使用を公開しているさまざまなソリューションから判断すると、ニューラル部分は、高度に非凸な後続の最適化の問題を軽減するために、後続の最適化ソリューションに対して初期化された提案をいくつか提供するだけです。これは本質的に、AlphaGo の高速ロールアウトが行うことと同じことです。しかし、AlphaGo はその後の MCTS 検索を「セーフティネット」ソリューションとは呼んでいません。。。

最後に、これらの概念の違いと関連性を誰もが明確に理解し、問題を議論する際に何について話しているのかを誰もが明確に理解するのに役立つことを願っています。。。

オリジナルリンク: https://mp.weixin.qq.com/s/_OjgT1ebIJXM8_vlLm0v_A

<<: 自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーションの分析

>>: