この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と著者の個人的な理解基礎モデルの出現により、自然言語処理とコンピューター ビジョンの分野に革命が起こり、自動運転 (AD) への応用への道が開かれました。この調査では、40 件を超える研究論文を包括的にレビューし、AD の強化における基礎モデルの役割を実証しています。大規模言語モデルは、特に推論、コード生成、翻訳の能力を通じて、AD の計画とシミュレーションに役立ちます。同時に、ビジョンベースのモデルは、3D オブジェクトの検出や追跡、シミュレーションやテストのための現実的な運転シナリオの作成などの主要なタスクにますます適用できるようになっています。多様な入力を統合するマルチモーダル ベース モデルは、エンドツーエンドの AD にとって極めて重要な、優れた視覚的理解と空間的推論を示します。この調査は、AD 分野における基礎モデルをその様式と機能に応じて分類する構造化された分類法を提供するだけでなく、現在の研究で使用されている方法論についての洞察も提供します。既存の基礎モデルと最先端の AD 手法の間のギャップを特定し、将来の研究の方向性を明らかにして、これらのギャップを埋めるためのロードマップを提案します。 導入ディープラーニング(DL)と自動運転(AD)の統合は、この分野における大きな飛躍を意味し、学界と産業界の両方から注目を集めています。カメラとライダーを搭載した AD システムは、人間のような意思決定プロセスをシミュレートします。これらのシステムは基本的に、認識、予測、計画という 3 つの主要コンポーネントで構成されています。 Perception は、オブジェクトの検出と追跡に重点を置いて、DL とコンピューター ビジョン アルゴリズムを活用します。予測は、交通エージェントの動作と自律走行車との相互作用を予測します。計画は通常階層的であり、戦略的な運転決定、最適な軌道の計算、車両制御コマンドの実行などが含まれます。特に自然言語処理とコンピュータービジョンの分野における基礎モデルの出現により、AD 研究に新たな側面がもたらされました。これらのモデルは、広範な Web スケールのデータセットでトレーニングされ、パラメータ サイズが非常に大きいという点で異なります。自動運転車サービスによって生成される大量のデータと、NLP や人工知能生成コンテンツ (AIGC) などの人工知能の進歩を考えると、AD の基盤となるモデルの可能性に対する関心が高まっています。これらのモデルは、物体検出、シーン理解、意思決定など、人間のドライバーと同等のレベルの知能でさまざまな AD タスクを実行するのに役立ちます。 基本モデルは、AD におけるいくつかの課題に対処します。従来、AD モデルは教師あり方式でトレーニングされ、手動で注釈が付けられたデータに依存していましたが、多様性に欠けることが多く、適応性が制限されていました。ただし、ベース モデルは、さまざまなネットワーク サイズのデータでトレーニングされているため、優れた一般化能力を示します。それらは、計画における複雑なヒューリスティックなルールベースのシステムを、広範な事前トレーニングから得られた推論機能と知識に置き換える可能性があります。たとえば、LLM は、事前トレーニング データセットから得られる推論機能と常識的な運転知識を備えており、ソフトウェア コードでルールを手作業で作成し、コーナー ケースをデバッグするための複雑なエンジニアリング作業を必要とするヒューリスティックなルールベースの計画システムを置き換える可能性があります。この分野の生成モデルは、シミュレーション用の現実的な交通シナリオを作成することができ、これはまれな状況や困難な状況での安全性と信頼性をテストするために不可欠です。さらに、ベースモデルは AD テクノロジーをよりユーザー中心にするのに役立ち、言語モデルは自然言語でユーザーコマンドを理解して実行できます。 基本的なモデルを AD に適用するための広範な研究にもかかわらず、実際のアプリケーションには大きな制限とギャップが残っています。私たちの調査は、体系的な再検討を提供し、将来の研究の方向性を提案することを目的としています。 LLM4Drive は、大規模な言語モデルに重点を置いています。私たちは、既存の調査を基に、視覚的なグラウンドトゥルースモデルとマルチモーダルグラウンドトゥルースモデルの両方をカバーし、予測と認識のタスクにおけるそれらの応用を分析します。この包括的なアプローチには、事前トレーニング済みのモデルや方法などの技術的側面の詳細な調査が含まれており、将来の研究機会が特定されます。革新的なことに、私たちは、図 1 に示すように、パターンと機能に基づいて AD の基礎モデルを分類するための分類法を提案します。次のセクションでは、大規模言語モデル、ビジュアル ベース モデル、マルチモーダル ベース モデルなど、AD コンテキストにおけるさまざまなベース モデルの適用について説明します。 ADにおける大規模言語モデル概要当初は NLP に変革をもたらしましたが、LLM は現在、AD におけるイノベーションを推進しています。 BERT は、トランスフォーマー アーキテクチャを使用して言語セマンティクスを理解する、NLP の基礎モデルの先駆者です。このような事前トレーニング済みモデルは、特定のデータセットで微調整することができ、幅広いタスクで最先端の結果を達成できます。これに続いて、GPT-4 を含む OpenAI の Generative Pre-trained Transformers (GPT) シリーズは、幅広いデータセットでトレーニングされたことにより、並外れた NLP 機能を実証しました。 ChatGPT や GPT-4 などのその後の GPT モデルは、数十億のパラメータと数兆語のクロールされた Web データを使用してトレーニングされ、翻訳、テキスト要約、質問への回答など、多くの NLP タスクで優れたパフォーマンスを達成しました。また、コンテキストから新しいスキルを学習するためのワンショットおよび小規模の推論機能も実証します。ますます多くの研究者が、これらの推論、理解、文脈学習の能力を AD の課題に対処するために応用し始めています。 AD におけるアプリケーション推論と計画AD の意思決定プロセスは人間の推論に非常に似ているため、安全で快適な運転の決定を下すには環境の手がかりを解釈する必要があります。 LLM は、さまざまな Web データに基づいてトレーニングされ、Web フォーラムや政府の公式 Web サイトなど、さまざまなソースから運転に関する常識的な知識を吸収します。この豊富な情報により、LLM は AD に必要な微妙な意思決定に参加できるようになります。 AD で LLM を活用する 1 つの方法は、運転環境の詳細なテキスト説明を AD に提供し、運転の決定や制御コマンドを促すことです。図 2 に示すように、このプロセスには通常、座標、速度、過去の軌跡などのエージェントの状態、速度と加速度などの車両の状態、信号、車線情報、予定ルートなどの地図の詳細を詳述する包括的なプロンプトが含まれます。対話の理解を深めるために、LLM に応答とともに推論を提供するよう指示することもできます。たとえば、GPT Driver は車両の動作を推奨するだけでなく、これらの推奨の背後にある理由も説明するため、自動運転の決定の透明性と説明可能性が大幅に向上します。このアプローチは、LLM 運転を例にとり、自動運転の決定の説明可能性を高めます。同様に、「受信、推論、反応」アプローチは、LLM エージェントに車線占有率を評価し、潜在的なアクションの安全性を評価するように指示し、それによって動的運転シナリオのより深い理解を促進します。これらの方法は、LLM の複雑なシナリオを理解する固有の能力を活用するだけでなく、推論機能を使用して人間のような意思決定プロセスをシミュレートします。 LLM は、詳細な環境の説明と戦略的な手がかりを統合することにより、AD の計画と推論の側面に大きく貢献し、人間の判断と専門知識を反映した洞察と決定を提供します。 予測する予測は、交通参加者と自車両の将来の軌道、意図、および起こり得る相互作用を予測します。一般的なディープラーニングベースのモデルは、交通シーンのラスター画像またはベクター画像に基づいて空間情報をエンコードします。しかし、通行権、車両の方向指示器、歩行者のジェスチャーなどの推論と意味情報を必要とする、高度にインタラクティブなシナリオを正確に予測することは依然として困難です。シーンのテキスト表現により、より多くの意味情報が提供され、LLM の推論能力と事前トレーニング データセット内の共通知識をより有効に活用できます。 LLM を軌道予測に適用する研究は多くありません。評価では、画像エンコーディングまたはテキストエンコーディングのみを使用するベースラインと比較して、大幅な改善が示されています。 ユーザーインターフェースとパーソナライゼーション自律走行車はユーザーフレンドリーで、乗客や遠隔地のオペレーターの指示に従えるものでなければなりません。現在の Robotaxi リモート アシスタンス インターフェイスは、事前定義されたコマンドの限られたセットを実行するようにのみ設計されています。しかし、LLM の理解および対話機能により、自律走行車は人間からの自由形式の指示を理解できるようになり、自律走行車をより適切に制御し、ユーザーの個別のニーズを満たすことができます。 LLM エージェントは、事前定義されたビジネス ルールとシステム要件に基づいて、ユーザー コマンドを受け入れたり拒否したりすることもできます。 シミュレーションとテストLLM は、既存のテキスト データから知識を要約して抽出し、シミュレーションやテストに役立つ新しいコンテンツを生成できます。 ADEPT システムは、GPT を使用して QA 手法で NHTSA 事故報告書から重要な情報を抽出し、シミュレーションとテスト用のさまざまなシナリオ コードを生成できます。 TARGET システムは、GPT を使用して交通ルールを自然言語からドメイン固有言語に変換し、テスト シナリオを生成できます。 LCTGen は、LLM を強力なインタープリターとして使用し、ユーザーのテキスト クエリを交通シミュレーション シナリオのマップ レーンと車両位置の構造化された仕様に変換します。 方法とテクニック研究者らは、自然言語処理における同様の技術を使用して、ジャストインタイムエンジニアリング、コンテキスト学習と少数ショット学習、人間のフィードバックからの強化学習などの自動運転タスクに LLM を適用しました。 プロンプトエンジニアリングプロンプト エンジニアリングでは、複雑な入力プロンプトと質問設計を使用して、大規模な言語モデルをガイドし、必要な回答を生成します。 いくつかの論文では、LLM エージェントが法的に準拠できるように、事前プロンプトとして交通ルールを追加しています。 LLM での運転 信号の切り替えや左側通行または右側通行などの側面をカバーする交通ルールがあります。 LanguageMPC はトップダウンの意思決定システムを採用しており、さまざまな状況に応じて、車両にはさまざまなアクションが可能です。 LLM エージェントは、シーン内の重要なエージェントを識別し、事前定義されたアクションから選択するための注意、重み、バイアスのマトリックスを出力するようにも指示されます。 微調整と文脈学習事前トレーニング済みモデルを自動運転に適応させるには、微調整とコンテキスト学習の両方が使用されます。微調整では、より小さなドメイン固有のデータセットでモデル パラメータを再トレーニングし、コンテキスト学習または少数ショット学習では、LLM の知識と推論機能を活用して、入力プロンプト内の特定の例から学習します。ほとんどの論文は文脈学習に焦点を当てていますが、微調整を使用している論文はごくわずかです。研究者たちはどちらが優れているかについてさまざまな結果を得ました。GPT-Driver は、OpenAI の微調整を使用した方が、Few-Shot Learning よりもパフォーマンスが優れているという異なる結論に達しました。 強化学習と人間のフィードバックDILU は、手動修正を通じて良い運転例と悪い運転例を保存し、推論能力をさらに強化する反射モジュールを提案します。このようにして、LLM は、過去の多数の運転経験を常に振り返りながら、どのような行動が安全で、どのような行動が危険であるかを考えることを学ぶことができます。 Surreal Driver は 24 人のドライバーにインタビューし、彼らの運転行動の説明を思考連鎖のプロンプトとして使用して、LLM モデルを人間のような運転スタイルに導くことができる「コーチエージェント」モジュールを開発しました。 限界と今後の方向性幻覚と危険幻覚は LLM における大きな課題であり、最先端の大規模言語モデルでも依然として誤解を招く誤った情報が生成されます。既存の論文で提案されている方法のほとんどは、依然として LLM の応答から駆動アクションを解析する必要があります。目に見えないシーンが与えられた場合、LLM モデルは依然として役に立たない、または誤った運転判断を下す可能性があります。自動運転は、チャットボットよりもはるかに高い信頼性と安全性の要件を備えた、安全性が極めて重要なアプリケーションです。評価結果によると、自動運転用LLMモデルの衝突率は0.44%で、他の方法よりも高いことが分かりました。事前トレーニング済みの LLM には、攻撃的な運転やスピード違反などの有害なコンテンツも含まれる場合があります。より多くのインザループトレーニングと調整により、幻覚や危険な運転判断を減らすことができます。 時間の消費と効率大規模な言語モデルは通常、レイテンシが高く、詳細な運転決定を生成すると、車内の限られたコンピューティング リソースのレイテンシ バジェットを使い果たしてしまう可能性があります。推論には数秒かかります。数十億のパラメータを持つ LLM は 100 GB を超えるメモリを消費する可能性があり、自動運転車の他の重要なモジュールに干渉する可能性があります。 LLM をより効率的かつ簡単に導入できるようにするには、モデルの圧縮や知識の抽出など、この分野でさらに研究を行う必要があります。 感覚システムへの依存LLM は最も高い推論能力を備えていますが、環境の記述は依然として上流の認識モジュールに依存します。運転上の判断が誤って、環境入力に小さなエラーが発生し、重大な事故につながる可能性があります。 LLM は、エラーや不確実性がある場合でも、認識モデルをより適切に適応させ、より適切な意思決定を行う必要もあります。 シムとリアルのギャップほとんどの研究はシミュレーション環境で行われ、運転シナリオは現実世界の環境よりもはるかに単純です。現実世界のあらゆるシナリオをカバーするには、多くのエンジニアリングと人間による詳細な注釈付け作業が必要です。たとえば、モデルは人間に頭を下げる方法を知っていますが、小動物とのやり取りは得意ではない可能性があります。 Visual Basic モデルビジュアル グラウンド トゥルース モデルは、オブジェクトの検出やセグメンテーションなど、複数のコンピューター ビジョン タスクで大きな成功を収めています。 DINO は ViT アーキテクチャを使用し、ローカル画像パッチが与えられた場合にグローバル画像の特徴を予測するように自己教師方式でトレーニングされます。 DINOV2 は、10 億のパラメータと 12 億の画像からなる多様なデータセットを使用してトレーニングを拡張し、複数のタスクで最先端の結果を達成します。 Segment-anything モデルは、画像セグメンテーションの基本モデルです。モデルは、セグメンテーション マスクを生成するために、さまざまな種類のキュー (ポイント、ボックス、またはテキスト) を使用してトレーニングされます。データセット内の数十億のセグメンテーション マスクを使用してトレーニングした後、モデルは適切な手がかりが与えられた場合に新しいオブジェクトをセグメント化するゼロ ショット転送機能を示します。 拡散モデルは、画像生成で広く使用されている生成基底モデルです。拡散モデルは、画像にノイズを繰り返し追加し、逆拡散プロセスを適用して画像を復元します。画像を生成するには、学習した分布からサンプリングし、ランダムノイズから非常にリアルな画像を復元します。安定拡散モデルは、VAE を使用して画像を潜在表現にエンコードし、UNet を使用して潜在変数をピクセル単位の画像にデコードします。また、オプションのテキスト エンコーダーも備えており、プロンプト (テキストの説明またはその他の画像) に基づいて画像を生成するために、交差注意メカニズムを適用します。 DALL-E モデルは、数十億の画像とテキストのペアを使用してトレーニングされ、安定した拡散を使用して、人間の指示に従う忠実度の高い画像と創造的なアートを生成します。 主に 3D 認識とビデオ生成タスクにおいて、自動運転におけるビジョンベース モデルの応用に対する関心が高まっています。 感知SAM3D は、SAM を自動運転における 3D 物体検出に適用します。 LiDAR ポイント クラウドは BEV (鳥瞰図) 画像に投影され、32 x 32 グリッドを使用してポイント キューを生成し、前景オブジェクトのマスクを検出します。 SAM モデルのゼロショット転送機能を利用して、セグメンテーション マスクと 2D ボックスを生成します。次に、2D ボックス内の LIDAR ポイントの垂直属性を使用して 3D ボックスを生成します。しかし、Waymo オープン データセットの評価では、平均精度メトリックが、既存の最先端の 3D オブジェクト検出モデルに比べてまだはるかに劣っていることが示されています。彼らは、SAM でトレーニングされた基本モデルは、これらのまばらでノイズの多いポイントをうまく処理できず、遠くの物体に対して誤検出を引き起こすことが多いことを観察しました。 SAM は、より多くの意味情報と一般化機能を含む SAM モデルの特徴空間を利用して、3D セグメンテーション タスクのドメイン適応に適用されます。 SAM と Grounding DINO は、ビデオ フレーム間の時間的一貫性を活用する統合されたセグメンテーションおよび追跡フレームワークを作成するために使用されます。 Grounding DINO は、オブジェクトのテキスト記述から入力を受け取り、対応する境界ボックスを出力するオープンセット オブジェクト検出器です。自動運転に関連するオブジェクト クラスのテキスト キューが与えられると、ビデオ フレーム内のオブジェクトを検出し、車両と歩行者の境界ボックスを生成できます。 SAM モデルはさらにこれらのボックスをヒントとして受け取り、検出されたオブジェクトのセグメンテーション マスクを生成します。生成されたオブジェクト マスクは下流のトラッカーに渡され、下流のトラッカーは連続するフレームのマスクを比較して新しいオブジェクトがあるかどうかを判断します。 ビデオ生成と世界モデル基本モデル、特に生成モデルとワールドモデルは、自動運転シミュレーションのための現実的な仮想運転シナリオを生成できます。多くの研究者が、現実世界のシナリオ生成のために、自動運転に拡散モデルを適用し始めています。ビデオ生成問題は、多くの場合、世界モデルとして定式化されます。環境入力を条件とする現在の世界状態が与えられると、モデルは次の世界状態を予測し、拡散を使用して非常に現実的な運転シナリオをデコードします。 GAIA-1 は、リアルな運転ビデオを生成するために Wayve によって開発されました。ワールド モデルは、カメラ画像、テキストの説明、車両制御信号を入力トークンとして使用し、次のフレームを予測します。この論文では、事前トレーニング済みの DINO モデルの埋め込みとコサイン類似度損失を利用して、画像タグの埋め込みに関するより多くの意味的知識を抽出します。彼らはビデオ拡散モデルを使用して、予測された画像ランドマークから高忠実度の運転シーンをデコードしました。拡散モデルをトレーニングするには、画像生成とビデオ生成という 2 つの個別のタスクがあります。画像生成タスクはデコーダーが高品質の画像を生成するのに役立ち、ビデオ生成タスクは時間的注意を使用して時間的に一貫したビデオ フレームを生成します。生成されたビデオは、高レベルの現実世界の制約に従い、オブジェクトの位置、相互作用、交通ルール、道路構造などの現実的なシーンのダイナミクスを備えています。このビデオでは、多様性と創造性も示されており、セルフキャリアのさまざまなテキストの説明とアクションに応じて現実的な結果がもたらされる可能性があります。 DriveDreamer は、世界モデルと拡散モデルを使用して、自動運転用のビデオも生成します。モデルは、画像、テキストの説明、車両の動作に加えて、HDMap やターゲット 3D ボックスなどのより構造的な交通情報を入力として使用し、交通シーンのより高レベルの構造的制約をより適切に理解できるようにします。モデルのトレーニングは 2 つの段階に分かれています。最初の段階では、構造化された交通情報に基づく拡散モデルを使用してビデオを生成します。 限界と今後の方向性SAM などの現在の最先端のベース モデルには、物体検出やセグメンテーションなどの 3D 自動運転認識タスクに十分なゼロ ショット一般化機能がありません。自動運転の認識は、複数のカメラ、LIDAR、センサー融合に依存して最高精度の物体検出結果を取得しますが、これはインターネットからランダムに収集された画像データセットとは大きく異なります。自動運転認識タスク用の現在の公開データセットの規模は、基本モデルをトレーニングし、考えられるすべてのロングテールシナリオをカバーするにはまだ不十分です。既存の 2D ビジョンベースのモデルは、制限はあるものの、知識抽出のための便利な特徴抽出器として機能し、モデルに意味情報をより適切に組み込むのに役立ちます。ビデオ生成および予測タスクの分野では、ビデオ生成とポイントクラウド予測に既存の拡散モデルを活用することで有望な進歩が見られ、これをさらに適用して、自動運転シミュレーションおよびテスト用の高忠実度シナリオを作成できます。 マルチモーダルベースモデルマルチモーダル ベース モデルは、複数のモダリティ (音声、画像、ビデオなど) から入力データを取得して、画像からのテキスト生成、視覚入力による分析や推論などのより複雑なタスクを実行することで、より多くのメリットが得られます。 最も有名なマルチモーダル ベース モデルの 1 つは CLIP です。モデルはコントラスト事前トレーニング法を使用して事前トレーニングされています。入力はノイズの多い画像とテキストのペアであり、モデルは与えられた画像とテキストが正しいペアであるかどうかを予測するようにトレーニングされます。モデルは、画像エンコーダーとテキストエンコーダーからの埋め込みのコサイン類似度を最大化するようにトレーニングされます。 CLIP モデルは、画像分類や、教師ありトレーニングなしでクラスの正しいテキスト記述を予測するなど、他のコンピューター ビジョン タスクへのゼロ ショット転送機能を示します。 LLaVA、LISA、CogVLM などのマルチモーダル ベース モデルは、オブジェクトのセグメンテーション、検出、位置特定、空間推論などの視覚タスクで優れたパフォーマンスを発揮する一般的な視覚 AI エージェントに使用できます。 大規模な事前トレーニング データセットから自動運転に一般的な知識を転送することで、マルチモーダル ベース モデルをオブジェクト検出、視覚的理解、空間推論に使用でき、自動運転におけるより強力なアプリケーションが可能になります。 視覚的な理解と推論従来の物体検出や分類モデルは自動運転には不十分です。危険な物体を識別したり、交通参加者の意図を理解したりするなど、シーンのより優れた意味的理解と視覚的推論が必要だからです。既存のディープラーニングベースの予測および計画モデルは、ほとんどがブラックボックスモデルであり、事故や有害事象が発生した場合の解釈性とデバッグ性が低いです。マルチモーダル ベース モデルの助けを借りて、モデルの説明と推論プロセスを生成し、問題をよりよく研究することができます。 Talk2BEV は、視覚情報と意味情報を融合したシーンの革新的な鳥瞰図 (BEV) 表現を提案します。パイプラインは、まず画像と LIDAR データから BEV マップを生成し、一般的な視覚言語ベース モデルを使用して、オブジェクトを切り取った画像のより詳細なテキスト説明を追加します。次に、BEV マップの JSON テキスト表現が汎用 LLM に渡され、空間および視覚的推論タスクを含むビジュアル QA が実行されます。結果は、ターゲットの詳細なインスタンス属性と高レベルの意図をよく理解し、自我車両の動作に関する自由な形式の提案を提供できることを示しています。 統一された認識と計画ウェン氏は、GPT-4Vision を知覚および計画タスクに適用する初期調査を実施し、いくつかのシナリオでその機能を評価しました。これは、GPT-4Vision が天気、交通標識、信号を理解し、シーン内の交通参加者を識別できることを示しています。また、車両のテールライト、U ターンなどの意図、詳細な車両タイプ (セメントミキサー、トレーラー、SUV など) など、これらのオブジェクトのより詳細なセマンティック記述を提供することもできます。また、GPT-4V は BEV 画像から投影されたポイント クラウドのアウトラインから車両を識別できるため、ベース モデルがポイント クラウド データを理解する可能性も示しています。彼らはまた、計画タスクにおけるモデルのパフォーマンスも評価しました。交通シナリオが与えられると、GPT4-V は車両の動作に関する観察と決定を説明するように求められます。結果は、他の交通参加者との良好な交流、安全な距離を保って車両を追跡すること、横断歩道で自転車に道を譲ること、信号が青になるまで停止していることなど、交通ルールと常識の遵守を示しました。ゲート式駐車場のようなロングテールのシナリオも、かなりうまく処理します。 限界と今後の方向性マルチモーダル ベース モデルは、自動運転タスクに必要な空間および視覚推論機能を実証します。従来の物体検出と比較して、クローズドデータセット、視覚的推論機能、自由形式のテキスト記述でトレーニングされた分類モデルは、より豊富な意味情報を提供でき、特殊車両の分類や警察や交通管制官によるジェスチャーの理解など、多くのロングテール検出問題を解決できます。マルチモーダル ベース モデルは優れた一般化能力を備えており、制御アクセス ゲートでの駐車など、いくつかの困難なロングテール シナリオを処理するために常識をうまく活用できます。視覚言語モデルは、タスクの計画に推論機能をさらに活用することで、認識計画とエンドツーエンドの自動運転を統合するために使用できます。 マルチベースモデルには、自動運転において依然として限界があります。 GPT-4V モデルは依然として幻覚に悩まされており、いくつかの例では不明瞭な応答や間違った回答を生成しました。また、事前トレーニング データセットにはネットワークからの 2D 画像しか含まれていなかったため、モデルは、正確な 3D オブジェクトの検出と位置特定にマルチビュー カメラと LiDAR データを活用することができないことも示されました。最先端の認識システムに匹敵するパフォーマンスを実現するために、ポイント クラウド データとセンサー フュージョンをより深く理解するためのマルチモーダル ベース モデルをトレーニングするには、よりドメイン固有の微調整や事前トレーニングが必要です。 結論と今後の方向性自動運転に基礎モデルを適用した最近の論文を要約し、分類します。自動運転におけるモダリティと機能に基づいた新しい分類法を確立します。コンテキスト学習、微調整、強化学習、視覚教育適応など、自動運転用にベースモデルを適応させるための方法と技術について詳しく説明します。また、幻覚、遅延、効率などの自動運転基本モデルの限界や、データセットのドメインギャップを分析し、次のような研究の方向性を導きました。
また、データセットは、自動運転基盤モデルの将来の開発における最大の障害の 1 つであることにも留意します。自動運転用の既存の 1,000 時間のオープンソース データセットは、最先端の LLM で使用される事前トレーニング データセットよりもはるかに少ないです。既存のベースモデルに使用されるネットワーク データセットでは、LiDAR やサラウンド ビュー カメラなど、自動運転に必要なすべてのモダリティが活用されていません。ネットワークデータ領域も実際の運転シナリオとは大きく異なります。 図 5 に長期的な将来のロードマップを示します。最初の段階では、事前トレーニングや微調整のために、現実世界の環境における運転シーンのすべてのデータ分布、多様性、複雑さをカバーできる大規模な 2D データセットを収集できます。ほとんどの車両には前方カメラを装備して、一日のさまざまな時間帯にさまざまな都市でデータを収集できます。第 2 段階では、LiDAR を使用して、より小規模で高品質の 3D データセットを使用して、ベース モデルの 3D 認識と推論を改善できます。たとえば、既存の最先端の 3D オブジェクト検出モデルを教師として使用して、ベース モデルを微調整できます。最後に、人間の運転例や注釈を活用して計画と推論を調整し、自動運転の最大の安全目標を達成することができます。 |
<<: とんでもないことだ! UniVision: BEV 検出と Occ 共同統合フレームワーク、デュアルタスク SOTA!
>>: AI分野におけるNVIDIA NeMoフレームワークの包括的な応用と利点の概要
01 自然言語生成自然言語生成は、顧客サービス、レポート生成、市場概要などで使用すべくデータをテキ...
[[434311]]もともと Protobuf の原理を勉強したかったのですが、研究の過程で Pr...
人工知能の急速な発展は目まぐるしく、教育、特に教師への影響は甚大です。人工知能は、退屈で面倒な仕事に...
企業のデジタル ツインを作成し、ロボティック プロセス オートメーション (RPA) などの自動化テ...
ビッグデータとは、従来のソフトウェアツールでは一定期間内に収集、管理、処理できないデータの集合を指し...
[[422353]] eslint が修正をサポートしていることはわかっています。--fix パラメ...
オープンソース モデルは、数だけでなくパフォーマンスも増加しており、活発な活力を示しています。チュー...
最近、工業情報化部直属の中国情報通信研究院傘下の研究機関であるCCIDコンサルティングが「中国の人工...
導入私たちは皆、キャッシュについて聞いたことがあります。キャッシュとは何かと尋ねると、完璧な答えが返...