1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

2023年も半分が過ぎました。自動運転仲間の皆さん、今年の仕事や生活は順調でしょうか?ハイエンドのADASソリューションは量産されていますか?新しい論文や実験は順調に進んでいますか?今日は、2023年頃の大型モデルと組み合わせた自動運転に関する先駆的な研究成果をいくつかまとめてみました。

2023年は大型モデルの開発が活発化する年であり、高度な自動運転(アシスト運転)が実現・実装されるための重要な節目となる。いくつかの大手自動運転企業や学術チームも、大型モデルと自動運転の分野を積極的に研究しています。その中には、上海人工知能研究所、清華大学、香港大学、香港科技大学など、自動運転研究に強い大学が含まれています。 Nvidia、Waymo、Wayve、GigaAI、Bosch、Huawei Noahなどの革新的な自動運転企業や、伝統的な大手企業も、自動運転とビッグモデルに関する独自の視点と展望を提示しています。

具体的には、LLMの自動運転への直接的な参加( LLM + エンドツーエンドの自動運転、LLM + セマンティックシーン理解、LLM + 運転行動生成)がホットなテーマとなっています。その他の研究の方向性としては、大規模なマルチモーダルモデルのシミュレーションや世界モデルの構築に焦点が当てられています。また、自動運転アプリケーションにおける大規模モデルの安全性と解釈可能性の調査を試みた学者もいます。この記事では、大規模モデルと組み合わせた自動運転に関する30以上の論文やオープンソースプロジェクトをまとめ、非常にシンプルにまとめています。皆様のお役に立てれば幸いです!

人間のように運転する: 大規模言語モデルによる自動運転の再考 [論文][github]

この論文は上海AILABと東南大学から発表されたものです。著者らは、LLMの環境理解能力を通じて、自動運転における環境理解と環境相互作用におけるLLMの実現可能性を探るための閉ループシステムの構築を試み、ロングテール問題の推論と解決においても一定の能力があることを発見しました。

DriveGPT4: 大規模言語モデルによる解釈可能なエンドツーエンドの自動運転 [論文][github]

HKU と Noah Lab による DriveGPT4 は、LLM を使用した説明可能なエンドツーエンドの自動運転システムであり、車両の挙動を説明し、対応する推論を提供できます。また、ユーザーからのさまざまな質問に答えて、インタラクティブ性を高めることもできます。さらに、DriveGPT4 は、車両の低レベルの制御信号をエンドツーエンドで予測します。

DiLu: 大規模言語モデルによる自動運転への知識駆動型アプローチ [論文][github]

これは上海 AI ラボが提案した DiLu フレームワークであり、推論モジュールと反射モジュールを組み合わせることで、システムが常識的な知識に基づいて意思決定を行い、継続的に進化できるようにします。多数の実験により、DiLu は経験を蓄積することができ、一般化能力において強化学習ベースの方法よりも大幅に優れていることが示されています。さらに、DiLu は現実世界のデータセットから直接経験を引き出すことができるため、実用的な自動運転システムへの可能性が強調されます。

GPT-Driver: GPT で運転を学ぶ [論文][github]

これは、OpenAI GPT-3.5 モデルを自動運転車用の信頼性の高いモーション プランナーに変換する USC の論文です。 GPT-Driver はプランナーの入力と出力を言語トークンとして表現し、LLM を利用して座標位置の言語記述から運転軌跡を生成します。 LLM の数値推論の可能性を刺激するために、新しいヒント推論微調整戦略が提案されています。この戦略により、LLM は極めて正確な軌道座標と内部の意思決定プロセスを自然言語で記述できます。

LLM による運転: 説明可能な自動運転のためのオブジェクトレベルのベクトル モダリティの融合 [論文][github]

この記事は Wayve からのものです。この論文では、ベクトル化されたデジタル モダリティと事前トレーニング済みの LLM を組み合わせて、運転シナリオにおけるコンテキスト理解機能を向上させる、独自のオブジェクト レベルのマルチモーダル LLM アーキテクチャを紹介しています。さらに、この論文では、10,000 の運転シナリオからの 160,000 の質問と回答のペアの新しいデータセットが提供されており、これは RL エージェントによって収集された高品質の制御コマンドと、教師 LLM (GPT-3.5) によって生成された質問と回答のペアとペアになっています。

LanguageMPC: 自動運転の意思決定者としての大規模言語モデル [論文][ページ]

この記事は清華大学とカリフォルニア大学バークレー校によるものです。この研究では、人間の常識的な理解を必要とする複雑な AD シナリオの意思決定コンポーネントとして大規模言語モデル (LLM) を使用しています。著者らは、LLM が包括的な推論を実行できるように認知経路を設計し、LLM の決定を実行可能な運転コマンドに変換するアルゴリズムを開発しました。このアプローチでは、ガイド付きパラメータ マトリックス適応を介して、LLM の意思決定を低レベル コントローラーとシームレスに統合できます。

受信、推論、反応: 自律走行車における大規模言語モデルを使用した指示どおりの運転 [論文]

この論文はパデュー大学からのもので、研究には、自動運転と戦術的意思決定タスクのための環境のコレクションである HighwayEnv で実施された実験が含まれており、さまざまなシナリオでの LLM の解釈、相互作用、および推論機能を調査することを目的としています。著者らはリアルタイムのパーソナライゼーションも調査し、LLM が口頭の指示に基づいて運転行動にどのように影響を与えることができるかを示しました。この論文の実証的結果は、運転の意思決定を改善するために「思考連鎖」プロンプトを採用することの大きな利点を強調し、継続的な口頭フィードバックを通じてパーソナライズされた運転体験を向上させる LLM の可能性を示しています。

話しながら運転する: 自律走行車における大規模言語モデルによる人間のようなインタラクションの実現 [論文]

この記事はパデュー大学のもので、大規模言語モデル (LLM) を使用して自動運転車の意思決定プロセスを強化する方法について説明しています。 LLM の自然言語機能とコンテキスト理解、専用ツールの使用、および自動運転車のさまざまなモジュールの相乗効果による推論を統合します。

SurrealDriver: 大規模言語モデルに基づく都市環境における生成ドライバーエージェントシミュレーションフレームワークの設計 [論文]

清華大学のこの論文では、複雑な交通シナリオを認識し、現実的な運転操作を提供できる大規模言語モデル (LLM) に基づく生成運転エージェント シミュレーション フレームワークを提案しています。特に、私たちは 24 人のドライバーにインタビューし、彼らの運転行動の詳細な説明を「思考連鎖」のきっかけとして使用し、運転エージェントが運転経験を蓄積し、人間のような運転スタイルを開発できるように評価および支援できる「コーチング エージェント」モジュールを開発しました。

シーンレベルの拡散による言語誘導交通シミュレーション [論文]

コロンビア大学とNvidiaは共同で、言語でガイドできるシーンレベルの条件付き拡散モデルであるCTG++を提案しました。このモデルを開発するには、現実的で制御可能なトラフィック モデル バックボーンの必要性と、言語を使用してトラフィック モデルと対話する効果的な方法という 2 つの課題に対処する必要があります。これらの課題に対処するために、まず現実的で制御可能なトラフィックを生成するための時空間トランスフォーマー バックボーンを備えたシーンレベルの拡散モデルを提案します。次に、大規模言語モデル (LLM) を使用してユーザーのクエリを損失関数に変換し、拡散モデルをガイドしてクエリに一致する結果を生成します。

自動運転のための言語プロンプト [論文][github]

BLI と Kuangshi が発表したこの論文では、言語キューとインスタンス データをマッチングするペア データが比較的少ないため、運転シナリオでの言語キューの使用の進歩はデータ マッチングのボトルネック問題によって制限されていることを示しています。この課題に対処するために、本論文では、3D、マルチビュー、マルチフレーム空間での運転シナリオ向けの初のオブジェクト中心の言語プロンプトコレクション「NuPrompt」を提案します。これは Nuscenes データセットを拡張して、それぞれ平均 5.3 個のオブジェクト軌跡を含む合計 35,367 個の言語記述を構築します。新しいデータセットのオブジェクトとテキストのペアに基づいて、言語のヒントを使用してビューとフレーム全体のオブジェクトの軌跡を予測する、新しいヒントベースの運転タスクを提案します。

Talk2BEV: 言語強化鳥瞰図 (BEV) マップ [論文][github]

ハイデラバードの国際情報技術研究所のこの論文によると、Talk2BEV は、汎用言語および視覚モデルの最近の進歩と BEV 構造化マップ表現を組み合わせ、特殊なタスク モデルの必要性を排除しています。これにより、視覚的および空間的推論、交通参加者の意図の予測、視覚的な手がかりに基づく意思決定など、さまざまな自動運転タスクを単一のシステムで処理できるようになります。

BEVGPT: 自動運転の予測、意思決定、計画のための生成的事前トレーニング済み大規模モデル [論文]

HKUST は、運転シナリオの予測、意思決定、動作計画を統合した、生成型の事前トレーニング済み大規模モデルである BEVGPT を提案しました。このモデルは、鳥瞰図 (BEV) 画像を唯一の入力ソースとして取り込み、周囲の交通状況に基づいて運転の決定を行います。走行軌道の実現可能性と滑らかさを確保するために、最適化ベースの動作計画方法を開発しました。 Lyft レベル 5 データセットで BEVGPT をインスタンス化し、Woven Planet L5Kit を使用して実際の運転シミュレーションを実行しました。

DriveDreamer: 自動運転のための現実世界駆動型世界モデルの構築に向けて [論文]

GigaAIと清華大学は協力し、実際の運転シナリオから完全に派生した新しい世界モデルであるDriveDreamerを立ち上げました。複雑な運転シナリオで世界をモデル化するには膨大な検索空間が必要であることを考慮して、この論文では強力な拡散モデルを活用して複雑な環境の包括的な表現を構築することを提案しています。さらに、この論文では 2 段階のトレーニング プロセスが紹介されています。初期段階では、DriveDreamer は構造化されたトラフィック制約を深く理解し、後続の段階では将来の状態を予測する能力を獲得します。 DriveDreamer は、現実世界の運転シナリオに基づいて構築された世界初のモデルです。

MagicDrive: 多様な 3D ジオメトリ制御によるストリートビュー生成 [論文]

新しいストリートビュー生成フレームワークである MagicDrive は、カスタマイズされたエンコード戦略を通じて実装された、カメラの位置、道路地図、3D 境界ボックス、テキストの説明など、3D ジオメトリに対する豊富な制御を提供します。さらに、複数のカメラビュー間の一貫性を確保するためのクロスビュー アテンション モジュールも設計に含まれています。当社は MagicDrive を使用して、高忠実度のストリート シーン合成を実現し、微細な 3D ジオメトリとさまざまなシーンの説明をキャプチャして、鳥瞰図のセグメンテーションや 3D オブジェクト検出などのタスクのパフォーマンスを向上させます。

GAIA-1: 自動運転のための生成世界モデル [論文]

最近有名になった GAIA-1 (「Generative AI for Autonomy」) は、Wayve が発表した生成世界モデルであり、ビデオ、テキスト、行動入力を使用して現実的な運転シナリオを生成し、車両の動作とシーン機能を細かく制御します。私たちのアプローチは、入力を個別のトークンにマッピングし、シーケンス内の次のトークンを予測することにより、世界モデリングを教師なしシーケンスモデリング問題として扱います。私たちのモデルの新しい機能には、高レベルの構造とシーンのダイナミクスの学習、コンテキスト認識、一般化機能、幾何学的形状の理解が含まれます。 GAIA-1 によって学習された表現は、将来のイベントの予測を捉えることができ、現実的なサンプルを生成する能力と組み合わせることで、自動運転技術の分野におけるイノベーションの新たな可能性を切り開き、自動運転技術のトレーニングの強化と加速を可能にします。

HiLM-D: 自動運転のためのマルチモーダル大規模言語モデルの高解像度理解に向けて [論文]

HKUST と Noah Lab が提案したこの論文は、単一のマルチモーダル大規模言語モデル (MLLM) を使用して、複数の自動運転タスク、つまりリスクのある物体の位置特定と意図および提案予測 (ROLISP) タスクを統合した初めての論文です。 ROLISP は自然言語を使用して、危険なオブジェクトを同時に識別および解釈し、自律走行車の意図を理解し、移動の推奨事項を提供するため、タスク固有のアーキテクチャが不要になります。

何が起こっているのかテキストで伝えられますか? 自動運転の軌道予測モデルに事前学習済みの言語エンコーダーを統合する [論文]

Autonomous Driving Tier 1 のこの記事では、Bosch が新しいテキストベースの交通シーン表現を提案し、事前トレーニング済みの言語エンコーダーを使用してそれを処理します。まず、テキスト表現と従来のラスタライズされた画像表現を組み合わせることで、説明的なシーン埋め込みを生成できることを示します。

OpenAnnotate3D: マルチモーダル 3D データ用のオープン語彙自動ラベル付けシステム [論文][github]

復旦大学は、ビジュアルおよびポイント クラウド データに対して 2D マスク、3D マスク、3D 境界ボックス注釈を自動的に生成できるオープン ソースのオープン ボキャブラリ自動注釈システムである OpenAnnotate3D を提案しました。私たちのシステムは、大規模言語モデル (LLM) の思考連鎖機能と視覚言語モデル (VLM) のクロスモーダル機能を組み合わせています。

LangProp: 運転に適用される言語モデルを使用したコード最適化フレームワーク [openreview][github]

LangProp は、入力と出力のペアのデータセットでコードのパフォーマンスを自動的に評価し、異常を検出してその結果をトレーニング ループで LLM にフィードバックすることで、LLM が生成されたコードを反復的に改善できるようにします。メトリックとデータ駆動型コード最適化プロセスを備えたトレーニングパラダイムを採用することで、模倣学習、DAgger、強化学習などの従来の機械学習手法の知見を簡単に借用できます。 CARLA での自動コード最適化の初の概念実証を行い、LangProp が、メトリックとデータに基づいて検証および改善できる、解釈可能で透明な運転ポリシーを生成できることを示します。

離散拡散による自動運転のための教師なし世界モデルの学習 [openreview]

著者らは、複雑で構造化されていない観測空間の処理とスケーラブルな生成モデルという 2 つの主なボトルネックを特定しています。したがって、我々は、まず VQVAE を使用してセンサー観測にラベルを付け、次に離散拡散によって将来を予測する、新しい世界モデリングアプローチを提案します。トークンを効率的に並列にデコードしてノイズ除去するために、マスクされた生成画像トランスフォーマーをいくつかの簡単な変更を加えた離散拡散フレームワークに再定式化し、大幅な改善を実現しました。

世界モデルのアンサンブルによる計画 [openreview]

都市固有のジム (例: ボストン ジム、ピッツバーグ ジム) は、計画のパフォーマンスを評価するために使用されます。私たちが提案したジムアンサンブルを使用して最先端のプランナーを評価すると、パフォーマンスが低下し、優れたプランナーはさまざまな環境に適応する必要があることが示唆されます。この洞察を活用して、さまざまな運転条件に適応した都市固有の世界モデルを展開するモデル予測制御 (MPC) ベースのプランナーである City-Driver を提案します。

大規模言語モデルはマルチエージェント計画のためのゲーム理論的目標を設計できる [openreview]

この論文ではまず、自動運転の例の指定された高レベルの目標を達成するために連続目的関数のパラメータを調整する、より強力な LLM (GPT-4 など) のゼロショット機能を実証します。次に著者らは、離散有限アクション空間を持つシナリオのマトリックス ゲームの設計者として LLM を使用するプランナーを開発します。シーンの履歴、各エージェントが実行できるアクション、および高レベルの目標 (自然言語で表現) に基づいて、LLM は各アクションの組み合わせに関連付けられた報酬を評価します。エージェントは、得られたゲーム構造からナッシュ最適アクションを実行し、シナリオを再評価し、プロセスを繰り返します。

TrafficBots: 自動運転シミュレーションと動作予測のための世界モデルの構築 [論文]

著者らは、データ駆動型の交通シミュレーションを世界モデルとして構築できることを示しています。この記事では、動作予測とエンドツーエンドの運転に基づくマルチエージェント戦略である TrafficBots を提案します。これに基づいて、自動運転車の計画モジュール用に特別にカスタマイズされた世界モデルが得られます。既存のデータ駆動型交通シミュレーターには、構成可能性と拡張性が欠けています。設定可能な動作を生成するために、各エージェントに対してナビゲーション情報として目的地を導入し、時間の経過とともに変化しない潜在的なパーソナリティを導入して動作スタイルを指定します。スケーラビリティを向上させるために、すべてのエージェントが同じベクトル化されたコンテキストを共有できるようにする角度の位置エンコードの新しいスキームと、ドット積アテンションベースのアーキテクチャを提案します。

BEV-CLIP: 自動運転における複雑なシーンのためのマルチモーダル BEV 検索方法論 [openreview]

既存の 2D 画像検索方法では、グローバルな特徴表現の欠如や最適ではないテキスト検索機能など、いくつかのシーン検索の問題が発生する可能性があります。これらの問題に対処するために、我々は、説明テキストを入力として利用して対応するシーンを検索する初のマルチモーダル BEV 検索方法である BEV-CLIP を提案します。このアプローチは、大規模言語モデル (LLM) の意味的特徴抽出機能を適用して、広範なテキスト記述のゼロショット検索を実現し、知識グラフの半構造化情報を組み込むことで、言語埋め込みの意味的豊かさと多様性を向上させます。

Waymax: 大規模自動運転研究のための高速データ駆動型シミュレーター [論文][github]

Waymo は、大規模なシミュレーションとテスト向けに設計された、自律型マルチエージェント シナリオ向けの新しいデータ駆動型シミュレーター Waymax を発表しました。 Waymax は、公開されている実際の運転データ (Waymo Open Motion Dataset など) を使用して、さまざまなマルチエージェント シミュレーション シナリオを初期化または再生します。これは完全に TPU/GPU などのハードウェア アクセラレータ上で実行され、トレーニング用のグラフ内シミュレーションをサポートしているため、最新の大規模分散機械学習ワークフローに適しています。

大規模言語モデルによる意味的異常検出 [論文]

この論文では、ロボットがますます高度なスキルを獲得し、ますます複雑で多様な環境を観察するにつれて、エッジケースや異常な障害の脅威が常に存在することを示しています。これらのシステムレベルの障害は、自動運転システム スタックの単一コンポーネントの障害によるものではなく、意味的推論におけるシステムレベルの欠陥によるものです。意味的異常と呼ばれるこれらのエッジケースは、人間が解明するのは簡単ですが、深い推論スキルが必要です。この目的のために、著者らは、このようなエッジケースを識別するために、大規模言語モデル (LLM) に広範なコンテキスト理解および推論機能を付与することを調査し、視覚戦略に基づく意味的異常検出のための監督フレームワークを導入します。このフレームワークを、自動運転のための有限状態マシン ポリシーとオブジェクト操作のための学習ポリシーに適用します。

コンセプトの渋滞を抜け出す:自動運転における説明可能性のボトルネックの解明 [論文]

人間支援運転や自動運転のコンテキストでは、説明可能なモデルは、自動運転車による決定をユーザーが受け入れて理解するのに役立ち、ドライバーや車両の動作を説明および図示するために使用できます。この論文では、制御コマンドの予測とユーザーおよび車両の動作の解釈のための視覚的特徴として概念ボトルネックを使用する新しいアプローチを提案しています。著者らは、車両制御コマンドを同時に学習しながら、連続的な運転シナリオを解釈するための人間が理解できる概念レイヤーを学習します。このアプローチは、人間(または自律走行車)の好みの車間距離やステアリングコマンドの変化が外部刺激や好みの変化によって影響を受けるかどうかを判断するために使用できます。

ドラマ:運転中の共同リスクの特定と字幕表示 [論文]

安全性が重視される自動化システムの状況認識機能を考慮すると、運転シナリオにおけるリスクの認識とその説明可能性は、自動運転と協調運転にとって特に重要です。この目標を達成するために、本論文では、運転シナリオにおけるリスクの共同特定と自然言語で記述されたリスクの説明という新しい研究方向を提案します。標準的なベンチマークがなかったため、私たちの研究チームは、東京で収集された 17,785 件のインタラクティブな運転シーンを含む、DRAMA (字幕モジュール付き運転リスク評価メカニズム) という大規模なデータセットを収集しました。当社の DRAMA データセットには、運転リスクに関するビデオやオブジェクト レベルの質問のほか、重要なオブジェクトに関連する質問が含まれており、複数レベルの質問に対するクローズド エンドおよびオープン エンドの応答を含む自由形式の言語説明が可能で、運転シナリオにおけるさまざまな画像キャプション機能の評価に使用できます。

名詞を超えた 3D 高密度キャプション: 自動運転のためのミドルウェア [openreview]

著者らは、大規模な言語モデルが安全な運転結果を得る上での大きな障害は、知覚と計画を結び付ける包括的かつ標準的なミドルウェア表現の欠如であると主張している。著者らは、既存のミドルウェア (3D ボックスや占有率など) の制限を再考し、3D Dense Captioning Beyond Nouns (略して DESIGN) を提案しています。各入力シーンについて、DESIGN は言語による説明が付いた 3D 境界ボックスのセットを参照します。特に、包括的な説明には、箱が何であるか (名詞) だけでなく、その属性 (形容詞)、場所 (前置詞)、および動作状態 (副詞) も含まれます。ミドルウェアが標準であることを保証するために、DESIGN のグラウンド トゥルース データを生成するスケーラブルなルールベースの自動注釈付け方法を設計します。

SwapTransformer: OSHA データセットの模倣学習による高速道路追い越し戦術プランナーモデル [openreview]

この論文では、高速道路での車線変更と他の低速車両を追い越すことに関する高レベルの意思決定問題を研究します。具体的には、高速道路での自動追い越しや車線変更を可能にする走行支援機能の向上を目指します。シミュレーションでは、車線やその他の動的オブジェクトの画像を含む約 900 万のサンプルが収集されました。これらのデータは、この課題に対処するために使用される「シミュレートされた高速道路通過」(OSHA) データセットを構成します。この問題に対処するために、OSHA データセットの模倣学習方法として SwapTransformer と呼ばれるアーキテクチャが設計され、実装されました。さらに、モデルが周囲の環境をよりよく理解できるように、将来のポイントや車間距離ネットワークの予測などの補助タスクが提案されています。提案されたソリューションのパフォーマンスは、シミュレートされた環境でのベースラインとして、多層パーセプトロン (MLP) およびマルチヘッド自己注意ネットワークと比較されます。

NuScenes-QA: 自動運転シナリオのためのマルチモーダル視覚質問回答ベンチマーク [論文][github]

この論文は復旦大学からのものです。著者らは、ストリートビューの手がかりに基づいて自然言語の質問に答えることを目指す、自律運転のコンテキストにおける新しい視覚的質問応答 (VQA) タスク、つまり VQA タスクを紹介しています。従来の VQA タスクと比較すると、自動運転シナリオにおける VQA タスクはより困難です。まず、生の視覚データは、カメラや LiDAR でキャプチャされた画像や点群データなど、マルチモーダルです。第二に、継続的なリアルタイム取得のため、データはマルチフレームになります。 3 番目に、屋外のシーンには動く前景と静止した背景の両方が含まれます。既存の VQA ベンチマークでは、これらの複雑さに適切に対処できません。このギャップを埋めるために、私たちは、34,000 の視覚シーンと 460,000 の質問と回答のペアで構成される、自動運転シナリオにおける最初の VQA ベンチマークである NuScenes-QA を提案します。具体的には、既存の 3D 検出注釈を使用してシーン グラフを生成し、質問テンプレートを手動で設計します。その後、これらのテンプレートに基づいて質問と回答のペアが自動的に生成されます。包括的な統計により、当社の NuScenes-QA は多様な質問形式を備えたバランスの取れた大規模ベンチマークであることが証明されています。

どこでもドライブ: マルチモーダル基盤モデルによる一般化可能なエンドツーエンドの自動運転 [論文]

自動運転技術が成熟するにつれて、エンドツーエンドのアプローチが主要な戦略となり、ディープラーニングによる認識から制御までのシームレスな統合が約束されています。しかし、既存のシステムは、予期しないオープン環境やブラックボックス モデルの複雑さなどの課題に直面しています。同時に、ディープラーニングの発展により、より大規模なマルチモーダル ベース モデルが導入され、マルチモーダルな視覚的およびテキスト的理解が可能になりました。本論文では、著者らはこれらのマルチモーダル ベース モデルを活用して、自動運転システムの堅牢性と適応性を強化し、エンドツーエンドのマルチモーダルでより解釈可能な自律性を実現し、分散型、エンドツーエンド、マルチモーダルでより解釈可能な環境での動作を可能にします。具体的には、著者らは、画像やテキストを介して照会可能な表現から運転の決定を提供できる、エンドツーエンドのオープンセット(あらゆる環境/シナリオ)自動運転のアプローチを提案しています。この目的のために、Transformer から微妙な空間 (ピクセル/パッチで揃えた) 特徴を抽出し、空間的特徴と意味的特徴のカプセル化を実現する方法を紹介します。私たちのアプローチは、複数のテストで良好なパフォーマンスを発揮すると同時に、分布外シナリオに対してより堅牢であり、テキストによる潜在空間シミュレーションを可能にし、トレーニング(テキストによるデータ拡張)とポリシーのデバッグの改善につながります。

自動運転とインテリジェント交通システムにおける視覚言語モデル [論文]

最後の記事は、ミュンヘン工科大学の IEEE フェローである Alois C. Knoll 氏によるレビューです。2023 年はビジョン言語ビッグモデルが爆発的に普及する年であり、その出現によりコンピューター分野のあらゆる側面が変化しました。同様に、自動運転 (AD) やインテリジェント交通システム (ITS) の分野における大規模な視覚言語モデルの応用も広く注目を集めています。視覚言語データを統合することで、車両や交通システムは現実世界のシーン環境をより深く理解し、運転の安全性と効率を向上させることができます。このレビューでは、既存のモデルやデータセットを含む、この分野における大規模視覚言語モデルのさまざまな研究の進歩を包括的に調査します。さらに、この論文では、自動運転分野における大規模視覚言語モデルの潜在的な応用と新たな研究の方向性を探り、課題と研究のギャップについて詳しく議論しています。

<<:  業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

>>:  分裂の統一へ! OMG-Seg: すべてのセグメンテーションタスクに対応する 1 つのモデル

推薦する

AIoT は私たちの未来をどのように定義するのでしょうか?

[[417111]] AI と IoT ほどエキサイティングで重要なテクノロジーの組み合わせはほと...

Googleの新しいAIツールはAppleのバッチ処理ツールに似ている

プライバシーを保護するために、Google は「フェデレーテッド ラーニング」テクノロジーを活用して...

ディープラーニングに基づくターゲット検出ネットワークが誤検出を起こす可能性がある理由と、ターゲット検出の誤検出問題を最適化する方法について説明します。

顔検出などの物体検出用のディープラーニング ネットワークにとって、誤検出は非常に厄介なものです。犬を...

Iconfinder が著作権侵害を排除する方法、ハッシュ アルゴリズムが画像の複製を検出

Iconfinder は、デザイナー、開発者、その他のクリエイティブ ワーカー向けに優れたアイコンを...

私たちは皆、AIについて間違っていました! MIT教授が批判:データへの過度の焦点

ルイス・ペレス・ブレバは、マサチューセッツ工科大学 (MIT) の教授であり、MIT エンジニアリン...

AI企業がソフトウェアサプライチェーンの脆弱性の犠牲になると何が起こるか

OpenAI の侵害を調査し、AI 企業 SSC のハッキングの可能性とその影響の可能性を推測します...

一度に35万字の漢字を読める世界最強の長文モデル「Baichuan2-192K」がオンラインに

国内の大型モデルスタートアップがテクノロジーの最前線で新記録を打ち立てている。 10月30日、百川知...

...

Spring-Smart-DI は実装クラスを動的に切り替えます。非常に優れています。

実際のシステム開発のシナリオでは、同じ機能を複数のサービスプロバイダーに接続する必要があるというタイ...

ドローンはどうやって夏の「蚊との戦い」に勝つのでしょうか?これら3つのポイントを達成する必要があります。

夏が来ると、人類の最大の敵の一つである蚊が活発になります。彼らは2~3匹で「家に侵入」し、「ブンブン...

人工知能に最適なプログラミング言語

[51CTO.com クイック翻訳]人工知能は 20 世紀半ばから存在しています。それにもかかわらず...

スマートサーマルイメージングカメラは屋外セキュリティソリューションの第一選択肢となる

スマートサーマルイメージングカメラは、屋外の資産を保護するための侵入者検知ソリューションとして急速に...

人工知能に関する10のよくある質問への回答

人工知能は今世紀の主要な話題の一つです。 AI の能力と無限の可能性は、多くの興味深い会話や議論を生...

PCの顔認証ログイン、驚くほど簡単

以前、オープンソース プロジェクトをやったことがあります。GitHub ログインが完成した後、もっと...

SelfOcc: 純粋な視覚に基づく初の自己教師あり 3D 占有予測 (清華大学)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...