大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

DriveLM は、データセットとモデルで構成される言語ベースのドライブ プロジェクトです。 DriveLM では、自動運転 (AD) に大規模言語モデルの推論機能を導入し、意思決定を行い、説明可能な計画を確実に実行します。

DriveLM データセットでは、人間が書いた推論ロジックが、認識、予測、計画 (P3) を容易にするための接続として使用されます。私たちのモデルでは、より良い計画結果を生み出すために、マインドマップ機能を備えた AD 視覚言語モデルを提案します。現在、データセットのデモが公開されており、完全なデータセットとモデルは将来的に公開される予定です。

プロジェクトリンク: https://github.com/OpenDriveLab/DriveLM

AD における思考グラフとは何ですか?

データセットの最も興味深い点は、P3 の質問応答 (QA) がグラフ形式の構造で接続されており、各ノードとして QA ペア、エッジとしてオブジェクト関係が使用されていることです。

私たちは、純粋に言語的な思考ツリーやマインドマップよりも、マルチモーダル性を好みます。これを AD ドメインで実行する理由は、生のセンサー入力から最終的な制御アクションまでの各段階で AD タスクが定義されるためです。

DriveLM データセットには何が含まれていますか?

私たちは、主流の nuScenes データセットに基づいてデータセットを構築します。 DriveLM の中核要素は、フレームベースの P3 QA です。知覚の問題では、モデルがシーン内のオブジェクトを認識する必要があります。予測問題では、シーン内の重要なオブジェクトの将来の状態を予測するモデルが必要です。計画問題は、モデルに合理的に計画されたアクションを与え、危険なアクションを回避するように強制します。

キャリブレーションのプロセスはどうなっていますか?

  1. キーフレームの選択。クリップ内のすべてのフレームに基づいて、注釈者は注釈を付ける必要があるキーフレームを選択します。標準では、これらのフレームには、自車両の運動状態の変化(車線変更、急停止、停止後の発進など)が含まれる必要があります。
  2. キーオブジェクトの選択。キーフレームが与えられた場合、注釈者は周囲の 6 つの画像から主要なオブジェクトを選択する必要があります。標準では、これらの物体は車両(信号、道路を横断する歩行者、他の車両)に影響を与えることができる必要があります。
  3. Q&Aノート。これらの主要なオブジェクトが与えられると、認識、予測、計画に関する単一または複数のオブジェクトの質問が自動的に生成されます。詳細については、デモ データをご覧ください。

<<: 

>>:  不確実な環境で自動運転を実現するにはどうすればよいでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

AIが品質保証を向上させる6つのヒント

品質保証(QA)は多くの企業にとって重要な関心分野です。企業やサービスプロバイダーが高い品質を維持す...

...

信号解析の観点から畳み込みニューラルネットワークの複雑なメカニズムを理解するにはどうすればよいでしょうか?

複雑かつ効率的なニューラル ネットワーク アーキテクチャの出現により、畳み込みニューラル ネットワー...

ロボットと人間:その組み合わせが産業オートメーションの様相を変える可能性

進化する産業オートメーションの世界では、人間と機械の境界を越えた革新的なパートナーシップが生まれてい...

...

初心者向けのオープンソース機械学習フレームワーク、Scikit-learnについて

Python 言語に精通している研究者は、オープンソースの Python ベースの科学計算ツールキッ...

大国間の競争の焦点:人工知能とデジタル主権

​​報告書は、経済の分離と地政学的な二極化が進む時代に、優れたデジタルまたはスマートなパートナーシッ...

...

...

2つのセッションは「AI顔認識」と生体認証データの法制化と規制の緊急の必要性に焦点を当てています。

[[385416]]現在、両セッションは活発に行われており、全国のさまざまな分野の代表者が独自の提...

計算能力≠知恵! MIT教授の「意識の源」に関する新理論:人間の認知はコンピューティングとは何の関係もない

[[432064]]長い間、多くの学者は、ディープラーニングと人工ニューラルネットワークのインスピレ...

スタンフォード大学とOpenAIがメタプロンプティングを提案し、最も強力なゼロショットプロンプティング技術が誕生した。

最新世代の言語モデル (特に GPT-4、PaLM、LLaMa) は、自然言語処理と生成の限界を押し...

NVIDIA DLSS 3.5 がリリースされました!新しいAI「光再構成」は超リアルな光と影を実現し、新旧両方のグラフィックカードでサポートされています。

人工知能は世界を変えており、グラフィックス コンピューティングも例外ではありません。 5 年前、NV...

Google が「シャンプー」という 2 次最適化アルゴリズムを提案、Transformer のトレーニング時間を 40% 削減

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...