大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

DriveLM は、データセットとモデルで構成される言語ベースのドライブ プロジェクトです。 DriveLM では、自動運転 (AD) に大規模言語モデルの推論機能を導入し、意思決定を行い、説明可能な計画を確実に実行します。

DriveLM データセットでは、人間が書いた推論ロジックが、認識、予測、計画 (P3) を容易にするための接続として使用されます。私たちのモデルでは、より良い計画結果を生み出すために、マインドマップ機能を備えた AD 視覚言語モデルを提案します。現在、データセットのデモが公開されており、完全なデータセットとモデルは将来的に公開される予定です。

プロジェクトリンク: https://github.com/OpenDriveLab/DriveLM

AD における思考グラフとは何ですか?

データセットの最も興味深い点は、P3 の質問応答 (QA) がグラフ形式の構造で接続されており、各ノードとして QA ペア、エッジとしてオブジェクト関係が使用されていることです。

私たちは、純粋に言語的な思考ツリーやマインドマップよりも、マルチモーダル性を好みます。これを AD ドメインで実行する理由は、生のセンサー入力から最終的な制御アクションまでの各段階で AD タスクが定義されるためです。

DriveLM データセットには何が含まれていますか?

私たちは、主流の nuScenes データセットに基づいてデータセットを構築します。 DriveLM の中核要素は、フレームベースの P3 QA です。知覚の問題では、モデルがシーン内のオブジェクトを認識する必要があります。予測問題では、シーン内の重要なオブジェクトの将来の状態を予測するモデルが必要です。計画問題は、モデルに合理的に計画されたアクションを与え、危険なアクションを回避するように強制します。

キャリブレーションのプロセスはどうなっていますか?

  1. キーフレームの選択。クリップ内のすべてのフレームに基づいて、注釈者は注釈を付ける必要があるキーフレームを選択します。標準では、これらのフレームには、自車両の運動状態の変化(車線変更、急停止、停止後の発進など)が含まれる必要があります。
  2. キーオブジェクトの選択。キーフレームが与えられた場合、注釈者は周囲の 6 つの画像から主要なオブジェクトを選択する必要があります。標準では、これらの物体は車両(信号、道路を横断する歩行者、他の車両)に影響を与えることができる必要があります。
  3. Q&Aノート。これらの主要なオブジェクトが与えられると、認識、予測、計画に関する単一または複数のオブジェクトの質問が自動的に生成されます。詳細については、デモ データをご覧ください。

<<: 

>>:  不確実な環境で自動運転を実現するにはどうすればよいでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

CMU、清華大学、MITが世界初のエージェント無限フローをリリース。ロボット「007」は残業して勉強が止まらない!具現化された知能は革命を起こしている

世界初の生成型ロボットエージェントがリリースされました!長い間、大規模なインターネットデータでトレー...

OpenAI の Whisper モデルを使用して音声をテキストに変換する

翻訳者 |ブガッティレビュー | Chonglou図1. OpenAI Whisperモデルの動作原...

...

エッジAI: ディープラーニングをより効率的にする方法

人工知能 (AI) は今日の産業情勢を変えています。 エンタープライズ ソフトウェアから機械の自動化...

Googleの研究は数学の問題をコードに変換することで、機械証明の精度を大幅に向上させた。

コンピュータは以前から数学の証明を検証するために使用されてきましたが、特別に設計された証明言語を使用...

選択が難しいですか?最適な機械学習アルゴリズムの選び方を1つの記事で解説

機械学習アルゴリズムを適用して、関心のある問題を解決したいと考えている初心者/中級のデータ サイエン...

...

...

...

人工知能は、研究論文の合理的で興味深く、科学的に価値のあるタイトルを生成できるかもしれない。

人工知能(AI)技術は、将来の研究論文に対して、説得力があり、面白く、科学的な見出しを生成できること...

AIをうまく活用したいなら、この2つの問題を早急に解決しなければなりません!

[[441323]]早すぎるオールインデータ文化を一夜にして構築することはできないのと同様に、分析...

人工知能の分野でどのように計画するか? マイクロソフトはこうする

[51CTO.com からのオリジナル記事] 人工知能は勢いを増しており、多くの大手企業が独自の計画...

人工知能の影響を受ける低リスクおよび高リスク職業トップ10

囲碁は伝統的な高知能ゲームです。旗取りのプレイヤーは、正方形の格子模様のチェス盤と白黒の丸いチェスの...