大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

DriveLM は、データセットとモデルで構成される言語ベースのドライブ プロジェクトです。 DriveLM では、自動運転 (AD) に大規模言語モデルの推論機能を導入し、意思決定を行い、説明可能な計画を確実に実行します。

DriveLM データセットでは、人間が書いた推論ロジックが、認識、予測、計画 (P3) を容易にするための接続として使用されます。私たちのモデルでは、より良い計画結果を生み出すために、マインドマップ機能を備えた AD 視覚言語モデルを提案します。現在、データセットのデモが公開されており、完全なデータセットとモデルは将来的に公開される予定です。

プロジェクトリンク: https://github.com/OpenDriveLab/DriveLM

AD における思考グラフとは何ですか?

データセットの最も興味深い点は、P3 の質問応答 (QA) がグラフ形式の構造で接続されており、各ノードとして QA ペア、エッジとしてオブジェクト関係が使用されていることです。

私たちは、純粋に言語的な思考ツリーやマインドマップよりも、マルチモーダル性を好みます。これを AD ドメインで実行する理由は、生のセンサー入力から最終的な制御アクションまでの各段階で AD タスクが定義されるためです。

DriveLM データセットには何が含まれていますか?

私たちは、主流の nuScenes データセットに基づいてデータセットを構築します。 DriveLM の中核要素は、フレームベースの P3 QA です。知覚の問題では、モデルがシーン内のオブジェクトを認識する必要があります。予測問題では、シーン内の重要なオブジェクトの将来の状態を予測するモデルが必要です。計画問題は、モデルに合理的に計画されたアクションを与え、危険なアクションを回避するように強制します。

キャリブレーションのプロセスはどうなっていますか?

  1. キーフレームの選択。クリップ内のすべてのフレームに基づいて、注釈者は注釈を付ける必要があるキーフレームを選択します。標準では、これらのフレームには、自車両の運動状態の変化(車線変更、急停止、停止後の発進など)が含まれる必要があります。
  2. キーオブジェクトの選択。キーフレームが与えられた場合、注釈者は周囲の 6 つの画像から主要なオブジェクトを選択する必要があります。標準では、これらの物体は車両(信号、道路を横断する歩行者、他の車両)に影響を与えることができる必要があります。
  3. Q&Aノート。これらの主要なオブジェクトが与えられると、認識、予測、計画に関する単一または複数のオブジェクトの質問が自動的に生成されます。詳細については、デモ データをご覧ください。

<<: 

>>:  不確実な環境で自動運転を実現するにはどうすればよいでしょうか?

ブログ    
ブログ    

推薦する

医療機器における人工知能:これらは新たな産業アプリケーションです

人工知能により、研究者や製造業者は生活の質を向上させることができます。 [[419960]]人工知能...

人工知能とブロックチェーンが連携すると、どのような技術的利益が生まれるのでしょうか?

ブロックチェーンと人工知能は、現在のテクノロジー業界で最も注目されている2つの業界です。Statis...

プログラマーの間でデータ構造やアルゴリズムに関する知識が一般的に不足していることについてどう思いますか?

多くのプログラマーの目には、データ構造やアルゴリズムなどは役に立たず、実際に使用されることもあまりな...

...

機械翻訳から読心術まで、AIは人類のバベルの塔を再建できるのか?

聖書の旧約聖書創世記には、人類が団結して天国に通じるバベルの塔を建てたという話があります。この計画を...

2020年の中国の人工知能産業の現在の市場状況と競争環境の分析

我が国は、新たな科学技術革命と産業変革の機会を捉えるため、近年、新世代の人工知能の開発に力を入れてい...

機械学習の理論的基礎はどの程度しっかりしているのでしょうか?

機械学習の分野では、いくつかのモデルが非常に効果的ですが、その理由は完全にはわかっていません。逆に、...

ビッグデータがなくてもディープラーニングは可能でしょうか?中小企業のトレーニングのための新しいソリューション、大規模モデル

海外メディアの報道によると、AI専門家のアンドリュー・ン氏はIEEEに対し、ディープラーニングの今後...

機械学習による建物のエネルギー効率の向上

エネルギー効率などの複雑な建物の問題を、人間の介入なしに解決するにはどうすればよいでしょうか。建物の...

...

CVPR で最も興味深い論文 | AI はぼやけた写真を復元できる

人生で、私たちは誰でもぼやけた画像に遭遇します。昔は、ぼやけた画像を復元することは不可能でした。PS...

機械学習アルゴリズムのコレクション: ベイズ学習からディープラーニングまで、それぞれの長所と短所

私たちが日常生活で使用する推奨システム、インテリジェントな画像美化アプリケーション、チャットボットな...

...

GPT-4 は人間よりも資金調達を理解しています。 AIビジネスプランがベンチャーキャピタルを熱狂させる

AI が作成した資金調達計画が、実際に VC を熱狂的に追いつめたと信じられますか? GPT-4 に...

108 言語をサポートする Google 翻訳は、AI をどのように活用して翻訳の品質を向上させているのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...