未来に向けて、自動運転のための初のマルチビュー予測+計画世界モデルが登場

未来に向けて、自動運転のための初のマルチビュー予測+計画世界モデルが登場

最近、ワールドモデルという概念が大きな盛り上がりを見せており、自動運転の分野もただ黙って見ているわけにはいかない。中国科学院オートメーション研究所のチームは、エンドツーエンドの自動運転計画の安全性を高めることを目的とした、Drive-WMと呼ばれる新しいマルチビューワールドモデルを初めて提案した。

ウェブサイト: https://drive-wm.github.io

論文リンク: https://arxiv.org/abs/2311.17918

自動運転の予測と計画のための初のマルチビュー世界モデル

CVPR2023自動運転セミナーでは、テスラとウェイブという2つのテクノロジー大手がブラックテクノロジーを披露し、自動運転分野で「生成世界モデル」と呼ばれる新しい概念が流行した。 Wayve は、驚異的なビデオシーン生成機能を実証する GAIA-1 生成 AI モデルもリリースしました。最近、中国科学院自動化研究所の研究者らも、新たな自動運転世界モデル「Drive-WM」を提案した。これは、マルチビュー予測を備えた世界モデルを初めて実現し、現在主流となっているエンドツーエンドの自動運転プランナーとシームレスに統合したものである。

Drive-WM は、Diffusion モデルの強力な生成機能を活用して、リアルなビデオ シーンを生成します。

あなたが運転しているときに、車載システムがあなたの運転習慣と道路状況に基づいて将来の展開を予測し、それに応じた視覚的なフィードバックを生成して、軌道ルートの選択をガイドしていると想像してください。この未来を予見する能力とプランナーを組み合わせることで、自動運転の安全性が大幅に向上します。

マルチビュー世界モデルによる予測と計画。



世界モデルとエンドツーエンドの自動運転を組み合わせることで運転の安全性が向上

Drive-WM モデルは、ワールド モデルとエンドツーエンドの計画を初めて組み合わせ、エンドツーエンドの自動運転の開発に新たな章を開きます。各タイムステップで、プランナーはワールドモデルを使用して将来のシナリオを予測し、画像報酬関数を使用してそれらを完全に評価できます。

世界モデルに基づくエンドツーエンドの軌道計画ツリー

最適な見積りを選択し、計画ツリーを拡張することで、より安全で効率的な計画を実現します。


Drive-WM は、エンドツーエンドの計画におけるワールド モデルの 2 つのアプリケーションを先駆的に開発しました。

1. OOD シナリオに対する世界モデルの堅牢性を実証しました。比較実験を通じて、著者らは、現在のエンドツーエンド プランナーは OOD 状況に直面したときにはうまく機能しないことを発見しました。

著者は次のような図を示しています。初期位置が横方向のオフセットによってわずかに乱されると、現在のエンドツーエンド プランナーでは、適切な計画ルートを出力することが困難になります。

エンドツーエンドのプランナーが OOD 状況に直面したときに、合理的な計画ルートを出力することは困難です。

Drive-WM の強力な生成機能は、OOD 問題を解決するための新しいアイデアを提供します。著者らは、生成されたビデオを使用してプランナーを微調整し、OOD データから学習することで、そのようなシナリオに直面したときにプランナーのパフォーマンスを向上させることができます。

2. エンドツーエンドの計画改善における将来シナリオ評価の導入の役割を明らかにした

マルチビュービデオ生成モデルの構築方法

マルチビュー ビデオ生成における時空間の一貫性は、常に困難な問題でした。 Drive-WM は、時間レイヤーエンコーディングを導入することでビデオ生成機能を拡張し、ビュー分解モデリングを通じてマルチビュービデオ生成を実現します。ビュー分解を生成するこの方法により、ビュー間の一貫性が大幅に向上します。

Drive-WM全体のモデル設計

高品質なビデオ生成と制御性

Drive-WMは、高品質なマルチビュービデオ生成を実現するだけでなく、優れた制御性も備えています。 Drive-WM は、テキスト、シーンレイアウト、モーション情報を通じてマルチビュービデオの生成を制御するためのさまざまな制御オプションも提供しており、将来のニューラルシミュレーターに新たな可能性をもたらします。

たとえば、テキストを使用して天気や照明を変更します。


たとえば、歩行者の生成と前景の編集:

速度と方向の制御の使用:

交差点でのUターンや芝生への進入などのまれなイベントの発生:

結論

Drive-WM は、強力なマルチビュー ビデオ生成機能を実証するだけでなく、ワールド モデルとエンドツーエンドの運転モデル​​を組み合わせる大きな可能性も示しています。将来的には、この世界モデルがより安全で、より安定し、信頼性の高いエンドツーエンドの自動運転システムの実現に貢献できると信じています。

<<:  DetZero: Waymo の 3D 検出リストで 1 位、手動ラベル付けに匹敵!

>>:  AIが材料科学に革命を起こす! Google DeepMindの新しい研究がNatureに掲載され、一度に220万の新素材を予測した。

ブログ    
ブログ    

推薦する

自動運転が何千もの家庭に普及するまでにどれくらいの時間がかかるのでしょうか?

2019年9月に百度、海亮科技、センスタイムなどの企業が世界初の自動運転車の商用ライセンスを取得し...

AIアプリケーションのスケールは実装が難しいが、将来的には有望である

2020年の中国の人工知能市場のレビュー2015年から2020年にかけて、人工知能市場には毎年新たな...

AI主導のサイバーセキュリティチームが人間の能力拡張に取り組む

サイバー脅威の範囲は、企業資産や選挙から健康データや物理インフラまで拡大しており、新興技術の予期せぬ...

チャットボットの機械学習セキュリティの重要性

人工知能は、大手テクノロジー企業、新興企業、大学の研究チームによって推進されている成長産業です。 A...

ジオメトリテクスチャ再構築における新しい SOTA!浙江大学がSIFUを提案:一枚の画像で高品質の3D人体モデルを再構築可能

AR、VR、3Dプリント、シーン構築、映画制作など多くの分野において、衣服を着た人体の高品質な3Dモ...

大規模AIモデルに対するいくつかの攻撃方法

人工知能やビッグデータなどの新技術の応用と推進に伴い、ビッグモデルも人気の技術となっています。もちろ...

LangChain と Redis が協力して何かを実現しています!財務文書分析の精度を向上させるツールを作成する

著者 | タニスタ編纂者:Xing Xuan制作:51CTO テクノロジースタック(WeChat I...

脳卒中の診断と治療を加速させるAIの登場

ディープラーニングは人工知能の一種です。医療分野では、CTスキャン画像を使用して脳の血液供給動脈の閉...

DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース

1. 背景近年、大規模言語モデル (LLM) の急速な発展により、人工知能は新たな高みに到達していま...

Google の 130 億パラメータの多言語モデル mT5 が利用可能になり、101 言語への容易な移行が可能になりました。

Facebook は多言語機械翻訳モデル「M2M-100」をオープンソース化したばかりだが、今度は...

ナレッジグラフは複雑ではありません。整理するお手伝いをさせてください。

[51CTO.com からのオリジナル記事] インターネットビジネスの発展に伴い、大量のデータが生...

新しいドローン産業は急速に発展しているが、まだ3つの大きな障害を取り除く必要がある。

我が国の戦略的新興産業の一つであるドローンは近年急速に発展し、技術、製品、応用、市場において満足のい...

...