世界モデルが大きな貢献を果たしました! 20以上の自動運転シナリオの偽データがリアルすぎる…

世界モデルが大きな貢献を果たしました! 20以上の自動運転シナリオの偽データがリアルすぎる…

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

これは普通の自動運転ビデオだと思いますか?

いいえ、いいえ、いいえ...これは実際には AI によって完全にゼロから生成されています。

どのフレームも「本物」ではありません。

さまざまな道路状況、さまざまな気象条件、 20 以上の状況をシミュレートでき、その効果は本物と区別がつきません。

世界モデルがまたしても大きな貢献を果たしました! LeCun 氏はこれを見て、熱心に転送しました。

上記の効果はGAIA-1の最新バージョンによってもたらされます。

90億個のパラメータを持ち、 4,700時間の運転ビデオでトレーニングされており、ビデオ、テキスト、操作を入力するだけで自動運転ビデオを生成する効果を実現します。

最も直接的なメリットは、将来の出来事をより正確に予測し、20 以上のシナリオをシミュレートできるため、自動運転の安全性がさらに向上し、コストが削減されることです。

同社のクリエイティブチームは、これが自動運転のゲームのルールを変える可能性があると率直に述べました。

では、GAIA-1 はどのように機能するのでしょうか?実は、Autonomous Driving Dailyでは、自動運転会社Wayveチームが制作した「GAIA-1: A Generative World Model for Autonomous Driving」をすでに詳しく紹介しています。興味のある学生は、公式アカウントにアクセスして読んでみてください!

規模が大きいほど効果は大きくなる

GAIA-1 はマルチモーダル生成世界モデルです。

ビデオ、テキスト、アクションを入力として使用して、運転シーンのリアルなビデオを生成すると同時に、自動運転車の動作とシーンの特性を細かく制御できるようにします。

テキストプロンプトだけでビデオを生成できます

そのモデルの原理は、次のトークンを予測するという、大規模な言語モデルの原理に少し似ています。

このモデルはベクトル量子化を使用してビデオ フレームを離散化し、将来のシーンを予測して、予測シーケンスの次のトークンに変換します。次に、拡散モデルを使用して、世界モデルの言語空間から高品質のビデオを生成します。

具体的な手順は次のとおりです。

最初のステップは、さまざまな入力を再エンコードして配置することだということを単純に理解することです。

専用のエンコーダーを使用してさまざまな入力をエンコードし、異なる入力を共通の表現に投影します。テキスト エンコーダーとビデオ エンコーダーは入力を分離して埋め込み、アクション表現は個別に共通の表現に投影されます。

これらのエンコードされた表現は時間的に一貫しています。

配置が終わると、重要な部分である世界モデルが登場します。

自己回帰トランスフォーマーとして、シーケンス内の次の画像トークンのセットを予測します。さらに、以前の画像トークンだけでなく、テキストや操作のコンテキスト情報も考慮されます。

これにより、モデルは画像の一貫性を維持するだけでなく、予測されたテキストやアクションとの一貫性も維持するコンテンツを生成できます。

研究チームは、GAIA-1の世界モデルには65億のパラメータがあり、64のA100で15日間トレーニングされたと紹介した。

最後に、ビデオ デコーダーとビデオ拡散モデルを使用して、これらのトークンをビデオに戻します。

このステップは、ビデオの意味的品質、画像の正確性、および時間的一貫性に関係します。

GAIA-1 のビデオ デコーダーには26 億のパラメーターがあり、32 台の A100 を使用して 15 日間トレーニングされました。

GAIA-1 は大規模言語モデルの原理に似ているだけでなく、モデル規模が大きくなるにつれて生成品質が向上するという特徴も示していることは特筆に値します。

研究チームは最新の結果を6月に発表された以前のバージョンと比較した。

後者は前者の480倍の大きさです。

映像の細部や解像度などが大幅に向上していることが直感的にわかります。

実用化の観点から見ても、GAIA-1はインパクトがある。開発チームは、これが自動運転のルールを変えることになるだろうと語る。

その理由は次の 3 つの側面から生じます。

  • 安全性
  • 合成トレーニングデータ
  • ロングテールシナリオ

まず、安全性の面では、世界モデルは未来をシミュレートすることで AI が自らの判断を認識できるようにすることができ、これは自動運転の安全性にとって非常に重要です。

第二に、自動運転にはトレーニングデータも重要です。生成されるデータはより安全で、より安価で、無限に拡張可能です。

最後に、これは今日の自動運転が直面している最大の課題の 1 つであるロングテール シナリオも解決できます。生成 AI は、霧の深い天候での運転中に道路を横断する歩行者に遭遇するなど、より多くのエッジケースを考慮できます。これにより、自動運転の機能がさらに強化されます。

Wayveとは誰ですか?

GAIA-1は英国の自動運転スタートアップ企業Wayveが開発した。

Wayveは2017年にマイクロソフトなどの投資家によって設立され、その評価額はユニコーンの地位に達している。

創設者は現CEOのアレックス・ケンドール氏とアマー・シャー氏(同社の公式経営陣ページでは彼らの情報はもう入手できない)で、二人ともケンブリッジ大学で機械学習の博士号を取得している。

テクノロジーの面では、テスラと同様に、Wayve はカメラを使用した純粋な視覚ソリューションの使用を提唱しています。同社は非常に早い段階で高精度の地図を放棄し、「即時認識」の道をしっかりと歩んできました。

少し前には、同チームが発表した別の大型モデル「LINGO-1」も話題を呼んだ。

この自動運転モデル​​は、運転中にリアルタイムで説明を生成することができ、モデルの解釈可能性がさらに向上します。

今年3月にはビル・ゲイツ氏もWayveの自動運転車に試乗した。

論文アドレス: https://arxiv.org/abs/2309.17080

オリジナルリンク: https://mp.weixin.qq.com/s/bwTDovx9-UArk5lx5pZPag

<<:  クロスモーダルトランスフォーマー: 高速かつ堅牢な 3D オブジェクト検出に向けて

>>:  ChatSQL: ChatGPT を有効にしてプレーンテキストで SQL クエリを作成できるようにする

ブログ    
ブログ    

推薦する

「Nuwa」のAIバージョンが登場!テキストから画像とビデオの生成: 8 つのタスクに 1 つのモデル

最近、視覚合成というタスクが大きな注目を集めています。 NVIDIA の GauGAN は数日前にバ...

人気の古い写真が動いたり歌ったり、Weishi はワンクリックで AI ビデオ特殊効果を実装

[[386434]]紙から携帯電話まで、このチームはワンクリックでますます楽しい特殊効果を実現してい...

人工知能時代の到来により、代替が難しい仕事はどれでしょうか?

現在、人類社会は人工知能の時代に入り、人工知能技術は生活のあらゆる分野で実証され、人類社会の継続的な...

Baidu AI開発者会議が進行中、重要なニュースが次々と発表されている

百度AI開発者会議は予定通り7月4日から5日まで北京国家会議センターで開催されました。百度の創業者、...

Google の大きな動き!検索結果からAIが生成したスパムをクリーンアップします

3月6日火曜日(米国時間)、Googleは、検索結果に蔓延するAI生成のスパムを排除し、ユーザーが検...

「スマートストア」のAIカメラは何ができるのか?

スマートシティが理論的な概念から正式な計画と建設へと進化するにつれて、スマートストアはスマートシティ...

人工知能の時代が到来し、教育は大きく変わるかもしれません。未来の教育は人工知能をベースにしたものになるのでしょうか?

「大作 SF 映画」を見るのが好きな学生にとって、最も気に入っているのは、映画に遍在する人工知能か...

...

すべての AI エンジニアが知っておくべき AI ツールとフレームワークのトップ 10

競争で優位に立つために、このブログでは、TensorFlow、PyTorch、sci-kit-lea...

AIの安全性問題への対応: NIST人工知能リスク管理フレームワーク

他の情報技術と同様に、人工知能もさまざまなセキュリティ問題や、プライバシー、差別、不公平などの新たな...

ロボットの時代、トラクターの背後にある1兆ドル市場

自動化農業の需要を満たすには、栽培者は栽培シーズンを通して作物の成長と健康に関する正確な情報を入手し...

アルゴリズムの改善とハードウェアの反復、どちらがより収益性が高いでしょうか? MITの最新の研究結果がこの答えを提供している

コンピューターが登場する前には、アルゴリズムがありました。コンピュータの誕生により、コンピュータの強...

セキュリティとインテリジェンス: 銀行における IoT の導入と応用

人工知能 (AI) 対応ソリューションの機能からスマート デバイスによるモビリティの向上まで、コネク...

量子コンピュータ、数学オリンピックのための AI... これらは 2020 年のコンピュータと数学における大きな進歩です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

なぜスマートグリッドはエネルギーの未来なのでしょうか?

要約すると、集中型電力ネットワークは、一日のどの時間でも過負荷にならない安定性を確保するために、特定...