これは普通の自動運転ビデオだと思いますか? 写真 いいえ、いいえ、いいえ...これは実際には AI によって完全にゼロから生成されています。 どのフレームも「本物」ではありません。 写真 さまざまな道路状況、さまざまな気象条件、20 を超える状況をシミュレートでき、その効果は本物と区別がつかないほどリアルです。 写真 世界モデルがまたしても大きな貢献を果たしました! LeCun 氏はこれを見て、熱心に転送しました。 写真 上記の効果はGAIA-1の最新バージョンによってもたらされます。 90億個のパラメータを持ち、4,700時間の運転ビデオでトレーニングされており、ビデオ、テキスト、操作を入力するだけで自動運転ビデオを生成する効果を実現します。 最も直接的なメリットは、将来の出来事をより正確に予測し、20 以上のシナリオをシミュレートできるため、自動運転の安全性がさらに向上し、コストが削減されることです。 写真 同社のクリエイティブチームは、これが自動運転のゲームのルールを変える可能性があると率直に述べました。 では、GAIA-1 はどのように機能するのでしょうか? 規模が大きいほど効果は大きくなるGAIA-1 はマルチモーダル生成世界モデルです。 ビデオ、テキスト、アクションを入力として使用して、運転シーンのリアルなビデオを生成すると同時に、自動運転車の動作とシーンの特性を細かく制御できるようにします。 テキストプロンプトだけでビデオを生成できます。 写真 そのモデルの原理は、次のトークンを予測するという、大規模な言語モデルの原理に少し似ています。 このモデルはベクトル量子化を使用してビデオ フレームを離散化し、将来のシーンを予測して、予測シーケンスの次のトークンに変換します。次に、拡散モデルを使用して、世界モデルの言語空間から高品質のビデオを生成します。 具体的な手順は次のとおりです。 写真 最初のステップは、さまざまな入力を再エンコードして配置することだということを単純に理解することです。 専用のエンコーダーを使用してさまざまな入力をエンコードし、異なる入力を共通の表現に投影します。テキスト エンコーダーとビデオ エンコーダーは入力を分離して埋め込み、アクション表現は個別に共通の表現に投影されます。 これらのエンコードされた表現は時間的に一貫しています。 配置が終わると、重要な部分である世界モデルが登場します。 自己回帰トランスフォーマーとして、シーケンス内の次の画像トークンのセットを予測します。さらに、以前の画像トークンだけでなく、テキストや操作のコンテキスト情報も考慮されます。 これにより、モデルは画像の一貫性を維持するだけでなく、予測されたテキストやアクションとの一貫性も維持するコンテンツを生成できます。 研究チームは、GAIA-1の世界モデルには65億のパラメータがあり、64のA100で15日間トレーニングされたと紹介した。 最後に、ビデオ デコーダーとビデオ拡散モデルを使用して、これらのトークンをビデオに戻します。 このステップは、ビデオの意味的品質、画像の正確性、および時間的一貫性に関係します。 GAIA-1 のビデオ デコーダーには 26 億のパラメーターがあり、32 台の A100 を使用して 15 日間トレーニングされました。 GAIA-1 は大規模言語モデルの原理に似ているだけでなく、モデル規模が大きくなるにつれて生成品質が向上するという特徴も示していることは特筆に値します。 写真 研究チームは最新の結果を6月に発表された以前のバージョンと比較した。 後者は前者の480倍の大きさです。 映像の細部や解像度などが大幅に向上していることが直感的にわかります。 写真 実用化の観点から見ても、GAIA-1はインパクトがある。開発チームは、これが自動運転のルールを変えることになるだろうと語る。 写真 その理由は次の 3 つの側面から生じます。
まず、安全性の面では、世界モデルは未来をシミュレートすることで AI が自らの判断を認識できるようにすることができ、これは自動運転の安全性にとって非常に重要です。 第二に、自動運転にはトレーニングデータも重要です。生成されるデータはより安全で、より安価で、無限に拡張可能です。 最後に、これは今日の自動運転が直面している最大の課題の 1 つであるロングテール シナリオも解決できます。生成 AI は、霧の深い天候での運転中に道路を横断する歩行者に遭遇するなど、より多くのエッジケースを考慮できます。これにより、自動運転の機能がさらに強化されます。 Wayveとは誰ですか?GAIA-1は、英国の自動運転スタートアップ企業Wayveが開発した。 Wayveは2017年にマイクロソフトなどの投資家によって設立され、その評価額はユニコーンの地位に達している。 創設者は現CEOのアレックス・ケンドール氏とアマー・シャー氏(同社の公式経営陣ページでは彼らの情報はもう入手できない)で、二人ともケンブリッジ大学で機械学習の博士号を取得している。 写真 テクノロジーの面では、テスラと同様に、Wayve はカメラを使用した純粋な視覚ソリューションの使用を提唱しています。同社は非常に早い段階で高精度の地図を放棄し、「即時認識」の道をしっかりと歩んできました。 少し前には、同チームが発表した別の大型モデル「LINGO-1」も話題を呼んだ。 この自動運転モデルは、運転中にリアルタイムで説明を生成することができ、モデルの解釈可能性がさらに向上します。 今年3月にはビル・ゲイツ氏もWayveの自動運転車に試乗した。 写真 論文アドレス: https://arxiv.org/abs/2309.17080 参考リンク: |
>>: Nature 誌に「室温超伝導体は科学をどう変えるのか?」という記事が掲載されました。
私たちは長い間、人工知能の進歩によって推進される自律的なインテリジェントエージェントを作成するという...
導入畳み込みはニューラル ネットワークのコア計算の 1 つです。コンピューター ビジョンにおける畳み...
大規模なマルチモーダル モデルの「幻覚」問題を解決するために、まだ命令の微調整を使用していますか?例...
人工知能の健全な発展は、この国家戦略の効果的な実施に関係しています。現在、技術、経営、倫理、法律の観...
機械学習により、コンピュータグラフィックス(CG)シミュレーションがよりリアルになります。この方法は...
新知源は、バイトダンスの副社長兼AIラボ責任者である馬衛英氏がバイトダンスを離れ、清華大学の張亜琴氏...
1. 拡張現実(AR)建築の世界では、拡張現実と仮想現実が岐路に立っています。 AR はコンピュータ...
Facebook は近年、世論の嵐に何度も巻き込まれてきたが、技術革新に関しては決して無縁ではなかっ...
最近、OpenAI は、最新の生成人工知能モデル GPT-4 を使用してコンテンツレビューを行い、手...
AIチップはクラウドとエッジに分かれています。クラウドチップは高いパフォーマンスが求められますが、...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...