Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、その機能はさらに強力になっているようだ。Sora が生成する仮想世界は「自律的かつ制御可能」だ。

ちょうど今、Google は生成 AI の新しいパラダイムである生成インタラクティブ環境 (Genie) を定義しました。 Genie は、単一の画像プロンプトからプレイ可能なインタラクティブな環境を生成できる、110 億のパラメータベースのワールドモデルです。

これまで見たことのない画像を提示して、私たち自身の想像の仮想世界とやりとりすることができます。

Genie は、合成画像、写真、さらには手描きのスケッチから、無限にプレイ可能な世界を生成できます。

Genie は、各フレームペア間の潜在的なアクションを推測する潜在的なアクションモデル、生のビデオフレームを個別のトークンに変換するビデオトークナイザー、潜在的なアクションと過去のフレームトークンに基づいてビデオの次のフレームを予測するダイナミクスモデルの 3 つのコンポーネントで構成されています。

この技術の発表を見て、多くの人が「Google が再び AI 技術をリードするだろう」と言いました。

Google はまた、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できることを示唆しています。この仮説に基づいて、Google はロボット工学分野における潜在世界モデルの応用の概念実証として、ロボットビデオで Genie モデルをトレーニングしました。

混乱に陥ったゲーム、デザイン、XR、ロボット産業...

Genie の革命的な意義は 4 つの次元から理解できます。

まず、Genie はアクションラベルなしで制御を学習できます。

具体的には、Genie はアクションラベル付きデータなしで、公開されているインターネットビデオの大規模なデータセットの助けを借りてトレーニングされました。

これは本質的に難しいことです。なぜなら、インターネットビデオには通常、実行されているアクションや、画像のどの部分を制御すべきかを示すラベルが付いていないからです。しかし、Genie はインターネットビデオからきめ細かい制御を学習することができます。

Genie の場合、観測のどの部分が一般的に制御可能であるかを学習するだけでなく、生成された環境で一貫したさまざまな潜在的なアクションを推測します。同じ潜在アクションが、異なるプロンプト画像で同様の動作を生み出すことに注意してください。

第二に、Genie は次世代の「クリエイター」を育成することができます。

まったく新しいインタラクティブ環境を作成するには、たった 1 つの画像だけが必要です。これにより、仮想世界を生成してそこに入るためのさまざまな新しい方法への扉が開かれます。たとえば、最先端のテキストから画像へのモデルを使用して開始フレームを生成し、その後 Genie と連携して動的なインタラクティブ環境を生成することができます。

次のアニメーションでは、Google は Imagen2 を使用して画像を生成し、その後 Genie を使用してその画像に命を吹き込みました。

Genie はそれだけではありません。スケッチなど、ヒューマンデザインに関わるクリエイティブな分野にも応用できます。

あるいは、現実世界の画像に適用すると次のようになります。

繰り返しになりますが、Google は Genie が汎用インテリジェントエージェントを実現するための基礎であると考えています。これまでの研究では、ゲーム環境は AI エージェントの開発に効果的なテストベッドになり得るが、利用可能なゲームの数によって制限されることが多いことが示されています。

Genie を使用すると、将来の AI エージェントを、新しく生成された世界の無限のカリキュラムでトレーニングできるようになります。 Google は、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できるという概念実証を発表しました。

最後に、Google は、Genie は追加のドメイン知識を必要とせずに複数のドメインに適用できる一般的なアプローチであると述べています。

使用されるデータは主に 2D プラットフォーマーゲームのゲームプレイやロボットビデオですが、この方法は汎用的で、あらゆるタイプのドメインに適用でき、より大きなインターネットデータセットに拡張できます。

Google は、RT1 のモーションフリー動画で、より小規模な 25 億のモデルをトレーニングしました。プラットフォームの場合と同様に、同じ潜在的なアクションシーケンスを持つ軌跡は、多くの場合、同様の動作を示します。

これは、Genie が一貫した行動空間を学習できることを示唆しており、これはロボットに汎用化された具現化された知能を構築するためのトレーニングに適している可能性があります。

技術の公開: 論文「Genie: 生成的インタラクティブ環境」が出版されました

Google DeepMind が Genie 論文を発表しました。

論文アドレス: https://arxiv.org/pdf/2402.15391.pdf
プロジェクトのホームページ: https://sites.google.com/view/genie-2024/home?pli=1

この論文には、中国の学者であるユゲ（ジミー）・シー氏を含む6人もの共同筆頭著者がいる。彼女は現在、Google DeepMind の研究科学者であり、2023 年にオックスフォード大学で機械学習の博士号を取得しました。

方法の紹介

Genie アーキテクチャのいくつかのコンポーネントは、Vision Transformer (ViT) 上に構築されています。 Transformer の 2 次メモリコストのため、ビデオドメインでは課題が生じ、ビデオには最大で 𝑂(10^4) トークンしか含められないことに注意してください。そのため、Google は、モデル容量と計算上の制約のバランスをとるために、すべてのモデルコンポーネントにメモリ効率の高い ST トランスフォーマーアーキテクチャ (図 4 を参照) を採用しています。

Genie は 3 つの主要コンポーネントで構成されています (次の図を参照)。

1) 潜在行動モデル（LAM）は、各フレームのペア間の潜在行動𝒂を推測するために使用されます。

2) ビデオトークナイザー。これは、生のビデオフレームを個別のトークンに変換するために使用されます。

3) 過去のフレームの潜在的なアクションとトークンが与えられた動的モデルは、ビデオの次のフレームを予測するために使用されます。

具体的には：

潜在アクションモデル: 制御可能なビデオ生成を実現するために、前のフレームで実行されたアクションに基づいて将来のフレームの予測を条件付けます。しかし、このようなアクションラベルはインターネット上のビデオではほとんど利用できず、アクション注釈を取得するためのコストが高くなる可能性があります。対照的に、潜在的な行動は完全に教師なしで学習します (図 5 を参照)。

ビデオトークナイザー: 以前の研究を基に、ビデオを個別のトークンに圧縮して次元を削減し、より高品質のビデオ生成を実現します (図 6 を参照)。実装では、Google は VQ-VAE を使用しました。これは、動画の 𝑇 フレームを入力として受け取り、各フレームの離散表現を生成します。ここで、𝐷 は離散潜在空間のサイズです。トークナイザーは、標準の VQ-VQAE を使用してビデオシーケンス全体に対してトレーニングされます。

動的モデル: デコーダーのみの MaskGIT トランスフォーマーです (図 7)。

ジーニーの推論プロセスは以下のとおりです

実験結果

拡張された結果

モデルの拡張動作を研究するために、Google は 27 億から 4100 万までのパラメータを持つモデルで実験を行い、モデルサイズとバッチサイズの影響を調べました。実験結果を下の図 9 に示します。

モデルのサイズが大きくなるにつれて、最終的なトレーニング損失が減少することがわかります。これは、Genie アプローチがスケールアップによってメリットを得られることを強く示唆しています。同時に、バッチサイズを増やすとモデルのパフォーマンスも向上します。

定性的な結果

Google は、Platformers データセットでトレーニングされた Genie 11B パラメータモデルと、Robotics データセットでトレーニングされたより小規模なモデルに関する定性的な実験結果を示しました。結果は、Genie モデルがさまざまなドメインにわたって高品質で制御可能なビデオを生成できることを示しています。注目すべきは、Google が自社のプラットフォームでトレーニングされたモデルを定性的に評価するために、分布外 (OOD) 画像プロンプトのみを使用していることです。これは、Genie のアプローチの堅牢性と大規模データでのトレーニングの価値を実証しています。

エージェントのトレーニング。おそらくいつの日か、Genie はマルチタスクエージェントをトレーニングするための基本世界モデルとして使用できるようになります。図 14 では、著者らは、開始フレームが与えられた新しい RL 環境で、モデルを使用してさまざまな軌道を生成できることを示しています。

著者らは、手続き的に生成された 2D プラットフォームゲーム環境 CoinRun でこれを評価し、上限としてエキスパートアクションにアクセスできるオラクル行動クローニング (BC) モデルと比較します。

アブレーション研究。潜在行動モデルを設計する際、著者らは使用する入力の種類を慎重に検討しました。最終的な選択は生の画像 (ピクセル) を使用することでしたが、著者は Genie を設計する際に、トークン化された画像 (図 5 の x を z に置き換える) を使用するという代替案に対してこの選択を評価しました。この代替アプローチは「トークン入力」モデルと呼ばれます（表 2 を参照）。

トークナイザーアーキテクチャのアブレーション。著者らは、1) (空間のみ) ViT、2) (時空間) ST-ViViT、3) (時空間) CViViT の 3 つの単語分割器の選択肢のパフォーマンスを比較しました (表 3)。

<<: ルカンはソラを世界モデルとして非難し、自己回帰LLMは単純すぎると述べた。

>>: