Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、その機能はさらに強力になっているようだ。Sora が生成する仮想世界は「自律的かつ制御可能」だ。

ちょうど今、Google は生成 AI の新しいパラダイムである生成インタラクティブ環境 (Genie) を定義しました。 Genie は、単一の画像プロンプトからプレイ可能なインタラクティブな環境を生成できる、110 億のパラメータ ベースのワールド モデルです。

これまで見たことのない画像を提示して、私たち自身の想像の仮想世界とやりとりすることができます。

Genie は、合成画像、写真、さらには手描きのスケッチから、無限にプレイ可能な世界を生成できます。

Genie は、各フレーム ペア間の潜在的なアクションを推測する潜在的なアクション モデル、生のビデオ フレームを個別のトークンに変換するビデオ トークナイザー、潜在的なアクションと過去のフレーム トークンに基づいてビデオの次のフレームを予測するダイナミクス モデルの 3 つのコンポーネントで構成されています。

この技術の発表を見て、多くの人が「Google が再び AI 技術をリードするだろう」と言いました。

Google はまた、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できることを示唆しています。この仮説に基づいて、Google はロボット工学分野における潜在世​​界モデルの応用の概念実証として、ロボット ビデオで Genie モデルをトレーニングしました。

混乱に陥ったゲーム、デザイン、XR、ロボット産業...

Genie の革命的な意義は 4 つの次元から理解できます。

まず、Genie はアクション ラベルなしで制御を学習できます。

具体的には、Genie はアクションラベル付きデータなしで、公開されているインターネット ビデオの大規模なデータセットの助けを借りてトレーニングされました。

これは本質的に難しいことです。なぜなら、インターネット ビデオには通常、実行されているアクションや、画像のどの部分を制御すべきかを示すラベルが付いていないからです。しかし、Genie はインターネット ビデオからきめ細かい制御を学習することができます。

Genie の場合、観測のどの部分が一般的に制御可能であるかを学習するだけでなく、生成された環境で一貫したさまざまな潜在的なアクションを推測します。同じ潜在アクションが、異なるプロンプト画像で同様の動作を生み出すことに注意してください。

第二に、Genie は次世代の「クリエイター」を育成することができます。

まったく新しいインタラクティブ環境を作成するには、たった 1 つの画像だけが必要です。これにより、仮想世界を生成してそこに入るためのさまざまな新しい方法への扉が開かれます。たとえば、最先端のテキストから画像へのモデルを使用して開始フレームを生成し、その後 Genie と連携して動的なインタラクティブ環境を生成することができます。

次のアニメーションでは、Google は Imagen2 を使用して画像を生成し、その後 Genie を使用してその画像に命を吹き込みました。

Genie はそれだけではありません。スケッチなど、ヒューマンデザインに関わるクリエイティブな分野にも応用できます。

あるいは、現実世界の画像に適用すると次のようになります。

繰り返しになりますが、Google は Genie が汎用インテリジェント エージェントを実現するための基礎であると考えています。これまでの研究では、ゲーム環境は AI エージェントの開発に効果的なテストベッドになり得るが、利用可能なゲームの数によって制限されることが多いことが示されています。

Genie を使用すると、将来の AI エージェントを、新しく生成された世界の無限のカリキュラムでトレーニングできるようになります。 Google は、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できるという概念実証を発表しました。

最後に、Google は、Genie は追加のドメイン知識を必要とせずに複数のドメインに適用できる一般的なアプローチであると述べています。

使用されるデータは主に 2D プラットフォーマー ゲームのゲームプレイやロボット ビデオですが、この方法は汎用的で、あらゆるタイプのドメインに適用でき、より大きなインターネット データセットに拡張できます。

Google は、RT1 ​​のモーションフリー動画で、より小規模な 25 億のモデルをトレーニングしました。プラットフォームの場合と同様に、同じ潜在的なアクション シーケンスを持つ軌跡は、多くの場合、同様の動作を示します。

これは、Genie が一貫した行動空間を学習できることを示唆しており、これはロボットに汎用化された具現化された知能を構築するためのトレーニングに適している可能性があります。

技術の公開: 論文「Genie: 生成的インタラクティブ環境」が出版されました

Google DeepMind が Genie 論文を発表しました。


  • 論文アドレス: https://arxiv.org/pdf/2402.15391.pdf
  • プロジェクトのホームページ: https://sites.google.com/view/genie-2024/home?pli=1

この論文には、中国の学者であるユゲ(ジミー)・シー氏を含む6人もの共同筆頭著者がいる。彼女は現在、Google DeepMind の研究科学者であり、2023 年にオックスフォード大学で機械学習の博士号を取得しました。

方法の紹介

Genie アーキテクチャのいくつかのコンポーネントは、Vision Transformer (ViT) 上に構築されています。 Transformer の 2 次メモリ コストのため、ビデオ ドメインでは課題が生じ、ビデオには最大で 𝑂(10^4) トークンしか含められないことに注意してください。そのため、Google は、モデル容量と計算上の制約のバランスをとるために、すべてのモデル コンポーネントにメモリ効率の高い ST トランスフォーマー アーキテクチャ (図 4 を参照) を採用しています。

Genie は 3 つの主要コンポーネントで構成されています (次の図を参照)。

1) 潜在行動モデル(LAM)は、各フレームのペア間の潜在行動𝒂を推測するために使用されます。

2) ビデオトークナイザー。これは、生のビデオフレームを個別のトークンに変換するために使用されます。

3) 過去のフレームの潜在的なアクションとトークンが与えられた動的モデルは、ビデオの次のフレームを予測するために使用されます。

具体的には:

潜在アクション モデル: 制御可能なビデオ生成を実現するために、前のフレームで実行されたアクションに基づいて将来のフレームの予測を条件付けます。しかし、このようなアクションラベルはインターネット上のビデオではほとんど利用できず、アクション注釈を取得するためのコストが高くなる可能性があります。対照的に、潜在的な行動は完全に教師なしで学習します (図 5 を参照)。

ビデオ トークナイザー: 以前の研究を基に、ビデオを個別のトークンに圧縮して次元を削減し、より高品質のビデオ生成を実現します (図 6 を参照)。実装では、Google は VQ-VAE を使用しました。これは、動画の 𝑇 フレームを入力として受け取り、各フレームの離散表現を生成します。ここで、𝐷 は離散潜在空間のサイズです。トークナイザーは、標準の VQ-VQAE を使用してビデオ シーケンス全体に対してトレーニングされます。

動的モデル: デコーダーのみの MaskGIT トランスフォーマーです (図 7)。

ジーニーの推論プロセスは以下のとおりです

実験結果

拡張された結果

モデルの拡張動作を研究するために、Google は 27 億から 4100 万までのパラメータを持つモデルで実験を行い、モデル サイズとバッチ サイズの影響を調べました。実験結果を下の図 9 に示します。

モデルのサイズが大きくなるにつれて、最終的なトレーニング損失が減少することがわかります。これは、Genie アプローチがスケールアップによってメリットを得られることを強く示唆しています。同時に、バッチ サイズを増やすとモデルのパフォーマンスも向上します。

定性的な結果

Google は、Platformers データセットでトレーニングされた Genie 11B パラメータ モデルと、Robotics データセットでトレーニングされたより小規模なモデルに関する定性的な実験結果を示しました。結果は、Genie モデルがさまざまなドメインにわたって高品質で制御可能なビデオを生成できることを示しています。注目すべきは、Google が自社のプラットフォームでトレーニングされたモデルを定性的に評価するために、分布外 (OOD) 画像プロンプトのみを使用していることです。これは、Genie のアプローチの堅牢性と大規模データでのトレーニングの価値を実証しています。

エージェントのトレーニング。おそらくいつの日か、Genie はマルチタスク エージェントをトレーニングするための基本世界モデルとして使用できるようになります。図 14 では、著者らは、開始フレームが与えられた新しい RL 環境で、モデルを使用してさまざまな軌道を生成できることを示しています。

著者らは、手続き的に生成された 2D プラットフォーム ゲーム環境 CoinRun でこれを評価し、上限としてエキスパート アクションにアクセスできるオラクル行動クローニング (BC) モデルと比較します。

アブレーション研究。潜在行動モデルを設計する際、著者らは使用する入力の種類を慎重に検討しました。最終的な選択は生の画像 (ピクセル) を使用することでしたが、著者は Genie を設計する際に、トークン化された画像 (図 5 の x を z に置き換える) を使用するという代替案に対してこの選択を評価しました。この代替アプローチは「トークン入力」モデルと呼ばれます(表 2 を参照)。

トークナイザーアーキテクチャのアブレーション。著者らは、1) (空間のみ) ViT、2) (時空間) ST-ViViT、3) (時空間) CViViT の 3 つの単語分割器の選択肢のパフォーマンスを比較しました (表 3)。

<<:  ルカンはソラを世界モデルとして非難し、自己回帰LLMは単純すぎると述べた。

>>: 

ブログ    

推薦する

2018 年最も革新的な機械学習企業トップ 10

機械学習はエンタープライズ情報技術市場に旋風を巻き起こしており、人工知能アルゴリズムは膨大な量のデー...

2020 年の人工知能におけるトップ 10 の技術進歩

2020年が過ぎようとしています。今年、人工知能の分野ではどんな大きな進展がありましたか?以下で一緒...

メタは自社の弁護士の警告を無視し、海賊版書籍を使用してAIモデルを訓練したと報じられている。

ロイター通信は12月13日、著作権侵害訴訟の新たな文書によると、メタ・プラットフォームズは何千冊もの...

GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

拡散モデルの出現により、テキスト生成ビデオ技術の開発が促進されましたが、このような方法は通常、計算コ...

速報です! OpenAIがByteDanceアカウントを禁止!コンテンツ生成のための GPT の不正使用に関する内部告発

ノアが編集海外メディアのザ・ヴァージは北京時間今朝未明、生成AIをめぐる熾烈な競争の中で、バイトダン...

毎日のアルゴリズム: 回転マトリックス

[[431855]]各ピクセルのサイズが 4 バイトである N × N 行列で表される画像が与えられ...

武有雄が人工知能について語る

7月9日、世界人工知能会議クラウドサミットが正式に開幕しました!アマゾン ウェブ サービスは、202...

LIDAR ポイント クラウドの自己教師あり事前トレーニング用 SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

IoTとAIはパンデミック中に企業が事業を再開するのにどのように役立つか

数か月に及ぶ極度の不確実性、経済活動の停止、強制的な自宅隔離を経て、ようやく経済活動と取引がゆっくり...

顧客の声: AI はあなたにとって優先事項ですか? データ戦略から始める必要があります

[[337768]]現在、世界中のあらゆる部門が人工知能(AI)の研究を行っています。 AI の画...

...

ビジネスリーダーがAIを導入する際に指針となる5つの基本原則

たとえば、私が 25 年以上携わってきた市場調査業界を考えてみましょう。 AI は、さまざまな方法で...

2024年のテクノロジートレンド: AI、5G、IoT、ブロックチェーンの影響

2024 年が始まると、多くのテクノロジートレンドが形成され始めます。今年は、セキュリティとガバナン...

...