Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、その機能はさらに強力になっているようだ。Sora が生成する仮想世界は「自律的かつ制御可能」だ。

ちょうど今、Google は生成 AI の新しいパラダイムである生成インタラクティブ環境 (Genie) を定義しました。 Genie は、単一の画像プロンプトからプレイ可能なインタラクティブな環境を生成できる、110 億のパラメータ ベースのワールド モデルです。

これまで見たことのない画像を提示して、私たち自身の想像の仮想世界とやりとりすることができます。

Genie は、合成画像、写真、さらには手描きのスケッチから、無限にプレイ可能な世界を生成できます。

Genie は、各フレーム ペア間の潜在的なアクションを推測する潜在的なアクション モデル、生のビデオ フレームを個別のトークンに変換するビデオ トークナイザー、潜在的なアクションと過去のフレーム トークンに基づいてビデオの次のフレームを予測するダイナミクス モデルの 3 つのコンポーネントで構成されています。

この技術の発表を見て、多くの人が「Google が再び AI 技術をリードするだろう」と言いました。

Google はまた、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できることを示唆しています。この仮説に基づいて、Google はロボット工学分野における潜在世​​界モデルの応用の概念実証として、ロボット ビデオで Genie モデルをトレーニングしました。

混乱に陥ったゲーム、デザイン、XR、ロボット産業...

Genie の革命的な意義は 4 つの次元から理解できます。

まず、Genie はアクション ラベルなしで制御を学習できます。

具体的には、Genie はアクションラベル付きデータなしで、公開されているインターネット ビデオの大規模なデータセットの助けを借りてトレーニングされました。

これは本質的に難しいことです。なぜなら、インターネット ビデオには通常、実行されているアクションや、画像のどの部分を制御すべきかを示すラベルが付いていないからです。しかし、Genie はインターネット ビデオからきめ細かい制御を学習することができます。

Genie の場合、観測のどの部分が一般的に制御可能であるかを学習するだけでなく、生成された環境で一貫したさまざまな潜在的なアクションを推測します。同じ潜在アクションが、異なるプロンプト画像で同様の動作を生み出すことに注意してください。

第二に、Genie は次世代の「クリエイター」を育成することができます。

まったく新しいインタラクティブ環境を作成するには、たった 1 つの画像だけが必要です。これにより、仮想世界を生成してそこに入るためのさまざまな新しい方法への扉が開かれます。たとえば、最先端のテキストから画像へのモデルを使用して開始フレームを生成し、その後 Genie と連携して動的なインタラクティブ環境を生成することができます。

次のアニメーションでは、Google は Imagen2 を使用して画像を生成し、その後 Genie を使用してその画像に命を吹き込みました。

Genie はそれだけではありません。スケッチなど、ヒューマンデザインに関わるクリエイティブな分野にも応用できます。

あるいは、現実世界の画像に適用すると次のようになります。

繰り返しになりますが、Google は Genie が汎用インテリジェント エージェントを実現するための基礎であると考えています。これまでの研究では、ゲーム環境は AI エージェントの開発に効果的なテストベッドになり得るが、利用可能なゲームの数によって制限されることが多いことが示されています。

Genie を使用すると、将来の AI エージェントを、新しく生成された世界の無限のカリキュラムでトレーニングできるようになります。 Google は、Genie によって学習された潜在的なアクションを、人間が設計した実際の環境に転送できるという概念実証を発表しました。

最後に、Google は、Genie は追加のドメイン知識を必要とせずに複数のドメインに適用できる一般的なアプローチであると述べています。

使用されるデータは主に 2D プラットフォーマー ゲームのゲームプレイやロボット ビデオですが、この方法は汎用的で、あらゆるタイプのドメインに適用でき、より大きなインターネット データセットに拡張できます。

Google は、RT1 ​​のモーションフリー動画で、より小規模な 25 億のモデルをトレーニングしました。プラットフォームの場合と同様に、同じ潜在的なアクション シーケンスを持つ軌跡は、多くの場合、同様の動作を示します。

これは、Genie が一貫した行動空間を学習できることを示唆しており、これはロボットに汎用化された具現化された知能を構築するためのトレーニングに適している可能性があります。

技術の公開: 論文「Genie: 生成的インタラクティブ環境」が出版されました

Google DeepMind が Genie 論文を発表しました。


  • 論文アドレス: https://arxiv.org/pdf/2402.15391.pdf
  • プロジェクトのホームページ: https://sites.google.com/view/genie-2024/home?pli=1

この論文には、中国の学者であるユゲ(ジミー)・シー氏を含む6人もの共同筆頭著者がいる。彼女は現在、Google DeepMind の研究科学者であり、2023 年にオックスフォード大学で機械学習の博士号を取得しました。

方法の紹介

Genie アーキテクチャのいくつかのコンポーネントは、Vision Transformer (ViT) 上に構築されています。 Transformer の 2 次メモリ コストのため、ビデオ ドメインでは課題が生じ、ビデオには最大で 𝑂(10^4) トークンしか含められないことに注意してください。そのため、Google は、モデル容量と計算上の制約のバランスをとるために、すべてのモデル コンポーネントにメモリ効率の高い ST トランスフォーマー アーキテクチャ (図 4 を参照) を採用しています。

Genie は 3 つの主要コンポーネントで構成されています (次の図を参照)。

1) 潜在行動モデル(LAM)は、各フレームのペア間の潜在行動𝒂を推測するために使用されます。

2) ビデオトークナイザー。これは、生のビデオフレームを個別のトークンに変換するために使用されます。

3) 過去のフレームの潜在的なアクションとトークンが与えられた動的モデルは、ビデオの次のフレームを予測するために使用されます。

具体的には:

潜在アクション モデル: 制御可能なビデオ生成を実現するために、前のフレームで実行されたアクションに基づいて将来のフレームの予測を条件付けます。しかし、このようなアクションラベルはインターネット上のビデオではほとんど利用できず、アクション注釈を取得するためのコストが高くなる可能性があります。対照的に、潜在的な行動は完全に教師なしで学習します (図 5 を参照)。

ビデオ トークナイザー: 以前の研究を基に、ビデオを個別のトークンに圧縮して次元を削減し、より高品質のビデオ生成を実現します (図 6 を参照)。実装では、Google は VQ-VAE を使用しました。これは、動画の 𝑇 フレームを入力として受け取り、各フレームの離散表現を生成します。ここで、𝐷 は離散潜在空間のサイズです。トークナイザーは、標準の VQ-VQAE を使用してビデオ シーケンス全体に対してトレーニングされます。

動的モデル: デコーダーのみの MaskGIT トランスフォーマーです (図 7)。

ジーニーの推論プロセスは以下のとおりです

実験結果

拡張された結果

モデルの拡張動作を研究するために、Google は 27 億から 4100 万までのパラメータを持つモデルで実験を行い、モデル サイズとバッチ サイズの影響を調べました。実験結果を下の図 9 に示します。

モデルのサイズが大きくなるにつれて、最終的なトレーニング損失が減少することがわかります。これは、Genie アプローチがスケールアップによってメリットを得られることを強く示唆しています。同時に、バッチ サイズを増やすとモデルのパフォーマンスも向上します。

定性的な結果

Google は、Platformers データセットでトレーニングされた Genie 11B パラメータ モデルと、Robotics データセットでトレーニングされたより小規模なモデルに関する定性的な実験結果を示しました。結果は、Genie モデルがさまざまなドメインにわたって高品質で制御可能なビデオを生成できることを示しています。注目すべきは、Google が自社のプラットフォームでトレーニングされたモデルを定性的に評価するために、分布外 (OOD) 画像プロンプトのみを使用していることです。これは、Genie のアプローチの堅牢性と大規模データでのトレーニングの価値を実証しています。

エージェントのトレーニング。おそらくいつの日か、Genie はマルチタスク エージェントをトレーニングするための基本世界モデルとして使用できるようになります。図 14 では、著者らは、開始フレームが与えられた新しい RL 環境で、モデルを使用してさまざまな軌道を生成できることを示しています。

著者らは、手続き的に生成された 2D プラットフォーム ゲーム環境 CoinRun でこれを評価し、上限としてエキスパート アクションにアクセスできるオラクル行動クローニング (BC) モデルと比較します。

アブレーション研究。潜在行動モデルを設計する際、著者らは使用する入力の種類を慎重に検討しました。最終的な選択は生の画像 (ピクセル) を使用することでしたが、著者は Genie を設計する際に、トークン化された画像 (図 5 の x を z に置き換える) を使用するという代替案に対してこの選択を評価しました。この代替アプローチは「トークン入力」モデルと呼ばれます(表 2 を参照)。

トークナイザーアーキテクチャのアブレーション。著者らは、1) (空間のみ) ViT、2) (時空間) ST-ViViT、3) (時空間) CViViT の 3 つの単語分割器の選択肢のパフォーマンスを比較しました (表 3)。

<<:  ルカンはソラを世界モデルとして非難し、自己回帰LLMは単純すぎると述べた。

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Python データ分析の基礎: 外れ値の検出と処理

機械学習において、異常検出と処理は比較的小さな分野、または機械学習の副産物です。一般的な予測問題では...

小売業における人工知能:生き残りは賢くなることにかかっている

機械学習は、ビジネスを急速に成長させたい小売業者にとって急速に必要不可欠なものになりつつありますが、...

AIがコンテンツ業界に力を与える: 確実に勝利するのは誰か、流れを変えるのは誰か

[51CTO.comより引用] 近年、AI技術は徐々にコンテンツ業界に浸透し、さまざまなコンテンツプ...

レポート:中国の人工知能産業は2022年までに300億ドル近くの価値に達する

中国の新世代人工知能産業の規模は着実に拡大している。新世代の AI アプリケーション シナリオの実装...

【WOTI】English FluencyのLin Hui氏:教育分野でのAIはまだ初期段階にある

[51CTO.comからのオリジナル記事] 51CTOが主催するWOTI2017グローバルイノベーシ...

AI(ディープラーニング)の簡単な分析:AIはあなたの仕事を奪うでしょうか?

​​ [[206273]]​​人々は 1960 年代から HAL のような SF レベルの AI を...

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

サンフランシスコは前例のない措置として、政府による顔認識技術の使用を禁止する規則を発布した。悪者を捕...

独学で機械学習エンジニアを目指す人のための 10 の戒律

コードを書くのは少し憂鬱になるので、色に囲まれる必要があります自己規律や自己学習という言葉を軽く受け...

エコシステムの構築と垂直実装により、TerminusはAIoT分野で際立つ存在に

[51CTO.com からのオリジナル記事] モノのインターネットは人工知能なしでは成功しません。モ...

...

なぜ人工知能には膨大な電力需要があるのでしょうか?

今日の人工知能 (AI) システムは、真の人間の知能を再現するにはまだ程遠い状態です。しかし、彼らは...

人工知能はどのようにしてデジタル経済の新しい時代を導くのでしょうか?デジタルサミットの専門家は言う

[[346344]] 「人類の技術発展の歴史を振り返ると、機械化、電化、情報化の時代を経験し、生産や...

JVMの基本的なガベージコレクションアルゴリズムについて

この記事は JavaEye ブログからの引用であり、元のタイトルは「JVM チューニングの概要 (パ...

GitHub のホット プロジェクト: 実稼働レベルのディープラーニング プロジェクトを構築するには?

ディープラーニング モデルを本番環境に導入することは、優れたパフォーマンスのモデルをトレーニングする...

ディープラーニングによって変革された5つのコンピュータービジョン技術

概要: この記事では、主にコンピューター ビジョンにおける 5 つの主要テクノロジ、つまり画像分類、...