3万時間のビデオを視聴した後、GoogleのモデルはSoraとは異なる仮想世界と対話する新しい方法を見つけ、世界モデリングに向けてさらに一歩前進しました。

執筆者：今日は晴れ

制作：51CTO テクノロジースタック（WeChat ID：blog）

最近では、生成 AI の急速な発展により、テキスト、画像、音声、さらにはビデオを生成できるさまざまな AI ツールに人々が徐々に慣れてきました。

Google DeepMind が最近発表した Genie モデルは、まったく異なる機能を実現します。画像を「インタラクティブでプレイ可能な環境」に変換できます。

Genie プロジェクトの発表ページで、DeepMind は、静的な開始画像から生成されたシンプルなプラットフォームスタイルのゲームのサンプル GIF を多数公開しています。この画像には、子供のスケッチ、現実世界の写真、さらには ImageGen2 によって処理されてゲームの GIF サンプルが生成されたテキストプロンプトも含まれています。

写真

1. 基本的な世界モデル

Genie は生成 AI の新しいパラダイムを提供します。 Genie は、これまで見たことのない画像からヒントを得て、人々が想像上の仮想世界とやりとりできるようにし、基本的に基本世界モデルとして機能します。

Genie の出力は一見すると基本的な 2D ゲームエンジンの出力と似ているように見えるかもしれませんが、このモデルは実際には人間のゲーム開発者と同じようにスプライトを描画したり、プレイ可能なプラットフォームを作成したりはしません。代わりに、システムは開始画像 (または複数の画像) をビデオ内のフレームとして扱い、特定の入力を受け取ると、次のフレーム (または複数のフレーム) 全体がどのように見えるかについて最善の推測を生成します。

Genie はトレーニング中にアクションラベルを使用しませんが、代わりに公開されている大規模なインターネットビデオデータセットからトレーニングされます。

このようにして、Genie モデルは、限られた静的な視覚情報またはテキストの説明を観察した後、大量のトレーニングデータから学習したゲームルールと動的法則に基づいて、継続的かつインタラクティブなゲーム環境を推測して生成することができます。

つまり、ユーザーが簡単な写真や説明をアップロードすると、Genie はプレイヤーが探索したり操作したりできる関連する仮想ゲームシーンを構築しようとします。

2. 行動ラベルなしでの学習

Genie は、特にインターネットビデオからきめ細かなコントロールを学習できるという点でユニークです。これは課題です。なぜなら、インターネットビデオには、実行されているアクションや、画像のどの部分を制御すべきかを示すラベルが付いていないことが多いからです。驚くべきことに、Genie は観測のどの部分が一般的に制御可能であるかを学習するだけでなく、生成された環境全体で一貫したさまざまな潜在的なアクションを推測します。

モデルを構築するため、Genie はインターネット上に公開されている 20 万時間のゲームビデオから始め、数百の 2D ゲームから 3 万時間の標準化されたビデオを抽出しました。これらのビデオの個々のフレームは、機械学習アルゴリズムで簡単に使用できる 2 億パラメータのモデルにラベル付けされます。

ここから、システムは「潜在アクションモデル」を生成し、どのインタラクション「アクション」（ボタンの押下など）がこれらすべてのトークンに見られるフレームごとの変化を現実的かつ一貫して生成できるかを予測します。潜在アクションモデルを構築した後、Genie は任意の数の任意のフレームと潜在アクションを取得し、潜在的な入力が与えられた場合に次のフレームがどのようになるかについての根拠のある推測を生成できる「ダイナミクスモデル」を生成します。最終的なモデルには 9,420 億のトークンでトレーニングされた 107 億のパラメータがありましたが、Genie の結果では、より大きなモデルの方がより良い結果が得られることが示されています。

生成 AI を使用して同様のインタラクションモデルを作成する以前の作業では、機械学習アルゴリズムをガイドするために、「実際のアクションラベル」またはトレーニングデータのテキスト説明を使用していました。 Genie が他の研究と異なる点は、トークン化されたビデオフレームを数時間だけ使用して、ビデオの背後にある基本的なアクションを推測し、「アクションやテキストの注釈なしでトレーニング」できることです。

「このように大幅に（分布外の）入力に一般化できる能力は、私たちのアプローチの堅牢性と、大量のデータでトレーニングすることの価値を強調するものであり、実際の動作を入力として使用した場合、これは非常に困難である」と Genie チームは研究論文に記している。

コントロールを学ぶ

スケッチ生成

写真

腕のエクササイズ

3. 言及しなければならない重要な制限事項

ラフスケッチから無限のプラットフォームゲームを生成できることに興奮しすぎる前に、覚えておくべき重要な制限がいくつかあります。

さらに、このシステムは現在 1 秒あたり 1 フレームでしか実行されず、リアルタイム再生よりも少なくとも 20 ～ 30 倍遅くなります。数フレームにわたってスムーズなアニメーションを示すサンプル GIF は、リアルタイムで生成するのに 1 分かかった一連のフレームをつなぎ合わせたものです。

Genie チームは、他の AI モデルと同様に、同社のシステムも「将来について非現実的な予測を生み出す」可能性があることを認めています。これは、彼らが共有したいくつかのサンプル GIF で特に顕著です。たとえば、あるデモでは、並行して飛んでいる 2 羽の鳥が突然 1 つの物体に融合し、物理法則に違反していました。また、別の例では、単純なジャンプを完了した後、キャラクターが重力に従って落下せず、浮き始めました。

これらの現象は、Genie が既存のゲーム素材に基づいて動的なシナリオを作成できるものの、現実世界のルールを学習して理解する能力に制限があり、場合によっては生成される結果が論理的に矛盾し非現実的になる可能性があることを示しています。

また、Genie チームがこれまでに公開したサンプルでは、ループして最初に戻る前に、アクションのフレームがいくつか (時には非常にぼやけている) 表示されるだけであることに気付いたかもしれません。これは、現在のシステムが最大で「16フレームのメモリ」の分析に制限されているためである可能性が高く、チームは「より長い時間枠にわたって一貫した環境を取得することが困難になる」と述べています。

つまり、システムのメモリ制限により、現在 Genie によって生成されるインタラクティブ環境は、16 フレームを超えると繰り返しになったり一貫性がなくなったりする可能性があり、そのため、より長い連続したゲームシーンを表示できなくなります。

4. 「世界モデル」への一歩

現在の Genie には多くの欠点がありますが、Genie の能力、特に「世界モデル」に対するその重要性を過小評価すべきではありません。

SORA の登場以来、AI が物理レベルから環境の動作ルールをシミュレートして理解できるようになる時期について、人々の関心と好奇心が高まっています。 Meta社の主任科学者LeCun氏は、Soraは「世界モデル」を実装することはできず、生成されたビデオがいかにリアルであっても、Soraが物理世界を理解しているわけではないと主張した。

しかし、Genie は違います。静止画像から始めても、Genie はプレイヤーキャラクターとゲームの背景を区別できるようです。そのため、観察されたオブジェクトのどの部分が一般的に制御可能かを理解し、生成された環境で一貫したさまざまな潜在的なアクションを推測することもできます。これは、ビデオトレーニングデータを解釈するために人間のガイダンスやアクションラベルからの支援を一切受けないモデルにとって、大きな進歩です。

Genie チームは、研究者たちはこの技術を使って「さまざまなアプリケーションで使用できる低レベルの制御可能なシミュレーションを備えた、ロボット工学の基礎となる世界モデルを作成する」ことを期待していると述べました。 Genie テクノロジー + 具現化された知能が無限の想像力を解き放つ可能性があることがわかります。

DeepMind の研究者たちは、この強力な世界モデル機能が人工知能の分野全体にどのような意味を持つのかをすでに見据えています。 DeepMind の研究科学者 Jack Parker-Holder 氏は X で、Genie は「AGI のトレーニングに必要な豊かで多様な環境を生成する実現可能な道筋」を示していると興奮気味に語りました。

写真

DeepMind の Richard Song 氏は、Genie は研究者が「汎用 (強化学習) エージェントのトレーニングに必要な、多数の多様なビデオゲーム環境」を生成するために必要な「無限のジェネレーター」につながる可能性があると付け加えた。

このプロジェクトは Google の外でも話題になり始めている。 Nvidia の AI 研究者 Jim Fan 氏は、Genie は「実際にアクションを推測する正しいアクション駆動型の世界モデル」であるため、いくつかの点で OpenAI の Sora ビデオモデルを改良していると指摘しました。

こうした予測が当たるかどうかはともかく、このプロジェクトを間近で見た人たちの間で巻き起こった興奮を無視するのは難しい。「このプロジェクトを見た時の私の反応は『ああ、これは最近見た中で最もクールなプロジェクトだ、超わくわくする！』でした」とディープマインドのルーカス・ベイヤー氏は書いている。

写真

5. 最後に

現代の認知科学では、人間は心の中に周囲の現実世界の抽象的なモデルを構築しており、これを「世界モデル」と呼ぶと考えられています。「世界モデル」の問題は常に人工知能研究の焦点となってきました。しかし、大規模なモデルが世界に対する理解をどの程度深めることができるかについては、二極化した議論が巻き起こっています。

今、ジーニーが誕生しました。もしソラがハリウッドを転覆させることができるなら、ジーニーはAIがブリザードと任天堂に正面から立ち向かう可能性を示している。

Tik Tok は、アルゴリズムを使用してコンテンツを推奨することで、前時代の王者になりました。未来が来ます。将来のコンテンツの制作と消費は AI によって完全に制御されるようになるのでしょうか?