執筆者:今日は晴れ 制作:51CTO テクノロジースタック(WeChat ID:blog) 最近では、生成 AI の急速な発展により、テキスト、画像、音声、さらにはビデオを生成できるさまざまな AI ツールに人々が徐々に慣れてきました。 Google DeepMind が最近発表した Genie モデルは、まったく異なる機能を実現します。画像を「インタラクティブでプレイ可能な環境」に変換できます。 Genie プロジェクトの発表ページで、DeepMind は、静的な開始画像から生成されたシンプルなプラットフォーム スタイルのゲームのサンプル GIF を多数公開しています。この画像には、子供のスケッチ、現実世界の写真、さらには ImageGen2 によって処理されてゲームの GIF サンプルが生成されたテキスト プロンプトも含まれています。 写真 1. 基本的な世界モデルGenie は生成 AI の新しいパラダイムを提供します。 Genie は、これまで見たことのない画像からヒントを得て、人々が想像上の仮想世界とやりとりできるようにし、基本的に基本世界モデルとして機能します。 Genie の出力は一見すると基本的な 2D ゲーム エンジンの出力と似ているように見えるかもしれませんが、このモデルは実際には人間のゲーム開発者と同じようにスプライトを描画したり、プレイ可能なプラットフォームを作成したりはしません。代わりに、システムは開始画像 (または複数の画像) をビデオ内のフレームとして扱い、特定の入力を受け取ると、次のフレーム (または複数のフレーム) 全体がどのように見えるかについて最善の推測を生成します。 Genie はトレーニング中にアクション ラベルを使用しませんが、代わりに公開されている大規模なインターネット ビデオ データセットからトレーニングされます。 このようにして、Genie モデルは、限られた静的な視覚情報またはテキストの説明を観察した後、大量のトレーニング データから学習したゲーム ルールと動的法則に基づいて、継続的かつインタラクティブなゲーム環境を推測して生成することができます。 つまり、ユーザーが簡単な写真や説明をアップロードすると、Genie はプレイヤーが探索したり操作したりできる関連する仮想ゲームシーンを構築しようとします。 2. 行動ラベルなしでの学習Genie は、特にインターネット ビデオからきめ細かなコントロールを学習できるという点でユニークです。これは課題です。なぜなら、インターネット ビデオには、実行されているアクションや、画像のどの部分を制御すべきかを示すラベルが付いていないことが多いからです。驚くべきことに、Genie は観測のどの部分が一般的に制御可能であるかを学習するだけでなく、生成された環境全体で一貫したさまざまな潜在的なアクションを推測します。 モデルを構築するため、Genie はインターネット上に公開されている 20 万時間のゲーム ビデオから始め、数百の 2D ゲームから 3 万時間の標準化されたビデオを抽出しました。これらのビデオの個々のフレームは、機械学習アルゴリズムで簡単に使用できる 2 億パラメータのモデルにラベル付けされます。 ここから、システムは「潜在アクション モデル」を生成し、どのインタラクション「アクション」(ボタンの押下など)がこれらすべてのトークンに見られるフレームごとの変化を現実的かつ一貫して生成できるかを予測します。潜在アクション モデルを構築した後、Genie は任意の数の任意のフレームと潜在アクションを取得し、潜在的な入力が与えられた場合に次のフレームがどのようになるかについての根拠のある推測を生成できる「ダイナミクス モデル」を生成します。最終的なモデルには 9,420 億のトークンでトレーニングされた 107 億のパラメータがありましたが、Genie の結果では、より大きなモデルの方がより良い結果が得られることが示されています。 生成 AI を使用して同様のインタラクション モデルを作成する以前の作業では、機械学習アルゴリズムをガイドするために、「実際のアクション ラベル」またはトレーニング データのテキスト説明を使用していました。 Genie が他の研究と異なる点は、トークン化されたビデオ フレームを数時間だけ使用して、ビデオの背後にある基本的なアクションを推測し、「アクションやテキストの注釈なしでトレーニング」できることです。 「このように大幅に(分布外の)入力に一般化できる能力は、私たちのアプローチの堅牢性と、大量のデータでトレーニングすることの価値を強調するものであり、実際の動作を入力として使用した場合、これは非常に困難である」と Genie チームは研究論文に記している。 コントロールを学ぶ スケッチ生成 写真 腕のエクササイズ 3. 言及しなければならない重要な制限事項ラフスケッチから無限のプラットフォームゲームを生成できることに興奮しすぎる前に、覚えておくべき重要な制限がいくつかあります。 さらに、このシステムは現在 1 秒あたり 1 フレームでしか実行されず、リアルタイム再生よりも少なくとも 20 ~ 30 倍遅くなります。数フレームにわたってスムーズなアニメーションを示すサンプル GIF は、リアルタイムで生成するのに 1 分かかった一連のフレームをつなぎ合わせたものです。 Genie チームは、他の AI モデルと同様に、同社のシステムも「将来について非現実的な予測を生み出す」可能性があることを認めています。これは、彼らが共有したいくつかのサンプル GIF で特に顕著です。たとえば、あるデモでは、並行して飛んでいる 2 羽の鳥が突然 1 つの物体に融合し、物理法則に違反していました。また、別の例では、単純なジャンプを完了した後、キャラクターが重力に従って落下せず、浮き始めました。 これらの現象は、Genie が既存のゲーム素材に基づいて動的なシナリオを作成できるものの、現実世界のルールを学習して理解する能力に制限があり、場合によっては生成される結果が論理的に矛盾し非現実的になる可能性があることを示しています。 また、Genie チームがこれまでに公開したサンプルでは、ループして最初に戻る前に、アクションのフレームがいくつか (時には非常にぼやけている) 表示されるだけであることに気付いたかもしれません。これは、現在のシステムが最大で「16フレームのメモリ」の分析に制限されているためである可能性が高く、チームは「より長い時間枠にわたって一貫した環境を取得することが困難になる」と述べています。 つまり、システムのメモリ制限により、現在 Genie によって生成されるインタラクティブ環境は、16 フレームを超えると繰り返しになったり一貫性がなくなったりする可能性があり、そのため、より長い連続したゲームシーンを表示できなくなります。 4. 「世界モデル」への一歩現在の Genie には多くの欠点がありますが、Genie の能力、特に「世界モデル」に対するその重要性を過小評価すべきではありません。 SORA の登場以来、AI が物理レベルから環境の動作ルールをシミュレートして理解できるようになる時期について、人々の関心と好奇心が高まっています。 Meta社の主任科学者LeCun氏は、Soraは「世界モデル」を実装することはできず、生成されたビデオがいかにリアルであっても、Soraが物理世界を理解しているわけではないと主張した。 しかし、Genie は違います。静止画像から始めても、Genie はプレイヤー キャラクターとゲームの背景を区別できるようです。そのため、観察されたオブジェクトのどの部分が一般的に制御可能かを理解し、生成された環境で一貫したさまざまな潜在的なアクションを推測することもできます。これは、ビデオトレーニングデータを解釈するために人間のガイダンスやアクションラベルからの支援を一切受けないモデルにとって、大きな進歩です。 Genie チームは、研究者たちはこの技術を使って「さまざまなアプリケーションで使用できる低レベルの制御可能なシミュレーションを備えた、ロボット工学の基礎となる世界モデルを作成する」ことを期待していると述べました。 Genie テクノロジー + 具現化された知能が無限の想像力を解き放つ可能性があることがわかります。 DeepMind の研究者たちは、この強力な世界モデル機能が人工知能の分野全体にどのような意味を持つのかをすでに見据えています。 DeepMind の研究科学者 Jack Parker-Holder 氏は X で、Genie は「AGI のトレーニングに必要な豊かで多様な環境を生成する実現可能な道筋」を示していると興奮気味に語りました。 写真 DeepMind の Richard Song 氏は、Genie は研究者が「汎用 (強化学習) エージェントのトレーニングに必要な、多数の多様なビデオゲーム環境」を生成するために必要な「無限のジェネレーター」につながる可能性があると付け加えた。 このプロジェクトは Google の外でも話題になり始めている。 Nvidia の AI 研究者 Jim Fan 氏は、Genie は「実際にアクションを推測する正しいアクション駆動型の世界モデル」であるため、いくつかの点で OpenAI の Sora ビデオ モデルを改良していると指摘しました。 こうした予測が当たるかどうかはともかく、このプロジェクトを間近で見た人たちの間で巻き起こった興奮を無視するのは難しい。 「このプロジェクトを見た時の私の反応は『ああ、これは最近見た中で最もクールなプロジェクトだ、超わくわくする!』でした」とディープマインドのルーカス・ベイヤー氏は書いている。 写真 5. 最後に現代の認知科学では、人間は心の中に周囲の現実世界の抽象的なモデルを構築しており、これを「世界モデル」と呼ぶと考えられています。 「世界モデル」の問題は常に人工知能研究の焦点となってきました。しかし、大規模なモデルが世界に対する理解をどの程度深めることができるかについては、二極化した議論が巻き起こっています。 SORA の登場以来、AI が物理レベルから環境の動作ルールをシミュレートして理解できるようになる時期について、人々の関心と好奇心が高まっています。 Meta社の主任科学者LeCun氏は、Soraは「世界モデル」を実装することはできず、生成されたビデオがいかにリアルであっても、Soraが物理世界を理解しているわけではないと主張した。 今、ジーニーが誕生しました。もしソラがハリウッドを転覆させることができるなら、ジーニーはAIがブリザードと任天堂に正面から立ち向かう可能性を示している。 Tik Tok は、アルゴリズムを使用してコンテンツを推奨することで、前時代の王者になりました。未来が来ます。将来のコンテンツの制作と消費は AI によって完全に制御されるようになるのでしょうか? 参考リンク:https://sites.google.com/view/genie-2024/home https://arstechnica.com/gadgets/2024/03/googles-genie-model-creates-interactive-2d-worlds-from-a-single-image/ |
<<: Claude3はマイクロソフトとOpenAIに警鐘を鳴らした
水中の海洋生物を研究する場合、動物たちにとって不自然に見えて怖がらせないような装置を使うと役に立つで...
2020年、中国のスマート音声市場規模は113.96億元に達し、前年比19.2%増加した。中国のスマ...
過去 10 年間で、金融業界ではこれまでにない最先端のテクノロジーが数多く導入されました。この変化は...
水曜日、ホワイトハウスは大統領令に署名した。米国は、中国の半導体設計ソフトウェアや製造ハードウェアへ...
ここ数週間、ユーザーは Microsoft Edge に組み込まれている GPT-4 AI チャット...
CMQにおけるラフトの応用初期には、rabbitmqをベースにスケーラブルなメッセージミドルウェア...
[[266892]]中国共産党第19回全国代表大会の最新報告は、教育の近代化と教育の情報化の流れに対...
一般的な理解によれば、人工知能とは、手動でしかできないタスクを、人間以外のツールで完了できること...
OpenAI ChatGPT Plus サブスクリプション支払いには強力な機能があり、高度な「データ...
20 世紀初頭から、ロボットが人間のように考え始めることができるかどうかについて、人々は疑問を持ち...
人工知能はこれらすべてを変え、私たちにとって物事をより簡単にしてくれます。 それは、私たちが交流し、...