「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

インタラクティブな仮想世界を作成するために使用される、Google の 110 億のパラメータ Genie が登場しました。

重要なポイント: トレーニングにビデオ監視は不要、1 枚の画像を与えるだけでプレイ可能な 2D 仮想世界を生成可能、このインタラクティブな仮想世界は自律的かつ制御可能。

しかし、最も厄介なのは、Genie の最終結果がぼやけすぎていることです。

このような：

または、次のようになります。

チームはまた、Genie には現時点では限界があり、1FPS でしかゲームを制作できないことも認めました。

ネットユーザーたちは不満を漏らさずにはいられなかった。ソラの効果と比較するのはもちろん、他のヴィンセントの動画やヴィンセントの写真と比べても、「2K」と「480p」の間にはギャップがある。

面白そうに見えますが、うーん、なんというか、画質やスタイルが 1980 年代のゲームっぽいです。

しかし、ジーニーのために立ち上がった人もいました。

たとえば、Nvidia の科学者 Jim Fan 氏は次のように明言しています。

ソラとは異なり、ジーニーは実際にはアクションを推測し、正しいアクションを実行できる世界のモデルです。

Genie チームの責任者である Tim Rocktäschel 氏は熱く語り、これ(Genie)は AGI の一般的な世界モデルに向けた有望な一歩であると信じていると述べました。

彼は、世界を代表するモデル擁護者、ヤン・ルカンのツイートを引用し、次のように述べた。

「OpenAIのSoraが世界を驚かせたのは事実だが、LeCun氏が言ったように、世界モデルには行動が必要だ。」

画質は一言で言えば、ぼやけている

話を元に戻しましょう。

Genie の魔法を視覚的に体験し、レンダリングを見てみましょう。

これは公式の例です:

現実世界の写真を Genie に取り込むと、アニメーション化されて無限の仮想世界に変換されます。

公園に来た小さな黄色い犬の様子です。

そして城の戦士たちは突進した。

Genie チームは Imagen2 を使用して画像を生成し、それを Genie に送信します。 Genie は画像を開始フレームとして使用し、次の効果を生成します。

研究チームによると、Genie は AI の絵画を運転の開始フレームとして使用できるだけでなく、人間の傑作を使っても同じ効果を実現できるという。

たとえば、これは子供が描いた絵です。

ジーニーに投げると、ワシが飛び立つような効果が得られます。

これも子供の落書きですが、Genie で処理しました。

上記の公式エフェクトでは、画質が明らかに異なることがわかります。

一部のネットユーザーが、これらのデモは 700 度の近視の人がメガネを外して世界を見ているように見えると言ったのも不思議ではありません。

なぜ出力が超高解像度ではないのかと多くの人から質問がありましたが、まだ回答はありません。

ぼやけた画質に加えて、Genie に関するもう 1 つの問題点は、ネットユーザーがデモが短すぎると感じていることです。

平均すると、それぞれ 2 秒未満続きます。

多くの人が不安を抱いています。

1分間のデモを見せてもらえますか？ ? ?または、少なくとも 3 秒より長かったらどうなるか見てみましょう。

しかし、明らかにぼやけた画質と短い持続時間にもかかわらず、Genie は驚くべき新しい研究です。

結局のところ、幼稚園児を含め、誰でも世界を描き、そこに参加し、探検を始めることができるのです。

友人の中には、将来、ジーニーが「誰もが満足し、充実感を感じられる、無限に生成される世界」を創造できるようになるだろうとすでに想像している人もいる。

瞬く間に、AIは次の単語を生成する段階から次の世界を生成する段階へと進化しました。

ジーニー、普遍的なアプローチ

幸いなことに、Google DeepMind は Genie に関する論文「Genie: Generative Interactive Environments」を発表しました。

この論文では、Genie がインターネットビデオから教師なしで学習し、インタラクティブな仮想世界を生成できる 11B パラメータのインタラクティブ環境生成モデルであることを示しています。

さらに、Genie はテキスト、画像、写真、さらには手描きのスケッチから最終的なインタラクティブな仮想世界を生成することができます。

Genie 全体は、次の 3 つの主要コンポーネントで構成されています。

潜在行動モデル（LAM） ;
ビデオトークナイザー;
ポテンシャルダイナミクスモデル。

その中で、潜在アクションモデルは、各フレームのペア間の潜在アクションを推測するために使用されます。

ビデオ生成を制御可能にするために、Google DeepMind は前のフレームで実行されたアクションを使用して将来のフレームを予測します。

このようなアクションラベルはインターネットビデオではほとんど利用できず、アクション注釈を取得するコストは非常に高いため、チームは潜在的なアクションを完全に教師なしで学習します。

つまり、Genie のトレーニングでは、アクションラベルデータを一切使用せずに、公開されている大量のインターネットビデオデータセットを使用しました。

ビデオトークナイザーの役割は、元のビデオフレームを個別のトークンに変換することです。

3 つのコンポーネントのうちの 3 番目である潜在ダイナミクスモデルは、潜在的なアクションと過去のフレームのトークンに基づいて、ビデオの次のフレームを予測するために使用されます。

この論文では、トレーニングの過程で、20万時間を超えるインターネットゲームビデオがトレーニングデータとして使用されたことが紹介されています。

これらのデータセットは、2D プラットフォームゲームのビデオクリップが含まれるようにキュレーションされています。

最終的に、推論プロセスは次のようになります。

Genie では、潜在的なアクションを通じて、生成された環境でユーザーが対話できることに注目する価値があります。

これらのアクションは因果アクションモデルを介して学習され、ユーザーは潜在的なアクションを指定してビデオ生成プロセスを制御できます。

ユーザーは潜在的なアクションを通じて生成された環境と対話し、新しい動的なビデオコンテンツを作成します。

これが、Google が Genie がジェネラルエージェントを実現するための基礎であると考えている理由の 1 つです。

これまでの研究では、ゲーム環境は AI エージェントの開発に効果的なテストプラットフォームになり得ることが示されていますが、実際には利用可能なゲームの数によって制限されることがよくあります。

Genie を使用すると、将来の AI エージェントは新しく生成された世界で無限にトレーニングできます。

ちなみに、この論文では「Genie が学習した潜在的な行動は実際の人間の環境に転送できる」という概念実証が示されていますが、これは将来実現するかもしれないことです。

Google も自社の立場を明確にしており、Genie は一般的なアプローチであると述べています。

つまり、Genie のトレーニングデータは主に 2D ゲームビデオやロボットビデオですが、追加のドメイン知識がなくても Genie を複数の分野に適用できます。

このアイデアをテストするために、Google は RT1 のモーションフリー動画でわずか 25 億の小規模モデルをトレーニングしました。

同じ潜在アクションシーケンスを持つ軌跡は、多くの場合、同様の動作を示すことがわかります。つまり、Genie は一貫したアクション空間を学習できます。

これはロボットの訓練や具現化された知能にとっても素晴らしいニュースです。

最後に、ジーニーの研究チームを見てみましょう〜

チームは多様な人々で構成されており、Jake Bruce、Michael Dennis、Ashley Edwards、Jack Parker-Holder、Yuge (Jimmy) Shi、Tim Rocktäschel の 6 人がこのプロジェクトに協力しています。

ユゲ（ジミー）・シーは、オーストラリア国立大学で学士号を取得し、2023年にオックスフォード大学で機械学習の博士号を取得した中国人です。

彼女は以前Meta AIでインターンをしており、2023年3月にGoogle DeepMindに入社しました。

さらに、研究チームのメンバーの多くは、Google DeepMind のOpen-Endednessチームのメンバーです。

研究チームには、ブリティッシュコロンビア大学のコンピューターサイエンスの准教授が含まれており、同准教授はGoogle DeepMindの上級研究コンサルタントも務めている。

彼はツイッターで黒板を叩いてこう言った。

えーん、注意してください、今見ている精霊は最悪のケースです！
すぐに完璧になると信じています。

参考リンク:
[1]https://sites.google.com/view/genie-2024/home.

[2] https://arxiv.org/pdf/2402.15391.pdf.

<<: AI がデータセンターを持続可能性の原動力に変える方法

>>: マイクロソフトがバックアップとして OpenAI を選択: GPT-4 レベルの大規模モデルはオンラインになるとすぐに爆発的に増加し、コストはわずか 2,200 万ドル

失業よりも悪い：人工知能の新たな進歩

ブログ

Googleが新しい検索方法を正式に発表：円を描く

ブログ

ニューロモルフィックコンピューティングを理解する: 基本原理から実験的検証まで

ブログ

人工知能チュートリアル（I）：基礎

ブログ

トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

ブログ

ヨーロッパは最も強力なAIスーパーコンピュータ「レオナルド」をリリースし、スーパーコンピューティングシステムの状況は変化する

ブログ

2つのセッション「チップ」提案：自動車用チップに焦点を当て、サプライチェーンを開放し、「ボトルネック」を突破する

ブログ

スマートシティ: 統合管理プラットフォーム

ブログ

「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

画質は一言で言えば、ぼやけている

ジーニー、普遍的なアプローチ

失業よりも悪い：人工知能の新たな進歩

Googleが新しい検索方法を正式に発表：円を描く

ニューロモルフィックコンピューティングを理解する: 基本原理から実験的検証まで

人工知能チュートリアル（I）：基礎

トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

ヨーロッパは最も強力なAIスーパーコンピュータ「レオナルド」をリリースし、スーパーコンピューティングシステムの状況は変化する

2つのセッション「チップ」提案：自動車用チップに焦点を当て、サプライチェーンを開放し、「ボトルネック」を突破する

スマートシティ: 統合管理プラットフォーム

推薦する

Googleのジェフ・ディーンの返答は計画を覆した。リー・フェイフェイの教え子ティムニットは解雇されたのではなく、自らの意志で辞職したことが明らかになった。

調査結果: 回答者の 64% が生成 AI による作業の功績を認めている

マスク氏とアルトマン氏がともに暗号通貨を復活させたい理由

メディア業界の自動化をリードする10のAI分野

誰でも大きなモデルを使用できます。よく構成されたプロンプトにより、簡単に始めることができます。

AIはリモートワークがもたらす企業文化の課題を解決するのに役立つ

ソフトマックスボトルネックを超えて: 高ランク RNN 言語モデル

2019 年のトップ 5 ディープラーニングコース

AI導入の最大の障壁：熟練した専門家の不足

人工知能はマーケティング業界に破壊的な影響を及ぼすだろう

AI界のお笑い王に100万の賞金！北京郵電大学、南洋理工大学などが「砂像動画」データセットを公開 FunQA：アルゴリズムで人間のユーモアを学習

人類の生存に関わる問題ですか? AI システムの説明可能性を調査する理由は何ですか?