「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

「Google版SORA」はぼやけたグラフィックで嘲笑されたが、世界シミュレーターとして新たな一歩を踏み出した。

インタラクティブな仮想世界を作成するために使用される、Google の 110 億のパラメータ Genie が登場しました。

重要なポイント: トレーニングにビデオ監視は不要、1 枚の画像を与えるだけでプレイ可能な 2D 仮想世界を生成可能、このインタラクティブな仮想世界は自律的かつ制御可能。

しかし、最も厄介なのは、Genie の最終結果がぼやけすぎていることです。

このような:

または、次のようになります。

チームはまた、Genie には現時点では限界があり、1FPS でしかゲームを制作できないことも認めました。

ネットユーザーたちは不満を漏らさずにはいられなかった。ソラの効果と比較するのはもちろん、他のヴィンセントの動画やヴィンセントの写真と比べても、「2K」と「480p」の間にはギャップがある。

面白そうに見えますが、うーん、なんというか、画質やスタイルが 1980 年代のゲームっぽいです。

しかし、ジーニーのために立ち上がった人もいました。

たとえば、Nvidia の科学者 Jim Fan 氏は次のように明言しています。

ソラとは異なり、ジーニーは実際にはアクションを推測し、正しいアクションを実行できる世界のモデルです。

Genie チームの責任者である Tim Rocktäschel 氏は熱く語り、これ(Genie)は AGI の一般的な世界モデルに向けた有望な一歩であると信じていると述べました。

彼は、世界を代表するモデル擁護者、ヤン・ルカンのツイートを引用し、次のように述べた。

「OpenAIのSoraが世界を驚かせたのは事実だが、LeCun氏が言ったように、世界モデルには行動が必要だ。」

画質は一言で言えば、ぼやけている

話を元に戻しましょう。

Genie の魔法を視覚的に体験し、レンダリングを見てみましょう。

これは公式の例です:

現実世界の写真を Genie に取り込むと、アニメーション化されて無限の仮想世界に変換されます。

公園に来た小さな黄色い犬の様子です。

そして城の戦士たちは突進した。

Genie チームは Imagen2 を使用して画像を生成し、それを Genie に送信します。 Genie は画像を開始フレームとして使用し、次の効果を生成します。

研究チームによると、Genie は AI の絵画を運転の開始フレームとして使用できるだけでなく、人間の傑作を使っても同じ効果を実現できるという。

たとえば、これは子供が描いた絵です。

ジーニーに投げると、ワシが飛び立つような効果が得られます。

これも子供の落書きですが、Genie で処理しました。

上記の公式エフェクトでは、画質が明らかに異なることがわかります。

一部のネットユーザーが、これらのデモは 700 度の近視の人がメガネを外して世界を見ているように見えると言ったのも不思議ではありません。

なぜ出力が超高解像度ではないのかと多くの人から質問がありましたが、まだ回答はありません。

ぼやけた画質に加えて、Genie に関するもう 1 つの問題点は、ネットユーザーがデモが短すぎると感じていることです。

平均すると、それぞれ 2 秒未満続きます。

多くの人が不安を抱いています。

1分間のデモを見せてもらえますか? ? ?または、少なくとも 3 秒より長かったらどうなるか見てみましょう。

しかし、明らかにぼやけた画質と短い持続時間にもかかわらず、Genie は驚くべき新しい研究です。

結局のところ、幼稚園児を含め、誰でも世界を描き、そこに参加し、探検を始めることができるのです。

友人の中には、将来、ジーニーが「誰もが満足し、充実感を感じられる、無限に生成される世界」を創造できるようになるだろうとすでに想像している人もいる。

瞬く間に、AIは次の単語を生成する段階から次の世界を生成する段階へと進化しました。

ジーニー、普遍的なアプローチ

幸いなことに、Google DeepMind は Genie に関する論文「Genie: Generative Interactive Environments」を発表しました。

この論文では、Genie がインターネット ビデオから教師なしで学習し、インタラクティブな仮想世界を生成できる 11B パラメータのインタラクティブ環境生成モデルであることを示しています。

さらに、Genie はテキスト、画像、写真、さらには手描きのスケッチから最終的なインタラクティブな仮想世界を生成することができます。

Genie 全体は、次の 3 つの主要コンポーネントで構成されています。

  • 潜在行動モデル(LAM) ;
  • ビデオトークナイザー;
  • ポテンシャルダイナミクスモデル

その中で、潜在アクション モデルは、各フレームのペア間の潜在アクションを推測するために使用されます。

ビデオ生成を制御可能にするために、Google DeepMind は前のフレームで実行されたアクションを使用して将来のフレームを予測します。

このようなアクションラベルはインターネットビデオではほとんど利用できず、アクション注釈を取得するコストは非常に高いため、チームは潜在的なアクションを完全に教師なしで学習します。

つまり、Genie のトレーニングでは、アクション ラベル データを一切使用せずに、公開されている大量のインターネット ビデオ データセットを使用しました。

ビデオ トークナイザーの役割は、元のビデオ フレームを個別のトークンに変換することです。

3 つのコンポーネントのうちの 3 番目である潜在ダイナミクス モデルは、潜在的なアクションと過去のフレームのトークンに基づいて、ビデオの次のフレームを予測するために使用されます。

この論文では、トレーニングの過程で、20万時間を超えるインターネットゲームビデオがトレーニングデータとして使用されたことが紹介されています。

これらのデータセットは、2D プラットフォーム ゲームのビデオ クリップが含まれるようにキュレーションされています。

最終的に、推論プロセスは次のようになります。

Genie では、潜在的なアクションを通じて、生成された環境でユーザーが対話できることに注目する価値があります。

これらのアクションは因果アクション モデルを介して学習され、ユーザーは潜在的なアクションを指定してビデオ生成プロセスを制御できます。

ユーザーは潜在的なアクションを通じて生成された環境と対話し、新しい動的なビデオ コンテンツを作成します。

これが、Google が Genie がジェネラル エージェントを実現するための基礎であると考えている理由の 1 つです。

これまでの研究では、ゲーム環境は AI エージェントの開発に効果的なテスト プラットフォームになり得ることが示されていますが、実際には利用可能なゲームの数によって制限されることがよくあります。

Genie を使用すると、将来の AI エージェントは新しく生成された世界で無限にトレーニングできます。

ちなみに、この論文では「Genie が学習した潜在的な行動は実際の人間の環境に転送できる」という概念実証が示されていますが、これは将来実現するかもしれないことです。

Google も自社の立場を明確にしており、Genie は一般的なアプローチであると述べています。

つまり、Genie のトレーニング データは主に 2D ゲーム ビデオやロボット ビデオですが、追加のドメイン知識がなくても Genie を複数の分野に適用できます。

このアイデアをテストするために、Google は RT1 のモーションフリー動画でわずか 25 億の小規模モデルをトレーニングしました。

同じ潜在アクションシーケンスを持つ軌跡は、多くの場合、同様の動作を示すことがわかります。つまり、Genie は一貫したアクション空間を学習できます。

これはロボットの訓練や具現化された知能にとっても素晴らしいニュースです。

最後に、ジーニーの研究チームを見てみましょう〜

チームは多様な人々で構成されており、Jake Bruce、Michael Dennis、Ashley Edwards、Jack Parker-Holder、Yuge (Jimmy) Shi、Tim Rocktäschel の 6 人がこのプロジェクトに協力しています。

ユゲ(ジミー)・シーは、オーストラリア国立大学で学士号を取得し、2023年にオックスフォード大学で機械学習の博士号を取得した中国人です。

彼女は以前Meta AIでインターンをしており、2023年3月にGoogle DeepMindに入社しました。

さらに、研究チームのメンバーの多くは、Google DeepMind のOpen-Endednessチームのメンバーです。

研究チームには、ブリティッシュコロンビア大学のコンピューターサイエンスの准教授が含まれており、同准教授はGoogle DeepMindの上級研究コンサルタントも務めている。

彼はツイッターで黒板を叩いてこう言った。

えーん、注意してください、今見ている精霊は最悪のケースです!
すぐに完璧になると信じています。

参考リンク:
[1]https://sites.google.com/view/genie-2024/home.

[2] https://arxiv.org/pdf/2402.15391.pdf.

<<:  AI がデータセンターを持続可能性の原動力に変える方法

>>:  マイクロソフトがバックアップとして OpenAI を選択: GPT-4 レベルの大規模モデルはオンラインになるとすぐに爆発的に増加し、コストはわずか 2,200 万ドル

ブログ    
ブログ    

推薦する

...

独自の顔ぼかしツールを構築する方法

OpenCVを使用して顔認識をカスタマイズする方法[[412851]]匿名化とは、データを匿名化する...

注目すべき中国の創造物:ユビキタス人工知能が夢を現実にする

人工知能はどこから来たのでしょうか? 人工知能は人類をどこへ連れて行くのでしょうか? 人工知能は「見...

時代と戦う:ハードコアな百度の AI 探究

2021年2月18日午前、百度は2020年第4四半期および通期の財務報告を発表し、印象的なデータを示...

継続的な冷却を心配する必要はありません。ドローンが電力網を保護して暖かさを提供します

秋の雨が降るたびに寒さがやってきます。今年の秋は例年より遅く訪れましたが、寒さも増しています。気温の...

DeepMindはAIを使ってチェスの新しいルールを作成する

今回、彼らは元チェス世界チャンピオンのウラジミール・クラムニクとチームを組み、AI技術にこの古代のボ...

...

ナレッジグラフの紹介と応用

[[376661]]人間は知識を獲得する過程で、物事の本質にますます注意を払うようになります。人工知...

企業は今後の組織開発においてハイパーオートメーションを採用するでしょうか?

[[386200]] [51CTO.com クイック翻訳] 事実によれば、ロボティックプロセスオー...

人工ニューラルネットワークとBPアルゴリズムについての簡単な説明

[[338555]] 【51CTO.comオリジナル記事】 1 はじめに現在、機械学習技術とも呼ばれ...

機械学習に必要な5つのスキル

機械学習、かっこいいですね。名前からすると、ロボットが一列に並んで座って知識を学習しているように思わ...

初めてバーチャルヒューマンに関する業界の合意が成立

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

疫病流行後、自動運転開発の方向性がより明確になりました!

自動運転は長い間、人々に「とても人気があるが、とても遠い存在」という印象を与えてきました。それは、何...

人間のフィードバックなしで調整します。田元東チームの新しい研究RLCD:無害で有益なアウトラインライティングはベースラインモデルを全面的に上回る

大規模モデルがより強力になるにつれて、低コストでモデルの出力を人間の嗜好や社会の公共価値により沿った...