ビッグビデオモデルは世界モデルですか？ DeepMind/UC Berkeley Chinese: 次のフレームを予測することで世界を変えることができる

今年初めにOpenAIが発表した壮大な傑作「Sora」が、ビデオ関連分野のコンテンツエコロジーを変えるであろうことに誰も疑いを持たない。

しかし、Google DeepMind、カリフォルニア大学バークレー校、MITの研究者たちはさらに一歩先へ進んでいます。彼らの目には、「ビッグビデオモデル」は世界モデルと同じように、私たちが住む世界を真に理解できるかもしれないと映っています。

論文アドレス: https://arxiv.org/abs/2402.17139

私の意見では、言語モデルがデジタル世界に革命をもたらしたのと同じように、ビデオ生成は物理世界の意思決定に革命をもたらすでしょう。

研究者たちは、テキストと同様に、ビデオはインターネットの知識を吸収し、さまざまなタスクを表現するための統一されたインターフェースとして機能できると考えています。

たとえば、従来のコンピュータービジョンタスクは、次のフレーム生成タスクとして考えることができます。

モデルは、テキストによる応答よりも直感的なハウツー動画（「寿司の作り方」など）を生成することで、人々の質問に答えることができます。

視覚的およびアルゴリズム的推論は、次のフレーム/ビデオ生成タスクとしても使用できます。

ビデオはさまざまな実施形態の観察空間を統合することもできるため、単一のビデオ生成モデルを使用して、さまざまなロボットの視覚的な実行計画を生成することができます。

また、Google が最近リリースした世界生成モデル Genie と同様に、ビデオ生成は、モデルベースの計画と組み合わせたり、ゲームの作成に使用したりできる、複雑なゲームのリアルなシミュレーターでもあります。

生成ビデオシミュレーターは、大量のビデオデータを収集できるものの、基礎となる物理的なダイナミクスを明示的に表現することが難しい科学およびエンジニアリングの分野 (雲の動き、柔らかい物体との相互作用など) で制御入力を最適化する場合にも役立ちます。

次のフレームを予測することは、次の単語を予測するのと同じように世界を変えるだろう

過去数年間で、インターネットのテキストデータセットから大規模言語モデル (LLM) をトレーニングする技術は飛躍的に進歩しました。

さまざまなタスクにおける LLM の優れたパフォーマンスにより、AI の課題をこれらのシステムのスケールアップに縮小することが魅力的になります。

しかし、大規模言語モデルで達成されたブレークスルーは、多くの限界に直面し始めているようです。

まず、公開されているテキストデータの量はますます大きくなっています。これはさらなる拡大のボトルネックとなるでしょう。

第二に、そしておそらくもっと重要なのは、自然言語だけではすべての知的行動を記述するのに十分ではないかもしれないし、私たちが住む物理的な世界に関するすべての情報を捉えることもできないかもしれないということです (たとえば、言語だけを使って誰かに結び方を教えることを想像してください)。

言語は高レベルの抽象化を記述するための強力なツールですが、物理世界のすべての詳細を捉えるには必ずしも十分ではありません。

幸いなことに、インターネット上には豊富な動画データがあります。YouTube だけでも 10,000 年分以上の連続した動画コンテンツがあり、そこには世界に関する豊富な知識が含まれています。

しかし、インターネットのテキストやビデオデータでトレーニングされた今日の機械学習モデルは、非常に異なる機能を発揮します。 LLM は、高度な推論、ツールの使用、意思決定を必要とする複雑なタスクを処理できるようになりました。

対照的に、ビデオ生成モデルはあまり研究されておらず、主に人間が視聴するための娯楽ビデオの作成に重点が置かれてきました。

言語モデルの分野で起こっているパラダイムシフトを考慮して、研究者たちは次のような疑問を抱きました。

ロボット工学、自動運転、科学などの視覚パターンを必要とするアプリケーションが、インターネットの視覚知識と事前トレーニング済みのビデオモデルからより直接的なメリットを得られるよう、ビデオ生成モデルを、言語モデルに似た自律エージェント、シミュレートされた環境、計算エンジンのレベルまで引き上げることはできるでしょうか。

研究者たちは、ビデオ生成は物理世界にとって、言語モデルがデジタル世界にとってであるのと同じ役割を果たす可能性があると考えています。

この洞察に到達するために、まず言語モデルが多くの現実世界の課題を解決できるようにする主要な要素を特定します。(1)インターネットからの幅広い情報（テキストなど）を同化できる統一された表現、

（２）異なるタスクを生成モデリングとして表現できる統一されたインターフェース（すなわちテキスト生成）

（３）言語モデルは、外部環境（人間、ツール、他のモデルなど）と相互作用し、強化学習、計画、検索（Yao et al., 2023）、および人間からのフィードバックによる最適化技術などの外部フィードバックに基づいて、対応するアクションを実行し、決定を最適化することができる。

言語モデルのこれら 3 つの側面から、研究者は次のことを発見しました。

（１）ビデオは、物理的な世界に関する幅広い情報を吸収する統一された表現として機能することができる。

（２）ビデオ生成モデルは、コンピュータビジョン、組み込み人工知能、科学におけるさまざまなタスクを表現したりサポートしたりすることができる。

（３）事前学習の目標としてのビデオ生成は、大規模な視覚、行動、世界モデルにインターネット規模の監督を導入し、行動の抽出、環境の相互作用のシミュレーション、意思決定の最適化を可能にします。

ビデオ生成が現実世界のアプリケーションにどのような大きな影響を与えるかをさらに説明するために、彼らは、命令適応、コンテキスト学習、計画、強化学習 (RL) などの手法を通じて、ゲーム、ロボット工学、自動運転、科学などの分野でのタスク解決者、問題回答者、ポリシー/エージェント、環境シミュレーターとしてのビデオ生成の使用について詳細な分析を提供します。

ビデオ生成の前提条件

研究者はビデオクリップを一連の画像フレーム x = (x 0 , ..., xt ) として表現します。画像自体は、単一フレーム x = (x 0 , ) を持つ特別なビデオとして表示できます。条件付きビデオ生成モデルは条件付き確率 p(x|c) です。ここで、c は条件変数です。条件付き確率 p(x | c) は通常、自己回帰モデル、拡散モデル、またはマスクされた Transformer モデルによって因数分解されます。

因数分解に応じて、p(x | c)のサンプルは連続した予測画像（パッチ）またはすべてのフレーム（x 0 、...、xt）の反復予測のいずれかに対応します。

条件変数 c の内容に応じて、条件付きビデオ生成はさまざまな目的を達成できます。

統一された表現とタスクインターフェース

このセクションでは、まず、ビデオを統一された表現として使用して、インターネットからさまざまな種類の情報をキャプチャし、幅広い知識につなげる方法を紹介します。

次に、コンピュータービジョンと人工知能のさまざまなタスクを条件付きビデオ生成問題として定式化し、現実世界のビデオ生成の決定の基盤を提供する方法について説明します。

情報の統一的な表現としてのビデオ

インターネットのテキストデータは、大規模な言語モデルを通じてデジタル/知識の世界に多くの価値をもたらしますが、テキストは、物理世界の低レベルの詳細ではなく、高レベルの抽象的な概念を捉えるのに適しています。

研究者たちは、テキストでは表現が難しいが、ビデオでは簡単に捉えられるいくつかの種類の情報をリストアップした。

- 視覚および空間情報: これには、視覚的な詳細 (色、形状、テクスチャ、照明効果など) と空間的な詳細 (物体が空間内でどのように配置されているか、相対的な位置、距離、方向、3 次元情報など) が含まれます。

この情報は、テキスト形式ではなく、画像/ビデオ形式で自然に存在します。

- 物理学とダイナミクス: 衝突、操作、物理法則の影響を受けるその他の動きなど、オブジェクトと環境が物理的に相互作用する詳細が含まれます。

言葉は高レベルの動き（「車が道路を走っている」など）を説明することはできますが、車両にかかるトルクや摩擦などの低レベルの詳細を捉えるには不十分な場合がよくあります。ビデオは暗黙的にこの情報をキャプチャできます。

- 行動とアクションの情報: これには、人間の行動やエージェントのアクションなどの情報が含まれており、タスクの実行に関する低レベルの詳細 (家具の組み立て方法など) を説明します。

正確なアクションや動きなどの詳細な情報と比較すると、テキストは主にタスクの実行方法に関する高レベルの説明を捉えます。

なぜビデオなのか?

上記の情報をテキストで伝えるのに十分でないとしても、なぜビデオを使用するのかと疑問に思う人もいるかもしれません。

ビデオはインターネット規模で存在するだけでなく、人間が解釈できる（テキストと同様）ため、デバッグや操作、安全な推論が容易になります。

さらに、ビデオは、オングストローム（10-10 m）で移動する原子や、1秒間に数兆フレームで移動する光など、さまざまな空間的および時間的解像度で情報を表現できる柔軟な表現です。

統合タスクインターフェースとしてのビデオ生成

研究者は、幅広い情報を吸収できる統一された表現に加えて、言語モデリングから、単一の目的 (次のトークンの予測など) を使用してさまざまなタスクを表現できる統一されたタスクインターフェイスの必要性も認識しました。

同時に、情報表現（テキストなど）とタスクインターフェース（テキスト生成など）間の一貫性により、幅広い知識をタスク固有の意思決定に転送することが可能になります。

典型的なコンピュータビジョンのタスク

自然言語処理では、多くのタスク (機械翻訳、テキスト要約、質問回答、感情分析、固有表現認識、品詞タグ付け、テキスト分類など) が視覚的なタスクです。

テキスト分類と対話システムは、従来は異なるタスクとして考えられてきましたが、現在では言語モデリングという傘の下に統合されています。

これにより、さまざまなタスク間での共通性と知識の共有が向上します。

同様に、コンピュータービジョンには、セマンティックセグメンテーション、深度推定、表面法線推定、姿勢推定、エッジ検出、オブジェクト追跡など、幅広いタスクがあります。

最近の研究では、さまざまな視覚タスクを上記のビデオ生成タスクに組み込むことができ、視覚タスクを解決するこの統一されたアプローチは、モデルサイズ、データサイズ、コンテキストの長さの増加に応じて拡張できることが示されています。

ビジョンタスクをビデオ生成タスクに変換するには、通常、次の手順に従います。

（１）タスクの入力と出力（セグメンテーションマップ、深度マップなど）を統一された画像/ビデオ空間に構造化する。

（２）入力画像の後に特定のタスクの予想される出力画像が続くように画像フレームを並べ替える（例えば、通常の入力画像の後に深度マップが続く）。

（３）条件付きビデオ生成モデルへの入力として入力と出力のペアの例を提供することで、文脈学習を利用して目的のタスクを指定します。

ビデオが答えだ

従来の視覚的な質問応答（VQA）では、ビデオ生成技術の発達により、ビデオを回答として使用する新しいタスクが生まれました。たとえば、「折り紙飛行機の作り方」という質問に答えるときにビデオを生成します。

言語モデルがテキスト内の人間のクエリに対してカスタマイズされた応答を生成できるのと同様に、ビデオモデルも、低レベルの詳細を多く含むハウツー質問に対してカスタマイズされた応答を生成できます。

人間にとっては、このようなビデオによる回答はテキストによる回答よりも人気があるかもしれません。

上の図では、研究者は、一連の「方法」の質問に答えるテキストからビデオへのモデルによって生成されたビデオを示しています。

さらに、初期フレームを生成条件として使用して、ユーザー固有のシナリオでビデオ回答を合成することも検討できます。

この大きな可能性にもかかわらず、現在のテキストからビデオへのモデルによって合成されたビデオは一般的に短すぎたり単純すぎたりし、ユーザーの質問に完全に答えるのに十分な情報が含まれていません。

ユーザーの質問に答えるためにビデオフレームを合成する問題は、計画に言語モデルを使用する問題に似ています。言語モデルまたは視覚言語モデルを使用して、高レベルの目標（「寿司の作り方」など）を特定のサブ目標（「まず、ご飯を麺棒にのせる」など）に分解し、合成された計画の合理性を検証しながらサブ目標ごとに計画を合成できます。

視覚的推論と思考連鎖

統一された情報表現と統一されたタスクインターフェイスにより、言語モデルに推論が生まれ、モデルはより複雑な問題を解決するための中間ステップとして関連情報を推論できるようになります。

同様に、ビデオを統一された表現およびタスクインターフェイスとして使用することで、ビデオ生成は、上の図に示すように、画像の遮蔽された領域を予測することによって、視覚的推論の初期の兆候も示しました。

次のフレーム予測を使用して、正しい補助線のセットを含むビデオを生成することで、より複雑な幾何学の問題を解決できるかどうかを確認するのは興味深いでしょう。

視覚的推論と幾何学的問題の解決に次のフレーム予測を使用することに基づいて、次の方法を使用して推論プロセスとアルゴリズムをさらに説明できます。

具体的には、幅優先探索（BFS）アルゴリズムの実行状況を動画で説明します。

この場合、上の図に示すように、ビデオを生成することを学習することは、検索することを学習することと同等です。

図 3 と 4 の例は多少不自然に思えるかもしれませんが、事前トレーニングタスクとしてのビデオ生成が言語モデルと同様の推論動作を誘発する可能性があることを示す初期指標として機能し、ビデオ生成を活用して複雑な推論およびアルゴリズムタスクを解決する機会を明らかにしています。

統一された状態と行動の空間としてのビデオ

ビデオ生成は、幅広い知識を吸収し、さまざまな視覚タスクを記述できます。

研究者らは、具現化された AI における統一された表現およびタスクインターフェイスとしてビデオを使用する具体的な例を提供することで、この考えをさらに裏付けます。

具現化された AI の長年の課題の 1 つは、データの断片化です。つまり、1 台のロボットが 1 セットのタスクを実行している間に収集したデータセットを、別のロボットや別のタスクによる学習に使用することは困難です。

ロボット間およびタスク間の知識共有における主な困難は、ロボットの種類とタスクごとに状態アクション空間が異なることです。この課題に対処するために、タスクや環境全体にわたる統一された状態アクション空間としてピクセル空間を使用できます。

このフレームワークでは、ロボット計画を条件付きビデオ生成問題として捉えることができ、インターネットの事前トレーニング済みビデオ生成モデルの恩恵を受けることができます。

既存の研究のほとんどは、各ロボットのビデオ生成モデルをトレーニングしますが、これにより、具体化された学習のための統一された状態-アクション空間としてビデオを使用する潜在的な利点が弱まります。

上の図は、Open X-Embodiment データセットで以前に生成されたビデオプランと新しく生成されたビデオプランを示しています。これらは非常にリアルに見え、指定されたタスクを正常に完了しています。

ビデオ生成はシミュレーションである

ビデオ生成技術は、上記のタスクの多くを解決できるだけでなく、さまざまなシステムやプロセスの視覚効果をシミュレートし、シミュレーション結果に基づいてシステムの制御戦略を最適化するという、別の重要な分野でも役割を果たします。

この機能は、大量のビデオデータを収集できるものの、雲の流れや柔らかい物体との相互作用など、基礎となる物理的なダイナミクスを正確に記述することが難しいアプリケーションシナリオにとって特に重要です。

ゲーム環境生成

長年にわたり、ゲームは AI アルゴリズムをテストするための理想的なプラットフォームとなってきました。たとえば、アーケード学習環境により、ディープ Q 学習技術の開発が可能になり、AI エージェントが Atari ゲームで初めて人間レベルのパフォーマンスに到達できるようになりました。

同様に、ゲームエンジンでの実際のシミュレーション結果と比較することで、生成シミュレーターの品質を検証できます。

- 複雑なゲーム環境をシミュレートする

モーションベースのビデオ生成テクノロジーにより、Minecraft などの複雑なコンピュータゲームの環境ダイナミクスをシミュレートできます。

これを基に研究者らは、過去のゲームの進行に基づいて将来の行動やゲームの状態を予測できるトランスフォーマーモデルを提案した。

ゲーム内の観察とプレイヤーのアクションはトークンに変換され、次のアクションの予測が次のトークンの予測に簡素化されます。

この場合、モデルは世界モデルと行動方針の両方の役割を果たすことに注目すべきです。

図 6 に示すように、アクションで終わる観測とアクションの交互のシーケンスが与えられると、モデルは次の観測 (世界モデル) を推測できます。また、観測で終わる同様のシーケンスが与えられると、モデルは次のアクション (ポリシー) を推測できます。

このポリシーと動的分析のバックボーンにより、Dyna、Dreamer、MuZero などのモデルベースの強化学習アルゴリズムを適用して、ポリシーをさらに最適化することもできます。

- 新しいゲーム環境を作成する

ゲーム AI の分野では、新しいゲームコンテンツとレベルの手順的な作成が注目の研究方向であり、強化学習 (RL) エージェントのトレーニングと評価にも非常に役立つことが証明されています。

図7に示すように、インターネット上の大規模なラベルなしゲームデータから潜在的なアクションを学習し、アクションを制御できるビデオモデルをトレーニングすることで、プロンプト画像から無限に多様なインタラクティブ環境を生成することができます。

この作業はまだ探索的ですが、将来的には学習した報酬モデルを統合して、完全に生成モデルによって作成されたゲーム環境で RL エージェントをトレーニングできるようになる可能性があります。

ロボット工学と自動運転

SE(3)行動空間のシミュレーションはロボット学習の分野における大きな課題であり、特に仮想シミュレータで訓練されたポリシーを実際のロボットにどのようにうまく適用するかという問題があります。

これまでの研究では、単純な直交アクション空間を使用して、実際のロボットのビデオデータ上の言語テーブル環境のアクションベースの次のフレーム予測モデルを学習することに成功しました。

図8に示すように、次のフレーム予測は、SE(3)空間におけるより一般的なエンドエフェクタの動作によって生成される視覚効果を予測できることがわかります。

生成SE(3)シミュレータの直接的な応用はロボットポリシーの評価であり、これは実際のロボット評価に安全性の考慮が含まれる場合に特に重要です。

評価に加えて、これまでの研究では、生成シミュレータからのロールアウトを使用して、言語テーブル環境で強化学習 (RL) ポリシーをトレーニングしてきました。

次のステップとしては、シミュレーションされたデモンストレーションと実際のデータの組み合わせを使用してポリシーを学習する Dyna スタイルのアルゴリズムを使用する可能性があります。

この場合、ポリシーの実行中に現実世界のビデオが収集され、生成シミュレーターに追加のデモンストレーションとフィードバックが提供されます。

最後に、生成シミュレーターは、多様な環境でのビデオデモンストレーションを使用することで、マルチタスクおよびマルチ環境ポリシーの効率的なトレーニングを可能にします。これは、通常、ポリシーは一度に 1 つの現実世界の環境にしか公開されないため、これまでは不可能でした。

科学と工学

ビデオは科学や工学の多くの分野にわたる統一的な表現形式となり、医療用画像処理、コンピューター画像処理、計算流体力学などの分野の研究に影響を与えています。

場合によっては、カメラで視覚情報を簡単にキャプチャできるにもかかわらず、その背後にある動的なシステム（雲の動きや電子顕微鏡での原子の動きなど）を識別することが困難です。

制御入力に基づくビデオ生成モデルは効果的な視覚シミュレーションツールとなり、より優れた制御ソリューションを得るのに役立ちます。

下の図は、電子ビームの刺激を受けた炭素原子単層上のシリコン原子の動的変化を示しています。ご覧のとおり、この生成シミュレーターはピクセルレベルでシリコン原子の動きを正確に捉えることができます。

生成シミュレーターは、シミュレーションと現実のギャップを埋めるのに役立つだけでなく、計算コストが固定されているという利点があり、これは従来の計算方法では対応できない状況で特に重要です。

要約する

要約すると、研究者たちは、言語モデルがデジタル世界で役割を果たすのと同じように、ビデオ生成技術が物理世界で役割を果たすと考えています。

チームは、ビデオを使用して幅広い情報を表現し、言語モデルと同じようにタスクを実行する方法を示して、このアイデアをサポートしています。

さらに、推論、シーン学習、検索、計画、強化学習などの方法を組み合わせて現実世界の問題を解決するための新しい視点からビデオ生成技術の応用が検討されています。

ビデオ生成モデルは、誤った生成（幻覚）や一般化機能などの課題に直面していますが、自律的な AI エージェント、プランナー、環境シミュレーター、コンピューティングプラットフォームになる可能性があり、最終的には物理世界で考え、行動する AI 脳として機能する可能性があります。

<<: RNN の効率は Transformer に匹敵し、Google は 2 つの新しいアーキテクチャをリリース: 同じ規模では Mamba よりも強力

>>: 10年以内にAGI？次世代のジェミニは環境を感知できるのか？ディープマインドCEOハサビス氏がAIについて語る

ブログ

MetaMindによるNLP研究の徹底分析：機械学習をスキップさせる方法

ブログ

未来を変える5つのAIトレンド

ブログ

ビッグビデオモデルは世界モデルですか？ DeepMind/UC Berkeley Chinese: 次のフレームを予測することで世界を変えることができる

次のフレームを予測することは、次の単語を予測するのと同じように世界を変えるだろう

ビデオ生成の前提条件

統一された表現とタスクインターフェース

情報の統一的な表現としてのビデオ

なぜビデオなのか?

統合タスクインターフェースとしてのビデオ生成

統一された状態と行動の空間としてのビデオ

ゲーム環境生成

- 複雑なゲーム環境をシミュレートする

- 新しいゲーム環境を作成する

ロボット工学と自動運転

科学と工学

要約する

これらの 10 個のオープンソース機械学習ツールを使用したことがありますか?

未来の超人工知能はどれほど恐ろしいものになるのでしょうか？この記事を読んだら黙ってしまうかもしれません！

ソラの素晴らしい映像は驚異的で、ハリウッドの監督は8億ドルのスタジオを急遽撤去しました。ソラの「社内ベータ」が予定より早く開始、映画・テレビ業界に失業の波が押し寄せる

人工知能チュートリアル（IV）：確率論入門

MetaMindによるNLP研究の徹底分析：機械学習をスキップさせる方法

未来を変える5つのAIトレンド

推薦する

Google、Facebook、Baiduはディープラーニングのフレームワークをめぐって競争している

Google は、AI 言語モデルの自己修正機能の向上を支援する BIG-Bench Mistake データセットをリリースしました。

OpenAIが安全チームを設置準備: AIのリスクを評価し、外部からの悪用を防ぐ

継続的インテリジェンスとは何ですか?モノのインターネットにどのような影響を与えるでしょうか?

マッキンゼー：2045年までに仕事の50％がAIに取って代わられる

人工知能を活用して顧客サービス体験を向上させる 5 つの方法

AlphaFold 2 の最強のライバルが自らを弱体化させます!メタ、12人チームを即刻解散

Zookeeper の選出アルゴリズムとスプリットブレイン問題の詳細な説明

情報フローシナリオにおけるAIGCの実践

AIと5Gを組み合わせてIoTの収益を最大化する方法

エネルギー効率を向上させるために、脳は予測知覚能力を発達させた。

RPA 導入が失敗する 7 つの理由

ChatGPTは個人のカスタマイズをサポートします！長いプロンプトに別れを告げ、まずは自己紹介をしましょう