カリフォルニア大学バークレー校のDeepMindと他の企業が共同で、仮想と現実の境界を打ち破る現実世界シミュレーターをリリースした。

現実世界のシミュレーターが登場！

トレーニングされた大規模モデルが現実の物理世界に適応できないのではないかとまだ心配していますか?

AIエージェントが私たちの生活に入り込むのはどのくらい先でしょうか？

——カリフォルニア大学バークレー校、Google DeepMind、MIT、アルバータ大学の研究者がその答えを教えてくれます。

NeurlPS 2023 では、研究者らは最新の研究成果である現実世界のシミュレーター UniSim を発表します。

ビデオデモ: https://universal-simulator.github.io/unisim/

論文アドレス: https://arxiv.org/pdf/2310.06114.pdf

今日の生成ビッグモデルは、テキスト、画像、ビデオコンテンツの作成方法に革命をもたらしました。

では、生成 AI の今後はどうなるのでしょうか?

おそらく、人間、ロボット、その他のインタラクティブエージェントのアクションに応じて、現実世界の体験をシミュレートするのでしょう。

この目標を達成するには、現実世界のシミュレータが必要です。

現実世界シミュレーターには、ゲームや映画における制御可能なコンテンツの作成や、現実世界に直接展開できる具現化されたエージェントのトレーニングなど、さまざまな用途があります。

遠距離視力シミュレーション

UniSim の真の価値は、長いイベントをシミュレートして、検索、計画、最適制御、強化学習を通じて意思決定を最適化することにあります。以下のビデオでは、UniSim が長距離視聴でのインタラクティブな体験をシミュレートする方法を紹介しています。

UniSim による強化学習 (RL)

RL エージェントは、UniSim が提供するシミュレートされた世界で効果的にトレーニングされ、その後実際のロボットに直接転送されるため、現実世界で高価で複雑なトレーニング環境を構築する必要がなくなります。

上記の UniSim でのトレーニング後、サンプルなしで実際のロボットに展開できます。

UniSimによる長期計画

UniSim を使用して長期的な指示や推論を入力し、ビデオを生成します。生成されたビデオと説明は、視覚言語モデル (VLM) のトレーニング、シミュレートされた計画の生成、実際のロボットへのゼロショット転送の実行に使用できます。

現実世界を表現するシミュレーターには、当然ながら大量の現実世界のデータが必要です。

研究者らは、学習に使用できる自然なデータセットには、画像データ内の豊富なオブジェクト、ロボットデータ内の高密度にサンプリングされた動作、ナビゲーションデータ内の多様な動きなど、多くの次元が含まれていることが多いことを発見しました。

さまざまなデータセットを慎重にオーケストレーションすることで、各データセットは全体的なエクスペリエンスの異なる側面を提供します。

UniSim は、高レベルのコマンド (「引き出しを開ける」など) と低レベルのコントロール (「x、y を押して移動する」など) の視覚的な結果をシミュレートすることで、人間またはエージェントが世界とどのように対話するかをシミュレートできます。

UniSim は、高レベルのビジュアル言語プランナーと低レベルの強化学習ポリシーをトレーニングするために使用でき、実際のアプリケーションへのゼロショット移行を実現できます。

さらに、ビデオキャプションモデルなどの他の種類の AI も、UniSim が提供するシミュレーションエクスペリエンスの恩恵を受けることができます。

道路を走る車から家具の組み立てや食事の準備まで、人間は包括的な現実世界のシミュレーターを通じてさまざまなシーンやオブジェクトと対話することができます。

ロボットは物理的な損傷のリスクなしにシミュレートされた経験から学習することができ、大量の現実世界のデータをシミュレートして他の種類の機械知能を訓練することができます。

しかし、このような現実世界のシミュレーターを構築する上での障害の 1 つは、データセットの可用性です。

インターネット上には数十億のテキスト、画像、ビデオクリップがありますが、さまざまなデータセットがさまざまな情報軸をカバーしており、それらを統合して世界の実際の体験をシミュレートする必要があります。

たとえば、テキストと画像のペアのデータには、豊富なシーンやオブジェクトが含まれますが、モーションデータは含まれません。

ビデオのキャプションと質問回答データには、豊富な高レベルのアクティビティの説明が含まれていますが、低レベルの動きの詳細はほとんどありません。

人間の活動データには、人間の体の動きが豊富に含まれていますが、機械的な動作情報は含まれていません。

ロボットデータには豊富なロボットアクションが含まれていますが、データセット自体は限られています。

さまざまなデータセットは、さまざまな業界や研究コミュニティによってさまざまなタスクのためにキュレーションされているため、情報の違いは当然であり、克服するのは困難です。

この研究は、生成モデリングを通じて現実世界の相互作用のための汎用シミュレーター (UniSim) を構築するための第一歩を踏み出します。

論文の詳細

研究者らは、インターネットのテキスト画像やナビゲーション、操作、人間の活動、ロボット工学、シミュレーションやレンダリングに関するデータなど、大量のデータを条件付きビデオ生成フレームワークに組み合わせました。

UniSim は、さまざまな次元からの豊富なデータを調整することで、さまざまな体験情報をうまく組み込み、データを超えて一般化することで、静的なシーンやオブジェクトのきめ細かいモーションコントロールを通じて豊富なインタラクションを可能にします。

さらに、UniSim は条件付きビデオ生成と部分的に観測可能なマルコフ決定プロセス (POMDP) を融合して、ビデオ生成の境界を越えて長距離視聴のインタラクションを一貫してシミュレートします。

インタラクティブな現実世界シミュレーター

一般的なビデオ生成モデルと比較して、インタラクティブな現実世界のシミュレーターでは、異なる一連の操作と長期的なインタラクションをサポートする必要があります。

このようなシミュレータをトレーニングするには、まず広範囲のデータから情報を抽出する必要があります。

ここで重要なデータは、世界の視覚的観察と、それらの視覚的観察の変化につながるアクションです。

異なるタイプのデータセットから観察とアクションを抽出し、共通の形式に統合します。

次に、ビデオとテキストを接続する共通インターフェースを使用して、異なるデータセット間で情報を融合します。

シミュレーションの実行とレンダリング

現実世界のビデオのアクションに注釈を付けるにはコストがかかりますが、シミュレーションエンジンはさまざまなアクションをレンダリングすることができ、UniSim はシミュレーションエンジンから収集されたデータセットを使用してトレーニングできます。

シミュレートされた連続制御操作の場合、それらは言語埋め込みを介してエンコードされ、テキスト埋め込みは離散化された制御値と連結されます。

実際のロボットデータ

実際のロボット実行ビデオデータは、多くの場合、タスクの説明とペアになっており、UniSim で高レベルの操作として使用できますが、低レベルの制御操作は通常、ロボットごとに異なります。

人間の活動ビデオ

Ego4D、EPIC-KITCHENS、Something-Something など、人間の活動を記録するデータセットは数多くあります。これらの活動ビデオには、人間が世界とやりとりする高レベルのアクションが含まれています。

ビデオラベルをテキスト操作に変換し、ビデオをサブサンプリングして、フレームレートで観測ブロックを構築し、意味のある操作をキャプチャします。

パノラマスキャン

現在、3Dスキャン（Matterport3Dなど）のデータが大量に存在します。これらの静的スキャンにはアクションは含まれませんが、パノラマスキャンを切り捨てることでアクション (左折など) を構築でき、2 つの画像間のカメラのポーズの変化などの情報を使用できます。

インターネットテキスト画像データ

LAION などのテキストと画像のペアのデータセットには、静的オブジェクトは豊富に含まれていますが、アクションは含まれていません。

ただし、テキストラベルには、「人が歩いている」などの動作情報が含まれることがよくあります。さらに、上記の他のデータセットと比較して、インターネットのテキスト画像データは、より豊富なオブジェクトセットを記述できます。

UniSim でテキスト画像データを使用するには、単一の画像を単一フレームのビデオと見なし、テキストラベルを操作と見なします。

これらのデータセットから抽出された観察データとアクションデータを使用して、現在の条件下で次の観察フレームを予測するように拡散モデルをトレーニングできます。

拡散モデルの原理に従って、まず時間情報を含むガウスノイズが前回の観測に追加され、次に入力アクションに応じて、UniSim は前回のノイズの多い観測を次の観測にノイズ除去することを学習します。

さまざまな環境からの観察がビデオに変換され、さまざまなモダリティ (テキストの説明、モーションコントロール、カメラアングルなど) からのアクションが連続的な埋め込みに変換されるため、UniSim はすべてのデータセットから単一の世界モデルを学習できます。

上の図は、UniSim のトレーニングと推論を示しています。 UniSim (T) は、前の観測 (o) のノイズバージョンとアクション入力 (a) が与えられた場合に、次の (可変長) 観測フレーム (o) を予測するビデオ拡散モデルです。

UniSim は、さまざまな長さのモーター制御コマンド、動作の言語記述、カメラの動作やその他のソースから抽出された動作など、さまざまなモダリティの動作を処理できます。

POMDPによる長期的な交流

異なるデータを組み合わせることで豊富なインタラクションが可能になりますが、UniSim の真の価値は長期的なインタラクションをシミュレートすることにあります。

UniSim での推論は、確立されたアルゴリズムを使用して決定ポリシーを学習できる部分観測マルコフ決定プロセス (POMDP) での展開の実行に似ています。

POMDP は、状態、アクション、観測空間、および報酬、遷移、観測放出関数で構成されるタプルとして定義できます。

POMDP は現実世界との相互作用を特徴付けることができ、UniSim は遷移関数として機能します。

上の図は、UniSim によるさまざまなアクションのシミュレーションを示しています。同じ初期フレームから開始し、指示に基づいてさまざまな展開を推測できます。

上の図は、UniSim が 8 つのインタラクションを順次自己回帰方式でシミュレートし、長期的なインタラクションで時間的な一貫性を維持し、オブジェクトと位置を正しく保存していることを示しています。

最初のフレームでは、さまざまなキッチン作業を実行する (左上)、さまざまなスイッチを押す (右上)、またはシーン内を移動する (下) ように指示されます。

UniSim は、豊富なアクションと長い視聴距離でのインタラクションをサポートするだけでなく、非常に多様でランダムな環境遷移もサポートできます。

例としては、オブジェクトの色や位置の多様性、風やカメラの角度の変化などの現実世界の変動性が挙げられます。

言語アクションを使用してさまざまなオブジェクトの外観を指定し、ビデオ生成のランダムサンプリングプロセスを活用して、風やカメラの角度などの環境のランダム性をサポートできます。

拡散モデルは、マルチモーダル分布を非常に柔軟に捉えることができるため、非常にランダムな環境を表すさまざまなサンプルを生成できます。

上の図は、UniSim での多様なランダムシミュレーションを示しています。

UniSimのアプリケーション

以下では、非常にリアルな体験をシミュレートすることで、UniSim を使用して他の種類の機械知能をトレーニングする方法を示します。

ビジュアル言語プランナー

UniSim で各軌跡を 3 ～ 5 回展開することで、合計 10,000 の長期軌跡が UniSim から作成されました。各展開は、元のデータセットに類似したスクリプト言語命令に対応しています。

次に、各長期展開の最後のフレームがターゲット入力として使用され、スクリプト言語の指示が VLM ポリシーをトレーニングするための監督として使用されます。

次の図は、VLM によって生成された言語プラン、その言語プランに基づいて UniSim によって生成されたビデオ、および実際のロボットでの実行を示しています。 UniSim でトレーニングされたポリシーは、ゼロショット方式で現実世界で直接リモートタスクを実行できます。

UniSim のデータでトレーニングされた VLM は、3 つのブロック (青、緑、黄) をターゲットイメージ内のターゲット位置に一致させるように正常に移動することで、長期的なタスクを計画できます。

強化学習戦略

UniSim は、並行してアクセスできる現実的なシミュレーターを提供することで、RL エージェントの効率的なトレーニングを可能にします。

上の図では、低レベルの制御アクションを繰り返し適用して、カラーブロックを左、右、下、上、斜めに 20 ～ 30 ステップ移動させることで、実際のロボットの実行をシミュレートする際の UniSim の品質を評価しています。RL ポリシーは、「青い立方体を緑の円に移動する」というタスクを正常に完了できます。

<<: Ali Wensheng ビデオが Gen-2 と Pika に挑戦、1280×720 の解像度で圧迫感なし、3500 万のテキストビデオ表示効果

>>: GPT-2を使ってGPT-4を監督し、AIが人類を滅ぼすのを防ぐ？OpenAI Ilya Super Alignmentチームの最初の論文が発表される