GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

拡散モデルの出現により、テキスト生成ビデオ技術の開発が促進されましたが、このような方法は通常、計算コストが高く、オブジェクトの動きの一貫したビデオを作成することが困難な場合がよくあります。

これらの問題を解決するために、中国科学院深圳先進技術研究所、中国科学院大学、VIVO AI ラボの研究者が共同で、トレーニングなしでテキストからビデオを生成する新しいフレームワーク、GPT4Motion を提案しました。 GPT4Motion は、GPT などの大規模言語モデルの計画機能、Blender ソフトウェアが提供する物理シミュレーション機能、拡散モデルのテクスチャ機能を組み合わせ、ビデオ合成の品質を大幅に向上させることを目指しています。

プロジェクトリンク: https://gpt4motion.github.io/
論文リンク: https://arxiv.org/pdf/2311.12631.pdf
コードリンク: https://github.com/jiaxilv/GPT4Motion

具体的には、GPT4Motion は GPT-4 を使用して、ユーザーが入力したテキストプロンプトに基づいて Blender スクリプトを生成し、Blender の組み込み物理エンジンを使用して基本的なシーンコンポーネントを作成し、それらをフレーム間の連続モーションにカプセル化します。次に、これらのコンポーネントを拡散モデルに入力して、テキストプロンプトに合わせたビデオを生成します。

実験結果によると、GPT4Motion は、モーションの一貫性とエンティティの一貫性を維持しながら、高品質のビデオを効率的に生成できます。 GPT4Motion は物理エンジンを使用しており、生成されるビデオがよりリアルになることは注目に値します。 GPT4Motion は、テキストからのビデオ生成に関する新たな洞察を提供します。

まずはGPT4Motionが生成した効果を見てみましょう。例えば、「そよ風になびく白いTシャツ」、「風になびく白いTシャツ」、「強風になびく白いTシャツ」というテキストプロンプトを入力すると、GPT4Motionが生成した動画内の白いTシャツのなびく振幅は風の強さによって異なります。

液体の流れに関しては、GPT4Motion によって生成されたビデオでもよくわかります。

バスケットボールは回転して空中から落ちます。

方法の紹介

この研究の目的は、いくつかの基本的な物理的な動きのシーンに対するユーザーのプロンプトに基づいて、物理的に正しいビデオを生成することです。物理的特性は通常、物体の材質に関係します。研究者たちは、日常生活でよく見られる 3 種類の物体と材料のシミュレーションに焦点を当てました。1) 力がかかっても形状を維持できる硬い物体、2) 柔らかく浮きやすい布、3) 連続的で変形可能な動きを示す液体です。

さらに、研究者らは、衝突（物体間の直接的な衝突）、風の影響（空気の流れによって引き起こされる動き）、流れ（一方向への連続的な動き）など、これらの材料のいくつかの典型的な運動モードに特別な注意を払いました。これらの物理シナリオをシミュレートするには、通常、古典力学、流体力学、およびその他の物理学の知識が必要です。テキストからビデオを生成することに重点を置いた現在の拡散モデルでは、トレーニングを通じてこの複雑な物理的知識を獲得することが困難であり、そのため物理的特性に準拠したビデオを生成することができません。

GPT4Motion の利点は、生成されたビデオがユーザーが入力したプロンプトと一致するだけでなく、物理的に正しいことも保証されることです。 GPT-4 のセマンティック理解およびコード生成機能により、ユーザープロンプトを Blender の Python スクリプトに変換し、Blender の組み込み物理エンジンを駆動して対応する物理シーンをシミュレートできます。さらに、本研究では、ControlNet も採用し、Blender シミュレーションの動的な結果を入力として取り入れ、拡散モデルをガイドしてフレームごとにビデオを生成しました。

GPT-4を介してシミュレーションを完了するためにBlenderをトリガーする

研究者らは、GPT-4 は Blender の Python API をある程度理解しているものの、ユーザーのプロンプトに基づいて Blender の Python スクリプトを生成する能力がまだ欠けていることを観察しました。一方で、GPT-4 に単純な 3D モデル (バスケットボールなど) を Blender で直接作成するように依頼するのは、困難な作業のように思えます。一方、Blender の Python API はリソースが少なく、API バージョンの更新も早いため、GPT-4 は特定の機能を誤用したり、バージョンの違いによってミスを起こしたりすることが簡単に起こります。これらの問題を解決するために、本研究では以下の解決策を提案しました。

外部3Dモデルの使用
Blender関数のラッピング
ユーザープロンプトを物理的なプロパティに変換する

図3は、この研究でGPT-4用に設計された一般的なプロンプトテンプレートを示しています。ラップされた Blender 関数、外部ツール、ユーザーコマンドが含まれます。研究者らはテンプレート内の仮想世界のサイズの基準を定義し、カメラの位置と視野角に関する情報を提供しました。この情報は、GPT-4 が 3 次元空間のレイアウトをより適切に理解するのに役立ちます。次に、ユーザーによるプロンプト入力に基づいて対応する指示が生成され、GPT-4 が対応する Blender Python スクリプトを生成するように指示します。最後に、このスクリプトを使用して、Blender はオブジェクトのエッジと深度をレンダリングし、画像シーケンスとして出力します。

物理的に正確なビデオを生成する

この研究の目的は、ユーザーのプロンプトと Blender によって提供される対応する物理的な動作条件に基づいて、一貫したテキストとビデオコンテンツ、およびリアルな視覚効果を備えたビデオを生成することです。この研究では、拡散モデルのアップグレード版である拡散モデル XL (SDXL) を使用して生成タスクを完了し、SDXL に次の変更を加えます。

物理的な動作の制約
時間一貫性制約

実験結果

物理的特性の制御

バスケットボールの落下と衝突。図 4 は、3 つのプロンプトに基づいて GPT4Motion によって生成されたバスケットボールビデオを示しています。図 4 (左) では、バスケットボールは回転しながら非常にリアルなテクスチャを維持し、地面に衝突した後の跳ね返り動作を正確に再現しています。図 4 (中央) は、この方法によりバスケットボールの数を正確に制御し、複数のバスケットボールが着地したときに発生する衝突やバウンドを効果的に生成できることを示しています。驚くべきことに、図 4 (右) に示すように、ユーザーがバスケットボールをカメラに向かって投げるように指示すると、GPT-4 は生成されたスクリプト内でバスケットボールの落下時間に基づいて必要な初期速度を計算し、リアルな視覚効果を実現します。これは、GPT4Motion を GPT-4 の物理的知識と組み合わせて、生成されたビデオコンテンツを制御できることを示しています。

風になびく布。図 5 と 6 は、風の影響を受けて布が動く様子を生成する GPT4Motion の機能を示しています。 GPT4Motion は、シミュレーションに既存の物理エンジンを使用して、さまざまな風の力の下で波紋や波を生成できます。図 5 は、はためく旗の生成結果を示しています。風速によって、旗は複雑な波紋や波模様を描きます。図 6 は、さまざまな風の力を受けた不規則な布地の物体 (T シャツ) の動きを示しています。生地の弾力性や重さなどの物理的特性の影響で、Tシャツは揺れたりねじれたりして、明らかなシワが現れました。

マグカップに水を注ぎます。図 7 は、異なる粘度の水をマグカップに注ぐ 3 つのビデオを示しています。粘度が低い場合、流れる水はカップ内の水と衝突して合流し、表面に複雑な乱流を形成します。粘度が増加すると、水の流れが遅くなり、液体がくっつき始めます。

ベースライン手法との比較

図 1 は、GPT4Motion と他のベースラインメソッドを直感的に比較したものです。明らかに、ベースラインの結果はユーザーのプロンプトと一致しません。 DirecT2V と Text2Video-Zero はテクスチャの忠実度とモーションの一貫性に欠陥があり、AnimateDiff と ModelScope はビデオの滑らかさを改善しますが、テクスチャの一貫性とモーションの忠実度にはまだ改善の余地があります。これらの方法と比較すると、GPT4Motion は、バスケットボールが床に衝突した後に落下して跳ね返るときに滑らかなテクスチャの変化を生成できるため、よりリアルに見えます。

図 8 (最初の行) に示すように、AnimateDiff と Text2Video-Zero によって生成されたビデオでは旗にアーティファクトや歪みが見られますが、ModelScope と DirecT2V では風になびく旗のグラデーションをスムーズに生成できません。しかし、図5の中央に示すように、GPT4Motionで生成されたビデオでは、重力と風の影響を受けて旗のしわや波紋が連続的に変化する様子を見ることができます。

図 8 (行 2) に示すように、すべてのベースラインの結果はユーザープロンプトと一致していません。 AnimateDiff および ModelScope ビデオは水の流れの変化を反映しますが、カップに注がれる水の物理的な効果を捉えることはできません。 Text2VideoZero と DirecT2V によって生成されたビデオは、常に揺れるカップを作成します。これに対し、図7（左）に示すように、GPT4Motionで生成された動画は、水がマグカップに衝突したときの揺れを正確に表現しており、よりリアルな効果が得られています。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:

>>: