国内大学がSORA型VDTを開発、汎用ビデオ拡散トランスフォーマーがICLR2024に採択

2月16日のOpenAI Soraのリリースは、間違いなくビデオ生成の分野における大きな進歩を示しました。 Sora は Diffusion Transformer アーキテクチャに基づいており、これは市場の主流のほとんどの方法 (2D Stable Diffusion によって拡張) とは異なります。

Sora が Diffusion Transformer の使用にこだわる理由は、ICLR 2024 で同時に発表された論文 (VDT: General-purpose Video Diffusion Transformers via Mask Modeling) からわかります。

この研究は、中国人民大学の研究チームがカリフォルニア大学バークレー校、香港大学などと共同で行ったもので、2023年5月にarXivウェブサイトで初めて公開されました。研究チームは、Transformer - Video Diffusion Transformer (VDT) をベースにした統合ビデオ生成フレームワークを提案し、Transformer アーキテクチャを採用した理由を詳しく説明しました。

論文タイトル: VDT: マスクモデリングによる汎用ビデオ拡散トランスフォーマー
記事アドレス: Openreview: https://openreview.net/pdf?id=Un0rgm9f04
arXivアドレス: https://arxiv.org/abs/2305.13311
プロジェクトアドレス: VDT: マスクモデリングによる汎用ビデオ拡散トランスフォーマー
コードアドレス: https://github.com/RERV/VDT

1. VDTの利点と革新

研究者らは、Transformer アーキテクチャを使用した VDT モデルは、ビデオ生成の分野で次のような利点があると述べています。

主に画像用に設計された U-Net とは異なり、Transformer は、強力なトークン化とアテンションメカニズムを使用して長期的または不規則な時間的依存関係をキャプチャすることにより、時間的次元をより適切に処理できます。
モデルが世界の知識（空間と時間の関連性や物理法則など）を学習（または記憶）して初めて、現実世界に一致するビデオを生成できるようになります。したがって、モデルの容量はビデオの普及の重要な要素になります。 Transformer は、非常にスケーラブルであることが実証されています。たとえば、PaLM モデルには最大 540B のパラメータがありますが、当時の最大の 2D U-Net モデルはわずか 26B のパラメータ (SDXL) でした。そのため、Transformer は 3D U-Net よりもビデオ生成の課題に適しています。
ビデオ生成の分野には、無条件生成、ビデオ予測、補間、テキストから画像への生成など、複数のタスクが含まれます。これまでの研究では、単一のタスクに焦点が当てられることが多く、下流のタスクを微調整するための専用モジュールの導入が必要になることが多かった。さらに、これらのタスクには、フレームやモダリティによって異なる可能性のある多様な条件情報が含まれるため、さまざまな入力の長さやモダリティを処理できる堅牢なアーキテクチャが必要です。 Transformer を導入することで、これらのタスクを統合できます。

VDT の革新には主に以下の側面が含まれます。

Transformer テクノロジを拡散ベースのビデオ生成に適用すると、ビデオ生成の分野における Transformer の大きな可能性が実証されます。 VDT の利点は、時間の依存性を捉え、時間的に一貫したビデオフレームを生成し、時間の経過に伴う 3 次元オブジェクトの物理的ダイナミクスをシミュレートする優れた能力にあります。
統一された時空間マスクモデリングメカニズムが提案されており、これによりVDTはさまざまなビデオ生成タスクを処理できるようになり、技術の幅広い応用が実現します。単純なトークン空間の連結など、VDT の柔軟な条件付き情報処理により、さまざまな長さや形式の情報が効果的に統合されます。同時に、本研究で提案した時空間マスクモデリング機構と組み合わせることで、VDTは、モデル構造を変更することなく、無条件生成、ビデオ後続フレーム予測、フレーム挿入、画像生成ビデオ、ビデオ画像完成などのさまざまなビデオ生成タスクに適用できる汎用的なビデオ拡散ツールになります。

2. VDTのネットワークアーキテクチャの詳細な説明

VDT フレームワークは Sora のフレームワークと非常によく似ており、次の部分で構成されています。

入出力特性。 VDT の目標は、サイズ H×W の F フレームで構成される、サイズ F×H×W×3 のビデオセグメントを生成することです。しかし、元のピクセルを VDT の入力として使用すると、特に F が大きい場合は、計算の複雑さが極めて大きくなります。この問題に対処するために、潜在的拡散モデル (LDM) にヒントを得て、VDT は事前トレーニング済みの VAE トークナイザーを使用してビデオを潜在空間に投影します。入力と出力のベクトル次元を潜在的特徴/ノイズの F×H/8×W/8×C に減らすと、VDT のトレーニングと推論の速度が加速します。ここで、F フレームの潜在的特徴のサイズは H/8×W/8 です。ここで、8 は VAE トークナイザーのダウンサンプリングレートであり、C は潜在的な特徴の次元を表します。

線形埋め込み。 Vision Transformer アプローチに従って、VDT は潜在的なビデオ機能表現をサイズ N×N の重複しないパッチに分割します。

時空間トランスフォーマーブロック。ビデオモデリングにおける時空間自己注意の成功に触発され、VDT は時間的注意レイヤーを Transformer Block に挿入して、時間次元でのモデリング機能を獲得します。具体的には、各 Transformer ブロックは、上の図に示すように、マルチヘッドの時間的注意、マルチヘッドの空間的注意、および完全に接続されたフィードフォワードネットワークで構成されます。

Sora が公開した最新の技術レポートを比較すると、 VDT と Sora の実装の詳細にはわずかな違いしかないことがわかります。

まず、VDT では時間次元と空間次元で別々に注意機構処理を実行する方式を採用していますが、Sora では時間次元と空間次元を組み合わせて単一の注意機構で処理します。この分割注意アプローチは、ビデオ分野ではすでにかなり一般的であり、ビデオメモリの制限下での妥協策と見なされることがよくあります。 VDT は、コンピューティングリソースが限られているため、個別の注意を使用することを選択します。 Sora の強力なビデオダイナミクス機能は、全体的な時空間注意メカニズムから生まれている可能性があります。

第二に、VDT とは異なり、Sora はテキスト条件の融合も考慮します。 Transformer に基づく条件付きテキスト融合に関する研究はこれまでにも行われてきました (DiT など)。ここでは、Sora がモジュールにクロスアテンションメカニズムをさらに追加したのではないかと推測しています。もちろん、条件付き入力の形式としてテキストとノイズを直接連結することも潜在的な可能性として考えられます。

VDT 研究の過程で、研究者は一般的に使用されている基本バックボーンネットワーク U-Net を Transformer に置き換えました。これにより、ビデオ拡散タスクにおける Transformer の有効性が検証され、容易なスケーラビリティと継続性の向上という利点が実証されただけでなく、その潜在的な価値についてさらに考えるきっかけにもなりました。

GPT モデルの成功と自己回帰 (AR) モデルの人気により、研究者たちは、Transformer が視覚インテリジェンスを実現する新しい方法を提供できるかどうか疑問に思い、ビデオ生成の分野での Transformer のより深い応用を模索し始めました。ビデオ生成の分野には、ビデオ予測という密接に関連するタスクがあります。視覚知能への道として次のビデオフレームを予測するというアイデアは単純に思えるかもしれませんが、実際には多くの研究者が懸念している問題です。

この考慮に基づいて、研究者たちはビデオ予測タスク向けにモデルをさらに適応させ、最適化したいと考えています。ビデオ予測タスクは条件付き生成と見なすこともできます。この場合、指定された条件付きフレームはビデオの最初の数フレームになります。 VDTでは主に以下の3つの条件生成方法を考慮します。

適応層の正規化。ビデオ予測を実現する最も簡単な方法は、時間情報を拡散プロセスに統合する方法と同様に、条件付きフレーム機能を VDT ブロックのレイヤー正規化に統合することです。

クロスアテンション。研究者らはまた、条件付きフレームをキーと値として、ノイズの多いフレームをクエリとして使用するビデオ予測スキームとしてのクロスアテンションの使用についても調査しました。これにより、条件付き情報とノイズの多いフレームを融合できるようになります。クロスアテンションレイヤーに入る前に、条件フレームの特徴が抽出され、VAE トークナイザーを使用してパッチが適用されます。一方、VDT が条件フレーム内の対応情報を学習できるように、空間的および時間的な位置埋め込みが追加されます。

トークンの結合。 VDT モデルは純粋な Transformer アーキテクチャを採用しているため、条件フレームを入力トークンとして直接使用する方が、VDT にとってより直感的なアプローチとなります。研究者たちは、条件フレーム（潜在的な特徴）とノイズフレームをトークンレベルで連結し、それを VDT に入力することでこれを達成しました。次に、図3(b)に示すように、VDTの出力フレームシーケンスをセグメント化し、予測されたフレームを拡散プロセスに使用しました。研究者たちは、このアプローチが最も速い収束速度を示し、最終結果において以前の 2 つの方法よりも優れたパフォーマンスを提供することを発見しました。さらに、研究者らは、トレーニング中に固定長の条件フレームを使用する場合でも、VDT は任意の長さの条件フレームを入力として受け入れ、一貫した予測機能を出力できることを発見しました。

VDT フレームワークでは、ビデオ予測タスクを実現するために、ネットワーク構造を変更する必要はなく、モデルの入力のみを変更する必要があります。この発見から、直感的な疑問が浮かび上がります。このスケーラビリティをさらに活用して、追加のモジュールやパラメータを導入せずに、VDT をより多様なビデオ生成タスク (画像からビデオを生成するなど) に拡張できるでしょうか?

無条件生成とビデオ予測の両方における VDT の機能を思い出すと、唯一の違いは入力機能の種類です。具体的には、入力は純粋なノイズ潜在特徴、または条件付き潜在特徴とノイズ潜在特徴の連結になります。次に、研究者らは、図 4 に示すように、条件入力を統一するために統合空間時間マスクモデリングを導入しました。

3. VDTパフォーマンス評価

上記の方法により、VDT モデルは、無条件のビデオ生成およびビデオ予測タスクをシームレスに処理できるだけでなく、入力機能を調整するだけで、ビデオフレーム補間などのより広範囲のビデオ生成分野に拡張することもできます。この柔軟性と拡張性は、VDT フレームワークの強力な可能性を示し、将来のビデオ生成技術に新たな方向性と可能性をもたらします。

興味深いことに、OpenAI はテキストからビデオへの変換に加えて、画像ベースの生成、前後のビデオ予測、さまざまなビデオクリップの融合の例など、Sora の他の驚くべきタスクも実演しました。これらは、研究者が提案した統合空間時間マスクモデリングによってサポートされているダウンストリームタスクと非常によく似ています。Kaiming の MAE も参考文献に引用されています。そのため、Sora もおそらく最下層で MAE のようなトレーニング方法を使用していると推測されます。

研究者らは、生成モデル VDT が単純な物理法則をシミュレートする能力についても調査しました。彼らは Physion データセットで実験を行い、VDT は前の 8 フレームを条件フレームとして使用し、次の 8 フレームを予測しました。最初の例 (上の 2 行) と 3 番目の例 (下の 2 行) では、VDT は、放物線軌道に沿って移動するボールと、平面上を転がって円筒に衝突するボールの物理プロセスを正常にシミュレートしています。 2 番目の例 (中央の 2 行) では、VDT はボールがシリンダーに当たる前に停止するときのボールの速度/運動量をキャプチャします。これは、Transformer アーキテクチャが特定の物理法則を学習できることを証明しています。

VDT はネットワーク構造を部分的に除去します。モデルのパフォーマンスは GFlops と強く相関していることがわかりますが、モデル構造自体の詳細の一部は大きな影響を与えません。これは DiT の調査結果と一致しています。

研究者らは、VDT モデルの構造アブレーション研究も行いました。結果は、パッチサイズを減らし、レイヤーの数を増やし、隠しサイズを増やすことで、モデルのパフォーマンスをさらに向上できることを示しています。時間的および空間的注意の位置、および注意ヘッドの数は、モデルの結果にほとんど影響を与えません。同じ GFlops を維持しながら、いくつかの設計上のトレードオフが必要でしたが、全体的にはモデルのパフォーマンスに大きな違いはありませんでした。ただし、GFlops の増加により結果が向上し、VDT または Transformer アーキテクチャのスケーラビリティが実証されます。

VDT のテスト結果は、ビデオデータ生成の処理における Transformer アーキテクチャの有効性と柔軟性を実証しています。コンピューティングリソースの制限により、VDT はいくつかの小規模な学術データセットでのみ実験されています。今後の研究により、VDT に基づくビデオ生成技術の新たな方向性と応用がさらに探求されることを期待しており、中国企業が国産の Sora モデルをできるだけ早く発売できることも期待しています。

<<: 役立つ情報満載！カルパシーの2時間AIコースの最初のエピソードはテキスト形式で提供されます。新しいワークフローは、ビデオを自動的に記事に変換します。

>>: