2月16日のOpenAI Soraのリリースは、間違いなくビデオ生成の分野における大きな進歩を示しました。 Sora は Diffusion Transformer アーキテクチャに基づいており、これは市場の主流のほとんどの方法 (2D Stable Diffusion によって拡張) とは異なります。 Sora が Diffusion Transformer の使用にこだわる理由は、ICLR 2024 で同時に発表された論文 (VDT: General-purpose Video Diffusion Transformers via Mask Modeling) からわかります。 この研究は、中国人民大学の研究チームがカリフォルニア大学バークレー校、香港大学などと共同で行ったもので、2023年5月にarXivウェブサイトで初めて公開されました。研究チームは、Transformer - Video Diffusion Transformer (VDT) をベースにした統合ビデオ生成フレームワークを提案し、Transformer アーキテクチャを採用した理由を詳しく説明しました。
1. VDTの利点と革新研究者らは、Transformer アーキテクチャを使用した VDT モデルは、ビデオ生成の分野で次のような利点があると述べています。
VDT の革新には主に以下の側面が含まれます。
2. VDTのネットワークアーキテクチャの詳細な説明VDT フレームワークは Sora のフレームワークと非常によく似ており、次の部分で構成されています。 入出力特性。 VDT の目標は、サイズ H×W の F フレームで構成される、サイズ F×H×W×3 のビデオ セグメントを生成することです。しかし、元のピクセルを VDT の入力として使用すると、特に F が大きい場合は、計算の複雑さが極めて大きくなります。この問題に対処するために、潜在的拡散モデル (LDM) にヒントを得て、VDT は事前トレーニング済みの VAE トークナイザーを使用してビデオを潜在空間に投影します。入力と出力のベクトル次元を潜在的特徴/ノイズの F×H/8×W/8×C に減らすと、VDT のトレーニングと推論の速度が加速します。ここで、F フレームの潜在的特徴のサイズは H/8×W/8 です。ここで、8 は VAE トークナイザーのダウンサンプリング レートであり、C は潜在的な特徴の次元を表します。 線形埋め込み。 Vision Transformer アプローチに従って、VDT は潜在的なビデオ機能表現をサイズ N×N の重複しないパッチに分割します。 時空間トランスフォーマーブロック。ビデオ モデリングにおける時空間自己注意の成功に触発され、VDT は時間的注意レイヤーを Transformer Block に挿入して、時間次元でのモデリング機能を獲得します。具体的には、各 Transformer ブロックは、上の図に示すように、マルチヘッドの時間的注意、マルチヘッドの空間的注意、および完全に接続されたフィードフォワード ネットワークで構成されます。 Sora が公開した最新の技術レポートを比較すると、 VDT と Sora の実装の詳細にはわずかな違いしかないことがわかります。 まず、VDT では時間次元と空間次元で別々に注意機構処理を実行する方式を採用していますが、Sora では時間次元と空間次元を組み合わせて単一の注意機構で処理します。この分割注意アプローチは、ビデオ分野ではすでにかなり一般的であり、ビデオメモリの制限下での妥協策と見なされることがよくあります。 VDT は、コンピューティング リソースが限られているため、個別の注意を使用することを選択します。 Sora の強力なビデオ ダイナミクス機能は、全体的な時空間注意メカニズムから生まれている可能性があります。 第二に、VDT とは異なり、Sora はテキスト条件の融合も考慮します。 Transformer に基づく条件付きテキスト融合に関する研究はこれまでにも行われてきました (DiT など)。ここでは、Sora がモジュールにクロスアテンション メカニズムをさらに追加したのではないかと推測しています。もちろん、条件付き入力の形式としてテキストとノイズを直接連結することも潜在的な可能性として考えられます。 VDT 研究の過程で、研究者は一般的に使用されている基本バックボーン ネットワーク U-Net を Transformer に置き換えました。これにより、ビデオ拡散タスクにおける Transformer の有効性が検証され、容易なスケーラビリティと継続性の向上という利点が実証されただけでなく、その潜在的な価値についてさらに考えるきっかけにもなりました。 GPT モデルの成功と自己回帰 (AR) モデルの人気により、研究者たちは、Transformer が視覚インテリジェンスを実現する新しい方法を提供できるかどうか疑問に思い、ビデオ生成の分野での Transformer のより深い応用を模索し始めました。ビデオ生成の分野には、ビデオ予測という密接に関連するタスクがあります。視覚知能への道として次のビデオフレームを予測するというアイデアは単純に思えるかもしれませんが、実際には多くの研究者が懸念している問題です。 この考慮に基づいて、研究者たちはビデオ予測タスク向けにモデルをさらに適応させ、最適化したいと考えています。ビデオ予測タスクは条件付き生成と見なすこともできます。この場合、指定された条件付きフレームはビデオの最初の数フレームになります。 VDTでは主に以下の3つの条件生成方法を考慮します。 適応層の正規化。ビデオ予測を実現する最も簡単な方法は、時間情報を拡散プロセスに統合する方法と同様に、条件付きフレーム機能を VDT ブロックのレイヤー正規化に統合することです。 クロスアテンション。研究者らはまた、条件付きフレームをキーと値として、ノイズの多いフレームをクエリとして使用するビデオ予測スキームとしてのクロスアテンションの使用についても調査しました。これにより、条件付き情報とノイズの多いフレームを融合できるようになります。クロスアテンションレイヤーに入る前に、条件フレームの特徴が抽出され、VAE トークナイザーを使用してパッチが適用されます。一方、VDT が条件フレーム内の対応情報を学習できるように、空間的および時間的な位置埋め込みが追加されます。 トークンの結合。 VDT モデルは純粋な Transformer アーキテクチャを採用しているため、条件フレームを入力トークンとして直接使用する方が、VDT にとってより直感的なアプローチとなります。研究者たちは、条件フレーム(潜在的な特徴)とノイズフレームをトークンレベルで連結し、それを VDT に入力することでこれを達成しました。次に、図3(b)に示すように、VDTの出力フレームシーケンスをセグメント化し、予測されたフレームを拡散プロセスに使用しました。研究者たちは、このアプローチが最も速い収束速度を示し、最終結果において以前の 2 つの方法よりも優れたパフォーマンスを提供することを発見しました。さらに、研究者らは、トレーニング中に固定長の条件フレームを使用する場合でも、VDT は任意の長さの条件フレームを入力として受け入れ、一貫した予測機能を出力できることを発見しました。 VDT フレームワークでは、ビデオ予測タスクを実現するために、ネットワーク構造を変更する必要はなく、モデルの入力のみを変更する必要があります。この発見から、直感的な疑問が浮かび上がります。このスケーラビリティをさらに活用して、追加のモジュールやパラメータを導入せずに、VDT をより多様なビデオ生成タスク (画像からビデオを生成するなど) に拡張できるでしょうか? 無条件生成とビデオ予測の両方における VDT の機能を思い出すと、唯一の違いは入力機能の種類です。具体的には、入力は純粋なノイズ潜在特徴、または条件付き潜在特徴とノイズ潜在特徴の連結になります。次に、研究者らは、図 4 に示すように、条件入力を統一するために統合空間時間マスク モデリングを導入しました。 3. VDTパフォーマンス評価上記の方法により、VDT モデルは、無条件のビデオ生成およびビデオ予測タスクをシームレスに処理できるだけでなく、入力機能を調整するだけで、ビデオ フレーム補間などのより広範囲のビデオ生成分野に拡張することもできます。この柔軟性と拡張性は、VDT フレームワークの強力な可能性を示し、将来のビデオ生成技術に新たな方向性と可能性をもたらします。 興味深いことに、OpenAI はテキストからビデオへの変換に加えて、画像ベースの生成、前後のビデオ予測、さまざまなビデオ クリップの融合の例など、Sora の他の驚くべきタスクも実演しました。これらは、研究者が提案した統合空間時間マスク モデリングによってサポートされているダウンストリーム タスクと非常によく似ています。Kaiming の MAE も参考文献に引用されています。そのため、Sora もおそらく最下層で MAE のようなトレーニング方法を使用していると推測されます。 研究者らは、生成モデル VDT が単純な物理法則をシミュレートする能力についても調査しました。彼らは Physion データセットで実験を行い、VDT は前の 8 フレームを条件フレームとして使用し、次の 8 フレームを予測しました。最初の例 (上の 2 行) と 3 番目の例 (下の 2 行) では、VDT は、放物線軌道に沿って移動するボールと、平面上を転がって円筒に衝突するボールの物理プロセスを正常にシミュレートしています。 2 番目の例 (中央の 2 行) では、VDT はボールがシリンダーに当たる前に停止するときのボールの速度/運動量をキャプチャします。これは、Transformer アーキテクチャが特定の物理法則を学習できることを証明しています。 VDT はネットワーク構造を部分的に除去します。モデルのパフォーマンスは GFlops と強く相関していることがわかりますが、モデル構造自体の詳細の一部は大きな影響を与えません。これは DiT の調査結果と一致しています。 研究者らは、VDT モデルの構造アブレーション研究も行いました。結果は、パッチサイズを減らし、レイヤーの数を増やし、隠しサイズを増やすことで、モデルのパフォーマンスをさらに向上できることを示しています。時間的および空間的注意の位置、および注意ヘッドの数は、モデルの結果にほとんど影響を与えません。同じ GFlops を維持しながら、いくつかの設計上のトレードオフが必要でしたが、全体的にはモデルのパフォーマンスに大きな違いはありませんでした。ただし、GFlops の増加により結果が向上し、VDT または Transformer アーキテクチャのスケーラビリティが実証されます。 VDT のテスト結果は、ビデオ データ生成の処理における Transformer アーキテクチャの有効性と柔軟性を実証しています。コンピューティング リソースの制限により、VDT はいくつかの小規模な学術データセットでのみ実験されています。今後の研究により、VDT に基づくビデオ生成技術の新たな方向性と応用がさらに探求されることを期待しており、中国企業が国産の Sora モデルをできるだけ早く発売できることも期待しています。 |
<<: 役立つ情報満載!カルパシーの2時間AIコースの最初のエピソードはテキスト形式で提供されます。新しいワークフローは、ビデオを自動的に記事に変換します。
AI に関する論文数は劇的に増加していますが、本当に AI が「必須」であると考えている研究者はわ...
ヒープソートとは、ヒープツリー (ヒープ) のデータ構造を使用して設計されたソート アルゴリズムのこ...
人工知能と機械学習はユーザーからますます注目を集めており、AIの応用は徐々に世間の注目を集め始めてい...
人工知能が人類を転覆させるのではないかと人々が心配する理由は2つしかありません。1つ目は、ロボットの...
データ中心のエンジニアにとって、Python と R はデータセンターで最も人気のあるプログラミング...
Facebook は、人工知能分野初の動的データ収集およびベンチマーク プラットフォームである Dy...
[[377893]] [51CTO.com クイック翻訳] データとオープンソースの機械学習フレーム...
数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論...
データ分析と人工知能は現在、世界のどの地域でも最も話題になっている技術です。特に昨年のジェネレーティ...
最近、CAIS、CMU、スタンフォード、コーネル、メリーランド、ペンシルベニアなどの大学の学者たちが...