Ali Wensheng ビデオが Gen-2 と Pika に挑戦、1280×720 の解像度で圧迫感なし、3500 万のテキストビデオ表示効果

ヴィンセントのビデオはどの程度詳細にできますか?最近、アリババの調査により、1280×720 の解像度はストレスにならず、生成される効果は非常に一貫しているという答えが出ました。

テキストプロンプト: 花の中の子猫、中国絵画。

テキストプロンプト: 黄色いロボット。

テキストのヒント: 海底に横たわる古代の難破船の写真。海藻が木造の構造物を侵食しています...

これらのデモは、浙江大学および華中科技大学と共同で Alibaba が提案した文化ビデオモデル I2VGen-XL からのものです。このモデルは、芸術絵画、肖像画、動物、SF の写真など、さまざまなカテゴリの高品質ビデオを生成できます。生成されたビデオは高解像度で滑らかで美しく、幅広いビデオコンテンツ作成タスクに適しています。 Gen2 と Pika によって生成されたエフェクトと比較すると、I2VGen-XL によって生成されたビデオは動きがより豊かで、主に、よりリアルで多様な動きで表現されますが、Gen-2 と Pika によって生成されたビデオは、より静的に近いようです。

生成効果以外にも、この研究でさらに印象的なのは、研究者がデータに費やした労力の量です。生成される効果の多様性を向上させるために、研究者は約 3,500 万のシングルショットのテキストとビデオのペアと 60 億のテキストと画像のペアを収集し、モデルを最適化しました。これは非常に大規模なデータセットであり、その潜在性は刺激的です。

論文の詳細

論文アドレス: https://arxiv.org/pdf/2311.04145.pdf
論文ホームページ: https://i2vgen-xl.github.io/page04.html

研究によれば、ビデオ合成は最近、普及モデルの急速な発展により大きな進歩を遂げたという。しかし、意味の正確さ、明瞭さ、時空間の連続性という点では依然として課題が残っています。

この状況は、テキストとビデオのデータが適切に整合されていないことと、ビデオ自体の複雑な固有構造が原因で発生し、モデルがセマンティクスと品質の卓越性の両方を保証することが困難になります。

上記の問題を解決するために、研究者は SDXL 方式に着想を得て、一貫した空間と動きのダイナミクス、および連続的な詳細を備えた高解像度のビデオを生成できるカスケード I2VGen-XL 方式を提案しました。

I2VGen-XL は、静止画像から高品質のビデオを生成するように設計されています。したがって、2 つの重要な目標を達成する必要があります。1 つは、画像の意図を正確に予測し、入力画像の内容と構造を維持しながら正確な動きを生成する意味的一貫性です。もう 1 つは、ビデオの基本的な特性であり、ビデオ作成アプリケーションの可能性を確保するために重要な、高い時空間的一貫性と明瞭性です。この目的のために、I2VGenXL は、ベースフェーズと改善フェーズの 2 つのフェーズで構成されるカスケード戦略を通じて、これら 2 つの目標を分解します。

基本ステージでは、入力画像の内容と主題の情報を保持しながら、低解像度で生成されたビデオの意味の一貫性を確保することを目的としています。この目標を達成するために、研究者らは、固定 CLIP エンコーダーと学習可能なコンテンツエンコーダーという 2 つの階層型エンコーダーを設計し、それぞれ高レベルのセマンティクスと低レベルの詳細を抽出し、それらをビデオ拡散モデルに統合しました。
改善段階: ビデオ解像度を 1280×720 に上げ、生成されたビデオの詳細とアーティファクトを改善します。具体的には、研究者らは単純なテキストを入力として使用して独自のビデオ拡散モデルをトレーニングし、最初の 600 のノイズ除去ステップを最適化しました。本研究では、ノイズ除去プロセスを使用することで、低解像度のビデオから時間的および空間的な一貫性を備えた高解像度のビデオを生成することに成功しました。

具体的には：

基本ステージ。 VLDM に基づいて、この論文で設計された最初のステージは低解像度 (つまり、448×256) であり、主に高レベルのセマンティクスと低レベルの詳細学習を含む入力画像に対するマルチレベルの特徴抽出の組み合わせに重点を置いています。

高度なセマンティック学習。この研究では、CLIP のビジュアルエンコーダーが意味的特徴の抽出に使用されていることが示されています。この方法では、高レベルの意味を学習できますが、画像内の細かい詳細の認識は無視されます。この問題を緩和するために、本論文では、同じ形状を持つ補完的な特徴を学習するための追加のトレーニング可能なグローバルエンコーダーを組み込んでいます。そのアーキテクチャを表 1 に示します。
低レベルの詳細。詳細の損失を減らすために、VQGAN エンコーダー (つまり、D.Enc.) から抽出された特徴を採用し、それを最初のフレームの入力ノイズに直接追加します。

改善フェーズ。ベースステージでは、多様で意味的に正確な動きを持つ低解像度のビデオを取得できます。ただし、これらのビデオでは、ノイズ、時間的および空間的なジッター、変形などのさまざまな問題が発生する可能性があります。したがって、モデルを改善するための主な目標は 2 つあります。i) ビデオ解像度を 448 × 256 から 1280 × 720 以上に増やして強化すること、ii) ビデオの時空間連続性と鮮明さを改善し、時間的および空間的なアーティファクトの問題を解決することです。

ビデオ品質を向上させるために、この研究では高品質、高解像度のデータ専用の別の VLDM をトレーニングし、最初の段階で生成されたビデオに SDEdit によって導入されたノイズ除去プロセスを適用しました。

この研究では、CLIP を使用してテキストをエンコードし、クロスアテンションを介して 3D UNet に埋め込みました。次に、研究者らは、基本段階で事前トレーニングされたモデルに基づいて、解像度が 1280×720 を超える厳選された高品質ビデオを使用して高解像度モデルをトレーニングしました。

さらに、この研究では、I2VGen-XL の多様性と堅牢性を高めるために、3,500 万本の高品質のシングルショットビデオと 60 億枚の画像を収集しました。

最後に、広範な実験評価結果により、I2VGen-XL は生成されたビデオの意味的正確性、詳細の連続性、明瞭性を同時に向上できることが実証されました。さらに、この研究では I2VGenXL と現在のトップメソッドを比較し、さまざまなデータに対する I2VGenXL の有効性を示しました。

実験結果

Gen2とPikaとの比較結果

新しいアプローチの有効性を実証するために、研究者らは、I2VGen-XL のパフォーマンスを、視覚化の分野で最も先進的な方法として認められている Gen-2 および Pika と比較しました。図 4 に示すように、著者らはこれら 2 つの方法の Web インターフェイスを使用して、仮想絵画、写実絵画、抽象絵画の 3 種類の画像のビデオを生成しました。

これらの結果から、いくつかの結論を導き出すことができます。i) 動きの豊かさ: I2VGen-XL の結果は、上の例のように、よりリアルで多様な動きを示しています。対照的に、Gen-2 と Pika によって生成されたビデオは静止画に近いように見え、これは I2VGen-XL がより豊かな動きを実現していることを示しています。ii) ID 保存度: これら 3 つのサンプルから、Gen-2 と Pika はオブジェクトの ID 特性をうまく保存しているのに対し、I2VGen-XL は入力画像の詳細を一部失っていることがわかります。実験では、ID保持の程度と運動強度の間には一定のトレードオフがあることも著者らは発見した。 I2VGen-XL はこれら 2 つの要素のバランスを実現します。

I2VGen-XL はビデオ結果を生成します。

改良されたモデル分析

図 3 は、改良フェーズの前後に生成されたビデオを示しています。これらの結果は、顔や体の特徴の洗練を含む空間詳細の大幅な改善と、局所詳細のノイズの大幅な削減を示しています。

改良されたモデルの動作メカニズムをさらに説明するために、本論文では、図 7 の周波数領域でこのプロセス中に生成されたビデオに発生する空間的および時間的な変化を分析します。図 7a は 4 つの空間入力の周波数スペクトルを示しており、低品質のビデオは高周波数範囲でノイズに似た周波数分布を示し、高品質のビデオは入力画像に近い周波数分布を示していることがわかります。これを図 7b に示す空間周波数分布と組み合わせると、改良されたモデルでは低周波データが効果的に保持され、高周波データの変化がより滑らかになっていることがわかります。時間的観点から見ると、図 7d は低品質ビデオ (上) と高品質ビデオ (下) の時間曲線を示しており、高解像度ビデオの連続性が大幅に改善されたことがわかります。さらに、図 7b と図 7e を組み合わせると、改善されたモデルでは、空間領域と時間領域で低周波成分が保持され、中周波成分が削減され、高周波成分が強化されていることがわかります。これは、時空間領域のアーティファクトが主に中周波数範囲に存在することを示しています。

定性分析

この研究では、顔、3D漫画、アニメ、中国絵画、小動物、その他のカテゴリーを含む、より広範囲の画像も実験しました。結果は図 5 に示されています。生成されたビデオでは、画像の内容と合成ビデオの美観が考慮され、意味のある正確な動きも示されていることがわかります。例えば、6 行目では、モデルが子猫のかわいい口の動きを正確に捉えています。これらの結果は、I2VGen-XL が有望な一般化能力を発揮することを示しています。

安定した人間の動きを生成することは、ビデオ合成における大きな課題のままです。したがって、この研究では、図 8 に示すように、人間の画像に対する I2VGen-XL の堅牢性も具体的に検証しています。モデルが予測し生成した人体の動きは非常にリアルで、人体の特徴のほとんどを備えていることがわかります。

テキスト - ビデオ

現在、テキストからビデオへの合成が直面している主な課題の 1 つは、高品質のビデオとテキストのペアを収集することであり、これにより、画像合成と比較して、ビデオとテキスト間の意味的な整合を実現することがより困難になります。したがって、安定拡散などの画像合成技術と画像からビデオへの合成を組み合わせると、生成されるビデオの品質を向上させることができます。実際、プライバシーを尊重するため、この研究のほぼすべてのサンプルは、この 2 つを組み合わせて生成されました。また、図6は本論文のみで生成されたサンプルを示しています。動画とテキストは高い意味的一貫性を示していることがわかります。

詳細については、原文論文を参照してください。

<<: 韓国はLK-99の室温超伝導は証明できないと信じており、国内チームは拡張された材料が魔法のような特性を持っていると信じている

>>: カリフォルニア大学バークレー校のDeepMindと他の企業が共同で、仮想と現実の境界を打ち破る現実世界シミュレーターをリリースした。