テキストガイドによるビデオツービデオ (V2V) 合成は、短編ビデオの作成や映画業界全体など、さまざまな分野で幅広く応用されています。拡散モデルは画像間 (I2I) 合成に革命をもたらしましたが、ビデオ間 (V2V) 合成におけるビデオ フレーム間の時間的一貫性を維持するという課題に直面しています。 I2I モデルをビデオに適用すると、フレーム間でピクセルのちらつきが発生することがよくあります。 この問題を解決するために、テキサス大学オースティン校とMeta GenAIの研究者らは、ソースビデオ内の空間条件と時間的なオプティカルフローの手がかりを共同で利用する新しいV2V合成フレームワーク、FlowVidを提案しました。入力ビデオとテキストプロンプトが与えられると、FlowVid は時間的に一貫したビデオを合成できます。
全体として、FlowVid は優れた柔軟性を示し、既存の I2I モデルとシームレスに連携して、様式化、オブジェクトの交換、ローカル編集などのさまざまな変更を実現します。合成効率の点では、30 FPS、512×512 解像度で 4 秒間のビデオを生成するのにわずか 1.5 分しかかかりません。これは、合成ビデオの高品質を確保しながら、CoDeF、Rerender、TokenFlow よりもそれぞれ 3.1 倍、7.2 倍、10.5 倍高速です。 まずは合成効果を見てみましょう。たとえば、ビデオ内のキャラクターを「ギリシャ彫刻」の形に変換します。 竹を食べているジャイアントパンダを「中国絵画」に変え、ジャイアントパンダをコアラに置き換えます。 縄跳びのシーンはスムーズに切り替えられ、キャラクターもバットマンに変更可能: 方法の紹介いくつかの研究では、フローを採用してピクセルの対応関係を導き出し、2 つのフレーム間のピクセルレベルのマップを作成し、それを使用してオクルージョン マスクを取得したり、標準画像を構築したりしています。ただし、フロー推定が不正確な場合、このような厳しい制約は問題になる可能性があります。 FlowVid は、まず共通の I2I モデルを使用して最初のフレームを編集し、次にこれらの編集を連続するフレームに伝播して、モデルがビデオ合成のタスクを完了できるようにします。 具体的には、FlowVid は最初のフレームから後続のフレームへのフロー ワープを実行します。これらの変形されたフレームは元のフレームの構造に従いますが、図 2 (b) に示すように、いくつかの遮蔽された領域 (灰色でマーク) が含まれます。 フローがハード制約として使用される場合、たとえば遮蔽された領域を修復する場合、不正確な推定値が残ります。したがって、本研究では、時間的な流れの条件だけでなく、図2(c)の深度マップなどの追加の空間条件も導入しようと試みます。共同時空間調整により不完全な光学フローが修正され、図 2 (d) の一貫した結果が得られます。 研究者らは、膨張した空間制御I2Iモデルに基づいてビデオ拡散モデルを構築した。空間条件 (深度マップなど) と時間条件 (フロー変形ビデオ) を使用してモデルをトレーニングし、入力ビデオを予測します。 生成プロセス中に、研究者らは編集伝播手順を採用した:(1)一般的なI2Iモデルを使用して最初のフレームを編集する。 (2)モデルを使用して、編集内容をビデオ全体に伝播します。分離設計により、自己回帰メカニズムを採用できます。つまり、現在のバッチの最後のフレームを次のバッチの最初のフレームにすることができ、長いビデオを生成できます。 実験と結果詳細設定 研究者たちは、Shutterstock の 10 万本のビデオを使用してモデルをトレーニングしました。各トレーニング ビデオでは、{2,4,8} の間隔で 16 フレームを順次サンプリングしました。これは、{1,2,4} 秒の長さのビデオを表します (ビデオの FPS は 30)。すべての画像の解像度は、中央切り抜きにより 512 × 512 に設定されました。モデルは、各 GPU でバッチ サイズ 1 でトレーニングされ、合計 8 つの GPU を使用して、合計バッチ サイズが 8 になります。この実験では、学習率 1e-5、反復回数 100k の AdamW オプティマイザーを使用しました。 生成プロセス中、研究者はまずトレーニング済みのモデルを使用してキーフレームを生成し、次に既製のフレーム補間モデル (RIFE など) を使用して非キーフレームを生成しました。デフォルトでは、4 間隔で 16 個のキーフレームが生成されます。これは、8 FPS で 2 秒のクリップに相当します。その後、研究者らはRIFEを使用して結果を32 FPSに補間しました。彼らは、比率 7.5 の分類器なしのブートストラップ法を採用し、20 の推論サンプリング手順を使用しました。さらに、研究者らは、信号対雑音比ゼロ (Zero SNR) のノイズ スケジューラも使用しました。また、FateZero に基づいて入力ビデオ内の対応するキーフレームに対して DDIM 反転を実行したときに取得された自己注意機能を融合します。 研究者たちは、公開されているDAVISデータセットから、人間や動物などを対象とする25本のオブジェクト中心のビデオを選択しました。これらのビデオのために、研究者は様式化からオブジェクトの置き換えまで、115 個のプロンプトを手動で設計しました。さらに、彼らは 50 本の Shutterstock ビデオを収集し、これらのビデオ用の 200 個のプロンプトをデザインしました。研究者らは上記のビデオの定性的および定量的比較を行った。 定性的な結果 図5では、研究者らは提案された方法をいくつかの代表的な方法と定性的に比較しました。入力ビデオに動きが多い場合、CoDeF によって生成された出力には顕著なぼやけが生じ、男性の手やトラの顔などの領域でそれが確認できます。再レンダリングでは、左側の例のパドルの動きなど、大きな動きをキャプチャできないことがよくあります。 TokenFlow は、左側の例では男性を海賊に変えるなど、プロンプトに従うのに時々問題が生じます。それに比べて、私たちの方法は編集能力とビデオ品質の点でより多くの利点があります。 定量的な結果 研究者らは、私たちの手法を CoDeF、Rerender、TokenFlow と比較するために人間による評価を実施しました。参加者には 4 つのビデオが提示され、時間的な一貫性とテキストの配置を考慮して、どのビデオが最も品質が良いかを識別するように求められました。詳細な結果については表をご覧ください。私たちの方法は 45.7% の好感度を達成し、他の 3 つの方法よりも優れていました。表 1 には、各方法のパイプライン実行時間も示し、実行効率を比較しています。私たちの方法 (1.5 分) は、CoDeF (4.6 分)、Rerender (10.8 分)、TokenFlow (15.8 分) よりも高速で、それぞれ 3.1 倍、7.2 倍、10.5 倍高速です。 アブレーション実験 研究者らは、図6(a)の4つの条件、すなわち(I)空間制御(深度マップなど)、(II)フロー変形ビデオ(最初のフレームからのオプティカルフローを使用して変形されたフレーム)、(III)どの部分が遮蔽されているかを示すフロー遮蔽マスク(白でマーク)、および(IV)最初のフレームの組み合わせを研究した。 これらの条件の組み合わせは図 6(b) で評価され、4 つの条件すべてを含む完全なモデルと勝率を比較することで有効性が評価されます。時間情報が不足しているため、純粋な空間条件の勝率はわずか 9% です。フロー変形動画を追加した後、勝率は38%に大幅に増加し、タイミングガイダンスの重要性が浮き彫りになりました。研究者らは、画像内の元のグレーと混同される可能性のある、遮蔽された領域を表すためにグレーのピクセルを使用しました。混乱を避けるため、モデルがどの部分が遮蔽されているかをより適切に識別できるように、バイナリ フロー遮蔽マスクをさらに追加しました。勝率はさらに42%に上昇しました。最後に、最初のフレームの調整を追加して、より優れたテクスチャ ガイダンスを提供します。これは、オクルージョン マスクが大きく、元のピクセルがほとんど残っていない場合に特に役立ちます。 研究者らは、FlowVid における 2 種類の空間条件、すなわちキャニー エッジと深度マップを研究しました。図 7(a) に示す入力フレームでは、パンダの目と口から、キャニーエッジが深度マップよりも多くの詳細を保持していることがわかります。空間制御の強さは、ビデオ編集にも影響します。評価プロセス中に、研究者は、入力ビデオの構造を可能な限り維持したい場合(様式化など)には、Canny Edge の方が効果的であることを発見しました。深度マップは、オブジェクトの入れ替えなどシーンの変化が大きく、編集の柔軟性が求められる場合に効果的です。 図 8 に示すように、ϵ 予測は拡散モデルをパラメータ化するためによく使用されますが、研究者はフレーム間で不自然な全体的な色の変化が生じる可能性があることを発見しました。どちらの方法でも同じフロー変形ビデオを使用しますが、ϵ 予測では不自然なグレースケール カラーが導入されます。この現象は画像からビデオへの変換でも見られます。 制限事項 FlowVid は優れたパフォーマンスを実現しますが、いくつかの制限もあります。まず、FlowVid は最初のフレームの生成に大きく依存しており、最初のフレームは入力フレームと構造的に一貫している必要があります。図9(a)に示すように、編集後の最初のフレームでは、象の後ろ足が前胴体として認識されます。間違った鼻は次のフレームに伝わり、最終予測が最適ではなくなります。 2 つ目は、カメラまたはオブジェクトが非常に速く移動し、広い領域がブロックされる場合です。この場合、FlowVid は欠落している領域を推測したり、幻覚を起こしたりします。図9(b)に示すように、バレエダンサーが体と頭を回転させると、体全体が遮蔽されます。 FlowVid は衣服の操作に成功しましたが、後頭部が前頭部に変わってしまい、それがビデオに映ったら非常に恐ろしいものになるでしょう。 詳細については原論文を参照してください。 |
>>: アンドリュー・ン氏の最新の予測: AIに関するこれらのことは今後10年間は変わらない
[[411439]] DeepMind が提案した Rainbow アルゴリズムは、Atari ゲー...
シカゴ大学の助教授イシャヌ・チャトパディアイ氏は、彼と彼のチームが「アーバン・ツイン」モデルを作成し...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
1997年、IBMが開発したディープ・ブルーがロシアのチェス名人ガルリ・カスパロフに勝利し、人工知能...
[[176276]]この記事では、主に、一般的に使用されているいくつかのアルゴリズムの適応シナリオと...
[51CTO.com からのオリジナル記事] インターネットは、間違いなく私たちの生活、学習、仕事に...
10年前、ヨーロッパの科学者たちは巨大なコンピューターで人間の脳を再現する計画を立てました。 10年...
4月23日は第25回「世界本の日」です!今日は本を読みましたか?ゴーリキーはかつてこう言った。「本は...
私たちはなぜ眠るのでしょうか? 明らかな理由の一つは、体と手足の力を回復することです。しかし、睡眠の...
10月21日、「泉城の知能、万里の昇り」をテーマにした2020年中国人工知能産業サミットと昇りコンピ...
最近、海外メディアの報道によると、数学者たちは自分たちには解決できない機械学習に関連したコンピュータ...