プラグアンドプレイ、完璧な互換性:SDコミュニティのビデオプラグインI2Vアダプタが登場

プラグアンドプレイ、完璧な互換性:SDコミュニティのビデオプラグインI2Vアダプタが登場

画像からビデオへの生成 (I2V) タスクは、静止画像を動的なビデオに変換することを目的としており、これはコンピューター ビジョンの分野における大きな課題です。難しいのは、画像コンテンツの信頼性と視覚的な一貫性を確保しながら、単一の画像から時間軸の動的な情報を抽出して生成することです。既存の I2V 方法のほとんどは、この目標を達成するために複雑なモデル アーキテクチャと大量のトレーニング データに依存しています。

最近、Kuaishou が主導する新しい研究成果「I2V-Adapter: ビデオ拡散モデル用の汎用画像ビデオアダプタ」が発表されました。この研究では、革新的な画像からビデオへの変換方法が導入され、既存のテキストからビデオへの生成 (T2V) モデルの元の構造と事前トレーニングパラメータを変更することなく、静止画像を動的なビデオに変換できる軽量アダプタモジュール、つまり I2V-Adapter が提案されました。


  • 論文アドレス: https://arxiv.org/pdf/2312.16693.pdf
  • プロジェクトのホームページ: https://i2v-adapter.github.io/index.html
  • コードアドレス: https://github.com/I2V-Adapter/I2V-Adapter-repo

既存の方法と比較して、I2V-Adapterは、トレーニング可能なパラメータの数を大幅に削減し(22Mまで削減、これはStable Video Diffusion [1]などの主流のソリューションの1%に相当)、Stable Diffusion [2]コミュニティによって開発されたカスタマイズされたT2Iモデル(DreamBooth [3]、Lora [4])および制御ツール(ControlNet [5])と互換性があります。研究者らは実験を通じて、I2V-Adapter が高品質のビデオ コンテンツを生成する上で有効であることを実証し、I2V 分野におけるクリエイティブなアプリケーションの新たな可能性を切り開きました。

方法の紹介

安定拡散による時間モデル化

画像生成と比較すると、ビデオ生成の固有の課題は、ビデオ フレーム間の時間的一貫性をモデル化することにあります。既存のソリューションのほとんどは、事前学習済みのT2Iモデル(Stable DiffusionやSDXL [6]など)に時間モジュールを追加して、ビデオ内の時間情報をモデル化します。もともとカスタマイズされたT2Vタスク用に設計されたモデルであるAnimateDiff [7]に触発され、T2Iモデルから分離された時間モジュールを導入することで時間情報をモデル化し、元のT2Iモデルの機能を保持しています。カスタマイズされたT2Iモデルと組み合わせて滑らかなビデオを生成できます。したがって、事前トレーニング済みの時間モジュールは、普遍的な時間表現と見なすことができ、微調整なしで I2V 生成などの他のビデオ生成シナリオに適用できると考えています。したがって、事前トレーニング済みの AnimateDiff のタイミング モジュールを直接利用し、そのパラメーターを固定しておきます。

注意層用アダプタ

I2V タスクのもう 1 つの難しさは、入力画像の ID 情報を維持することです。既存のソリューションのほとんどは、事前トレーニング済みの画像エンコーダーを使用して入力画像をエンコードし、クロス アテンションを通じてエンコードされた機能をモデルに注入してノイズ除去プロセスをガイドするか、入力端でチャネル次元の画像とノイズのある入力を連結して、後続のネットワークに一緒に入力します。前者の場合、画像エンコーダーが基礎となる情報をキャプチャすることが難しいため、生成されたビデオの ID が変更されますが、後者の場合、T2I モデルの構造とパラメータを変更する必要があることが多く、トレーニングコストが高く、互換性が低くなります。

上記の問題を解決するために、研究者は I2V アダプタを提案しました。具体的には、研究者は入力画像とノイズの入った入力をネットワークに並列に入力します。モデルの空間ブロックでは、すべてのフレームが最初のフレームの情報をもう一度照会します。つまり、キーと値の特徴はすべてノイズのない最初のフレームから取得され、出力結果は元のモデルの自己注意に追加されます。このモジュールの出力マッピング マトリックスはゼロで初期化され、出力マッピング マトリックスとクエリ マッピング マトリックスのみがトレーニングされます。入力画像の意味情報に対するモデルの理解をさらに強化するために、研究者らは、画像の意味的特徴を注入するための事前学習済みコンテンツアダプタ(本論文ではIPアダプタ[8]を使用)を導入した。

フレーム類似度事前

生成された結果の安定性をさらに高めるために、研究者は、生成されたビデオの安定性と動きの強度のバランスをとる前に、フレーム間の類似性を提案しました。重要な前提は、比較的低いガウス ノイズ レベルでは、次の図に示すように、最初のノイズ フレームと後続のノイズ フレームが十分に近いということです。

そのため、研究者らは、すべてのフレームが類似した構造を持ち、一定量のガウスノイズを追加すると区別が難しくなると仮定しました。そのため、ノイズの多い入力画像は、後続のフレームの事前入力として使用できます。高周波情報による誤解を排除するために、研究者らはガウスぼかし演算子とランダムマスク混合も使用しました。具体的には、操作は次のようになります。

実験結果

定量的な結果

この論文では、生成されたビデオの品質を評価するために、DoverVQA (美的スコア)、CLIPTemp (最初のフレームの一貫性)、FlowScore (モーション振幅)、および WarppingError (モーションエラー) という 4 つの定量的指標を計算します。表 1 は、I2V アダプタが最も高い美的スコアを獲得し、最初のフレームの一貫性においてもすべての比較方式を上回っていることを示しています。さらに、I2V-Adapter によって生成されたビデオは、モーション振幅が最も大きく、モーション エラーが比較的低いことから、このモデルは時間的なモーションの精度を維持しながら、よりダイナミックなビデオを生成できることがわかります。

定性的な結果

画像アニメーション(左が入力、右が出力):

パーソナライズされた T2I 付き (左が入力、右が出力):

ControlNet 使用時 (左が入力、右が出力):

要約する

この論文では、画像からビデオを生成するタスクのためのプラグアンドプレイの軽量モジュールである I2V-Adapter を提案します。この方法は、元の T2V モデルの空間ブロックとモーション ブロックの構造とパラメーターを保持し、ノイズのない最初のフレームとノイズのある後続のフレームを並列に入力し、すべてのフレームがアテンション メカニズムを通じてノイズのない最初のフレームと相互作用できるようにすることで、最初のフレームと時間的に一貫性があり一貫性のあるビデオを生成します。研究者らは定量的および定性的な実験を通じて、I2Vタスクにおけるこの方法の有効性を実証した。さらに、分離設計により、ソリューションを DreamBooth、Lora、ControlNet などのモジュールと直接組み合わせることができるため、ソリューションの互換性が証明され、カスタマイズ可能で制御可能な画像からビデオへの生成の研究が促進されます。

<<:  5つのリソースカテゴリー:大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら

>>: 

推薦する

...

...

機械学習における特徴選択の3つの代替手法

ソレダッド・ガリ翻訳者:趙青棠企画丨孫淑娇、梁策インターネットで「特徴選択」を検索してみると、特徴選...

ロボット: 何を見ているんですか?人間とロボットのアイコンタクトが意思決定を遅らせる、サイエンス誌に掲載

あなたがロボットを見つめると、ロボットもあなたを見つめます。視線は人と人との間のシグナルであり、コミ...

184.3億ドルを突破! 「中国スピード」が人工知能の分野で再び出現

AlfGOと韓国のプロ囲碁選手、イ・セドルの対局以来、人工知能は幅広い注目を集めているかもしれない。...

上位 10 の古典的なソート アルゴリズムの詳細な説明: シェル ソート、マージ ソート、クイック ソート

[[378304]]上位 10 の古典的なソート アルゴリズム - シェル ソート、マージ ソート、...

人工知能の先駆者であるIBM Watsonは殉教者となったのか? IBMがWatsonを売却、AIは本当に失敗したのか?

かつて、人工知能医療診断の先駆者であったIBM Watson(通称ワトソン)は、現実世界における人工...

CNNとRNNについての簡単な説明

[[338562]] 【51CTO.comオリジナル記事】 1 はじめに前回の記事では、ディープラー...

IDC:2026年までに国内市場の端末のほぼ半数がハードウェアレベルのAIエンジン技術を搭載

市場調査会社IDCは7月25日、近年の人工知能の急速な進化と発展により、ビッグデータモデルはますます...

Yisaqi 9周年: RPA製品の進化を振り返る

現在、国内RPA市場の競争は激化しており、多くのメーカーが独自のRPA製品やブランドを立ち上げていま...

エッジ AI IoT ソリューションはビジネス パフォーマンスをどのように向上できるのでしょうか?

現代のビジネス エコシステムにおける AI と IoT の影響を拡大します。人工知能 (AI) とモ...

Go 言語 - データ構造とアルゴリズム プロジェクト

[[404457]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

インテリジェンスの時代: 新たな進歩、新たな傾向、新たな取り組み。第 2 回世界インテリジェンス会議が来月開催されます。

4月18日、北京メディアセンターで第2回世界情報会議の記者会見が開催された。記者会見では、中国共産...

PyTorch を使って完全な NeRF をゼロから構築する

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

JD.com、ビリビリ、ピンドゥオドゥオなど中国企業88社が米国の上場廃止前リストに含まれ、中国コンセプト株がクリアされる可能性

半月も経たないうちに、第6波がまたやってきました!現地時間5月4日、米証券取引委員会は再び「上場廃止...