プラグアンドプレイ、完璧な互換性:SDコミュニティのビデオプラグインI2Vアダプタが登場

プラグアンドプレイ、完璧な互換性:SDコミュニティのビデオプラグインI2Vアダプタが登場

画像からビデオへの生成 (I2V) タスクは、静止画像を動的なビデオに変換することを目的としており、これはコンピューター ビジョンの分野における大きな課題です。難しいのは、画像コンテンツの信頼性と視覚的な一貫性を確保しながら、単一の画像から時間軸の動的な情報を抽出して生成することです。既存の I2V 方法のほとんどは、この目標を達成するために複雑なモデル アーキテクチャと大量のトレーニング データに依存しています。

最近、Kuaishou が主導する新しい研究成果「I2V-Adapter: ビデオ拡散モデル用の汎用画像ビデオアダプタ」が発表されました。この研究では、革新的な画像からビデオへの変換方法が導入され、既存のテキストからビデオへの生成 (T2V) モデルの元の構造と事前トレーニングパラメータを変更することなく、静止画像を動的なビデオに変換できる軽量アダプタモジュール、つまり I2V-Adapter が提案されました。


  • 論文アドレス: https://arxiv.org/pdf/2312.16693.pdf
  • プロジェクトのホームページ: https://i2v-adapter.github.io/index.html
  • コードアドレス: https://github.com/I2V-Adapter/I2V-Adapter-repo

既存の方法と比較して、I2V-Adapterは、トレーニング可能なパラメータの数を大幅に削減し(22Mまで削減、これはStable Video Diffusion [1]などの主流のソリューションの1%に相当)、Stable Diffusion [2]コミュニティによって開発されたカスタマイズされたT2Iモデル(DreamBooth [3]、Lora [4])および制御ツール(ControlNet [5])と互換性があります。研究者らは実験を通じて、I2V-Adapter が高品質のビデオ コンテンツを生成する上で有効であることを実証し、I2V 分野におけるクリエイティブなアプリケーションの新たな可能性を切り開きました。

方法の紹介

安定拡散による時間モデル化

画像生成と比較すると、ビデオ生成の固有の課題は、ビデオ フレーム間の時間的一貫性をモデル化することにあります。既存のソリューションのほとんどは、事前学習済みのT2Iモデル(Stable DiffusionやSDXL [6]など)に時間モジュールを追加して、ビデオ内の時間情報をモデル化します。もともとカスタマイズされたT2Vタスク用に設計されたモデルであるAnimateDiff [7]に触発され、T2Iモデルから分離された時間モジュールを導入することで時間情報をモデル化し、元のT2Iモデルの機能を保持しています。カスタマイズされたT2Iモデルと組み合わせて滑らかなビデオを生成できます。したがって、事前トレーニング済みの時間モジュールは、普遍的な時間表現と見なすことができ、微調整なしで I2V 生成などの他のビデオ生成シナリオに適用できると考えています。したがって、事前トレーニング済みの AnimateDiff のタイミング モジュールを直接利用し、そのパラメーターを固定しておきます。

注意層用アダプタ

I2V タスクのもう 1 つの難しさは、入力画像の ID 情報を維持することです。既存のソリューションのほとんどは、事前トレーニング済みの画像エンコーダーを使用して入力画像をエンコードし、クロス アテンションを通じてエンコードされた機能をモデルに注入してノイズ除去プロセスをガイドするか、入力端でチャネル次元の画像とノイズのある入力を連結して、後続のネットワークに一緒に入力します。前者の場合、画像エンコーダーが基礎となる情報をキャプチャすることが難しいため、生成されたビデオの ID が変更されますが、後者の場合、T2I モデルの構造とパラメータを変更する必要があることが多く、トレーニングコストが高く、互換性が低くなります。

上記の問題を解決するために、研究者は I2V アダプタを提案しました。具体的には、研究者は入力画像とノイズの入った入力をネットワークに並列に入力します。モデルの空間ブロックでは、すべてのフレームが最初のフレームの情報をもう一度照会します。つまり、キーと値の特徴はすべてノイズのない最初のフレームから取得され、出力結果は元のモデルの自己注意に追加されます。このモジュールの出力マッピング マトリックスはゼロで初期化され、出力マッピング マトリックスとクエリ マッピング マトリックスのみがトレーニングされます。入力画像の意味情報に対するモデルの理解をさらに強化するために、研究者らは、画像の意味的特徴を注入するための事前学習済みコンテンツアダプタ(本論文ではIPアダプタ[8]を使用)を導入した。

フレーム類似度事前

生成された結果の安定性をさらに高めるために、研究者は、生成されたビデオの安定性と動きの強度のバランスをとる前に、フレーム間の類似性を提案しました。重要な前提は、比較的低いガウス ノイズ レベルでは、次の図に示すように、最初のノイズ フレームと後続のノイズ フレームが十分に近いということです。

そのため、研究者らは、すべてのフレームが類似した構造を持ち、一定量のガウスノイズを追加すると区別が難しくなると仮定しました。そのため、ノイズの多い入力画像は、後続のフレームの事前入力として使用できます。高周波情報による誤解を排除するために、研究者らはガウスぼかし演算子とランダムマスク混合も使用しました。具体的には、操作は次のようになります。

実験結果

定量的な結果

この論文では、生成されたビデオの品質を評価するために、DoverVQA (美的スコア)、CLIPTemp (最初のフレームの一貫性)、FlowScore (モーション振幅)、および WarppingError (モーションエラー) という 4 つの定量的指標を計算します。表 1 は、I2V アダプタが最も高い美的スコアを獲得し、最初のフレームの一貫性においてもすべての比較方式を上回っていることを示しています。さらに、I2V-Adapter によって生成されたビデオは、モーション振幅が最も大きく、モーション エラーが比較的低いことから、このモデルは時間的なモーションの精度を維持しながら、よりダイナミックなビデオを生成できることがわかります。

定性的な結果

画像アニメーション(左が入力、右が出力):

パーソナライズされた T2I 付き (左が入力、右が出力):

ControlNet 使用時 (左が入力、右が出力):

要約する

この論文では、画像からビデオを生成するタスクのためのプラグアンドプレイの軽量モジュールである I2V-Adapter を提案します。この方法は、元の T2V モデルの空間ブロックとモーション ブロックの構造とパラメーターを保持し、ノイズのない最初のフレームとノイズのある後続のフレームを並列に入力し、すべてのフレームがアテンション メカニズムを通じてノイズのない最初のフレームと相互作用できるようにすることで、最初のフレームと時間的に一貫性があり一貫性のあるビデオを生成します。研究者らは定量的および定性的な実験を通じて、I2Vタスクにおけるこの方法の有効性を実証した。さらに、分離設計により、ソリューションを DreamBooth、Lora、ControlNet などのモジュールと直接組み合わせることができるため、ソリューションの互換性が証明され、カスタマイズ可能で制御可能な画像からビデオへの生成の研究が促進されます。

<<:  5つのリソースカテゴリー:大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら

>>: 

ブログ    

推薦する

通信産業の発展を後押しし、2つの主要ドローンの価値が強調される

最近、わが国の科学技術分野は新たな躍進を遂げました。ドローンによる「橋渡し」の力を借りて、量子ネット...

推奨システムの結果の品質を評価する方法

推奨システムは、インターネットの発展において最も一般的かつ重要な技術の 1 つです。今日では、あらゆ...

エンタープライズ電気システムにおける機械学習の 5 つのメリット

機械学習技術は企業の電気システムの作業と保守において重要な役割を果たしており、人々は機械学習を採用す...

なぜ医療においてAIを信頼できないのか?データセットが小さく信頼性が低いため、AI医療にはまだまだ課題がある

近年、医療診断における AI の応用がますます注目されており、薬物スクリーニングや AI 診断など、...

強化学習の専門家 Sergey Levine: スケーラブルな自己教師あり学習の基盤としての強化学習

[[438887]]現在、機械学習システムは、コンピュータービジョン、音声認識、自然言語処理など、多...

...

MNISTとCIFAR 10を100%の精度で「解いた」と主張する人もいる

MNIST 認識の精度は 100% に達しましたか?最近、プレプリントプラットフォームarXivに掲...

人工知能倫理ガバナンスは早急に実践段階へ移行する必要がある

今日の社会では、デジタル工業化と産業のデジタル化により、デジタル世界と物理世界の深い融合と発展が促進...

GitHub の最も有名な 20 の Python 機械学習プロジェクトは収集する価値があります。

オープンソースは技術革新と急速な発展の中核です。この投稿では、Python 機械学習のオープンソース...

テルアビブ大学は、SOTAメソッドとアーキテクチャの新たな進歩を完全に理解するためにStyleGANを要約しました。

GAN の高解像度画像を生成する能力は、画像合成および処理の分野に革命をもたらしています。 201...

新しい人工筋肉、応用シナリオの範囲が極めて広い!マイクロロボット:非常に必要

人工筋肉は科学界では常に重要な研究テーマとなっています。理想的には、人工筋肉は医療分野で患者の健康回...

Pythonでグラフを描いてニューラルネットワークを理解する

Python 中国語コミュニティ (ID: python-china)人工ニューラル ネットワーク ...

...

機械学習は自動化を成功させる鍵となるのでしょうか?

機械学習 (ML) は情報技術 (IT) の柱の 1 つであり、人工知能のサブセットとして定義できま...

小紅書探索チームが新たな枠組みを提案:大規模モデル蒸留のためのネガティブサンプルの価値を検証

大規模言語モデル (LLM) はさまざまな推論タスクで優れたパフォーマンスを発揮しますが、ブラックボ...