消費されるコンピューティング リソースは、従来の Stable Video Diffusion (SVD)モデルのわずか2/25です。 時間がかかり、多くの計算を必要とするビデオ拡散モデルの繰り返しノイズ除去の問題を解決するAnimateLCM-SVD-xtがリリースされました。 まず、生成されたアニメーション効果の波を見てみましょう。 サイバーパンク スタイルは簡単にマスターでき、少年はヘッドフォンを着けてネオンに照らされた街の通りに立っています。 写真 リアルなスタイルもOKです。新婚カップルが寄り添い合い、繊細な花束を持ち、古代の石垣の下で愛を誓っています。 写真 SF スタイルは、エイリアンが地球を侵略しているかのような錯覚も与えます。 写真 AnimateLCM-SVD-xt は、香港中文大学の MMLab、Avolution AI、上海人工知能研究所、SenseTime Research Institute の研究者によって共同で提案されました。 写真 2~8ステップで、解像度576x1024、25フレームの高品質アニメーションを生成できます。分類器のガイドなしで、4ステップで生成されたビデオは高い忠実度を実現でき、従来のSVDよりも高速で効率的です。 写真 現在、AnimateLCM コードはオープンソース化されつつあり、試用可能なオンライン デモが用意されています。 デモを始めるデモ インターフェイスでわかるように、AnimateLCM には現在 3 つのバージョンがあります。AnimateLCM-SVD-xt は一般的な画像からビデオへの生成用、AnimateLCM-t2v はパーソナライズされたテキストからビデオへの生成用、AnimateLCM-i2v はパーソナライズされた画像からビデオへの生成用です。 写真 以下は、基本的な Dreambooth モデルまたは LoRA モデルを選択し、スライダーを使用して LoRA アルファ値を調整できる構成領域です。 写真 次に、生成されるアニメーションの内容と品質をガイドするためのプロンプトと否定プロンプトを入力できます。 写真 調整可能なパラメータもいくつかあります。 写真 試してみたところ、プロンプトワードは「空の雲」、パラメータは上記のように設定され、サンプリングステップは 4 ステップのみでしたが、生成された効果は次のようになりました。 写真 サンプリングステップが 25 ステップで、プロンプトワードが「ウサギを抱いている少年」の場合、効果は次のようになります。 写真 公式のデモ効果を見てみましょう。 2ステップ、4ステップ、8ステップの効果の比較は次のとおりです。 写真 ステップ数が多いほど、アニメーションの品質は向上します。AnimateLCM は、わずか 4 つのステップで高い忠実度を実現できます。 写真 さまざまなスタイルを実現できます: 写真 写真 これはどうやって行うのですか?ビデオ拡散モデルは、一貫性のある高忠実度のビデオを生成できるため、ますます注目を集めていますが、反復的なノイズ除去プロセスは時間がかかるだけでなく、計算量も大きいため、その適用範囲が制限されるという難点があります。 AnimateLCM の研究では、研究者は一貫性モデル(CM)に着想を得て、事前トレーニング済みの画像拡散モデルを簡素化してサンプリングに必要な手順を減らし、条件付き画像生成における潜在的一貫性モデル(LCM)の拡張に成功しました。 写真 具体的には、研究者らは分離一貫性学習戦略を提案した。 まず、安定した拡散モデルを高品質の画像テキスト データセット上の画像一貫性モデルに蒸留し、次にビデオ データに対して一貫性蒸留を実行してビデオ一貫性モデルを取得します。この戦略は、空間レベルと時間レベルで個別にトレーニングすることでトレーニング効率を向上させます。 写真 さらに、安定拡散コミュニティにおけるプラグアンドプレイアダプタのさまざまな機能(例えば、ControlNetによる制御可能な生成)を実装するために、研究者らは、既存の制御アダプタを一貫性モデルとより一貫性のあるものにし、より制御可能なビデオ生成を実現する教師なし適応戦略を提案しました。 写真 定量的および定性的な実験の両方で、この方法の有効性が実証されています。 UCF-101 データセットのゼロショット テキストからビデオへの生成タスクでは、AnimateLCM は FVD と CLIPSIM の両方のメトリックで最高のパフォーマンスを達成しました。 写真 写真 アブレーション研究では、分離された一貫性学習と特定の初期化戦略の有効性が検証されています。 写真 プロジェクトリンク: |
>>: 10,000台以上のカメラが他人の家に接続されています。ネットワーク障害により中断と再起動が発生し、公式の責任はサードパーティのキャッシュライブラリに帰せられました。
ほんの数年前までは、マーケティングに特化した AI エンジンがマーケティングの未来につながると信じて...
[51CTO.comより引用] 2017年12月1日~2日、51CTO主催のWOTDグローバルソフト...
コンピューターやその他の機械は、生産性を高め、より多くのことを学び、お互いのつながりを保つことを可能...
近年、セキュリティビデオ監視はソフトウェアとハードウェアの両方で大きな技術的進歩を遂げており、さ...
中国は世界最大の人工知能研究者の供給国となった。米国の人工知能分野のトップ研究者のほぼ3分の1は中国...
OpenAI深夜アップデート! 5 つの大きなモデルが一気に投げられました。新しい GPT-4 Tu...
1. 検索セマンティックモデルの現状ERNIE: 知識統合による表現の強化は、中国語の NLP タス...
最近、「2021 JD全国大学生アルゴリズム設計・プログラミングエリートコンテスト-コードの無限の想...
10月10日のニュース、AIに陸上を歩けるロボットを設計するように頼んだら何秒かかるでしょうか?答え...
ChatGPT は Midjourney 画像生成のテンプレートとして使用できると結論付けられました...
[[417375]]あと一日で中国のバレンタインデーになります。遠く離れたアルタイルと明るいベガは、...
気がつけば、もう2024年も最後の月になってしまいました。今年のテクノロジー業界の申し子として、Op...