テンセントがまた何か新しいことをやっています！たった一言で絵をアニメの主人公に変身させよう！

執筆者 | Qingzhu

制作：51CTO テクノロジースタック（WeChat ID：blog）

2023年末までにAI界は「ヴィンセントビデオ」モデルに乗っ取られる模様！

11月末、AI動画生成ツール「Pika 1.0」が突如登場し、大ヒットを記録しました。最近では、スタンフォード大学のAI科学者、李飛飛氏とGoogleのチームが共同でAI動画生成モデル「WALT（Window Attention）」を発表し、話題を呼んでいます。最近、テンセントのチームが新作を携えて登場しました！

1. ダークホースのAnimateDiffを力で打ち負かす

AnimateZeroは、Tencent AIチームがリリースしたビデオ生成モデルです。事前トレーニング済みのビデオ拡散モデルを改良することで、ビデオ生成をゼロサンプル画像アニメーション問題として扱い、ビデオの外観と動きをより正確に制御できます。

このモデルの効果は Animatediff よりもはるかに優れており、既存の SD エコシステムとの互換性も高いことが報告されています。言葉だけでは足りませんので、まずは AnimateZero によって生成されたビデオ効果を見てみましょう。

AnimateZero は、複数の T2I モデルで生成されたパーソナライズされたビデオをデモンストレーションしました。

たとえば、アニメキャラクターの写真から生成されたビデオは、動きが滑らかで、目の色の変化やふわふわの髪の毛などの細かいディテールが組み込まれています。

自然の造形美、浜辺に打ち寄せる波、華やかに咲く花火、そして雷が落ちる雰囲気などを見ていると、まるでその場にいるかのような気分になります。

AnimateZero は、テキスト埋め込みを挿入することでビデオの動的効果を制御する方法も実演しました。画像からビデオを生成した後、「幸せ + 笑顔」、「怒って真剣」、「口を開けて」、「とても悲しい」などのテキストが追加され、ビデオ内のキャラクターが対応する感情やアクションを示すことができます。

既存のモデルに基づいてパーソナライズされたビデオを生成することに加えて、AnimateZero は AnimateDiff よりもどのように優れているのでしょうか?

AnimateZero は、AnimateDiff (AD) の一般的な用途はビデオ編集で ControlNet (CN) を支援することであると述べていますが、それでもドメインギャップの問題があるとのことです。 AnimateZero (AZ) はこの点で明らかな優位性があり、主観的な品質が高く、指定されたテキストキューによりよく一致するビデオを生成します。

AnimateZeroの担当者は、ビデオ効果の比較も行いました。溶岩で泳ぐ少女のオリジナルビデオを基準にすると、AnimateDiffのビデオはぼやけていて、溶岩効果はほとんど見えません。対照的に、AnimateZeroのビデオは、テキストとの適合性と画像の美しさの両方の点で、明らかにAnimateDiffよりも優れています。

元のビデオの黒い車を赤に変えたい場合はどうすればよいでしょうか?効果も明らかです。

元のビデオを森の草の上を走る少女に変更するという要件を見てみましょう。AnimateDiff によって生成されたビデオには森も草も表示されず、背景の壁の緑色と少女の髪だけが表示さます。これは明らかに要件を満たしていません。一方、AnimateZero の効果ははるかに優れており、キーワードに完全に一致しています。

2. AnimateZeroの強みは何ですか？

AnimateZero は、ビデオ拡散モデルに基づいたゼロショット画像アニメーションジェネレーターです。従来のビデオ拡散モデル (VDM) には、次のような問題があります。

ブラックボックス: 生成プロセスは透明ではない
非効率で制御不能: 満足のいく結果を得るには多くの試行錯誤が必要
ドメインギャップ: トレーニング中に使用されるビデオデータセットのドメインによって制限される

AnimateZero は、段階的なアプローチを使用してビデオを生成し、外観とモーションのプロセスを切り離して、従来のテキストからビデオへの (T2V) 拡散モデルにおける正確な制御の欠如に対処します。ゼロショットの変更により、T2V モデルを I2V モデルに変換し、ゼロショット画像アニメーションジェネレーターにすることもできます。

分離: ビデオ生成プロセスは、外観 (T2I) プロセスと動き (I2V) プロセスに分離されます。
効率的で制御可能：T2I生成はT2Vよりも制御可能で効率的であり、I2Vがビデオを生成する前に満足のいく画像を得ることができます。
ドメインギャップ問題の緩和: T2Iモデルのドメインは実際のドメインに合わせて微調整することができ、ビデオモデル全体を調整するよりも効果的です。

従来のビデオ拡散モデル (a) と AnimateZero ビデオ生成モデル (b) の比較

独自の革新性に加えて、AnimateDiff と比較した AnimateZero の利点は何ですか?

一貫性の向上: AnimateZero では、テキストの説明と生成されたビデオの間、および T2I (テキストから画像) ドメインと生成されたビデオの間で一貫性が向上します。
多様なアプリケーション: AnimateDiff と比較して、AnimateZero はより広範囲のパーソナライズされた画像ドメインをサポートし、さまざまなスタイル (リアルなスタイルやアニメスタイルなど) でより優れたパフォーマンスを発揮します。
より優れたアニメーション効果: AnimateZero は、特に複雑な動きや珍しいオブジェクトを扱う場合、アニメーションの品質とスタイルの一貫性の点で AnimateDiff よりも優れています。

最も完璧なモデルであっても限界はあります。AnimateZero のパフォーマンスは、その基礎となるモデルである AnimateDiff のモーションプライアによって制限されます。 AnimateZero は、複雑な動き (スポーツなど) や珍しいオブジェクトのアニメーションでは適切に機能しない可能性があります。また、AnimateZero は AnimateDiff をベースに改良されたものであるため、そのパフォーマンスと適用範囲は基本モデルによって制限されます。

3. AIビデオ生成モデルの爆発的増加

1年前、ChatGPTは電光石火の速さで世界を席巻し、文章作成分野に大きな変化をもたらしました。1年後、文学ビデオトラックは爆発的になり、国内外のプレイヤーが「本を開く」ようになりました。

まず、海外のテクノロジー大手を見てみましょう。

11月3日、RunwayはAIビデオ生成ツールGen-2のアップデートを発表しました。1週間後、Runwayはローカルビデオ編集機能を強化するモーションブラシ機能をリリースしました。

11月16日、テクノロジー大手のMetaは、まずテキストに基づいて画像を生成し、次にテキストと生成された画像に基づいてビデオを生成するEmu Videoモデルを発表しました。

安定性 AI も決して負けていません。 11月29日、Stability AIはStable Video Diffusionと呼ばれるビデオ生成モデルをリリースし、SVDとSVD-XTの2つのモデルを提供しました。

さらに、最近人気が出ているAIスタートアップのPika LabsがPika 1.0のウェブ版をリリースし、直接試用リンクを公開して市場を活性化させた。

国内では、11月12日、中国科学院などの研究者が11月21日にトレーニングを必要としないテキスト生成ビデオフレームワークGPT4Motionを提案しました。11月18日、ByteDanceはテキスト生成ビデオモデルPixelDanceを発表し、テキストガイダンス+最初と最後のフレーム画像ガイダンスに基づくビデオ生成方法を提案し、ビデオ生成をより動的にしました。12月1日、アリババの研究チームは、静止画像から動的なビデオをAIで生成することをサポートする新しいフレームワークAnimate Anyoneを提案しました。12月5日、Meituはデザインとビデオ機能に重点を置いたAIビジョンモデルMiracleVisionバージョン4.0をリリースしました。

4. 多くの人が賭け金を増やしている中、「ブックを開く」ことの背後にある謎とは何でしょうか?

では、AI ビデオ生成テクノロジーと製品の爆発的な増加は何を意味するのでしょうか?

技術的な観点から見ると、Vincent Image と Vincent Video の人工知能モデルは非常に類似しており、これが Vincent Video が Vincent Image の技術と経験を活用し、参照できる重要な理由です。

市場のセンチメントから判断すると、1995年以降に生まれた少女が率いる4人のチームが最近Pika Labsを設立し、すぐに人気を博し、スクリーンを席巻した。設立から半年以内に5,500万ドルの資金を調達し、評価額は2億ドルに達した。その後すぐに、A株市場でも「父親の地位は娘次第」というドラマが繰り広げられた。彼女の父親が勤める上場企業は、このツールが普及して以降、3日連続で制限値上げを達成した。ヴィンセントビデオ分野の収益力は前例のないほど大きいことがわかります。

また、国内有力企業の技術蓄積も既に整っています。湖南大学情報科学工学学院の博士課程指導教授である張大芳氏は、ヴィンセントビデオの人工知能モデルのパラメータは10億から100億レベルにあり、国内の大手企業はすでに上記の技術を習得していると分析した。モデルの改善の加速、学習データのクリーニング、操作インターフェースの調整、内部パラメータの最適化を推進することで、Vincent のビデオ技術は徐々に多くの欠点を克服し、急速に商用アプリケーションに導入されました。

同時に、応用の観点から見ると、AI 生成ビデオの将来性は疑う余地がありません。映画、テレビ、ゲーム、広告はすべて、AI の実装にとって重要なシナリオです。 iiMedia ResearchのCEO兼チーフアナリストであるZhang Yi氏は、「パーソナライズされたビデオの制作は、プログラマーを雇ってプログラミングするよりも面倒で費用もかかります。多くの業界が、シンプルなビデオ生成ツールを切望しています」と語った。

Yuehu iAPPの統計によると、2022年第2四半期から今年6月まで、モバイルインターネットアプリの全カテゴリのうち、短編動画の使用時間は30％以上を占め、全カテゴリの中で最も高かった。こうした需要は、ある程度、ビデオ制作の分野に膨大な「蓄積」があることも示しています。

客観的に見ると、大手メーカーや企業は投資を増やすために競争しているものの、関連アプリケーションの最適化反復速度と商品化プロセスは比較的遅く、大企業と新興チームは互角であり、文勝ビデオアプリケーションの潜在力はまだ十分に開発されていません。ビデオ生成時間、効果、コストのバランスをどのように見つけるかについては、継続的な実践を通じて最適なソリューションを模索する必要があります。

参考リンク:

https://vvictoryuki.github.io/animatezero.github.io/

https://www.chinaz.com/2023/1212/1582268.shtml

https://baijiahao.baidu.com/s?id=1785065486791669561&wfr=spider&for=pc

<<: Googleはクラウドコンピューティングの顧客向けにGemini Proを公開すると発表、開発者はアプリケーションの構築に利用できる

>>: データから生成AIまで、リスクを再考する時が来ている