たった一枚の写真でTikTokガール全員が踊れる

数日前、アリババの研究チームは「Animate Anyone」と呼ばれる手法を構築しました。この手法では、人物の写真とスケルトンアニメーションのガイダンスのみを使用して、自然なアニメーション動画を生成できます。しかし、この研究のソースコードはまだ公開されていません。

アイアンマンを動かそう。

実際、「Animate Anyone」の論文がarXivに掲載される前日、シンガポール国立大学のShow LabとByteDanceが共同で同様の研究を実施していた。彼らは、時間的な一貫性を強化し、参照画像を忠実に保存し、アニメーションの忠実度を向上させることを目的とした拡散ベースのフレームワーク、MagicAnimate を提案しました。なお、MagicAnimate プロジェクトはオープンソース化されており、推論コードと gradio オンラインデモが公開されています。

論文アドレス: https://arxiv.org/pdf/2311.16498.pdf
プロジェクトアドレス: https://showlab.github.io/magicanimate/
GitHub アドレス: https://github.com/magic-research/magic-animate

上記の目標を達成するために、研究者らはまず時間情報をエンコードするビデオ拡散モデルを開発しました。次に、フレーム間で外観の一貫性を維持するために、参照画像の複雑な詳細を保存する新しい外観エンコーダーを導入しました。研究者たちは、これら 2 つの革新技術を活用して、さらにシンプルなビデオ融合技術を使用して、長いビデオアニメーションのスムーズな遷移を実現しました。

実験結果によると、MagicAnimate は両方のベンチマークでベースラインメソッドよりも優れていることがわかりました。特に、難しい TikTok ダンスデータセットでは、私たちの方法は、ビデオの忠実度において、最も強力なベースラインメソッドを 38% 以上上回ります。

以下のTikTokガールたちのダイナミックな表示効果を見てみましょう。

踊るTikTokガールに加え、「走る」ワンダーウーマンもいる。

『真珠の耳飾りの少女』と『モナ・リザ』は二人ともヨガをやっていました。

一人で踊るだけでなく、複数人で踊ることもできます。

他の方法と比較すると、その効果は明らかです。

海外のネットユーザーの中には、HuggingFaceに試用スペースを設けた人もおり、そこではわずか数分でアニメーション動画を作成することができる。しかし、このウェブサイトには 404 があります。

画像出典: https://twitter.com/gijigae/status/1731832513595953365

次に、MagicAnimate方式と実験結果を紹介します。

方法の概要

参照画像 I_ref とモーションシーケンスが与えられます。ここで、N はフレーム数です。 MagicAnimate は連続ビデオを合成するように設計されています。その中で、モーションシーケンスに従いながら画像 I_ref が表示されます。既存の拡散モデルベースのフレームワークは、フレーム間の時間的な一貫性を無視して各フレームを個別に処理するため、生成されたアニメーションに「ちらつき」の問題が発生します。

この問題に対処するために、本研究では、拡散バックボーンネットワークに時間的注意ブロックを組み込むことで、時間モデリングのためのビデオ拡散モデルを構築します。

さらに、既存の研究では参照画像をエンコードするために CLIP エンコーダを使用していますが、この方法では複雑な詳細をキャプチャできないと研究では考えられています。そこで本研究では、 I_refを外観埋め込みy_aにエンコードし、これに基づいてモデルを調整する新しい外観エンコーダを提案した。

MagicAnimate の全体的なプロセスを図 2 に示します。まず、参照画像をアピアランスエンコーダーを使用してアピアランスエンベディングに埋め込み、次にターゲットポーズシーケンスをポーズ ControlNet に渡してモーション条件を抽出します。

実際には、メモリの制限により、MagicAnimate はビデオ全体をセグメントで処理します。時間モデリングと強力な外観エンコーディングのおかげで、MagicAnimate はクリップ間の時間的および外観的な一貫性を高度に維持できます。しかし、部分間にはまだ微妙な不連続性が残っています。これを軽減するために、研究チームは単純なビデオ融合法を使用して、遷移の滑らかさを改善しました。

図 2 に示すように、MagicAnimate はビデオ全体を重複するセグメントに分解し、重複するフレームの予測を単純に平均化します。最後に、本研究では、参照画像の保持能力と単一フレームの忠実度をさらに高めるための画像とビデオの共同トレーニング戦略も導入しています。

実験と結果

実験部分では、研究者らはTikTokとTEDトークという2つのデータセットでMagicAnimateのパフォーマンスを評価しました。 TikTok データセットには 350 本のダンスビデオが含まれており、TED トークデータセットには YouTube の TED トークビデオから抽出された 1,203 本のクリップが含まれています。

まずは定量的な結果を見てみましょう。以下の表 1 は、2 つのデータセットにおける MagicAnimate とベースラインメソッドの定量的な比較を示しています。表 1a は、TikTok データセットにおいて、L1、PSNR、SSIM、LPIPS などの再構築指標において当社のメソッドがすべてのベースラインメソッドを上回っていることを示しています。

表 1b は、TED トークデータセットでは、MagicAnimate がビデオ忠実度の点でも優れたパフォーマンスを発揮し、最高の FID-VID スコア (19.00) と FVD スコア (131.51) を達成したことを示しています。

定性的な結果を見てみましょう。研究者らは、MagicAnimate と他のベースライン手法の定性的な比較を以下の図 3 に示しています。私たちの方法は、参照画像から詳細情報を抽出する外観エンコーダーのおかげで、より高い忠実度を実現し、より強力な背景保存を示します。

研究者らは、MagicAnimate のクロスアイデンティティアニメーションも評価し、SOTA ベースラインメソッドである DisCo および MRAA と比較しました。具体的には、TikTok テストセットから 2 つの DensePose モーションシーケンスをサンプリングし、これらのシーケンスを使用して他のビデオの参照画像をアニメーション化しました。

下の図 1 は、MRAA が多数の異なるポーズを含む運転ビデオに一般化できない一方で、DisCo が参照画像の詳細を保持するのが難しいことを示しています。対照的に、私たちの方法は、ターゲットの動きを考慮して参照画像を忠実にアニメーション化し、その堅牢性を実証します。

最後のステップはアブレーション実験です。 MagicAnimate の設計選択の有効性を検証するために、研究者らは、以下の表 2 と図 4 に示すように、時間モデリング、外観エンコーダー、推論段階でのビデオ融合、画像とビデオの共同トレーニングの有無を含む、TikTok データセットでのアブレーション実験を実施しました。

MagicAnimate には幅広い応用の見込みもあります。研究者らは、実際の人間のデータのみでトレーニングされているにもかかわらず、未知の領域データのアニメーション処理、テキスト画像拡散モデルとの統合、複数人物アニメーションなど、さまざまなアプリケーションシナリオに一般化できる能力を実証したと述べた。

詳細については原文をお読みください。

<<: 「とんでもないAI画像拡大」が流行ってる！張張、それは驚きだ

>>: 3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。