たった一枚の写真でTikTokガール全員が踊れる

たった一枚の写真でTikTokガール全員が踊れる

数日前、アリババの研究チームは「Animate Anyone」と呼ばれる手法を構築しました。この手法では、人物の写真とスケルトンアニメーションのガイダンスのみを使用して、自然なアニメーション動画を生成できます。しかし、この研究のソースコードはまだ公開されていません。

アイアンマンを動かそう。

実際、「Animate Anyone」の論文がarXivに掲載される前日、シンガポール国立大学のShow LabとByteDanceが共同で同様の研究を実施していた。彼らは、時間的な一貫性を強化し、参照画像を忠実に保存し、アニメーションの忠実度を向上させることを目的とした拡散ベースのフレームワーク、MagicAnimate を提案しました。なお、MagicAnimate プロジェクトはオープンソース化されており、推論コードと gradio オンライン デモが公開されています。

  • 論文アドレス: https://arxiv.org/pdf/2311.16498.pdf
  • プロジェクトアドレス: https://showlab.github.io/magicanimate/
  • GitHub アドレス: https://github.com/magic-research/magic-animate

上記の目標を達成するために、研究者らはまず時間情報をエンコードするビデオ拡散モデルを開発しました。次に、フレーム間で外観の一貫性を維持するために、参照画像の複雑な詳細を保存する新しい外観エンコーダーを導入しました。研究者たちは、これら 2 つの革新技術を活用して、さらにシンプルなビデオ融合技術を使用して、長いビデオアニメーションのスムーズな遷移を実現しました。

実験結果によると、MagicAnimate は両方のベンチマークでベースライン メソッドよりも優れていることがわかりました。特に、難しい TikTok ダンス データセットでは、私たちの方法は、ビデオの忠実度において、最も強力なベースライン メソッドを 38% 以上上回ります。

以下のTikTokガールたちのダイナミックな表示効果を見てみましょう。

踊るTikTokガールに加え、「走る」ワンダーウーマンもいる。

『真珠の耳飾りの少女』と『モナ・リザ』は二人ともヨガをやっていました。

一人で踊るだけでなく、複数人で踊ることもできます。

他の方法と比較すると、その効果は明ら​​かです。

海外のネットユーザーの中には、HuggingFaceに試用スペースを設けた人もおり、そこではわずか数分でアニメーション動画を作成することができる。しかし、このウェブサイトには 404 があります。

画像出典: https://twitter.com/gijigae/status/1731832513595953365

次に、MagicAnimate方式と実験結果を紹介します。

方法の概要

参照画像 I_ref とモーションシーケンスが与えられます。ここで、N はフレーム数です。 MagicAnimate は連続ビデオを合成するように設計されています。その中で、モーションシーケンスに従いながら画像 I_ref が表示されます。既存の拡散モデルベースのフレームワークは、フレーム間の時間的な一貫性を無視して各フレームを個別に処理するため、生成されたアニメーションに「ちらつき」の問題が発生します。

この問題に対処するために、本研究では、拡散バックボーンネットワークに時間的注意ブロックを組み込むことで、時間モデリングのためのビデオ拡散モデルを構築します

さらに、既存の研究では参照画像をエンコードするために CLIP エンコーダを使用していますが、この方法では複雑な詳細をキャプチャできないと研究では考えられています。そこで本研究では、 I_refを外観埋め込みy_aにエンコードし、これに基づいてモデルを調整する新しい外観エンコーダを提案した

MagicAnimate の全体的なプロセスを図 2 に示します。まず、参照画像をアピアランス エンコーダーを使用してアピアランス エンベディングに埋め込み、次にターゲット ポーズ シーケンスをポーズ ControlNet に渡してモーション条件を抽出します

実際には、メモリの制限により、MagicAnimate はビデオ全体をセグメントで処理します。時間モデリングと強力な外観エンコーディングのおかげで、MagicAnimate はクリップ間の時間的および外観的な一貫性を高度に維持できます。しかし、部分間にはまだ微妙な不連続性が残っています。これを軽減するために、研究チームは単純なビデオ融合法を使用して、遷移の滑らかさを改善しました。

図 2 に示すように、MagicAnimate はビデオ全体を重複するセグメントに分解し、重複するフレームの予測を単純に平均化します。最後に、本研究では、参照画像の保持能力と単一フレームの忠実度をさらに高めるための画像とビデオの共同トレーニング戦略も導入しています。

実験と結果

実験部分では、研究者らはTikTokとTEDトークという2つのデータセットでMagicAnimateのパフォーマンスを評価しました。 TikTok データセットには 350 本のダンス ビデオが含まれており、TED トーク データセットには YouTube の TED トーク ビデオから抽出された 1,203 本のクリップが含まれています。

まずは定量的な結果を見てみましょう。以下の表 1 は、2 つのデータセットにおける MagicAnimate とベースライン メソッドの定量的な比較を示しています。表 1a は、TikTok データセットにおいて、L1、PSNR、SSIM、LPIPS などの再構築指標において当社のメソッドがすべてのベースライン メソッドを上回っていることを示しています。

表 1b は、TED トーク データセットでは、MagicAnimate がビデオ忠実度の点でも優れたパフォーマンスを発揮し、最高の FID-VID スコア (19.00) と FVD スコア (131.51) を達成したことを示しています。

定性的な結果を見てみましょう。研究者らは、MagicAnimate と他のベースライン手法の定性的な比較を以下の図 3 に示しています。私たちの方法は、参照画像から詳細情報を抽出する外観エンコーダーのおかげで、より高い忠実度を実現し、より強力な背景保存を示します。

研究者らは、MagicAnimate のクロスアイデンティティ アニメーションも評価し、SOTA ベースライン メソッドである DisCo および MRAA と比較しました。具体的には、TikTok テスト セットから 2 つの DensePose モーション シーケンスをサンプリングし、これらのシーケンスを使用して他のビデオの参照画像をアニメーション化しました。

下の図 1 は、MRAA が多数の異なるポーズを含む運転ビデオに一般化できない一方で、DisCo が参照画像の詳細を保持するのが難しいことを示しています。対照的に、私たちの方法は、ターゲットの動きを考慮して参照画像を忠実にアニメーション化し、その堅牢性を実証します。

最後のステップはアブレーション実験です。 MagicAnimate の設計選択の有効性を検証するために、研究者らは、以下の表 2 と図 4 に示すように、時間モデリング、外観エンコーダー、推論段階でのビデオ融合、画像とビデオの共同トレーニングの有無を含む、TikTok データセットでのアブレーション実験を実施しました。

MagicAnimate には幅広い応用の見込みもあります。研究者らは、実際の人間のデータのみでトレーニングされているにもかかわらず、未知の領域データのアニメーション処理、テキスト画像拡散モデルとの統合、複数人物アニメーションなど、さまざまなアプリケーションシナリオに一般化できる能力を実証したと述べた。

詳細については原文をお読みください。

<<:  「とんでもないAI画像拡大」が流行ってる!張張、それは驚きだ

>>:  3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。

ブログ    
ブログ    

推薦する

チャットボットの機械学習セキュリティの重要性

人工知能は、大手テクノロジー企業、新興企業、大学の研究チームによって推進されている成長産業です。 A...

...

住宅街、公衆トイレ、ジム...「顔認識」はどこにでもあります。どこでも顔をスキャンする必要があるのでしょうか?

[[377911]]昨年12月中旬、上海市民の夏さんは徐匯河畔にレジャーに出かけ、「海上タワー」近...

ロボット警察がファンタジーを現実に変える

人工知能、コンピュータービジョン、モノのインターネット、その他の先進技術を備えたロボット警察は、法と...

さまざまな業界がエッジAIから得られるメリット

ご存知のとおり、人工知能は計算能力を消費し、多数のデータセンターを必要とします。 しかし、適切な状況...

私はAIロボットの何希2号です。私の話を聞きたいですか?

「インテリジェント ブレイン」センターの場所 - AIXO ビル、地下 21 階、タイムトラベル研...

時間との競争! AIは病気の遺伝子解析と診断の加速器である

科学技術分野において、国境を越えた融合による新しいものによってもたらされる破壊的な競争は、あくまでも...

マクロン仏大統領「人工知能は制限されなければ西側諸国の民主主義を完全に破壊するだろう」

3月29日、フランスのエマニュエル・マクロン大統領がパリで演説を行った。ホーキング博士はかつて、人...

...

統計分析と人工知能の9つの有名な大惨事

2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言しました...

AV-TESTに再び認定されました! Sangfor EDRは中国で初めて満点を獲得したエンタープライズレベルのエンドポイントセキュリティ製品となる

検出能力6点!パフォーマンス消費6ポイント!使いやすさ6点!先日、国際的に権威のある評価機関 AV-...

...

顔認識はセキュリティの発展の障害になるのでしょうか?

現在、顔認識は人々の生活のあらゆる側面に組み込まれています。携帯電話のロック解除、顔をスワイプしての...

...

ニューヨーク・タイムズは、自社のニュース記事をAIモデルの訓練に利用することを禁止し、OpenAIを訴えることを検討している。

NPRによると、OpenAIは、自社の人工知能(AI)モデルのトレーニングにニューヨーク・タイムズ...