数日前、アリババの研究チームは「Animate Anyone」と呼ばれる手法を構築しました。この手法では、人物の写真とスケルトンアニメーションのガイダンスのみを使用して、自然なアニメーション動画を生成できます。しかし、この研究のソースコードはまだ公開されていません。 アイアンマンを動かそう。 実際、「Animate Anyone」の論文がarXivに掲載される前日、シンガポール国立大学のShow LabとByteDanceが共同で同様の研究を実施していた。彼らは、時間的な一貫性を強化し、参照画像を忠実に保存し、アニメーションの忠実度を向上させることを目的とした拡散ベースのフレームワーク、MagicAnimate を提案しました。なお、MagicAnimate プロジェクトはオープンソース化されており、推論コードと gradio オンライン デモが公開されています。
上記の目標を達成するために、研究者らはまず時間情報をエンコードするビデオ拡散モデルを開発しました。次に、フレーム間で外観の一貫性を維持するために、参照画像の複雑な詳細を保存する新しい外観エンコーダーを導入しました。研究者たちは、これら 2 つの革新技術を活用して、さらにシンプルなビデオ融合技術を使用して、長いビデオアニメーションのスムーズな遷移を実現しました。 実験結果によると、MagicAnimate は両方のベンチマークでベースライン メソッドよりも優れていることがわかりました。特に、難しい TikTok ダンス データセットでは、私たちの方法は、ビデオの忠実度において、最も強力なベースライン メソッドを 38% 以上上回ります。 以下のTikTokガールたちのダイナミックな表示効果を見てみましょう。 踊るTikTokガールに加え、「走る」ワンダーウーマンもいる。 『真珠の耳飾りの少女』と『モナ・リザ』は二人ともヨガをやっていました。 一人で踊るだけでなく、複数人で踊ることもできます。 他の方法と比較すると、その効果は明らかです。 海外のネットユーザーの中には、HuggingFaceに試用スペースを設けた人もおり、そこではわずか数分でアニメーション動画を作成することができる。しかし、このウェブサイトには 404 があります。 画像出典: https://twitter.com/gijigae/status/1731832513595953365 次に、MagicAnimate方式と実験結果を紹介します。 方法の概要参照画像 I_ref とモーションシーケンスが与えられます。ここで、N はフレーム数です。 MagicAnimate は連続ビデオを合成するように設計されています。その中で、モーションシーケンスに従いながら画像 I_ref が表示されます。既存の拡散モデルベースのフレームワークは、フレーム間の時間的な一貫性を無視して各フレームを個別に処理するため、生成されたアニメーションに「ちらつき」の問題が発生します。 この問題に対処するために、本研究では、拡散バックボーンネットワークに時間的注意ブロックを組み込むことで、時間モデリングのためのビデオ拡散モデルを構築します。 さらに、既存の研究では参照画像をエンコードするために CLIP エンコーダを使用していますが、この方法では複雑な詳細をキャプチャできないと研究では考えられています。そこで本研究では、 I_refを外観埋め込みy_aにエンコードし、これに基づいてモデルを調整する新しい外観エンコーダを提案した。 MagicAnimate の全体的なプロセスを図 2 に示します。まず、参照画像をアピアランス エンコーダーを使用してアピアランス エンベディングに埋め込み、次にターゲット ポーズ シーケンスをポーズ ControlNet に渡してモーション条件を抽出します。 実際には、メモリの制限により、MagicAnimate はビデオ全体をセグメントで処理します。時間モデリングと強力な外観エンコーディングのおかげで、MagicAnimate はクリップ間の時間的および外観的な一貫性を高度に維持できます。しかし、部分間にはまだ微妙な不連続性が残っています。これを軽減するために、研究チームは単純なビデオ融合法を使用して、遷移の滑らかさを改善しました。 図 2 に示すように、MagicAnimate はビデオ全体を重複するセグメントに分解し、重複するフレームの予測を単純に平均化します。最後に、本研究では、参照画像の保持能力と単一フレームの忠実度をさらに高めるための画像とビデオの共同トレーニング戦略も導入しています。 実験と結果実験部分では、研究者らはTikTokとTEDトークという2つのデータセットでMagicAnimateのパフォーマンスを評価しました。 TikTok データセットには 350 本のダンス ビデオが含まれており、TED トーク データセットには YouTube の TED トーク ビデオから抽出された 1,203 本のクリップが含まれています。 まずは定量的な結果を見てみましょう。以下の表 1 は、2 つのデータセットにおける MagicAnimate とベースライン メソッドの定量的な比較を示しています。表 1a は、TikTok データセットにおいて、L1、PSNR、SSIM、LPIPS などの再構築指標において当社のメソッドがすべてのベースライン メソッドを上回っていることを示しています。 表 1b は、TED トーク データセットでは、MagicAnimate がビデオ忠実度の点でも優れたパフォーマンスを発揮し、最高の FID-VID スコア (19.00) と FVD スコア (131.51) を達成したことを示しています。 定性的な結果を見てみましょう。研究者らは、MagicAnimate と他のベースライン手法の定性的な比較を以下の図 3 に示しています。私たちの方法は、参照画像から詳細情報を抽出する外観エンコーダーのおかげで、より高い忠実度を実現し、より強力な背景保存を示します。 研究者らは、MagicAnimate のクロスアイデンティティ アニメーションも評価し、SOTA ベースライン メソッドである DisCo および MRAA と比較しました。具体的には、TikTok テスト セットから 2 つの DensePose モーション シーケンスをサンプリングし、これらのシーケンスを使用して他のビデオの参照画像をアニメーション化しました。 下の図 1 は、MRAA が多数の異なるポーズを含む運転ビデオに一般化できない一方で、DisCo が参照画像の詳細を保持するのが難しいことを示しています。対照的に、私たちの方法は、ターゲットの動きを考慮して参照画像を忠実にアニメーション化し、その堅牢性を実証します。 最後のステップはアブレーション実験です。 MagicAnimate の設計選択の有効性を検証するために、研究者らは、以下の表 2 と図 4 に示すように、時間モデリング、外観エンコーダー、推論段階でのビデオ融合、画像とビデオの共同トレーニングの有無を含む、TikTok データセットでのアブレーション実験を実施しました。 MagicAnimate には幅広い応用の見込みもあります。研究者らは、実際の人間のデータのみでトレーニングされているにもかかわらず、未知の領域データのアニメーション処理、テキスト画像拡散モデルとの統合、複数人物アニメーションなど、さまざまなアプリケーションシナリオに一般化できる能力を実証したと述べた。 詳細については原文をお読みください。 |
<<: 「とんでもないAI画像拡大」が流行ってる!張張、それは驚きだ
>>: 3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。
5月21日、新人新市は北京で2021年新人新市ブランドアップグレード記者会見を開催した。今回の記者会...
数字間の隠れた関係は、証明が必要な場合に数学的推測を確認できるラマヌジャンマシンと呼ばれる新しいタイ...
[[388530]] [51CTO.com クイック翻訳] 「人工知能」は今日では人気の用語となり、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
GenAI が現代の企業にとって非常に魅力的な理由は理解できます。これは、世界中のさまざまな業界で無...
序文Python は機械学習において当然の利点を持っているので、今日から機械学習技術に取り組んでみま...
自動運転車は徐々に現実のものとなりつつありますが、まだ多くの疑問が残っています。消費者は本当に運転の...
先週は、古典的な CNN ネットワーク AlexNet が画像分類に与える影響についてお話ししました...
Microsoft は、生成 AI のさまざまな可能性を積極的に模索しています。将来の応用シナリオの...
翻訳者 | 李睿校正 | 梁哲、孫淑娟人工知能 (AI) テクノロジーはここ数年で急速に発展し、ビジ...
「選択ソート」は実際の応用では「挿入ソート」ほど広範囲ではありませんが、ソートアルゴリズムの研究に...
世界中の組織がリモートワークに移行する必要に迫られ、業務を維持するために技術的な対策が必要になりまし...
すでに、いくつかの日常的または退屈な作業がロボットや自動化によって置き換えられていますが、それによっ...