Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

見て！今、あなたの前で踊っているのは 4 人の若い女性です。

ショート動画プラットフォームで何人かのキャスターが公開した作品だと思いますか？

いや、いや、いや。

本当の答えは、偽物であり、生成されたものであり、 1 枚の写真だけに基づいています。

実際の開封方法は以下の通りです。

これはシンガポール国立大学とByteDanceによる最新の研究で、 「MagicAnimate」と呼ばれています。

その機能は、画像+ 一連のアクション= 違和感のないビデオという 1 つの公式に簡単にまとめることができます。

その後、この技術が発表されると、テクノロジー界で大きな騒ぎとなり、多くのテクノロジー界の巨人やオタクたちがこの技術を試すために飛びつきました。

HuggingFace CTOも自身のアバターでこれを試しました:

ちなみに、彼はこんなジョークも言っていました。

これはフィットネスとみなされますか?今週はジムに行かなくても大丈夫です。

時代の流れに遅れないネットユーザーの中には、最近リリースされたGTA6 （グランド・セフト・オート6）のトレーラーのキャラクターで遊んだ人もいる。

絵文字さえもネットユーザーの選択の対象となっている...

MagicAnimate はテクノロジー界の注目を集めたと言えるため、一部のネットユーザーは次のように冗談を言った。

OpenAIは休憩できます。

火だ、それは確かに火だ。

一枚の写真がダンスを生み出す

では、人気の Magic Animate をどのように「消費」すればよいのでしょうか?

早速、ステップごとに体験してみましょう。

現在、プロジェクトチームはHuggingFaceにオンライン体験ページを開設しています。

操作も非常に簡単で、たった 3 つのステップです。

人物の静止写真をアップロードする
生成したいアクションデモビデオをアップロードします
パラメータを調整し、「アニメーション」をクリックします

たとえば、ここに私の写真と、最近世界を席巻している曲「Subject 3」のダンスのクリップがあります。

△動画出典：Douyin（ID：QC0217）

ページの下部に用意されているテンプレートを選択して体験することもできます。

ただし、MagicAnimate は現在人気があるため、生成プロセス中に「ダウンタイム」が発生する可能性があることに注意してください。

たとえ「食べる」ことに成功したとしても、長い列に並ばなければならないかもしれません...

（そうです！記事執筆時点ではまだ結果は出ていません！）

また、MagicAnimateはGitHubでローカル体験方法も提供しています。興味のある方は試してみてください〜

それで次の質問です:

これはどうやって行うのですか?

全体として、Magic Animate は拡散モデルに基づくフレームワークを使用しており、その目的は時間の一貫性を高め、参照画像の信頼性を維持し、アニメーションの忠実度を向上させることです。

この目的のために、チームはまず、時間情報をエンコードするためのビデオ拡散モデル(Temporal Consistency Modeling)を開発しました。

このモデルは、拡散ネットワークに時間的注意モジュールを追加することで時間情報をエンコードし、アニメーション内のフレーム間の時間的一貫性を保証します。

次に、フレーム間の外観の一貫性を維持するために、チームは参照画像の複雑な詳細を保持する新しい外観エンコーダーを導入しました。

このエンコーダーは、CLIP エンコーディングを使用する従来の方法とは異なり、アニメーションをガイドするための高密度の視覚的特徴を抽出できるため、アイデンティティ、背景、衣服などの情報をより適切に保存できます。

チームは、これら 2 つの革新的なテクノロジーをベースに、さらにシンプルなビデオ融合技術を採用し、長いビデオアニメーションのスムーズな遷移を促進しました。

最後に、2 つのベンチマークでの実験により、MagicAnimate の結果が以前の方法よりもはるかに優れていることが示されました。

特に難しい TikTok ダンスデータセットでは、MagicAnimate はビデオ忠実度において最強のベースラインを 38% 以上上回ります。

チームによる定性的な比較は次のとおりです。

クロス ID の SOTA ベースラインと比較すると、結果は次のようになります。

もう一つ

最近、MagicAnimate のようなプロジェクトがかなり人気になっていると言わざるを得ません。

アリババチームは「デビュー」の少し前に、 「Animate Anyone」というプロジェクトもリリースしました。これも「写真」と「希望するアクション」のみを必要とします。

その結果、一部のネットユーザーからは次のような疑問も生じました。

MagicAnimateとAnimateAnyoneの間で戦争が起きているようです。どちらが優れているでしょうか?

どう思いますか？

論文アドレス: https://arxiv.org/abs/2311.16498

<<: 生成 AI によってもたらされるセキュリティリスクをどう解決するか? Akamai が答えを持っています

>>: 700億Llama2が即完売！申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

物流における人工知能の重要な役割

ブログ

サイバー攻撃が自動運転車に勝てない理由

ブログ

AIがコスト削減、生産性、雇用に与える影響

ブログ

MIT、悪意のあるAI編集から画像を保護する「PhotoGuard」技術を開発

ブログ

顔認識メイク落としはアリペイを認識できない：馮潔は范冰冰に似せるために整形手術を受けたが、それでも認識できる

ブログ

Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

ブログ

AIにも美的感覚や創造性が備わったら、人間のデザイナーは恥ずかしくなるでしょうか？

ブログ

人工知能は多くの仕事を置き換えるでしょう。将来の子供たちの競争力は成績とは全く関係ないかもしれません。

ブログ

トランプ大統領、米国の製造業の発展にロボット活用を視野に

ブログ

Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

一枚の写真がダンスを生み出す

これはどうやって行うのですか?

もう一つ

物流における人工知能の重要な役割

サイバー攻撃が自動運転車に勝てない理由

AIがコスト削減、生産性、雇用に与える影響

MIT、悪意のあるAI編集から画像を保護する「PhotoGuard」技術を開発

顔認識メイク落としはアリペイを認識できない：馮潔は范冰冰に似せるために整形手術を受けたが、それでも認識できる

Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

AIにも美的感覚や創造性が備わったら、人間のデザイナーは恥ずかしくなるでしょうか？

人工知能は多くの仕事を置き換えるでしょう。将来の子供たちの競争力は成績とは全く関係ないかもしれません。

トランプ大統領、米国の製造業の発展にロボット活用を視野に

推薦する

推奨システムでよく使用される推奨アルゴリズム

自然言語処理がヒラリーとトランプの「話し方」を分析

データサイエンティストに必須の機械学習アルゴリズム 10 選

本番環境のMLを再現できない場合は、ワークフローに問題がある可能性があります。

1行のコードでsklearnの操作が数千倍高速化

データ構造の8つの一般的なソートアルゴリズム

Nvidia は Arm を買収して何をしたいのでしょうか?中国の承認後、クアルコムの影が再び現れる

CMU のポスドクらが NLP データ処理ツールを発表

研究により、ディープラーニングAIは乳がんリスクの予測に優れていることが判明

ガートナー：今後2年間で、テクノロジープロバイダーの3分の1がAIに100万ドル以上を投資する