見て!今、あなたの前で踊っているのは 4 人の若い女性です。 ショート動画プラットフォームで何人かのキャスターが公開した作品だと思いますか? いや、いや、いや。 本当の答えは、偽物であり、生成されたものであり、 1 枚の写真だけに基づいています。 実際の開封方法は以下の通りです。 これはシンガポール国立大学とByteDanceによる最新の研究で、 「MagicAnimate」と呼ばれています。 その機能は、画像+ 一連のアクション= 違和感のないビデオという 1 つの公式に簡単にまとめることができます。 その後、この技術が発表されると、テクノロジー界で大きな騒ぎとなり、多くのテクノロジー界の巨人やオタクたちがこの技術を試すために飛びつきました。 HuggingFace CTOも自身のアバターでこれを試しました: ちなみに、彼はこんなジョークも言っていました。
時代の流れに遅れないネットユーザーの中には、最近リリースされたGTA6 (グランド・セフト・オート6)のトレーラーのキャラクターで遊んだ人もいる。 絵文字さえもネットユーザーの選択の対象となっている... MagicAnimate はテクノロジー界の注目を集めたと言えるため、一部のネットユーザーは次のように冗談を言った。
火だ、それは確かに火だ。 一枚の写真がダンスを生み出すでは、人気の Magic Animate をどのように「消費」すればよいのでしょうか? 早速、ステップごとに体験してみましょう。 現在、プロジェクトチームはHuggingFaceにオンライン体験ページを開設しています。 操作も非常に簡単で、たった 3 つのステップです。
たとえば、ここに私の写真と、最近世界を席巻している曲「Subject 3」のダンスのクリップがあります。 △動画出典:Douyin(ID:QC0217) ページの下部に用意されているテンプレートを選択して体験することもできます。 ただし、MagicAnimate は現在人気があるため、生成プロセス中に「ダウンタイム」が発生する可能性があることに注意してください。 たとえ「食べる」ことに成功したとしても、長い列に並ばなければならないかもしれません... (そうです!記事執筆時点ではまだ結果は出ていません!) また、MagicAnimateはGitHubでローカル体験方法も提供しています。興味のある方は試してみてください〜 それで次の質問です: これはどうやって行うのですか?全体として、Magic Animate は拡散モデルに基づくフレームワークを使用しており、その目的は時間の一貫性を高め、参照画像の信頼性を維持し、アニメーションの忠実度を向上させることです。 この目的のために、チームはまず、時間情報をエンコードするためのビデオ拡散モデル(Temporal Consistency Modeling)を開発しました。 このモデルは、拡散ネットワークに時間的注意モジュールを追加することで時間情報をエンコードし、アニメーション内のフレーム間の時間的一貫性を保証します。 次に、フレーム間の外観の一貫性を維持するために、チームは参照画像の複雑な詳細を保持する新しい外観エンコーダーを導入しました。 このエンコーダーは、CLIP エンコーディングを使用する従来の方法とは異なり、アニメーションをガイドするための高密度の視覚的特徴を抽出できるため、アイデンティティ、背景、衣服などの情報をより適切に保存できます。 チームは、これら 2 つの革新的なテクノロジーをベースに、さらにシンプルなビデオ融合技術を採用し、長いビデオアニメーションのスムーズな遷移を促進しました。 最後に、2 つのベンチマークでの実験により、MagicAnimate の結果が以前の方法よりもはるかに優れていることが示されました。 特に難しい TikTok ダンス データセットでは、MagicAnimate はビデオ忠実度において最強のベースラインを 38% 以上上回ります。 チームによる定性的な比較は次のとおりです。 クロス ID の SOTA ベースラインと比較すると、結果は次のようになります。 もう一つ最近、MagicAnimate のようなプロジェクトがかなり人気になっていると言わざるを得ません。 アリババチームは「デビュー」の少し前に、 「Animate Anyone」というプロジェクトもリリースしました。これも「写真」と「希望するアクション」のみを必要とします。 その結果、一部のネットユーザーからは次のような疑問も生じました。
どう思いますか? 論文アドレス: https://arxiv.org/abs/2311.16498 |
<<: 生成 AI によってもたらされるセキュリティ リスクをどう解決するか? Akamai が答えを持っています
>>: 700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業
Informa傘下の世界的に有名な市場調査会社Tractica/Ovumは、30の分野で約300件の...
[[418716]]建築の問題を研究すると、ほぼすべての「新しい」アイデアが、おそらく何十年も前に何...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
11月13日〜14日、江蘇省人工知能学会、ファーウェイ端末クラウドサービス、ファーウェイ南京研究所が...
[[420350]]ベイズの定理は確率モデルにおける最も有名な理論の 1 つであり、機械学習でも広...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
2016年以降、人工知能がニュースに登場する頻度が高まっています。実は、理工系女子の私にとって、子...
英国の情報コミッショナー事務局(ICO)とアラン・チューリング研究所は共同で「AIによる説明決定」ガ...
現在進行中のCOVID-19パンデミックにより、企業がリモートワークを実施する必要性が浮き彫りになり...
機械学習を学びたいですか? まずはこの 10 冊の本から始めましょう。 [[374789]] >...
この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。機械...
マルチモーダル機械学習は、さまざまなシナリオで目覚ましい進歩を遂げています。しかし、マルチモーダル学...