ソラに続いて、実は新しいAI動画モデルが登場し、とても素晴らしいのでみんなが転送して絶賛しています! 写真 これによって、『光邊』の悪役、洛翔に変身した高其強も、皆に法(犬頭)を教えることもできる。 これは、Alibaba の最新のオーディオ駆動型ポートレート ビデオ生成フレームワーク、EMO (Emote Portrait Alive) です。 参照画像1枚と音声(話し声、歌声、ラップなど)を入力するだけで、生き生きとした表情のAI動画を生成できます。ビデオの最終的な長さは、入力オーディオの長さによって決まります。 AI 経験の豊富な Mona Lisa に独白を朗読してもらうこともできます。 若くてハンサムなレオは、テンポの速いラップの才能ショーを披露し、彼の唇の動きも問題なくそれに合わせています。 広東語の唇の動きさえも保持できるので、レスリー・チャン兄弟にイーソン・チャンの「Unconditional」を歌わせましょう。 つまり、肖像画に歌わせる(さまざまなスタイルの肖像画と歌)、肖像画に話す(さまざまな言語で)、あるいはさまざまな「誤った」俳優の演技など、EMO 効果は私たちを驚かせます。 ネットユーザーたちは「我々は新たな現実に突入している!」と叫んだ。 2019年版『ジョーカー』は2008年版『バットマン ダークナイト』のセリフを言う 一部のネットユーザーは、EMO で生成されたビデオをレビューし、その効果をフレームごとに分析し始めています。 下の動画にあるように、主人公はソラが生成したAIのお嬢様で、今回彼女がみんなに歌ってくれた曲は「Don't Start Now」です。 Twitterユーザーは次のように分析した。
写真 結局のところ、EMO は注目の新技術なので、類似製品と比較することは避けられません。 ちょうど昨日、AI動画生成会社ピカも、動画の登場人物の吹き替えとリップシンクを同時に行えるリップシンク機能をリリースし、他の製品と衝突した。 具体的な効果は?ここに載せておきます。 比較した結果、コメント欄のネットユーザーはアリババが勝ったと結論付けた。 写真 EMO は論文を公開し、オープンソース化すると発表した。 しかし!オープンソースではありますが、GitHub にはまだインベントリがありません。 しかしまた!短いですが星の数が2.1kを超えました。 写真 これにより、ネットユーザーはジジ王と同じくらい不安になった。 ソラとは異なるアーキテクチャEMO 論文が発表されると、関係者の多くが安堵のため息をついた。 これはソラの技術的なルートとは異なり、ソラを複製することが唯一の方法ではないことを意味します。 EMO は同様の DiT アーキテクチャに基づいていません。つまり、従来の UNet を置き換えるために Transformer を使用しません。そのバックボーン ネットワークは Stable Diffusion 1.5 から変更されています。 具体的には、EMO は、入力ビデオの長さに応じて任意の長さのビデオを生成できる、表現力豊かなオーディオ駆動型のポートレート ビデオ生成フレームワークです。 写真 フレームワークは主に 2 つの段階で構成されます。
ReferenceNet と呼ばれる UNet ネットワークが展開され、参照画像やビデオのフレームから特徴を抽出します。
まず、事前トレーニング済みのオーディオ エンコーダーがオーディオ埋め込みを処理し、顔領域マスクをマルチフレーム ノイズと組み合わせて顔画像の生成を制御します。 続いて、バックボーン ネットワーク主導のノイズ除去操作が実行されます。バックボーン ネットワークでは、参照アテンションとオーディオ アテンションの 2 種類のアテンションが適用され、それぞれキャラクターのアイデンティティの一貫性を維持し、キャラクターの動きを制御します。 さらに、時間モジュールは時間の次元を操作し、移動の速度を調整するために使用されます。 トレーニング データに関しては、チームは 250 時間以上のビデオと 1,500 万枚以上の画像を含む大規模で多様なオーディオおよびビデオ データセットを構築しました。 最終的に実現した具体的な機能は次のとおりです。
写真 定量的な比較では、リップシンク品質を測定する SyncNet 指標よりわずかに劣るものの、従来の方法に比べて大幅に改善された SOTA も達成しました。 写真 拡散モデルに依存しない他の方法と比較すると、EMO は時間がかかります。 また、明示的な制御信号が使用されていないため、手などの他の体の部分が意図せず生成される可能性があります。潜在的な解決策としては、体の部分専用の制御信号を採用することが挙げられます。 EMOチーム最後に、EMO の背後にあるチームを見てみましょう。 この論文によると、EMO チームは Alibaba Intelligent Computing Research Institute から来たとのことです。 著者はLinrui Tian、Qi Wang、Bang Zhang、Liefeng Boの4人です。 写真 そのうち、Liefeng Bo 氏は現在、Alibaba Tongyi Laboratory の XR 研究室の責任者を務めています。 Liefeng Bo 博士は西安電電大学を卒業し、シカゴ大学とワシントン大学のトヨタ研究所で博士研究員として研究を行いました。彼の研究は、ML、CV、ロボティクスに重点を置いています。 Google Scholar の引用数は 13,000 件を超えています。 アリババに入社する前は、アマゾンのシアトル本社で主任科学者を務め、その後、JDデジタルテクノロジーグループのAI研究所に主任科学者として入社した。 2022年9月、Bo LiefengがAlibabaに入社しました。 写真 EMOは、アリババがAIGC分野で優れた成果を達成した初めてのケースではない。 写真 OutfitAnyone は AI によるワンクリックでの衣装変更が可能です。 写真 世界中の猫や犬にお風呂ダンスをさせる「AnimateAnyone」もあります。 それは次の通りです。 写真 EMOが立ち上げられた今、多くのネットユーザーはアリババが技術的専門知識を蓄積してきたことを嘆いている。 写真 これらすべてのテクノロジーを組み合わせると、その効果は... 考えたくないけど、楽しみにしています。 写真 つまり、「AIに脚本を送って映画全体を出力する」という状態にどんどん近づいているのです。 写真 もう一つSora は、テキスト駆動型のビデオ合成における画期的な進歩を表しています。 EMO は、オーディオ主導のビデオ合成の新しいレベルも表しています。 これら 2 つはタスクと特定のアーキテクチャが異なりますが、重要な共通点が 1 つあります。 途中で明示的な物理モデルは追加されませんでしたが、それらはすべてある程度物理法則をシミュレートしました。 そのため、これは「アクションに対してピクセルを生成することで世界をモデル化することは無駄が多く、失敗する運命にある」というLecunの見解と矛盾し、Jim Fanの「データ駆動型世界モデル」の考え方を支持すると考える人もいます。 写真 これまでさまざまな方法が失敗してきましたが、現在の成功は、強化学習の父サットンの「苦い教訓」によるところが大きいかもしれません。大きな努力は奇跡を起こすことができます。
論文: https://arxiv.org/pdf/2402.17485.pdfGitHub: https://github.com/HumanAIGC/EMO 参考リンク: |
<<: 副操縦士が狂って「スカイネット」に変身し、人類を支配しようと脅迫する!マイクロソフトは釈明したがネットユーザーは信じなかった。昨年もクレイジーだった
>>: Microsoft の 6 ページの論文が話題に: Ternary LLM、とてもクール!
ResearchAndMarkets が発表した最新のレポートによると、2027 年までに世界の人...
信頼できる人工知能(AI)データ企業であるClouderaの新しい調査によると、米国の組織の半数以上...
DeepFake は顔を本物らしく入れ替えることができますが、髪の毛の場合は同じことはできません。現...
「プログラム合成」または「コード生成」タスクの目標は、与えられた記述に基づいて実行可能なコードを生成...
偽造品、アルゴリズムの偏り、その他の問題が私たちの日常生活に及ぼす影響[[323166]]過去数年間...
類似の質問とは何ですか? また、なぜ類似の質問を書く必要があるのですか?類似質問はロボット教育を改善...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
本日、Yushu Technology は、中国で正式に一般に公開される初の四足歩行ロボットとなる四...
メタバースの泥沼からザッカーバーグを救ったのがオープンソースの AI だと誰が思っただろうか? Fa...
[[172688]]序文8 つのソート アルゴリズムと 3 つの検索アルゴリズムは、データ構造におけ...
Google が今年の夏に関連ビデオを公開したことに続くもの。昨日、Google の主任検索エンジニ...