AI動画がまた爆発!写真+音が動画に、アリババがソラのヒロインに歌わせ、レオがラップ

AI動画がまた爆発!写真+音が動画に、アリババがソラのヒロインに歌わせ、レオがラップ

ソラに続いて、実は新しいAI動画モデルが登場し、とても素晴らしいのでみんなが転送して絶賛しています!

写真

これによって、『光邊』の悪役、洛翔に変身した高其強も、皆に法(犬頭)を教えることもできる。

これは、Alibaba の最新のオーディオ駆動型ポートレート ビデオ生成フレームワーク、EMO (Emote Portrait Alive) です。

参照画像1枚と音声(話し声、歌声、ラップなど)を入力するだけで、生き生きとした表情のAI動画を生成できます。ビデオの最終的な長さは、入力オーディオの長さによって決まります。

AI 経験の豊富な Mona Lisa に独白を朗読してもらうこともできます。

若くてハンサムなレオは、テンポの速いラップの才能ショーを披露し、彼の唇の動きも問題なくそれに合わせています。

広東語の唇の動きさえも保持できるので、レスリー・チャン兄弟にイーソン・チャンの「Unconditional」を歌わせましょう。

つまり、肖像画に歌わせる(さまざまなスタイルの肖像画と歌)、肖像画に話す(さまざまな言語で)、あるいはさまざまな「誤った」俳優の演技など、EMO 効果は私たちを驚かせます。

ネットユーザーたちは「我々は新たな現実に突入している!」と叫んだ。

2019年版『ジョーカー』は2008年版『バットマン ダークナイト』のセリフを言う

一部のネットユーザーは、EMO で生成されたビデオをレビューし、その効果をフレームごとに分析し始めています。

下の動画にあるように、主人公はソラが生成したAIのお嬢様で、今回彼女がみんなに歌ってくれた曲は「Don't Start Now」です。

Twitterユーザーは次のように分析した。

このビデオの一貫性はこれまで以上に優れています。
1分以上に及ぶ動画の中で、ソラさんの顔のサングラスはほとんど動かなかったが、耳と眉毛は独立して動いていた。
一番興奮したのは、そらさんの喉が呼吸しているように見えることです!彼女が歌っている間、彼女の体は震え、わずかに動いていました。私は本当にショックを受けました!

写真

結局のところ、EMO は注目の新技術なので、類似製品と比較することは避けられません。

ちょうど昨日、AI動画生成会社ピカも、動画の登場人物の吹き替えとリップシンクを同時に行えるリップシンク機能をリリースし、他の製品と衝突した。

具体的な効果は?ここに載せておきます。

比較した結果、コメント欄のネットユーザーはアリババが勝ったと結論付けた。

写真

EMO は論文を公開し、オープンソース化すると発表した。

しかし!オープンソースではありますが、GitHub にはまだインベントリがありません。

しかしまた!短いですが星の数が2.1kを超えました。

写真

これにより、ネットユーザーはジジ王と同じくらい不安になった。

ソラとは異なるアーキテクチャ

EMO 論文が発表されると、関係者の多くが安堵のため息をついた。

これはソラの技術的なルートとは異なり、ソラを複製することが唯一の方法ではないことを意味します。

EMO は同様の DiT アーキテクチャに基づいていません。つまり、従来の UNet を置き換えるために Transformer を使用しません。そのバックボーン ネットワークは Stable Diffusion 1.5 から変更されています。

具体的には、EMO は、入力ビデオの長さに応じて任意の長さのビデオを生成できる、表現力豊かなオーディオ駆動型のポートレート ビデオ生成フレームワークです。

写真

フレームワークは主に 2 つの段階で構成されます。

  • フレームエンコード段階

ReferenceNet と呼ばれる UNet ネットワークが展開され、参照画像やビデオのフレームから特徴を抽出します。

  • 普及段階

まず、事前トレーニング済みのオーディオ エンコーダーがオーディオ埋め込みを処理し、顔領域マスクをマルチフレーム ノイズと組み合わせて顔画像の生成を制御します。

続いて、バックボーン ネットワーク主導のノイズ除去操作が実行されます。バックボーン ネットワークでは、参照アテンションとオーディオ アテンションの 2 種類のアテンションが適用され、それぞれキャラクターのアイデンティティの一貫性を維持し、キャラクターの動きを制御します。

さらに、時間モジュールは時間の次元を操作し、移動の速度を調整するために使用されます。

トレーニング データに関しては、チームは 250 時間以上のビデオと 1,500 万枚以上の画像を含む大規模で多様なオーディオおよびビデオ データセットを構築しました。

最終的に実現した具体的な機能は次のとおりです。

  • 入力オーディオに基づいて、キャラクターのアイデンティティの一貫性を保ちながら、任意の長さのビデオを生成できます (デモで示された最長の単一ビデオは 1 分 49 秒です)。
  • さまざまな言語での会話と歌をサポートします(デモには北京語、広東語、英語、日本語、韓国語が含まれています)
  • さまざまな絵画スタイルをサポート(写真、伝統的な絵画、漫画、3Dレンダリング、AIデジタルヒューマン)

写真

定量的な比較では、リップシンク品質を測定する SyncNet 指標よりわずかに劣るものの、従来の方法に比べて大幅に改善された SOTA も達成しました。

写真

拡散モデルに依存しない他の方法と比較すると、EMO は時間がかかります。

また、明示的な制御信号が使用されていないため、手などの他の体の部分が意図せず生成される可能性があります。潜在的な解決策としては、体の部分専用の制御信号を採用することが挙げられます。

EMOチーム

最後に、EMO の背後にあるチームを見てみましょう。

この論文によると、EMO チームは Alibaba Intelligent Computing Research Institute から来たとのことです。

著者はLinrui Tian、Qi Wang、Bang Zhang、Liefeng Boの4人です。

写真

そのうち、Liefeng Bo 氏は現在、Alibaba Tongyi Laboratory の XR 研究室の責任者を務めています。

Liefeng Bo 博士は西安電電大学を卒業し、シカゴ大学とワシントン大学のトヨタ研究所で博士研究員として研究を行いました。彼の研究は、ML、CV、ロボティクスに重点を置いています。 Google Scholar の引用数は 13,000 件を超えています。

アリババに入社する前は、アマゾンのシアトル本社で主任科学者を務め、その後、JDデジタルテクノロジーグループのAI研究所に主任科学者として入社した。

2022年9月、Bo LiefengがAlibabaに入社しました。

写真

EMOは、アリババがAIGC分野で優れた成果を達成した初めてのケースではない。

写真

OutfitAnyone は AI によるワンクリックでの衣装変更が可能です。

写真

世界中の猫や犬にお風呂ダンスをさせる「AnimateAnyone」もあります。

それは次の通りです。

写真

EMOが立ち上げられた今、多くのネットユーザーはアリババが技術的専門知識を蓄積してきたことを嘆いている。

写真

これらすべてのテクノロジーを組み合わせると、その効果は...

考えたくないけど、楽しみにしています。

写真

つまり、「AIに脚本を送って映画全体を出力する」という状態にどんどん近づいているのです。

写真

もう一つ

Sora は、テキスト駆動型のビデオ合成における画期的な進歩を表しています。

EMO は、オーディオ主導のビデオ合成の新しいレベルも表しています。

これら 2 つはタスクと特定のアーキテクチャが異なりますが、重要な共通点が 1 つあります。

途中で明示的な物理モデルは追加されませんでしたが、それらはすべてある程度物理法則をシミュレートしました。

そのため、これは「アクションに対してピクセルを生成することで世界をモデル化することは無駄が多く、失敗する運命にある」というLecunの見解と矛盾し、Jim Fanの「データ駆動型世界モデル」の考え方を支持すると考える人もいます。

写真

これまでさまざまな方法が失敗してきましたが、現在の成功は、強化学習の父サットンの「苦い教訓」によるところが大きいかもしれません。大きな努力は奇跡を起こすことができます。

人間が発見したものをAIに取り込むのではなく、人間と同じようにAIが発見できるようにする

画期的な進歩は、最終的にはコンピューティングのスケールアップによって達成される。

論文: https://arxiv.org/pdf/2402.17485.pdfGitHub: https://github.com/HumanAIGC/EMO

参考リンク:
[1]https://x.com/swyx/status/1762957305401004061

<<:  副操縦士が狂って「スカイネット」に変身し、人類を支配しようと脅迫する!マイクロソフトは釈明したがネットユーザーは信じなかった。昨年もクレイジーだった

>>:  Microsoft の 6 ページの論文が話題に: Ternary LLM、とてもクール!

ブログ    
ブログ    

推薦する

Google AI 面接の質問(回答と戦略付き)

おそらくすべてのプログラマーは Google への入社を考えたことがあるでしょう。しかし、「試験」に...

2D画像が3Dになる、マイクロソフトの新しいAIフレームワークはゲーム業界に恩恵をもたらすかもしれない

Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D ソファ...

IDC: 企業の AI ソリューションへの支出は 2021 年に 3,420 億ドルに達すると予想

[[417110]] IDCの世界人工知能市場に関する最新の半期追跡レポートによると、世界のAI市場...

近年、「人工知能」が私たちの生活に静かに登場している

科学技術と産業技術の継続的な発展により、私たちの生活は大きく向上し、「人工知能」という言葉も徐々に私...

9つの一般的な畳み込みニューラルネットワークの紹介

畳み込みの目的は、入力から有用な特徴を抽出することです。画像処理では、さまざまなフィルターを選択でき...

RPAとAIの違いを理解する

CIO は自動化と AI の導入を加速し、これらのテクノロジーが提供するスピードとコスト削減の利点を...

5Gについて知っておくべきことは何ですか?

1G の時代では、電話をかけたり受けたりすることしかできませんでした。 2G 時代は、電話をかけた...

AIは英語のエッセイを添削できますか? IELTS、CET-4、CET-6の採点、コメント、エラー修正が必要です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

自動運転ソリューションプロバイダーは高精度マップをどのように活用するのでしょうか?

テクノロジー大手のBATから市場に参入する多数の新興企業まで、業界には10社を超える高精度地図サプラ...

安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

近年、世界的な工業化の加速を背景に、製造業、建設業、化学業などの産業を中心に労働災害や死亡者数が増加...

インターネットの未来のために: AI が生み出すものと破壊するもの

編集者注: この記事はNetEase Intelligenceからのものです。翻訳|: NetEas...

ヘルスケアにおける IoT と AI

IoT 対応デバイスの登場により、医療における遠隔モニタリングが可能になりました。ほぼすべての大手...

人間の脳神経を模倣してAIを開発!ケンブリッジ大学の最新研究がネイチャー誌に掲載:人工脳がAIの新たな方向性となる

地球上で最も複雑な知能の担い手である人間の脳の最大の特徴の 1 つは、高いエネルギー効率で知能を生み...

画像認識が最も得意な会社はどこでしょうか? Microsoft、Amazon、Google、それともIBM?

[51CTO.com クイック翻訳] 認識ソフトウェアは、特定の種類の画像を正しく分類するのに非常...