AI 生成ビデオにもう一つ大きな爆弾があるのでしょうか?アリ・エモはレオがラップし、ガオ・チチアンが法律を広めるなど、素晴らしいデビューを果たした。

AI 生成ビデオにもう一つ大きな爆弾があるのでしょうか?アリ・エモはレオがラップし、ガオ・チチアンが法律を広めるなど、素晴らしいデビューを果たした。

執筆者 | Yifeng

2月中、ソラは当然のAIスターとなり、彼が公開した2つのAIビデオは数え切れないほどの注目を集めました。 2月末に、私たちを驚かせる別のビデオ世代の「出場者」が現れるとは予想していませんでした。

それがアリババの新しいビデオ生成フレームワーク、EMO(Emote Portrait Alive)です。 EMO は拡散モデルに基づいており、画像と音声のみを提供することで表現力豊かなポートレート動画を生成できます。公開されたビデオから判断すると、EMO はポートレートの動き、唇の形、表情の生成に優れており、Sora と同じ豊かな「プレイアビリティ」を示し、あらゆる種類の想像力豊かで創造的なビデオを多数完成させることができます。

エモ感あふれる肖像画は、歌ったり、セリフを話したり、さらにはラップをしたりすることもできます。サンプルビデオでは、EMOの多様な生成能力と優れた実装効果が紹介されており、アリババチームによる「公式アクティビティ」も多数含まれています。

EMO を使えば、モナリザがただ神秘的に微笑むだけでなく、人気曲「花」を心を込めて歌ったり、蔡旭坤が早口を披露してエミネムに匹敵する「ラップの神」になったり、悪役の高其強が心機一転して法学教育チームに参加したりと、あらゆる動画が想像力に満ちていると言わざるを得ません。

1. 歌うことにこだわれば、誰もが歌手になれる

写真に描かれた AI によって生成されたモナリザは、神秘的で静かな山々に囲まれており、遠くには果てしなく広がる緑の植物と道路が広がっています。こんなに美しい景色に囲まれて、モナ・リザはマイリー・サイラスの「Flowers」を歌わずにはいられませんでした。モナ・リザが恍惚とした表情で歌うとき、彼女は自信に満ちた笑顔を見せるだけでなく、ときどき目を閉じて歌に完全に没頭し、聴く人に非常にリアルな視聴覚体験を与えます。

ソラのビデオでパリの街を歩く革ジャンの女性も、EMO生成効果を体験しました。この動画では、「そらさん」が自然に首を動かすだけでなく、力を入れたときの眉毛の動きや呼吸の感じにもとても驚かされます。さらに、EMOはイヤリングの揺れやサングラスの映り込みまでもリアルに再現しています。

2. 2次元から3次元まで、複数の言語を歌える

動画では、銀髪と緑の瞳を持つ繊細な少女が太陽に向かって、寧一卓のカバーバージョン「Melody」を歌い、中国語と英語を自然かつスムーズに切り替えている。このビデオを動かす画像も AI によって生成されていますが、全体的な効果は本物の美しいアンカーのようなものであることは特筆に値します。

写真の「兄弟」レスリー・チャンはイーソンの曲「Unconditional」を歌っている。一部のネットユーザーは、この動画はEMOが広東語を話すときに生成する唇の動きが十分に自然ではないことを明らかにしていると考えている。この動画を見ると、音と映像がずれているように感じるのではないでしょうか。もちろん、この動画での兄弟の喜びとポジティブな感情は、「Unconditional」の歌詞の感情的なトーンとは矛盾しており、それが私たちが「何かがおかしい」と感じる理由の1つかもしれません。

3. ラップの神様のように、欠点を一切残さずに速く話す

動画では、まだおじさんになっていないハンサムなバージョンの「レオ」が、エミネムの「GODZILLA」を歌っている。運転中の映像から判断すると、肖像画のキャラクターの表情がラップのリズムと自然に調和しており、途中の休止時の表情も非常に伝染性がある。

以下のビデオは


クンクンに「ラップ神」を歌ってもらうことほど抽象的な行為はない。どういうわけか、両方のラップ例ではエミネムの曲が選ばれており、これもアリババチームが自分たちのスキルを披露するための方法なのかもしれません。

4. 対話も成り立ち、悪人に対する法律の普及も夢ではない

このビデオでは、2008年の映画「ダークナイト」のジョッカーの有名なセリフ「なぜそんなに深刻なんだ?その顔に笑顔を浮かべよう」が使われ、2019年版のジョッカーを動かしている。ピエロの顔のペイントは筋肉の動きに合わせて自然に動きます。

このビデオは、強兄弟と「無法者張三」を結びつけています。動画では、高其強さんが「緊急ヘッジ」の概念をみんなに説明しています。どうやら、高其強兄さんは飢え死にしそうな時、魚を食べるだけでなく、パンダや金色の猿も食べるそうです。

動画ソース: https://humanaigc.github.io/emote-portrait-alive/

<<:  GPT をゼロから構築するための 60 行のコード!最も完全な実践ガイドはここにあります

>>:  「概念のドリフト」問題と闘おう! Google が新しい時間認識フレームワークをリリース: 画像認識精度が 15% 向上

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

国内初の大規模模造品対策訴訟:アリババクラウドが偽造同義千聞アプリを提訴、一審で勝訴

1月16日、中国における大型モデルの偽造品撲滅活動で初の成功事例が発表された。アリババクラウドとアリ...

Google が 17 分野を網羅し 18,000 の注釈を付した大規模な対話コーパスを公開

Google アシスタントのような AI アシスタントは、追加データや再トレーニングを必要とせずに、...

...

未来を待つ必要はありません。分析と AI の災害はすでに起こっています。

データと機械学習アルゴリズムから得られる洞察は非常に貴重ですが、ミスは評判、収益、さらには命を奪う可...

「顔認識」時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

ビッグデータが地球を救う10の方法

近年、多くの物事の成功はテクノロジーの進歩によるものと言えます。その一つは、気候変動のリスクから地球...

Nature: DeepMind の大規模モデルが 60 年前の数学的問題を突破、その解決法は人間の認識力を超える

Google DeepMind の最新の成果が再び Nature に掲載され、大規模なモデルを使用し...

この「水中トランスフォーマー」はNASAによって困難な水中作業のためにテストされている。

[[273668]] ▲写真:アクアノートロボットがNASAの中立実験室で水中浮遊テストを受けてい...

AIコンピューティングのトレンド分析:4年後には、次のAlphaGoをプレイできる人は誰もいない

OpenAI は最近、さまざまな期間における最先端の AI 実験で消費されたコンピューティング量に関...

スマートビルディングにおけるエッジAIの役割を解明

仕事や住居のための物理的な空間として機能することから、入居者に活気ある建築体験を提供することまで、近...

AIが大学入試のエッセイを書いたら何点取れるでしょうか?

みなさんこんにちは。私はシュイです。気がつけば、またこの2日間で大学入試の時期になりました。私が大学...

モデルはわずか7M:軽量で高精度な顔認識方式DBFace

わずか 7M サイズのこの顔認識モデルは、世界最大の自撮り写真に写っているほぼすべての人物を認識しま...

95 年以降の DAMO アカデミーのインターン生がマイクロソフトに勝ち、最も難しい NLP タスクの世界記録を更新

アリババAIは、常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記録を...

ステッカーでAIから見えなくなったら、AIにとんでもないバグが発生した

研究により、印刷されたステッカーだけで AI システムを「騙す」ことができ、検出システムが目の前にい...

テスラのAIディレクター、カルパシー氏は、すべてのMLモデルをTransformerで定義することでAI統合のトレンドについてツイートした。

本日、テスラAIのディレクターであり、オートパイロットビジョンチームのリーダーであるアンドレイ・カル...