兵馬俑は「Subject Three」を演奏したが、これは予想外のことだった

ご家族の皆さん、世界中で人気の魔法のダンス「Subject Three」、まさか兵馬俑も踊り始めるとは思いもしませんでした！

写真

人気は今も高く、すぐに人気検索リストに載りました。友人たちは皆驚いて「今まで聞いたことも見たこともない」と言っていました。

写真

何が起こっているのか？

このダンスクリップを生成するために、誰かがアリババの以前から人気のあった AI テクノロジー「AnimateAnyone」を使用したことが判明しました。

テクノロジー界隈の友人たちは、この技術をよく知っています。デビューからわずか 1 か月で、このプロジェクトは GitHub ですでに 11,000 を超えるスターを獲得しています。

もっと多くの人が気軽に始められ、体験できるようにしてほしいという声が高まっています。

写真

嬉しいお知らせですが、AnimateAnyone は現在無料でご利用いただけます。

さらに、「入り口」はAli Tongyi Qianwen APPに直接埋め込まれており、名前は「Tongyi Dance King」です。

すぐに、さまざまなエフェクト、ゲームプレイ、キャラクターが動き始めました...たとえば、Weiboユーザーの「Simon_阿文」はナポレオンにパフォーマンスをさせました...

写真

この美しいダンスの姿勢と対照的なイメージは、私の心を本当に広げてくれます。

多くのネットユーザーも考えを変えた。

自分の写真で試してみたいと思います。将来的には、ホームダンスビデオを直接生成できるようになります。

写真

だから、試さずにはいられませんでした。

ベゾスを「Pure Land」に合わせて踊らせよう

Tongyi Qianwen アプリを開き、ダイアログボックスで [One photo to dance] をクリックするだけです。

写真

または、入力ボックスに「Tongyi Dance King」や「National Dance King」などのキーワードを入力して、対応するインターフェイスにジャンプすることもできます。

写真

次の操作は、先ほど言ったとおり、非常に簡単です。

まず、提供されている多数のテンプレートの中から 1 つを選択します。

写真

現在、同義千文アプリは12種類のテンプレートを提供しています。今回は、お気に入りの2次元ダンス「極楽浄土」を選んでテストします〜

次に、テスト対象を選択します。たとえば、私たちは（かつての）世界一の富豪、ベゾスを見つけました。

写真

写真を選ぶ際には、やはりいくつかの「スキル」が必要であり、「Tongyi Dance King」にもそれに応じたヒントがあることに注意してください。

正面に立つ
全身写真
カバーなしの全身
ピッチ角なし

写真

その後、「今すぐ生成」をクリックして数分待つと、ベゾスが「The Pure Land」に合わせて踊るビデオが誕生します。

写真

効果は大丈夫ですか？まだ本物か偽物かは分かりませんが、大金持ちがこのように踊ってくれるなら、他に何が必要ですか？

それだけでなく、「Tongyi Dance King」では、現実のスタイルを生成できるだけでなく、他のスタイルもプレイできます。

たとえば、アニメ風の女の子が DJ スローロックを踊る:

写真

漫画風のキャラクターダンスもあります:

写真

つまり、誰かにダンスをしてもらいたい場合は、全身写真だけで十分です。

しかし、正直に言うと、「同義舞王」は多くのネットユーザーを魅了してプレイさせ、反応も非常に熱狂的でしたが、まだ完璧な状態には達していません。

例えば、待ち時間は現在平均約 10 分です (少し長いですが、結局無料なので、なぜ自転車が必要なのでしょうか?)。

また、動画効果の観点から見ると、写真の角度が良くなかったり、鮮明度が足りなかったりすると、AIによる人物の手の処理にも影響が出ます。

写真

これらの問題は、実際には、その背後にある技術的原理や技術的課題と切り離すことはできません。

これはどうやって行うのですか?

視覚生成タスクにおいて、現在主流となっている方法は拡散モデルです。

しかし、たった 1 枚の写真から動画を生成するとなると、キャラクター画像の一貫性の問題など、依然として多くの課題が残ります。

簡単に言えば、写真内の人物が動いたときに、さまざまなディテールが元の写真と一致するようにする方法です。

この目的のために、Alibaba チームは、先ほど述べた AnimateAnyone である拡散モデルに基づく新しいアルゴリズムを提案しました。

ビデオ出力の効果と品質は、一貫性、制御性、安定性の 3 つの側面から保証されます。

写真

例えば、一貫性の面では、アリババチームは ReferenceNet を導入しました。これは、元の画像情報をキャプチャして保持し、キャラクター、表情、衣服の細部を高度に復元するために使用されます。

具体的には、参照グラフの特徴抽出に関して、ReferenceNet はノイズ除去 UNet に似たフレームワークを採用していますが、時間レイヤーは含まれておらず、元の拡散モデルの重みを継承し、重みを独立して更新します。

ReferenceNet の特徴をノイズ除去 UNet に融合する場合、まず ReferenceNet の特徴マップ x2 が t 回複製され、ノイズ除去 UNet の特徴マップ x1 と w 次元に沿って連結されます。次に、自己注意が実行され、特徴マップの前半が出力として抽出されます。

ReferenceNet は、ノイズ除去 UNet と同数のパラメータを導入しますが、拡散ベースのビデオ生成では、すべてのビデオフレームを複数回ノイズ除去する必要がありますが、ReferenceNet はプロセス全体で特徴を 1 回抽出するだけでよいため、推論中に計算オーバーヘッドが大幅に増加することはありません。

制御性に関しては、Alibaba チームは Pose Guider を使用しています。

Pose Guider は、追加の制御ネットワークを導入する代わりに、軽量設計を採用しています。

具体的には、4 つの畳み込み層 (カーネルサイズ 4×4、ストライド 2×2、チャネル 16、32、64、128) を使用して、ポーズ画像をノイズの多い潜在変数と同じ解像度に揃えます。

処理されたポーズ画像はノイズのある潜在変数に追加され、その後一緒にノイズ除去 UNet に送られるため、計算の複雑さを大幅に増加させることなく、ノイズ除去 UNet にポーズ制御が提供されます。

最後に、安定性の面では、Alibaba チームはタイミング生成モジュールを導入しました。

時間レイヤーの設計は、特徴マップ上の時間次元で自己注意を実行し、残差接続を通じてその特徴を元の特徴に統合する AnimateDiff に触発されています。

同様に、このモジュールは、時間的な連続性と細部の滑らかさを維持しながら、複雑なモーションモデリングの必要性を軽減します。

最後に、AnimateAnyone の助けにより、ビデオ内の画像とキャラクター間の一貫性が保証されます。

写真

これは、AnimateAnyone の背後にある技術原理でもあります。

しかし、Alibaba が AnimateAnyone を最適化するために継続的に取り組んでいるのは、この技術の素晴らしさや可能性だけによるものではなく、ビデオ生成技術をリードするという野心によるものでもある。

なぜなら、誰もが「次は何だろう？」と尋ねていたとき、LVM（Large Vision Model）はすでに盛り上がっていたからです。

次は何ですか?

実は、AnimateAnyoneが人気になった後、アリババには同時期に人気になった別のビデオ生成技術もありました。

これはDreaMovingと呼ばれ、顔写真と一文の説明だけでどこでも踊れるようになります！

たとえば、次の「Wipe the Glass」のダンスビデオ:

写真

必要なのは、ポートレートとプロンプトを「フィード」することだけです:

明るい青色のドレスを着て、微笑みながら黄金色の紅葉の中で踊る少女。

そしてプロンプトが変わると、キャラクターの背景や服装もそれに応じて変化します。たとえば、次の 2 つの文を変更してみましょう。

セーターとズボンを着て、木造の家で笑顔で踊っている女の子。
ドレスのような白いシャツ、長袖、長ズボンを着て、笑顔でタイムズスクエアで踊っている女の子。

写真

AnimateAnyone と同様に、実在の人物、漫画、アニメのキャラクターを扱うことができます。

写真

当時、ネットユーザーからも多くの熱狂と感嘆の声が寄せられた。

これらは、アリババのビデオ生成における「産卵の途中」であり、すべて「エベレスト登山」であり、AIビデオ生成技術への同社のたゆまぬ追求の証拠であり結果です。

なぜ？

過去 1 年間の AIGC の発展を見ると、AI ビデオ生成の爆発的なトレンドがますます明確になっているようです。

2022年末以降、大規模言語モデルの火付け役となった初期のChatGPTから、世界的なテクノロジー大手、さらには新興企業までが市場に参入し、その後、各社は自然言語技術にとどまらず、テキスト生成画像、テキスト生成音声、テキスト生成ビデオ、画像生成ビデオなどのマルチモーダル技術を「プレイ」して新たな高みへと導きました。

産業とは何ですか? LLM (大規模言語モデル) は徐々に LMM (大規模マルチモーダルモデル) へと進化しています。

このことは、この期間に学界と産業界から提出された「宿題」からも確認できます。

Pika 1.0がリリースされ、デビュー直後から業界のトップとなり、多くの著名人が注目しました。
Runway は Gen2 にアップグレードし、数分で高品質の短編映画を作成できるようになりました。
フェイフェイ・リーのWALTもこれに続き、これに焦点を当てました。
Google Gemini 発表イベント、マルチモード連携ゲームプレイを披露。

したがって、マルチモーダル大規模モデルと AI ビデオ生成の分野は現在の AIGC 波のトップであり、アリババがこの分野で頻繁に努力している理由を理解するのは難しくありません。

それだけでなく、年末から来年初めにかけて、多くの AI 大手が 2024 年の予測をこれに賭けています。

たとえば、Meta Research Institute の Martin Signoux 氏は「さようなら LLM、こんにちは LMM」と率直に述べており、この予測は LeCun 氏にも転送され、「いいね」されました。

写真

したがって、次の ChatGPT は誰になるかと聞かれても、おそらく誰も正確な予測はできないでしょう。

しかし、次の ChatGPT はどのトラックから来るのでしょうか? AIによるビデオ生成は独自のブロワーを備えたものであり、この分野ではアリババがすでにリードしています。

参考リンク:
[1]https://weibo.com/1757693565/NA6OhoCo2#comment[2]https://weibo.com/2099591797/NA8fX0eOE?refer_flag=1001030103_

<<: 室温超伝導の続編はあるのでしょうか？中国チームはLK-99がマイスナー効果を持つ可能性があることを再び証明し、論文がアップロードされたばかりである。

>>: 私たちの重要なインフラは人工知能に対応できるでしょうか?

兵馬俑は「Subject Three」を演奏したが、これは予想外のことだった

ベゾスを「Pure Land」に合わせて踊らせよう

これはどうやって行うのですか?

次は何ですか?

機械学習が金融業界に与える影響

人工知能は商業用不動産にどのような影響を与えるでしょうか?

人工知能とモノのインターネット (AIoT) を組み合わせた場合の威力とは?

カメラのようにズームして、写真の細部を塗りつぶし、スタイルをカスタマイズ。AIペイントツールMidjourneyが再びアップデート

AI モデルにバックドアがある可能性があります。チューリング賞受賞者が53ページの論文を発表「悪意ある予測には注意」

農業革命：農業ロボットの台頭

AI、機械学習、ディープラーニングの解放

図解 Raft コンセンサスアルゴリズム: リーダーを選出する方法

AIベースの顔認識は工場にとって次の技術的マイルストーンとなる

AI は RISC「ファミリー」内で論争を引き起こします。MIPS オープンソースは RISC-V や Arm よりも AI に適しているでしょうか?

推薦する

ビジョンから現実へ: ヘルスケアにおける AI の台頭

AI学習製品は本当に子供の成長に良いのでしょうか？

AIが将来のスマートマスモビリティソリューションへの道を切り開く

C#アルゴリズムのプログラム実装に関する面接の質問

ロボットは人間と機械の協働チームの「リーダー」になれるでしょうか?どのように機能しますか?

素晴らしい！ニューラルネットワークがフロントエンドコードを作成します

宜蘭グループインテリジェンスが再び認められ、認知インテリジェンスの飛躍的発展を促進

TENSORFLOW に基づく中国語テキスト分類のための CNN と RNN

汎用人工知能について