兵馬俑は「Subject Three」を演奏したが、これは予想外のことだった

兵馬俑は「Subject Three」を演奏したが、これは予想外のことだった

ご家族の皆さん、世界中で人気の魔法のダンス「Subject Three」、まさか兵馬俑も踊り始めるとは思いもしませんでした!

写真

人気は今も高く、すぐに人気検索リストに載りました。友人たちは皆驚いて「今まで聞いたことも見たこともない」と言っていました。

写真

何が起こっているのか?

このダンスクリップを生成するために、誰かがアリババの以前から人気のあった AI テクノロジー「AnimateAnyone」を使用したことが判明しました。

テクノロジー界隈の友人たちは、この技術をよく知っています。デビューからわずか 1 か月で、このプロジェクトは GitHub ですでに 11,000 を超えるスターを獲得しています。

もっと多くの人が気軽に始められ、体験できるようにしてほしいという声が高まっています。

写真

嬉しいお知らせですが、AnimateAnyone は現在無料でご利用いただけます。

さらに、「入り口」はAli Tongyi Qianwen APPに直接埋め込まれており、名前は「Tongyi Dance King」です。

すぐに、さまざまなエフェクト、ゲームプレイ、キャラクターが動き始めました...たとえば、Weiboユーザーの「Simon_阿文」はナポレオンにパフォーマンスをさせました...

写真

この美しいダンスの姿勢と対照的なイメージは、私の心を本当に広げてくれます。

多くのネットユーザーも考えを変えた。

自分の写真で試してみたいと思います。将来的には、ホームダンスビデオを直接生成できるようになります。

写真

だから、試さずにはいられませんでした。

ベゾスを「Pure Land」に合わせて踊らせよう

Tongyi Qianwen アプリを開き、ダイアログ ボックスで [One photo to dance] をクリックするだけです。

写真

または、入力ボックスに「Tongyi Dance King」や「National Dance King」などのキーワードを入力して、対応するインターフェイスにジャンプすることもできます。

写真

次の操作は、先ほど言ったとおり、非常に簡単です。

まず、提供されている多数のテンプレートの中から 1 つを選択します。

写真

現在、同義千文アプリは12種類のテンプレートを提供しています。今回は、お気に入りの2次元ダンス「極楽浄土」を選んでテストします〜

次に、テスト対象を選択します。たとえば、私たちは(かつての)世界一の富豪、ベゾスを見つけました。

写真

写真を選ぶ際には、やはりいくつかの「スキル」が必要であり、「Tongyi Dance King」にもそれに応じたヒントがあることに注意してください。

  • 正面に立つ
  • 全身写真
  • カバーなしの全身
  • ピッチ角なし

写真

その後、「今すぐ生成」をクリックして数分待つと、ベゾスが「The Pure Land」に合わせて踊るビデオが誕生します。

写真

効果は大丈夫ですか?まだ本物か偽物かは分かりませんが、大金持ちがこのように踊ってくれるなら、他に何が必要ですか?

それだけでなく、「Tongyi Dance King」では、現実のスタイルを生成できるだけでなく、他のスタイルもプレイできます。

たとえば、アニメ風の女の子が DJ スロー ロックを踊る:

写真

漫画風のキャラクターダンスもあります:

写真

つまり、誰かにダンスをしてもらいたい場合は、全身写真だけで十分です。

しかし、正直に言うと、「同義舞王」は多くのネットユーザーを魅了してプレイさせ、反応も非常に熱狂的でしたが、まだ完璧な状態には達していません。

例えば、待ち時間は現在平均約 10 分です (少し長いですが、結局無料なので、なぜ自転車が必要なのでしょうか?)。

また、動画効果の観点から見ると、写真の角度が良くなかったり、鮮明度が足りなかったりすると、AIによる人物の手の処理にも影響が出ます。

写真

これらの問題は、実際には、その背後にある技術的原理や技術的課題と切り離すことはできません。

これはどうやって行うのですか?

視覚生成タスクにおいて、現在主流となっている方法は拡散モデルです。

しかし、たった 1 枚の写真から動画を生成するとなると、キャラクター画像の一貫性の問題など、依然として多くの課題が残ります。

簡単に言えば、写真内の人物が動いたときに、さまざまなディテールが元の写真と一致するようにする方法です。

この目的のために、Alibaba チームは、先ほど述べた AnimateAnyone である拡散モデルに基づく新しいアルゴリズムを提案しました。

ビデオ出力の効果と品質は、一貫性、制御性、安定性の 3 つの側面から保証されます。

写真

例えば、一貫性の面では、アリババチームは ReferenceNet を導入しました。これは、元の画像情報をキャプチャして保持し、キャラクター、表情、衣服の細部を高度に復元するために使用されます。

具体的には、参照グラフの特徴抽出に関して、ReferenceNet はノイズ除去 UNet に似たフレームワークを採用していますが、時間レイヤーは含まれておらず、元の拡散モデルの重みを継承し、重みを独立して更新します。

ReferenceNet の特徴をノイズ除去 UNet に融合する場合、まず ReferenceNet の特徴マップ x2 が t 回複製され、ノイズ除去 UNet の特徴マップ x1 と w 次元に沿って連結されます。次に、自己注意が実行され、特徴マップの前半が出力として抽出されます。

ReferenceNet は、ノイズ除去 UNet と同数のパラメータを導入しますが、拡散ベースのビデオ生成では、すべてのビデオ フレームを複数回ノイズ除去する必要がありますが、ReferenceNet はプロセス全体で特徴を 1 回抽出するだけでよいため、推論中に計算オーバーヘッドが大幅に増加することはありません。

制御性に関しては、Alibaba チームは Pose Guider を使用しています。

Pose Guider は、追加の制御ネットワークを導入する代わりに、軽量設計を採用しています。

具体的には、4 つの畳み込み層 (カーネル サイズ 4×4、ストライド 2×2、チャネル 16、32、64、128) を使用して、ポーズ画像をノイズの多い潜在変数と同じ解像度に揃えます。

処理されたポーズ画像はノイズのある潜在変数に追加され、その後一緒にノイズ除去 UNet に送られるため、計算の複雑さを大幅に増加させることなく、ノイズ除去 UNet にポーズ制御が提供されます。

最後に、安定性の面では、Alibaba チームはタイミング生成モジュールを導入しました。

時間レイヤーの設計は、特徴マップ上の時間次元で自己注意を実行し、残差接続を通じてその特徴を元の特徴に統合する AnimateDiff に触発されています。

同様に、このモジュールは、時間的な連続性と細部の滑らかさを維持しながら、複雑なモーション モデリングの必要性を軽減します。

最後に、AnimateAnyone の助けにより、ビデオ内の画像とキャラクター間の一貫性が保証されます。

写真

これは、AnimateAnyone の背後にある技術原理でもあります。

しかし、Alibaba が AnimateAnyone を最適化するために継続的に取り組んでいるのは、この技術の素晴らしさや可能性だけによるものではなく、ビデオ生成技術をリードするという野心によるものでもある。

なぜなら、誰もが「次は何だろう?」と尋ねていたとき、LVM(Large Vision Model)はすでに盛り上がっていたからです。

次は何ですか?

実は、AnimateAnyoneが人気になった後、アリババには同時期に人気になった別のビデオ生成技術もありました。

これはDreaMovingと呼ばれ、顔写真と一文の説明だけでどこでも踊れるようになります!

たとえば、次の「Wipe the Glass」のダンス ビデオ:

写真

必要なのは、ポートレートとプロンプトを「フィード」することだけです:

明るい青色のドレスを着て、微笑みながら黄金色の紅葉の中で踊る少女。

そしてプロンプトが変わると、キャラクターの背景や服装もそれに応じて変化します。たとえば、次の 2 つの文を変更してみましょう。

セーターとズボンを着て、木造の家で笑顔で踊っている女の子。

ドレスのような白いシャツ、長袖、長ズボンを着て、笑顔でタイムズスクエアで踊っている女の子。

写真

AnimateAnyone と同様に、実在の人物、漫画、アニメのキャラクターを扱うことができます。

写真

当時、ネットユーザーからも多くの熱狂と感嘆の声が寄せられた。

これらは、アリババのビデオ生成における「産卵の途中」であり、すべて「エベレスト登山」であり、AIビデオ生成技術への同社のたゆまぬ追求の証拠であり結果です。

なぜ?

過去 1 年間の AIGC の発展を見ると、AI ビデオ生成の爆発的なトレンドがますます明確になっているようです。

2022年末以降、大規模言語モデルの火付け役となった初期のChatGPTから、世界的なテクノロジー大手、さらには新興企業までが市場に参入し、その後、各社は自然言語技術にとどまらず、テキスト生成画像、テキスト生成音声、テキスト生成ビデオ、画像生成ビデオなどのマルチモーダル技術を「プレイ」して新たな高みへと導きました。

産業とは何ですか? LLM (大規模言語モデル) は徐々に LMM (大規模マルチモーダルモデル) へと進化しています。

このことは、この期間に学界と産業界から提出された「宿題」からも確認できます。

  • Pika 1.0がリリースされ、デビュー直後から業界のトップとなり、多くの著名人が注目しました。
  • Runway は Gen2 にアップグレードし、数分で高品質の短編映画を作成できるようになりました。
  • フェイフェイ・リーのWALTもこれに続き、これに焦点を当てました。
  • Google Gemini 発表イベント、マルチモード連携ゲームプレイを披露。

したがって、マルチモーダル大規模モデルと AI ビデオ生成の分野は現在の AIGC 波のトップであり、アリババがこの分野で頻繁に努力している理由を理解するのは難しくありません。

それだけでなく、年末から来年初めにかけて、多くの AI 大手が 2024 年の予測をこれに賭けています。

たとえば、Meta Research Institute の Martin Signoux 氏は「さようなら LLM、こんにちは LMM」と率直に述べており、この予測は LeCun 氏にも転送され、「いいね」されました。

写真

したがって、次の ChatGPT は誰になるかと聞かれても、おそらく誰も正確な予測はできないでしょう。

しかし、次の ChatGPT はどのトラックから来るのでしょうか? AIによるビデオ生成は独自のブロワーを備えたものであり、この分野ではアリババがすでにリードしています。

参考リンク:
[1]https://weibo.com/1757693565/NA6OhoCo2#comment[2]https://weibo.com/2099591797/NA8fX0eOE?refer_flag=1001030103_

<<:  室温超伝導の続編はあるのでしょうか?中国チームはLK-99がマイスナー効果を持つ可能性があることを再び証明し、論文がアップロードされたばかりである。

>>:  私たちの重要なインフラは人工知能に対応できるでしょうか?

推薦する

NIOはまたしても窮地に陥った!運転支援の責任は誰が負うべきでしょうか?

[[417840]]運転支援機能がまた事故を起こした。昨日、「Meiyihao」という公開アカウン...

...

Python 向けトップ 3 機械学習ライブラリ

[51CTO.com クイック翻訳] 難しいデータサイエンスを習得しなくても、機械学習の世界で成功で...

2021年になっても、データにラベルを付ける方法がまだわかりませんか?なぜ人工知能にはデータ注釈が必要なのでしょうか?

「データを持っている者は人工知能を持っている。」現在、人工知能は私たちの生活の中で当たり前のものに...

...

...

グラフニューラルネットワークに基づくOPPOの検索推奨アルゴリズムと実践

1. グラフニューラルネットワーク入門グラフ ニューラル ネットワークについて説明する前に、まずグラ...

目に見えないAI技術は、知的な世界の秘密を理解するのに役立ちます

今日のインターネット技術の急速な発展により、目に見えないAI技術は生活のあらゆる側面に浸透しています...

量子コンピューティング OpenAI が登場?元Google社員3人のチームが、物理学の限界に挑戦するAIコンピューティングチップを開発するために1億人民元を調達

生成型 AI の時代では、コンピューティング能力が技術開発の限界となっていることは明らかです。 Nv...

人工知能とデータ分析の新たなトレンド

明らかに、AI とデータ分析の世界はダイナミックな変化の真っ只中にあります。将来は、イノベーションと...

AI、VR、ブロックチェーンにより、新しい時代は貧しい人々にとっての楽園となるのでしょうか?

今日の社会では貧困がまだ存在しています。 [[275832]]国連開発計画(UNDP)のデータによる...

レポート:中国の人工知能都市ランキングで北京が1位に

[[431347]]中国新聞社、北京10月26日(記者 夏斌)「2021年人工知能コンピューティング...

人工知能業界の給与が明らかに、転職の時期が来た

人工知能は、現在最もホットな産業であると言っても過言ではありません。最先端のテクノロジー企業から革新...