AnimateAnyoneに続き、Alibabaのもう一つの「ダンス作品」論文が人気を集めている—— 今回必要なのは、あなたの顔写真と一言の説明だけで、どこでも踊れるようになります! たとえば、次の「Wipe the Glass」のダンス ビデオ: 写真 必要なのは、ポートレートとプロンプトを「フィード」することだけです: 明るい青色のドレスを着て、微笑みながら黄金色の紅葉の中で踊る少女。 そしてプロンプトが変わると、キャラクターの背景や服装もそれに応じて変化します。たとえば、次の 2 つの文を変更してみましょう。 セーターとズボンを着て、木造の家で笑顔で踊っている女の子。 ドレスのような白いシャツ、長袖、長ズボンを着て、笑顔でタイムズスクエアで踊っている女の子。 写真 これはアリババの最新の研究であるDreaMovingであり、誰でもいつでもどこでもダンスできるようにすることを目的としています。 写真 実際の人物だけでなく、漫画のキャラクターも抱っこできますよ〜 写真 このプロジェクトは発表されるとすぐに多くのネットユーザーの注目を集め、その効果を見て「信じられない」と言った人もいました。 写真 それで、この研究はどのようにしてそのような効果を達成したのでしょうか? その背後にある原理Stable Video Diffusion や Gen2 などのテキストからビデオへの変換 (T2V) モデルの登場により、ビデオ生成は飛躍的に進歩しましたが、まだ多くの課題が残っています。 たとえば、データセットに関して言えば、現在、オープンソースの人間のダンスビデオデータセットが不足しており、対応する正確なテキスト記述を取得することが困難であるため、モデルが多様でフレームの一貫性があり、より長いビデオを生成することが困難になっています。 また、人間中心のコンテンツ生成の分野では、生成された結果のパーソナライゼーションと制御可能性も重要な要素です。 写真 これら 2 つの大きな困難に直面して、Alibaba チームはまずデータ セットの処理に着手しました。 研究者たちはまず、インターネットから約1,000本の高品質な人間のダンスビデオを収集した。次に、これらのビデオを約 6,000 本の短いビデオ (それぞれ 8 ~ 10 秒) に分割し、ビデオ クリップにトランジションや特殊効果がないことを確認しました。これにより、時間モジュールのトレーニングが容易になります。 さらに、ビデオのテキスト説明を生成するために、彼らはビデオキャプション作成ツールとして Minigpt-v2 を使用しました。具体的には、フレームを詳細に説明するように指示する「グラウンディング」バージョンです。 キーフレームの中心フレームに基づいて生成された字幕は、ビデオクリップ全体の説明を表し、主に主題と背景の内容を正確に説明します。 フレームワークの面では、Alibaba チームは Stable Diffusion に基づいた DreaMoving というモデルを提案しました。 これは主に、Denoising U-Net、Video ControlNet、Content Guider の 3 つのニューラル ネットワークで構成されています。 写真 その中で、Video ControlNet は、各 U-Net ブロックの後にモーション ブロックを挿入し、制御シーケンス (ポーズまたは深度) を追加の時間残差として処理する画像制御ネットワークです。 ノイズ除去 U-Net は、ビデオ生成用のモーション ブロックを備えた派生的な Stable-Diffusion U-Net です。 Content Guider は、入力テキスト プロンプトと外観表現 (顔など) をコンテンツの埋め込みに転送します。 そうすることで、DreaMoving は、ガイド シーケンスと簡単なコンテンツの説明 (テキストや参照画像など) を入力として、高品質で忠実度の高いビデオを生成できます。 写真 残念ながら、現在、DreaMoving プロジェクトのオープン ソース コードはありません。 興味のある方はまず注目して、コードがオープンソースになるのを待ってください〜 参考リンク: [1] https://dreamoving.github.io/dreamoving/ [2] https://arxiv.org/abs/2312.05107 [3] https://twitter.com/ProperPrompter/status/1734192772465258499 [4] https://github.com/dreamoving/dreamoving-project |
<<: 大型モデルがドローンを制御できるように、北京航空航天チームは具現化された知能の新しいアーキテクチャを提案した
シリコンバレーで最も隠し切れない秘密の一つは、人工知能の専門家が実際に給料やボーナスでどれくらい稼い...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
人工知能の出現により、ますます多くの企業がそれを業務や生産に応用しています。新しいモバイル開発技術が...
[[323393]]国際ロボット連盟(IFR)が新たに発表した「グローバルロボティクス2019 -...
2020年7月11日、世界人工知能会議が終了し、満足のいく回答書が提出されました。人工知能の時代の到...
【51CTO.com クイック翻訳】 [[397384]] [序文]直感に反するように聞こえるかもし...
映画、ドラマ、テレビ番組、オンライン ビデオなどの配信チャネルのコンテンツ ワーカーの場合、コンテン...
I.はじめにまず、JD.com による電子商取引シナリオにおける AIGC の調査について紹介します...
Amapは本日、車載ARナビゲーションを共同で立ち上げるためにDAMOアカデミーと協力関係を結んだと...
屈原・漁夫のアルゴリズムの追求を分析する前に、「漁夫」の原文を見てみましょう。屈原は流刑になった後、...
デジタルインテリジェンスは経営上の意思決定を促進し、驚くべき成果をもたらします名前が示すように、デー...
2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...