清華大学系のスタートアップが、実際のシーンからアニメーションへのワンクリック変換、パーソナライズされたキャラクターも生成できる世界初の4Dスケルトンアニメーションフレームワークを発表

清華大学系のスタートアップが、実際のシーンからアニメーションへのワンクリック変換、パーソナライズされたキャラクターも生成できる世界初の4Dスケルトンアニメーションフレームワークを発表

先日、アップルは同社初のバーチャルヘッドマウントディスプレイデバイス「Vision Pro」を2月2日に正式リリースすると発表しました。次世代端末として、XRデバイスは急速な発展を遂げると予想されています。今後、仮想ディスプレイデバイスの普及に伴い、デジタルインタラクションは2次元から3次元へと移行します。3次元モデルや3次元アニメーションは、将来的に主流のコンテンツ形式となり、仮想と現実の融合による多次元の没入型インタラクションもトレンドになるでしょう。

しかし、データ規模から判断すると、現段階のコンテンツ産業のデータ蓄積は依然として2D画像や平面動画が中心であり、3Dモデルや4Dアニメーションなどのデータ基盤は比較的弱いと言えます。その中で、4Dアニメーションは、従来の3Dモデルに基づいて時系列、つまり時間の経過とともに変化する3Dモデルを導入し、ダイナミックな立体感を表現することができます。ゲームアニメーション、映画の特殊効果、バーチャルリアリティなどの分野で幅広い応用がありますが、現在のコンテンツエコシステム開発における最も難しいリンクでもあります。

したがって、今後の多次元没入型体験のためには、3次元デジタルコンテンツの構築が重要な基本タスクとなるでしょう。

この最先端分野に向き合うため、清華を拠点とするスタートアップチームである盛舒科技は、一連の研究と製品開発を行ってきました。最近、同社は清華大学、同済大学などの大学と手を組み、 「スケルトンアニメーション」に基づく世界初の4Dアニメーション生成フレームワーク「AnimatableDreamer」を発表しました。これは、ワンクリックで2Dビデオ素材を動的な3次元モデル(つまり4Dアニメーション)に直接変換でき、スケルトンの動きの自動抽出、ワンクリックでのアニメーション効果の変換をサポートし、テキスト入力を通じてパーソナライズされたキャラクターを生成することができます。


  • 論文アドレス: https://arxiv.org/pdf/2312.03795.pdf
  • プロジェクトアドレス: https://animatabledreamer.github.io/
  • 論文タイトル: AnimatableDreamer: 標準スコア蒸留によるテキストガイドによる非剛体 3D モデルの生成と再構築

以下のデモビデオを視聴できます。

コンテンツ制作の新しい方法

3Dアニメーション開発プロセスの転覆

これまで、業界での3次元アニメーションの制作には、3Dモデリング、テクスチャレンダリング、ボーンバインディング、アニメーション制作などの複雑な工程が必要で、完成にはモデラーやアニメーターなどの専門家の参加が必要であり、非効率でコストもかかっていました。統計によると、静的 3D モデル 1 つの作成サイクルには数時間から数日かかり、コストは数千ドルにも達することがあります。動的処理のコストはさらに高くなります。

公式デモ動画から、リスの2D実写動画をアップロードし、「赤いセーターを着たリス」というテキスト説明を入力するだけで、元の実写リスをワンクリックでアニメ風に変換でき、アクション姿勢を完璧に保持しながら、360度の視点を持つ3次元のダイナミックモデルを生成できることがわかります。テキスト説明を切り替えることで、キャラクターをカスタマイズし、リスをキツネやゼニガメなどのさまざまな漫画のイメージに切り替えることができます。

「AnimatableDreamer」は、動画内の対象オブジェクト(人物、動物など)の骨格の動きを自動で抽出し、テキスト記述により任意の骨格アニメーションモデルに変換することができます。プロセス全体はテンプレートによって制限されず、あらゆるビデオの長さとあらゆるタイプのアクションをサポートし、高い時間的一貫性とマルチパースペクティブ一貫性を備え、エクスポートされた動的ステレオ モデルはあらゆる 3D 環境でレンダリングできます。

映画、テレビ、アニメーションなどの分野では、ポストプロダクションでは通常、アニメーションの編集作業が多く必要になります。「AnimatableDreamer」では、ボーンバインディングが完了したモデルのアニメーションファイルの置き換えや編集にも対応しており、より自由度の高い作業を実現しています。今後、関連技術が徐々に導入されるにつれて、ゲーム開発、映画やテレビのアニメーションなどのシーンの3Dモデリングとアニメーション制作プロセスがより効率的になることが期待されます。

未来を見据えて

新たなコンテンツエコロジーの形成が期待される

実装原理の面では、研究チームは、時間の経過とともに変化するカメラ空間で異なるフレームと視点の3Dモデルをレンダリングしてノイズを除去し、異なるカメラ空間が共有する標準空間に勾配を均一に返して蒸留する標準スコア蒸留(CSD)戦略を革新的に提案し、4D生成を3Dに縮小し、つまり4D生成問題を3D空間での生成に簡素化しました。

「AnimatableDreamer」は、動画から関節の動きを直接抽出することができます。モデルと物体の動きを切り離すことで、生成されたモデルは高い時間的一貫性と幾何学的合理性を持ち、動画の長さに制限されず、形状の破損、ちらつき、多視点の不一致などの問題を効果的に排除できます。

視野角が限られており動きが大きいシーンでは、拡散モデルの事前知識を導入することで、「AnimatableDreamer」は入力ビデオがオブジェクト全体をカバーしていなくても画像情報を自動的に補完し、より優れた生成品質を実現できます。

「AnimatableDreamer」の導入により、モデリング、テクスチャリング、ボーンバインディング、アクション駆動がすべて一度に実行され、テキストと4Dスケルタルアニメーションの生成が直接結びついたと言えます。自然言語の説明を入力すると、3Dアニメーションビデオが自動的に出力されます。一般の人がすぐに使い始め、専門知識がなくてもアニメーションコンテンツを簡単にカスタマイズできます。

「AnimatableDreamer」をベースにした作品は、3Dや4Dのデジタルコンテンツ制作の難しさを大幅に軽減し、インタラクティブな体験を豊かにし、誰もがクリエイティブなコンテンツを生成、編集できるようにし、3D時代の新しいコンテンツエンターテインメントとコンテンツ消費モデルを生み出します。

将来の仮想世界では、ユーザーがカスタマイズされたデジタル空間を素早く構築し、パーソナライズされたインタラクティブな体験を作り出すことができると想像してみてください。例えば:

  • デジタル空間内の各キャラクターは、子供たちにスーパーマンの服を着せたり、ハロウィーンに休日をテーマにした衣装を自由に変えたりなど、自由にパーソナライズできます。
  • ペットを飼っているユーザーは、例えば仮想のミッキーマウスの画像を作成して、ペットを漫画化することができます。ペットの日常はまるで漫画のようで、飼い主とペットの日々のやり取りが面白くなります。
  • 人と人との関わり方も豊かになり、いつでもどこでもテーマパーティーを開催したり、希望するパーティー環境やキャラクターの衣装などをリアルタイムで生成したりできるようになりました。

設立から1年も経っていない新興企業として、盛舒科技チームは長年、画像、3D、動画などのマルチモーダル大規模モデルの分野に注力してきました。9月には、Discordで正式にリリースされた3Dアセット作成ツールVoxCraftをリリースしました。テキストと画像のガイダンス、数分で3Dモデルの作成、3Dテクスチャのカスタム置き換えをサポートし、ゲーム開発、映画やテレビのアニメーションなどのシーンの3Dモデリングプロセスを可能にします。今回発表された4Dスケルトンアニメーション生成は、Shengshu Technologyの新たな探求であり、将来的にはVoxCraftの製品に統合される予定です。

VoxCraftツールのアドレス: https://voxcraft.ai/

Apple Vision Pro の登場は、ハードウェア機器における重要な革新であるだけでなく、コンテンツとエクスペリエンスの革命をもたらすでしょう。より優れた視覚的プレゼンテーションを提供することに加えて、4D アニメーション生成などの生成 AI の革新的な機能により、新しい方法で多次元のデジタル エクスペリエンスが実現し、次世代の人間とコンピューターのインタラクションにさらなる可能性がもたらされます。

<<:  AIによって書かれたコードは「手書きのコード」よりもはるかに安全性が低い

>>: 

ブログ    
ブログ    
ブログ    

推薦する

世界初の大型モデルエージェントが発売!口を動かすだけでPCが働き者になる

最近、謎のアシスタントであるシャオ・シュアイの助けにより、彼のオフィスの効率は以前に比べて10倍以上...

古典的な論文を実装するための60行のコード:ポアソンディスクサンプリングを完了するのに0.7秒、Numpyよりも100倍高速

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

...

デジタル技術が自動車産業をどう変えるのか

自動車業界のデジタル変革により、車両の構想、組み立て、運用の方法が再定義されています。 テクノロジー...

わずか数行のコードで最初のウェブアプリを作成

データ サイエンス プロジェクトの展開は、データ サイエンティストと機械学習エンジニアの両方に必要な...

自動化によってセキュリティアナリストがいなくなる可能性はありますか?

否定できない現実として、私たちは自動化の時代に入り、それに伴い人工知能 (AI)、機械学習 (ML)...

マスク氏、XデータをAIの訓練に利用していると認める「マイクロソフトは使えないが、自分なら使える」

マスク氏はついに我慢できなくなり、X のデータを AI に入力し始めました。過去 2 日間で、X が...

国際研究機関:アリババの音声AIが中国でトップに

7月14日、国際的に権威のある調査機関IDC(International Data Corporat...

LiDARとTexas Instrumentsチップを搭載した最新のL3自動運転アーキテクチャの分析

画像出典: インターネット来年発売されるヒュンダイG90とGV80は、ヒュンダイのL3自動運転モデル...

OpenAIがChatGPT Enterprise Editionをリリース、より高いセキュリティとプライバシー保護を実現

8月29日、OpenAIは、企業ユーザーのニーズを満たし、より高いセキュリティとプライバシー保護を提...

機械学習技術におけるアンサンブル学習とは何ですか?

[51CTO.com クイック翻訳] アンサンブル学習は強力な機械学習技術の 1 つです。アンサン...

AIは単なるコードかもしれないが、それは私たちのコードだ

AI に対する期待は高すぎるのでしょうか? また、企業とその経営陣は AI が提供する成果にどの程度...