清華大学系のスタートアップが、実際のシーンからアニメーションへのワンクリック変換、パーソナライズされたキャラクターも生成できる世界初の4Dスケルトンアニメーションフレームワークを発表

先日、アップルは同社初のバーチャルヘッドマウントディスプレイデバイス「Vision Pro」を2月2日に正式リリースすると発表しました。次世代端末として、XRデバイスは急速な発展を遂げると予想されています。今後、仮想ディスプレイデバイスの普及に伴い、デジタルインタラクションは2次元から3次元へと移行します。3次元モデルや3次元アニメーションは、将来的に主流のコンテンツ形式となり、仮想と現実の融合による多次元の没入型インタラクションもトレンドになるでしょう。

しかし、データ規模から判断すると、現段階のコンテンツ産業のデータ蓄積は依然として2D画像や平面動画が中心であり、3Dモデルや4Dアニメーションなどのデータ基盤は比較的弱いと言えます。その中で、4Dアニメーションは、従来の3Dモデルに基づいて時系列、つまり時間の経過とともに変化する3Dモデルを導入し、ダイナミックな立体感を表現することができます。ゲームアニメーション、映画の特殊効果、バーチャルリアリティなどの分野で幅広い応用がありますが、現在のコンテンツエコシステム開発における最も難しいリンクでもあります。

したがって、今後の多次元没入型体験のためには、3次元デジタルコンテンツの構築が重要な基本タスクとなるでしょう。

この最先端分野に向き合うため、清華を拠点とするスタートアップチームである盛舒科技は、一連の研究と製品開発を行ってきました。最近、同社は清華大学、同済大学などの大学と手を組み、 「スケルトンアニメーション」に基づく世界初の4Dアニメーション生成フレームワーク「AnimatableDreamer」を発表しました。これは、ワンクリックで2Dビデオ素材を動的な3次元モデル（つまり4Dアニメーション）に直接変換でき、スケルトンの動きの自動抽出、ワンクリックでのアニメーション効果の変換をサポートし、テキスト入力を通じてパーソナライズされたキャラクターを生成することができます。

論文アドレス: https://arxiv.org/pdf/2312.03795.pdf
プロジェクトアドレス: https://animatabledreamer.github.io/
論文タイトル: AnimatableDreamer: 標準スコア蒸留によるテキストガイドによる非剛体 3D モデルの生成と再構築

以下のデモビデオを視聴できます。

コンテンツ制作の新しい方法

3Dアニメーション開発プロセスの転覆

これまで、業界での3次元アニメーションの制作には、3Dモデリング、テクスチャレンダリング、ボーンバインディング、アニメーション制作などの複雑な工程が必要で、完成にはモデラーやアニメーターなどの専門家の参加が必要であり、非効率でコストもかかっていました。統計によると、静的 3D モデル 1 つの作成サイクルには数時間から数日かかり、コストは数千ドルにも達することがあります。動的処理のコストはさらに高くなります。

公式デモ動画から、リスの2D実写動画をアップロードし、「赤いセーターを着たリス」というテキスト説明を入力するだけで、元の実写リスをワンクリックでアニメ風に変換でき、アクション姿勢を完璧に保持しながら、360度の視点を持つ3次元のダイナミックモデルを生成できることがわかります。テキスト説明を切り替えることで、キャラクターをカスタマイズし、リスをキツネやゼニガメなどのさまざまな漫画のイメージに切り替えることができます。

「AnimatableDreamer」は、動画内の対象オブジェクト（人物、動物など）の骨格の動きを自動で抽出し、テキスト記述により任意の骨格アニメーションモデルに変換することができます。プロセス全体はテンプレートによって制限されず、あらゆるビデオの長さとあらゆるタイプのアクションをサポートし、高い時間的一貫性とマルチパースペクティブ一貫性を備え、エクスポートされた動的ステレオモデルはあらゆる 3D 環境でレンダリングできます。

映画、テレビ、アニメーションなどの分野では、ポストプロダクションでは通常、アニメーションの編集作業が多く必要になります。「AnimatableDreamer」では、ボーンバインディングが完了したモデルのアニメーションファイルの置き換えや編集にも対応しており、より自由度の高い作業を実現しています。今後、関連技術が徐々に導入されるにつれて、ゲーム開発、映画やテレビのアニメーションなどのシーンの3Dモデリングとアニメーション制作プロセスがより効率的になることが期待されます。

未来を見据えて

新たなコンテンツエコロジーの形成が期待される

実装原理の面では、研究チームは、時間の経過とともに変化するカメラ空間で異なるフレームと視点の3Dモデルをレンダリングしてノイズを除去し、異なるカメラ空間が共有する標準空間に勾配を均一に返して蒸留する標準スコア蒸留（CSD）戦略を革新的に提案し、4D生成を3Dに縮小し、つまり4D生成問題を3D空間での生成に簡素化しました。

「AnimatableDreamer」は、動画から関節の動きを直接抽出することができます。モデルと物体の動きを切り離すことで、生成されたモデルは高い時間的一貫性と幾何学的合理性を持ち、動画の長さに制限されず、形状の破損、ちらつき、多視点の不一致などの問題を効果的に排除できます。

視野角が限られており動きが大きいシーンでは、拡散モデルの事前知識を導入することで、「AnimatableDreamer」は入力ビデオがオブジェクト全体をカバーしていなくても画像情報を自動的に補完し、より優れた生成品質を実現できます。

「AnimatableDreamer」の導入により、モデリング、テクスチャリング、ボーンバインディング、アクション駆動がすべて一度に実行され、テキストと4Dスケルタルアニメーションの生成が直接結びついたと言えます。自然言語の説明を入力すると、3Dアニメーションビデオが自動的に出力されます。一般の人がすぐに使い始め、専門知識がなくてもアニメーションコンテンツを簡単にカスタマイズできます。

「AnimatableDreamer」をベースにした作品は、3Dや4Dのデジタルコンテンツ制作の難しさを大幅に軽減し、インタラクティブな体験を豊かにし、誰もがクリエイティブなコンテンツを生成、編集できるようにし、3D時代の新しいコンテンツエンターテインメントとコンテンツ消費モデルを生み出します。

将来の仮想世界では、ユーザーがカスタマイズされたデジタル空間を素早く構築し、パーソナライズされたインタラクティブな体験を作り出すことができると想像してみてください。例えば：

デジタル空間内の各キャラクターは、子供たちにスーパーマンの服を着せたり、ハロウィーンに休日をテーマにした衣装を自由に変えたりなど、自由にパーソナライズできます。
ペットを飼っているユーザーは、例えば仮想のミッキーマウスの画像を作成して、ペットを漫画化することができます。ペットの日常はまるで漫画のようで、飼い主とペットの日々のやり取りが面白くなります。
人と人との関わり方も豊かになり、いつでもどこでもテーマパーティーを開催したり、希望するパーティー環境やキャラクターの衣装などをリアルタイムで生成したりできるようになりました。

設立から1年も経っていない新興企業として、盛舒科技チームは長年、画像、3D、動画などのマルチモーダル大規模モデルの分野に注力してきました。9月には、Discordで正式にリリースされた3Dアセット作成ツールVoxCraftをリリースしました。テキストと画像のガイダンス、数分で3Dモデルの作成、3Dテクスチャのカスタム置き換えをサポートし、ゲーム開発、映画やテレビのアニメーションなどのシーンの3Dモデリングプロセスを可能にします。今回発表された4Dスケルトンアニメーション生成は、Shengshu Technologyの新たな探求であり、将来的にはVoxCraftの製品に統合される予定です。

VoxCraftツールのアドレス: https://voxcraft.ai/

Apple Vision Pro の登場は、ハードウェア機器における重要な革新であるだけでなく、コンテンツとエクスペリエンスの革命をもたらすでしょう。より優れた視覚的プレゼンテーションを提供することに加えて、4D アニメーション生成などの生成 AI の革新的な機能により、新しい方法で多次元のデジタルエクスペリエンスが実現し、次世代の人間とコンピューターのインタラクションにさらなる可能性がもたらされます。

<<: AIによって書かれたコードは「手書きのコード」よりもはるかに安全性が低い

>>:

磁気リンクがネットワーク全体を爆発させ、Mixtral 8x7B ペーパーが登場しました。クラッシュラマ2 70B、各トークンをアクティブにするには13Bのパラメータのみが必要です

清華大学系のスタートアップが、実際のシーンからアニメーションへのワンクリック変換、パーソナライズされたキャラクターも生成できる世界初の4Dスケルトンアニメーションフレームワークを発表

コンテンツ制作の新しい方法

3Dアニメーション開発プロセスの転覆

未来を見据えて

新たなコンテンツエコロジーの形成が期待される

磁気リンクがネットワーク全体を爆発させ、Mixtral 8x7B ペーパーが登場しました。クラッシュラマ2 70B、各トークンをアクティブにするには13Bのパラメータのみが必要です

word2vecの作者はイリヤらとの10年間の恨みを明かした。seq2seqも私のアイデアだった

AIによる顔の改造の一般的な手法の詳細な説明

ラブライブ！AI論文発表：生成モデルが楽譜を自動生成

5 年以内に、8,000 万の仕事が機械に置き換えられるでしょう。インダストリアルインターネットは治療薬でしょうか、それとも毒でしょうか?

世界のトップAI特許：マイクロソフト697件、グーグル536件、テンセント77件、アリババ74件、シャオミ44件、バイドゥとファーウェイはリストに載っていない

Kingsoft Cloudは、スマートシティ構築のパートナーとなり、人間中心のスマートシティエコシステムを構築することを目指しています。

ガートナー、中国企業向け人工知能トレンドウェーブ 3.0 を発表

端から端まで道を切り開きます！ OccWorld: 自動運転の未来に向けた 3D 占有世界モデルへの新しいアプローチ

推薦する

深層強化学習探索アルゴリズムの最新レビュー: 約 200 本の論文が課題と将来の方向性を明らかにする

AI は RISC「ファミリー」内で論争を引き起こします。MIPS オープンソースは RISC-V や Arm よりも AI に適しているでしょうか?

史上初！ Google AI プレイヤーが StarCraft II で人間に勝利

人工知能が従業員の定着率向上の秘訣を明らかにする

AIはリモートワークがもたらす企業文化の課題を解決するのに役立つ

まだ AI と機械学習を混同していませんか?まず、AIの6つの注目分野を見てみましょう。

TensorFlow が機械学習開発に使用できるのはなぜですか?

AI とクラウドコンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

人工知能によるモザイク除去ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去

OpenAI は Google のトップエンジニアを引き抜くために年間 1,000 万ドルという高額な給与を提示している?北京大学のAI博士課程の学生が卒業前に100万ドルのオファーを受ける

デジタルトランスフォーメーションとは、アルゴリズムがすべてを制御する仮想世界なのでしょうか?

自動運転高速道路の技術仕様の導入によってメリットを享受できる分野はどこでしょうか?

機械学習において、トレーニングおよび検証メトリックグラフから何がわかるでしょうか?

OpenAIのチップ製造計画が明らかに！独自のAIチップを開発する計画があり、買収対象を検討中