先日、アップルは同社初のバーチャルヘッドマウントディスプレイデバイス「Vision Pro」を2月2日に正式リリースすると発表しました。次世代端末として、XRデバイスは急速な発展を遂げると予想されています。今後、仮想ディスプレイデバイスの普及に伴い、デジタルインタラクションは2次元から3次元へと移行します。3次元モデルや3次元アニメーションは、将来的に主流のコンテンツ形式となり、仮想と現実の融合による多次元の没入型インタラクションもトレンドになるでしょう。 しかし、データ規模から判断すると、現段階のコンテンツ産業のデータ蓄積は依然として2D画像や平面動画が中心であり、3Dモデルや4Dアニメーションなどのデータ基盤は比較的弱いと言えます。その中で、4Dアニメーションは、従来の3Dモデルに基づいて時系列、つまり時間の経過とともに変化する3Dモデルを導入し、ダイナミックな立体感を表現することができます。ゲームアニメーション、映画の特殊効果、バーチャルリアリティなどの分野で幅広い応用がありますが、現在のコンテンツエコシステム開発における最も難しいリンクでもあります。 したがって、今後の多次元没入型体験のためには、3次元デジタルコンテンツの構築が重要な基本タスクとなるでしょう。 この最先端分野に向き合うため、清華を拠点とするスタートアップチームである盛舒科技は、一連の研究と製品開発を行ってきました。最近、同社は清華大学、同済大学などの大学と手を組み、 「スケルトンアニメーション」に基づく世界初の4Dアニメーション生成フレームワーク「AnimatableDreamer」を発表しました。これは、ワンクリックで2Dビデオ素材を動的な3次元モデル(つまり4Dアニメーション)に直接変換でき、スケルトンの動きの自動抽出、ワンクリックでのアニメーション効果の変換をサポートし、テキスト入力を通じてパーソナライズされたキャラクターを生成することができます。
以下のデモビデオを視聴できます。 コンテンツ制作の新しい方法3Dアニメーション開発プロセスの転覆これまで、業界での3次元アニメーションの制作には、3Dモデリング、テクスチャレンダリング、ボーンバインディング、アニメーション制作などの複雑な工程が必要で、完成にはモデラーやアニメーターなどの専門家の参加が必要であり、非効率でコストもかかっていました。統計によると、静的 3D モデル 1 つの作成サイクルには数時間から数日かかり、コストは数千ドルにも達することがあります。動的処理のコストはさらに高くなります。 公式デモ動画から、リスの2D実写動画をアップロードし、「赤いセーターを着たリス」というテキスト説明を入力するだけで、元の実写リスをワンクリックでアニメ風に変換でき、アクション姿勢を完璧に保持しながら、360度の視点を持つ3次元のダイナミックモデルを生成できることがわかります。テキスト説明を切り替えることで、キャラクターをカスタマイズし、リスをキツネやゼニガメなどのさまざまな漫画のイメージに切り替えることができます。 「AnimatableDreamer」は、動画内の対象オブジェクト(人物、動物など)の骨格の動きを自動で抽出し、テキスト記述により任意の骨格アニメーションモデルに変換することができます。プロセス全体はテンプレートによって制限されず、あらゆるビデオの長さとあらゆるタイプのアクションをサポートし、高い時間的一貫性とマルチパースペクティブ一貫性を備え、エクスポートされた動的ステレオ モデルはあらゆる 3D 環境でレンダリングできます。 映画、テレビ、アニメーションなどの分野では、ポストプロダクションでは通常、アニメーションの編集作業が多く必要になります。「AnimatableDreamer」では、ボーンバインディングが完了したモデルのアニメーションファイルの置き換えや編集にも対応しており、より自由度の高い作業を実現しています。今後、関連技術が徐々に導入されるにつれて、ゲーム開発、映画やテレビのアニメーションなどのシーンの3Dモデリングとアニメーション制作プロセスがより効率的になることが期待されます。 未来を見据えて新たなコンテンツエコロジーの形成が期待される実装原理の面では、研究チームは、時間の経過とともに変化するカメラ空間で異なるフレームと視点の3Dモデルをレンダリングしてノイズを除去し、異なるカメラ空間が共有する標準空間に勾配を均一に返して蒸留する標準スコア蒸留(CSD)戦略を革新的に提案し、4D生成を3Dに縮小し、つまり4D生成問題を3D空間での生成に簡素化しました。 「AnimatableDreamer」は、動画から関節の動きを直接抽出することができます。モデルと物体の動きを切り離すことで、生成されたモデルは高い時間的一貫性と幾何学的合理性を持ち、動画の長さに制限されず、形状の破損、ちらつき、多視点の不一致などの問題を効果的に排除できます。 視野角が限られており動きが大きいシーンでは、拡散モデルの事前知識を導入することで、「AnimatableDreamer」は入力ビデオがオブジェクト全体をカバーしていなくても画像情報を自動的に補完し、より優れた生成品質を実現できます。 「AnimatableDreamer」の導入により、モデリング、テクスチャリング、ボーンバインディング、アクション駆動がすべて一度に実行され、テキストと4Dスケルタルアニメーションの生成が直接結びついたと言えます。自然言語の説明を入力すると、3Dアニメーションビデオが自動的に出力されます。一般の人がすぐに使い始め、専門知識がなくてもアニメーションコンテンツを簡単にカスタマイズできます。 「AnimatableDreamer」をベースにした作品は、3Dや4Dのデジタルコンテンツ制作の難しさを大幅に軽減し、インタラクティブな体験を豊かにし、誰もがクリエイティブなコンテンツを生成、編集できるようにし、3D時代の新しいコンテンツエンターテインメントとコンテンツ消費モデルを生み出します。 将来の仮想世界では、ユーザーがカスタマイズされたデジタル空間を素早く構築し、パーソナライズされたインタラクティブな体験を作り出すことができると想像してみてください。例えば:
設立から1年も経っていない新興企業として、盛舒科技チームは長年、画像、3D、動画などのマルチモーダル大規模モデルの分野に注力してきました。9月には、Discordで正式にリリースされた3Dアセット作成ツールVoxCraftをリリースしました。テキストと画像のガイダンス、数分で3Dモデルの作成、3Dテクスチャのカスタム置き換えをサポートし、ゲーム開発、映画やテレビのアニメーションなどのシーンの3Dモデリングプロセスを可能にします。今回発表された4Dスケルトンアニメーション生成は、Shengshu Technologyの新たな探求であり、将来的にはVoxCraftの製品に統合される予定です。 VoxCraftツールのアドレス: https://voxcraft.ai/ Apple Vision Pro の登場は、ハードウェア機器における重要な革新であるだけでなく、コンテンツとエクスペリエンスの革命をもたらすでしょう。より優れた視覚的プレゼンテーションを提供することに加えて、4D アニメーション生成などの生成 AI の革新的な機能により、新しい方法で多次元のデジタル エクスペリエンスが実現し、次世代の人間とコンピューターのインタラクションにさらなる可能性がもたらされます。 |
<<: AIによって書かれたコードは「手書きのコード」よりもはるかに安全性が低い
マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識蓄積と強力な推論および一般化機...
近年、需要の増加、エネルギーコストの高騰、持続可能性の問題が続く中、データセンターが注目を集めていま...
イスラエルとパレスチナの紛争が続く中、関連ニュースが次々と報道され、中には虚偽の内容も混じり始め、真...
[[221537]]今後 5 年間で最も価値のある起業の方向性は何でしょうか?どの起業分野を選択す...
1. 人工知能技術の定義人工知能技術は、複雑な生産労働において機械が人間に取って代わることを可能にす...
AI時代の陰の立役者として、チップ業界は徐々にかつ継続的な変化を遂げています。 2008 年以降、...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[412579]] 2016 年には、財務報告書に基づいてプレスリリースを書くという、人間と機械に...
[51CTO.comからの原文] インテリジェント運用保守(AIops)は、IT運用保守の分野で最...
機械学習モデルが現実世界でますます使用され、導入されるようになると、AI の意思決定は人々の日常生活...
人工知能 (AI) と機械学習 (ML) は成長サイクルのピークにあるかもしれませんが、だからといっ...
10月21日、蘇州で5G無人バスの定期運行が開始された。蘇州高速鉄道新城でデビューしたこの無人バスは...
ビデオセグメンテーションタスクは、画像セグメンテーションタスクの拡張版です。ビデオ内のすべてのターゲ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...