超リアルな 3D 生成モデル!華南理工大学の Jia Kui 氏のチームによる ICCV'23 の新作: 再照明、編集、物理シミュレーションをサポート

超リアルな 3D 生成モデル!華南理工大学の Jia Kui 氏のチームによる ICCV'23 の新作: 再照明、編集、物理シミュレーションをサポート

大規模な事前トレーニング済み言語モデルと画像拡散モデル (Satble Diffusion など) が利用できるようになったことにより、自動 3D コンテンツ生成は最近急速に進歩しました。

既存のテキストから 3D モデルを生成する手法では、通常、NeRF などの暗黙的な表現を使用して、ボリューム レンダリングを通じてジオメトリと外観を結合しますが、より細かいジオメトリ構造を復元してリアルなレンダリングを実現するには不十分であり、高品質の 3D アセットを生成する効果は低くなります。

この研究では、華南理工大学が、高品質のテキストから 3D コンテンツを作成するための新しい方法である Fantasia3D を提案しました。その鍵となるのは、ジオメトリと外観の分離したモデリングと学習です。

写真

プロジェクトアドレス: https://fantasia3d.github.io/

ジオメトリ学習の場合、Fantasia3D は明示的表現と暗黙的表現の組み合わせに依存し、レンダリングされた表面法線マップを Satble Diffusion の入力としてエンコードすることを提案します。外観モデリングの場合、Fantasia3D は、テキストから 3 次元モデルを生成するタスクに空間的に変化する双方向反射分布関数 (BRDF) を導入し、表面のリアルなレンダリングを生成するために必要な表面素材を学習します。

分離されたフレームワークは現在のグラフィック エンジンと互換性があり、生成された 3D アセットの再ライティング、編集、物理シミュレーションをサポートします。

研究者らはまた、さまざまなテキストから 3D を生成するタスク設定において、この方法が既存の方法よりも優れていることを実証するために包括的な実験を実施しました。

モデル効果

Fantasia3D は、特定のテキストに対して、さまざまなトポロジ形状とフォトリアリスティックにレンダリングされた表面を持つ 3D モデルを生成できます。


同時に、下の図 1 の右上隅のライオンに示すように、Fantasia3D は BRDF モデリング サーフェスを使用することで、強い金属反射効果を生み出すことができます。

図1: 3Dモデル生成効果

同時に、Fantasia3D は、ユーザーが指定した大まかな 3 次元オブジェクトやテキストの生成をサポートします。

下の図 2 に示すように、大まかな 3D モデルが与えられると、Fantasia3D は入力された大まかなモデルを初期化として使用して 3D モデルを生成できます。この最適化方法により、生成プロセスがより高速かつ安定し、テキストから 3D モデルを生成する際のヤヌス問題が軽減されます。

図 2: ユーザーが指定した大まかな 3D モデルとテキストに基づいて生成されます。

さらに、暗黙的な表現に基づく既存の方法 (NeRF など) とは異なり、Fantasia3D は明示的な表現と暗黙的な表現の組み合わせを採用しており、生成された 3D アセットは既存のグラフィックス レンダリング エンジンやシミュレーション エンジンと適切に統合できます。

下の図3(a)(b)に示すように、生成された3DモデルはBlenderにインポートして布やソフトボディの物理シミュレーションを行うことができます。図3(c)は、生成されたマテリアルをBlenderで置き換えた実験結果を示しています。

図 3: Blender での編集。

下の図 4 (a) に示すように、Fantasia3D で生成されたモデルは、Blender のさまざまな照明を置き換えて、さまざまなレンダリング効果を生み出すこともできます。

(b) は、Fantasia3D によって生成されたオブジェクトを他のシーンに挿入する機能を示しています。挿入されたオブジェクトは、元の環境の照明環境と相互作用して、自然な反射効果を生み出すことができます。

図 4: 生成されたオブジェクトの再照明。

原理と方法

Fantasia3D のアプローチの概要を以下の図 5 に示します。私たちのアプローチは、テキストの手がかりから分離されたジオメトリと外観を生成することができます(図(a)を参照)。テキストの手がかりは、それぞれ(b)ジオメトリモデリングと(c)外観モデリングによって生成されます。

(b)では、3D楕円体として初期化された3D幾何学的表現としてDMTetを採用しています。

DMTet のパラメータを最適化するために、DMTet から抽出されたメッシュの法線マップ (初期のトレーニング段階でのオブジェクト マスクとともに) を Stable Diffusion の形状エンコーディングとしてレンダリングします。

(c)では、外観モデリングのために、空間的に変化する双方向反射率分布関数(BRDF)モデリングを導入し、外観の3つの成分(kd、krm、kn)を予測することを学習します。ジオメトリと外観の両方のモデリングは、分留サンプリング損失関数 (SDS 損失) によって監視されます。

図 5: Fantasia3D フローチャート。

要約する

この論文では、DMTet のハイブリッド表現に基づいており、ジオメトリと外観の分離モデリングと学習を採用し、細かい表面と豊富なマテリアル/テクスチャを生成できる、Fantasia3D と呼ばれるテキストから 3D への自動生成の新しい方法を紹介します。

幾何学的学習のために、研究者らはレンダリングされた法線マップをエンコードし、法線の形状を事前トレーニング済みの安定拡散への入力としてエンコードすることを提案した。

外観モデリングでは、空間的に変化する BRDF が 3D テキスト ペアの生成タスクに導入され、学習面のリアルなレンダリングに必要なマテリアルの学習が可能になります。

この方法では、テキストプロンプトに加えて、カスタマイズされた 3D 形状に基づいて生成することもできます。これにより、ユーザーにとって柔軟性が高まり、生成されたコンテンツをより適切に制御できるようになります。

さらに、このアプローチは、生成された 3D アセットの再照明、編集、物理シミュレーションを便利にサポートします。

著者について


陳睿さんは華南理工大学の大学院1年生で、指導教員は賈奎教授です。彼の研究対象は、コンピューター ビジョンとコンピューター グラフィックスの交差点、特に生成モデルと物理ベースのレンダリング技術を使用して高品質の 3D アセットを作成する分野です。

個人ホームページ: https://cyw-3d.github.io/

Yongwei Chen さんは、華南理工大学の GorillaLab の 3 年生です。彼は Jia Kui 教授の下で学び、3D ビジョン、マルチモーダル学習、微分可能レンダリング、拡散モデルなどを研究対象としています。彼の関連する研究成果は、CVPR、ECCV、NeurIPS、ICCV などのトップクラスのコンピューター ビジョンおよび人工知能カンファレンスで発表されています。最近の研究の方向性は、材質、形状、動き、その他の関連パラメータを含む 3D アセットを自動的に生成できる AI モデルの探索に重点を置いています。

個人ホームページ: http://kuijia.site/

賈奎氏は、華南理工大学の教授であり、幾何知覚・知能研究所の所長であり、広東省の「珠江人材計画」の革新・起業チームのリーダーです。彼は、中国科学院深圳先端技術研究所、香港中文大学、イリノイ大学アーバナ・シャンペーン校先端デジタル科学研究センター、マカオ大学で教育と研究に携わってきました。

彼の研究分野には、コンピュータービジョン、機械学習、人工知能などが含まれます。近年は、ディープラーニングの理論と一般化、幾何学的ディープラーニング、3D AIGC に重点を置いています。彼の研究成果は、TPAMI/CVPR/ICML/NeurIPS などのトップジャーナルやカンファレンスで発表されています。彼は、TMLR/TIP などのジャーナルの副編集長、および ICML/ICCV/NeurIPS などの会議のエリア議長を務めています。

幾何知覚と知能研究室(ゴリラ研究室)は、機械学習、コンピュータビジョン、3次元知覚などの人工知能の中核領域に焦点を当てています。意味認識とコンテンツ生成を重視し、学習データの内在的幾何規則性と外在的幾何表現を中核的手法の指針として、画像、動画、点群などの高次元データをインテリジェントに処理し、関連分野の発展と産業化を推進しています。同研究所は設立以来、中国国家自然科学基金、広東省科学技術庁、華為技術有限公司などから数千万ドルの資金提供を受けてきた。

Jia Kui 教授の研究室では、ポスドク、博士課程、研究修士課程、研究アシスタントのポジションを多数募集しています。人工知能、コンピューター ビジョン、3D 認識と生成の研究に興味のある学生は、[email protected] までメールをお送りください。

<<:  IDC:2026年までに国内市場の端末のほぼ半数がハードウェアレベルのAIエンジン技術を搭載

>>:  AI/MLを使用してテクノロジースタックを最適化し、ビジネス効率を向上させる方法

ブログ    
ブログ    

推薦する

天地万能?疫病の流行に直面して、これらの AI は静かにあなたを守っています...

COVID-19の流行は深刻ですが、多くの新しい技術の助けにより、予防と制御の対策は何年も前と同じ...

...

1865年から始まるビジネスインテリジェンスの簡単な歴史

[[206158]]ビジネス インテリジェンス (BI) という用語は、1865 年にリチャード ミ...

AF2を超える? Iambic、NVIDIA、Caltech が、状態固有のタンパク質-リガンド複合体の構造予測のためのマルチスケール深層生成モデルを開発

タンパク質と小分子リガンドによって形成される結合複合体は、生命にとって遍在し、不可欠です。科学者は最...

...

AIビジョンを取り入れることで、ガソリンスタンドは非常に「スマート」になることができます

[[354264]]石油貯蔵所、ガソリンスタンド、石油荷降ろしトラックには大量の完成燃料が保管され...

今後の国内人工知能産業の発展における5つの大きなトレンド

現在、中国で人工知能の分野で最も多くの投資を受けている5つのサブセクターは、コンピュータービジョン(...

DeepMindの論文がNatureに掲載されました。大規模なモデルが、数学者を何十年も悩ませてきた問題に新たな解決策を発見しました。

今年の AI 界のトップトレンドである大規模言語モデル (LLM) は概念を組み合わせるのが得意で、...

Claude3 が GPT4 に教訓を与えました!オープンAI最強の対戦相手の深夜爆弾、全貌解析付き!

制作:51CTO テクノロジースタック(WeChat ID:blog)深夜、OpenAI の最大のラ...

...

登ったり、ジャンプしたり、狭い隙間を通り抜けたり:オープンソースの強化学習戦略により、ロボット犬がパルクールを行えるようになる

パルクールはエクストリームスポーツであり、複雑な環境におけるさまざまな障害物を素早く克服する必要があ...

機械学習は音楽界を征服するのに役立ち、あなたは次のヴィンセント・ファングになるでしょう

私はアークティック・モンキーズが大好きですが、彼らはもう何年も新しいシングルをリリースしていません。...

...

...