超リアルな 3D 生成モデル!華南理工大学の Jia Kui 氏のチームによる ICCV'23 の新作: 再照明、編集、物理シミュレーションをサポート

超リアルな 3D 生成モデル!華南理工大学の Jia Kui 氏のチームによる ICCV'23 の新作: 再照明、編集、物理シミュレーションをサポート

大規模な事前トレーニング済み言語モデルと画像拡散モデル (Satble Diffusion など) が利用できるようになったことにより、自動 3D コンテンツ生成は最近急速に進歩しました。

既存のテキストから 3D モデルを生成する手法では、通常、NeRF などの暗黙的な表現を使用して、ボリューム レンダリングを通じてジオメトリと外観を結合しますが、より細かいジオメトリ構造を復元してリアルなレンダリングを実現するには不十分であり、高品質の 3D アセットを生成する効果は低くなります。

この研究では、華南理工大学が、高品質のテキストから 3D コンテンツを作成するための新しい方法である Fantasia3D を提案しました。その鍵となるのは、ジオメトリと外観の分離したモデリングと学習です。

写真

プロジェクトアドレス: https://fantasia3d.github.io/

ジオメトリ学習の場合、Fantasia3D は明示的表現と暗黙的表現の組み合わせに依存し、レンダリングされた表面法線マップを Satble Diffusion の入力としてエンコードすることを提案します。外観モデリングの場合、Fantasia3D は、テキストから 3 次元モデルを生成するタスクに空間的に変化する双方向反射分布関数 (BRDF) を導入し、表面のリアルなレンダリングを生成するために必要な表面素材を学習します。

分離されたフレームワークは現在のグラフィック エンジンと互換性があり、生成された 3D アセットの再ライティング、編集、物理シミュレーションをサポートします。

研究者らはまた、さまざまなテキストから 3D を生成するタスク設定において、この方法が既存の方法よりも優れていることを実証するために包括的な実験を実施しました。

モデル効果

Fantasia3D は、特定のテキストに対して、さまざまなトポロジ形状とフォトリアリスティックにレンダリングされた表面を持つ 3D モデルを生成できます。


同時に、下の図 1 の右上隅のライオンに示すように、Fantasia3D は BRDF モデリング サーフェスを使用することで、強い金属反射効果を生み出すことができます。

図1: 3Dモデル生成効果

同時に、Fantasia3D は、ユーザーが指定した大まかな 3 次元オブジェクトやテキストの生成をサポートします。

下の図 2 に示すように、大まかな 3D モデルが与えられると、Fantasia3D は入力された大まかなモデルを初期化として使用して 3D モデルを生成できます。この最適化方法により、生成プロセスがより高速かつ安定し、テキストから 3D モデルを生成する際のヤヌス問題が軽減されます。

図 2: ユーザーが指定した大まかな 3D モデルとテキストに基づいて生成されます。

さらに、暗黙的な表現に基づく既存の方法 (NeRF など) とは異なり、Fantasia3D は明示的な表現と暗黙的な表現の組み合わせを採用しており、生成された 3D アセットは既存のグラフィックス レンダリング エンジンやシミュレーション エンジンと適切に統合できます。

下の図3(a)(b)に示すように、生成された3DモデルはBlenderにインポートして布やソフトボディの物理シミュレーションを行うことができます。図3(c)は、生成されたマテリアルをBlenderで置き換えた実験結果を示しています。

図 3: Blender での編集。

下の図 4 (a) に示すように、Fantasia3D で生成されたモデルは、Blender のさまざまな照明を置き換えて、さまざまなレンダリング効果を生み出すこともできます。

(b) は、Fantasia3D によって生成されたオブジェクトを他のシーンに挿入する機能を示しています。挿入されたオブジェクトは、元の環境の照明環境と相互作用して、自然な反射効果を生み出すことができます。

図 4: 生成されたオブジェクトの再照明。

原理と方法

Fantasia3D のアプローチの概要を以下の図 5 に示します。私たちのアプローチは、テキストの手がかりから分離されたジオメトリと外観を生成することができます(図(a)を参照)。テキストの手がかりは、それぞれ(b)ジオメトリモデリングと(c)外観モデリングによって生成されます。

(b)では、3D楕円体として初期化された3D幾何学的表現としてDMTetを採用しています。

DMTet のパラメータを最適化するために、DMTet から抽出されたメッシュの法線マップ (初期のトレーニング段階でのオブジェクト マスクとともに) を Stable Diffusion の形状エンコーディングとしてレンダリングします。

(c)では、外観モデリングのために、空間的に変化する双方向反射率分布関数(BRDF)モデリングを導入し、外観の3つの成分(kd、krm、kn)を予測することを学習します。ジオメトリと外観の両方のモデリングは、分留サンプリング損失関数 (SDS 損失) によって監視されます。

図 5: Fantasia3D フローチャート。

要約する

この論文では、DMTet のハイブリッド表現に基づいており、ジオメトリと外観の分離モデリングと学習を採用し、細かい表面と豊富なマテリアル/テクスチャを生成できる、Fantasia3D と呼ばれるテキストから 3D への自動生成の新しい方法を紹介します。

幾何学的学習のために、研究者らはレンダリングされた法線マップをエンコードし、法線の形状を事前トレーニング済みの安定拡散への入力としてエンコードすることを提案した。

外観モデリングでは、空間的に変化する BRDF が 3D テキスト ペアの生成タスクに導入され、学習面のリアルなレンダリングに必要なマテリアルの学習が可能になります。

この方法では、テキストプロンプトに加えて、カスタマイズされた 3D 形状に基づいて生成することもできます。これにより、ユーザーにとって柔軟性が高まり、生成されたコンテンツをより適切に制御できるようになります。

さらに、このアプローチは、生成された 3D アセットの再照明、編集、物理シミュレーションを便利にサポートします。

著者について


陳睿さんは華南理工大学の大学院1年生で、指導教員は賈奎教授です。彼の研究対象は、コンピューター ビジョンとコンピューター グラフィックスの交差点、特に生成モデルと物理ベースのレンダリング技術を使用して高品質の 3D アセットを作成する分野です。

個人ホームページ: https://cyw-3d.github.io/

Yongwei Chen さんは、華南理工大学の GorillaLab の 3 年生です。彼は Jia Kui 教授の下で学び、3D ビジョン、マルチモーダル学習、微分可能レンダリング、拡散モデルなどを研究対象としています。彼の関連する研究成果は、CVPR、ECCV、NeurIPS、ICCV などのトップクラスのコンピューター ビジョンおよび人工知能カンファレンスで発表されています。最近の研究の方向性は、材質、形状、動き、その他の関連パラメータを含む 3D アセットを自動的に生成できる AI モデルの探索に重点を置いています。

個人ホームページ: http://kuijia.site/

賈奎氏は、華南理工大学の教授であり、幾何知覚・知能研究所の所長であり、広東省の「珠江人材計画」の革新・起業チームのリーダーです。彼は、中国科学院深圳先端技術研究所、香港中文大学、イリノイ大学アーバナ・シャンペーン校先端デジタル科学研究センター、マカオ大学で教育と研究に携わってきました。

彼の研究分野には、コンピュータービジョン、機械学習、人工知能などが含まれます。近年は、ディープラーニングの理論と一般化、幾何学的ディープラーニング、3D AIGC に重点を置いています。彼の研究成果は、TPAMI/CVPR/ICML/NeurIPS などのトップジャーナルやカンファレンスで発表されています。彼は、TMLR/TIP などのジャーナルの副編集長、および ICML/ICCV/NeurIPS などの会議のエリア議長を務めています。

幾何知覚と知能研究室(ゴリラ研究室)は、機械学習、コンピュータビジョン、3次元知覚などの人工知能の中核領域に焦点を当てています。意味認識とコンテンツ生成を重視し、学習データの内在的幾何規則性と外在的幾何表現を中核的手法の指針として、画像、動画、点群などの高次元データをインテリジェントに処理し、関連分野の発展と産業化を推進しています。同研究所は設立以来、中国国家自然科学基金、広東省科学技術庁、華為技術有限公司などから数千万ドルの資金提供を受けてきた。

Jia Kui 教授の研究室では、ポスドク、博士課程、研究修士課程、研究アシスタントのポジションを多数募集しています。人工知能、コンピューター ビジョン、3D 認識と生成の研究に興味のある学生は、[email protected] までメールをお送りください。

<<:  IDC:2026年までに国内市場の端末のほぼ半数がハードウェアレベルのAIエンジン技術を搭載

>>:  AI/MLを使用してテクノロジースタックを最適化し、ビジネス効率を向上させる方法

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

レノボとブラジルのイノベーションセンターCESARは、聴覚障害者が手話を理解できるように人工知能を活用している。

レノボとブラジルのレシフェにある先端研究システムセンター(CESAR)は、聴覚障害者向けに手話を「翻...

5 つのコア コンポーネントで構成される AIoT は、3 つの大きな課題に直面しています。2 つのブレークスルー以外に何があるのでしょうか。

IoT と AI が徐々に融合するにつれ、AIoT は人々の生活をまったく新しい形で変えようとして...

学覇君主任科学者陳瑞峰:テクノロジーを活用して知識のサイロ化を減らし、教育の効率化を実現する

[51CTO.comからのオリジナル記事] 学習圧力が高く、教育資源の配分が不均衡な中国の教育システ...

Apple、新しいGPUアクセラレーションツールCreate MLをリリース

Appleは本日、カリフォルニア州サンノゼで2018年ワールドワイド開発者会議を開催し、4つの主要な...

2023年以降を一変させる5G IoTテクノロジートップ10

IoT 分野の拡大と発展により、多くの変革的テクノロジーがもたらされるでしょう。家庭から自動車、ウ...

ソフトウェア開発者の生産性を測定する価値はあるでしょうか?

ほとんどの企業はデジタル戦略に取り組んでおり、従業員の生産性を向上させる方法を模索していますが、同時...

...

現実世界の問題を解決するための 4 つの機械学習戦略

広く認識されている機械学習の形式には、教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つ...

AIは、DevOps開発者が新世代のランサムウェアに対抗するために不可欠である

Android オペレーティング システムを含むすべての主要なオペレーティング システムにおいて、人...

Google AI はすべてを食べています!すべての公開コンテンツはAIトレーニングのためにクロールされ、プライバシーポリシーが更新されました

今後、インターネット上で公に話すすべての言葉が、Google によって AI のトレーニングに使用さ...

ディープラーニングを使った顔認証

[[390275]]今日は、ディープラーニングを使用して顔認証アルゴリズムを作成します。 私たちのタ...

...

拡散モデルはオートエンコーダです。ディープマインドの研究者は新しいアイデアを提案し、

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...