超リアルな 3D 生成モデル!華南理工大学の Jia Kui 氏のチームによる ICCV'23 の新作: 再照明、編集、物理シミュレーションをサポート

超リアルな 3D 生成モデル!華南理工大学の Jia Kui 氏のチームによる ICCV'23 の新作: 再照明、編集、物理シミュレーションをサポート

大規模な事前トレーニング済み言語モデルと画像拡散モデル (Satble Diffusion など) が利用できるようになったことにより、自動 3D コンテンツ生成は最近急速に進歩しました。

既存のテキストから 3D モデルを生成する手法では、通常、NeRF などの暗黙的な表現を使用して、ボリューム レンダリングを通じてジオメトリと外観を結合しますが、より細かいジオメトリ構造を復元してリアルなレンダリングを実現するには不十分であり、高品質の 3D アセットを生成する効果は低くなります。

この研究では、華南理工大学が、高品質のテキストから 3D コンテンツを作成するための新しい方法である Fantasia3D を提案しました。その鍵となるのは、ジオメトリと外観の分離したモデリングと学習です。

写真

プロジェクトアドレス: https://fantasia3d.github.io/

ジオメトリ学習の場合、Fantasia3D は明示的表現と暗黙的表現の組み合わせに依存し、レンダリングされた表面法線マップを Satble Diffusion の入力としてエンコードすることを提案します。外観モデリングの場合、Fantasia3D は、テキストから 3 次元モデルを生成するタスクに空間的に変化する双方向反射分布関数 (BRDF) を導入し、表面のリアルなレンダリングを生成するために必要な表面素材を学習します。

分離されたフレームワークは現在のグラフィック エンジンと互換性があり、生成された 3D アセットの再ライティング、編集、物理シミュレーションをサポートします。

研究者らはまた、さまざまなテキストから 3D を生成するタスク設定において、この方法が既存の方法よりも優れていることを実証するために包括的な実験を実施しました。

モデル効果

Fantasia3D は、特定のテキストに対して、さまざまなトポロジ形状とフォトリアリスティックにレンダリングされた表面を持つ 3D モデルを生成できます。


同時に、下の図 1 の右上隅のライオンに示すように、Fantasia3D は BRDF モデリング サーフェスを使用することで、強い金属反射効果を生み出すことができます。

図1: 3Dモデル生成効果

同時に、Fantasia3D は、ユーザーが指定した大まかな 3 次元オブジェクトやテキストの生成をサポートします。

下の図 2 に示すように、大まかな 3D モデルが与えられると、Fantasia3D は入力された大まかなモデルを初期化として使用して 3D モデルを生成できます。この最適化方法により、生成プロセスがより高速かつ安定し、テキストから 3D モデルを生成する際のヤヌス問題が軽減されます。

図 2: ユーザーが指定した大まかな 3D モデルとテキストに基づいて生成されます。

さらに、暗黙的な表現に基づく既存の方法 (NeRF など) とは異なり、Fantasia3D は明示的な表現と暗黙的な表現の組み合わせを採用しており、生成された 3D アセットは既存のグラフィックス レンダリング エンジンやシミュレーション エンジンと適切に統合できます。

下の図3(a)(b)に示すように、生成された3DモデルはBlenderにインポートして布やソフトボディの物理シミュレーションを行うことができます。図3(c)は、生成されたマテリアルをBlenderで置き換えた実験結果を示しています。

図 3: Blender での編集。

下の図 4 (a) に示すように、Fantasia3D で生成されたモデルは、Blender のさまざまな照明を置き換えて、さまざまなレンダリング効果を生み出すこともできます。

(b) は、Fantasia3D によって生成されたオブジェクトを他のシーンに挿入する機能を示しています。挿入されたオブジェクトは、元の環境の照明環境と相互作用して、自然な反射効果を生み出すことができます。

図 4: 生成されたオブジェクトの再照明。

原理と方法

Fantasia3D のアプローチの概要を以下の図 5 に示します。私たちのアプローチは、テキストの手がかりから分離されたジオメトリと外観を生成することができます(図(a)を参照)。テキストの手がかりは、それぞれ(b)ジオメトリモデリングと(c)外観モデリングによって生成されます。

(b)では、3D楕円体として初期化された3D幾何学的表現としてDMTetを採用しています。

DMTet のパラメータを最適化するために、DMTet から抽出されたメッシュの法線マップ (初期のトレーニング段階でのオブジェクト マスクとともに) を Stable Diffusion の形状エンコーディングとしてレンダリングします。

(c)では、外観モデリングのために、空間的に変化する双方向反射率分布関数(BRDF)モデリングを導入し、外観の3つの成分(kd、krm、kn)を予測することを学習します。ジオメトリと外観の両方のモデリングは、分留サンプリング損失関数 (SDS 損失) によって監視されます。

図 5: Fantasia3D フローチャート。

要約する

この論文では、DMTet のハイブリッド表現に基づいており、ジオメトリと外観の分離モデリングと学習を採用し、細かい表面と豊富なマテリアル/テクスチャを生成できる、Fantasia3D と呼ばれるテキストから 3D への自動生成の新しい方法を紹介します。

幾何学的学習のために、研究者らはレンダリングされた法線マップをエンコードし、法線の形状を事前トレーニング済みの安定拡散への入力としてエンコードすることを提案した。

外観モデリングでは、空間的に変化する BRDF が 3D テキスト ペアの生成タスクに導入され、学習面のリアルなレンダリングに必要なマテリアルの学習が可能になります。

この方法では、テキストプロンプトに加えて、カスタマイズされた 3D 形状に基づいて生成することもできます。これにより、ユーザーにとって柔軟性が高まり、生成されたコンテンツをより適切に制御できるようになります。

さらに、このアプローチは、生成された 3D アセットの再照明、編集、物理シミュレーションを便利にサポートします。

著者について


陳睿さんは華南理工大学の大学院1年生で、指導教員は賈奎教授です。彼の研究対象は、コンピューター ビジョンとコンピューター グラフィックスの交差点、特に生成モデルと物理ベースのレンダリング技術を使用して高品質の 3D アセットを作成する分野です。

個人ホームページ: https://cyw-3d.github.io/

Yongwei Chen さんは、華南理工大学の GorillaLab の 3 年生です。彼は Jia Kui 教授の下で学び、3D ビジョン、マルチモーダル学習、微分可能レンダリング、拡散モデルなどを研究対象としています。彼の関連する研究成果は、CVPR、ECCV、NeurIPS、ICCV などのトップクラスのコンピューター ビジョンおよび人工知能カンファレンスで発表されています。最近の研究の方向性は、材質、形状、動き、その他の関連パラメータを含む 3D アセットを自動的に生成できる AI モデルの探索に重点を置いています。

個人ホームページ: http://kuijia.site/

賈奎氏は、華南理工大学の教授であり、幾何知覚・知能研究所の所長であり、広東省の「珠江人材計画」の革新・起業チームのリーダーです。彼は、中国科学院深圳先端技術研究所、香港中文大学、イリノイ大学アーバナ・シャンペーン校先端デジタル科学研究センター、マカオ大学で教育と研究に携わってきました。

彼の研究分野には、コンピュータービジョン、機械学習、人工知能などが含まれます。近年は、ディープラーニングの理論と一般化、幾何学的ディープラーニング、3D AIGC に重点を置いています。彼の研究成果は、TPAMI/CVPR/ICML/NeurIPS などのトップジャーナルやカンファレンスで発表されています。彼は、TMLR/TIP などのジャーナルの副編集長、および ICML/ICCV/NeurIPS などの会議のエリア議長を務めています。

幾何知覚と知能研究室(ゴリラ研究室)は、機械学習、コンピュータビジョン、3次元知覚などの人工知能の中核領域に焦点を当てています。意味認識とコンテンツ生成を重視し、学習データの内在的幾何規則性と外在的幾何表現を中核的手法の指針として、画像、動画、点群などの高次元データをインテリジェントに処理し、関連分野の発展と産業化を推進しています。同研究所は設立以来、中国国家自然科学基金、広東省科学技術庁、華為技術有限公司などから数千万ドルの資金提供を受けてきた。

Jia Kui 教授の研究室では、ポスドク、博士課程、研究修士課程、研究アシスタントのポジションを多数募集しています。人工知能、コンピューター ビジョン、3D 認識と生成の研究に興味のある学生は、[email protected] までメールをお送りください。

<<:  IDC:2026年までに国内市場の端末のほぼ半数がハードウェアレベルのAIエンジン技術を搭載

>>:  AI/MLを使用してテクノロジースタックを最適化し、ビジネス効率を向上させる方法

ブログ    
ブログ    

推薦する

ディープラーニングは、データが不足している場合、無力なのでしょうか?ここにいくつかの良いアイデアがあります!

ディープラーニングは、データが大量にある場合、どんなに複雑な問題でも問題ありません。しかし、データが...

2023年の人工知能の進歩を、大きなモデルだけでなく考察する記事

2023年には、ビッグモデル間の激しい競争が繰り広げられるでしょう。これ以外に、AI分野ではどのよう...

...

人工知能技術が人の流れにおける個々の感染リスクを迅速に特定し、同済は伝染病予防・制御識別システムを開発

[[315277]]校門に設置されたカメラの前に立つと、システムは顔認識技術と現場での体温検知を組み...

視覚と言語の多粒度の調整を学習しますか? Byte は、新しいマルチモーダル事前トレーニング方法 X-VLM を提案しました。コードがオープンソース化されました。

前面に書かれた視覚言語の事前トレーニングにより、多くの視覚言語タスクのパフォーマンスが向上します。し...

GPT-4により、ロボットはペンを回したりクルミを転がしたりすることを学習した。

学習に関しては、GPT-4 は優れた生徒です。大量の人間のデータを消化することで、さまざまな知識を習...

2020年世界人工知能会議が開催されます! AI が人間の言語の高度な能力をいかにして習得するかをご覧ください。

2020年7月9日、2020年世界人工知能大会(WAIC)クラウドサミットが正式に開幕しました。I...

...

職場環境は依然として変化しているが、AIは「古いオフィス」を再現する以上の可能性を秘めている。

私たちは職場における技術革命の真っ只中にいます。 1か月ちょっと前に世界の人口の3分の1が隔離された...

AIがコンテンツ業界に力を与える: 確実に勝利するのは誰か、流れを変えるのは誰か

[51CTO.comより引用] 近年、AI技術は徐々にコンテンツ業界に浸透し、さまざまなコンテンツプ...

AIがデータセンターを管理するのに時間がかかる理由

ハイパースケーラーはすでに業務改善のために AI を活用していますが、他のほとんどのデータセンターで...

...

自動運転制御プロセスにおいて解決すべき規制上の問題は何ですか?

自動運転車は自動車の知能化の究極の目標であると広く考えられていますが、自動車技術のさまざまな段階の発...

...

...