近年、事前学習済みの拡散モデル[1, 2, 3]の開発により、テキストから3Dコンテンツへの自動作成が大きく進歩しました。その中で、DreamFusion[4]は、事前学習済みの2D拡散モデル[5]を活用してテキストから3Dアセットを自動的に生成する効果的な方法を導入し、専用の3Dアセットデータセットの必要性を排除しました。 DreamFusion が導入した重要な革新は、分留サンプリング (SDS) アルゴリズムです。このアルゴリズムは、NeRF [6]などの事前学習済みの2D拡散モデルを使用して単一の3D表現を評価し、その後、どのカメラビューからレンダリングされた画像でも指定されたテキストとの高い一貫性が維持されるように最適化されます。独創的なSDSアルゴリズムに触発されて、事前学習済みの2D拡散モデルを適用することでテキストから3Dへの生成タスクを進歩させるいくつかの研究[7、8、9、10、11]が登場しました。 テキストから 3D への生成は、事前トレーニング済みのテキストから 2D への拡散モデルを活用することで大幅に進歩しましたが、2D 画像と 3D アセットの間には依然として大きなドメインギャップが存在します。この違いは図 1 に明確に示されています。 まず、テキストから 2D へのモデルは、カメラに依存しない生成結果を生成します。これは、他の角度を無視して特定の角度から高品質の画像を生成することに重点を置いています。対照的に、3D コンテンツの作成は、位置、撮影角度、視野などのカメラ パラメータと複雑に結びついています。したがって、テキストから 3D モデルへの変換では、すべての可能なカメラ パラメータにわたって高品質の結果を生成する必要があります。 さらに、テキストから 2D への生成モデルでは、画像全体の一貫性を維持しながら、前景要素と背景要素の両方を生成する必要があります。対照的に、テキストから 3D への生成モデルでは、前景オブジェクトの作成にのみ焦点を当てる必要があります。この区別により、テキストから 3D モデルへの変換では、より多くのリソースと注意を割り当てて、前景オブジェクトを正確に表現および生成できるようになります。したがって、テキストから 2D への生成とテキストから 3D への生成の間のドメイン ギャップは、3D アセットの作成に事前トレーニング済みの 2D 拡散モデルを直接採用する場合、大きなパフォーマンスの障壁となります。 図 1. 同じテキスト プロンプト「レオナルド ディカプリオの頭部の像」が与えられた場合の、テキストから 2D への生成モデル (左) とテキストから 3D への生成モデル (右) の出力。 この問題に対処するために、テキストから 2D への生成とテキストから 3D への生成の間のドメインギャップを効果的に埋める、高品質のテキストから 3D へのコンテンツ作成のための新しいアプローチである X-Dreamer を提案します。 X-Dreamer の主要コンポーネントは、Camera-Guided Low-Rank Adaptation (CG-LoRA) と Attention-Mask Alignment (AMA) loss という 2 つの革新的な設計です。 まず、既存の方法[7, 8, 9, 10]では、通常、テキストから3Dへの生成に2Dの事前学習済み拡散モデル[5, 12]を採用していますが、これにはカメラパラメータとの固有の接続が欠けています。この制限に対処し、X-Dreamer がカメラ パラメータに直接影響される結果を生成することを保証するために、この論文では、事前トレーニング済みの 2D 拡散モデルを調整する CG-LoRA を導入しています。 CG-LoRA のパラメータは、各反復中にカメラ情報に基づいて動的に生成され、テキストから 3D モデルとカメラ パラメータの間に堅牢な関係が確立されることは注目に値します。 2 番目に、事前トレーニング済みのテキストから 2D への拡散モデルは前景と背景の生成に注意を割り当てますが、3D アセットの作成では前景オブジェクトの正確な生成にさらに注意を払う必要があります。この問題に対処するために、この論文では、3D オブジェクトのバイナリ マスクを使用して、事前トレーニング済みの拡散モデルの注意マップをガイドし、前景オブジェクトの作成を優先する AMA 損失を提案しています。このモジュールを組み込むことで、X-Dreamer は前景オブジェクトの生成を優先し、生成される 3D コンテンツの全体的な品質を大幅に向上させます。 プロジェクトのホームページ: https://xmu-xiaoma666.github.io/Projects/X-Dreamer/ Githubホームページ: https://github.com/xmu-xiaoma666/X-Dreamer 論文アドレス: https://arxiv.org/abs/2312.00085 X-Dreamer は、テキストから 3D への生成の分野に次のような貢献をしてきました。
方法X-Dreamer は、形状学習と外観学習という 2 つの主要な段階で構成されています。幾何学的学習については、この論文では 3D 表現として DMTET を使用し、3D 楕円体で初期化します。初期化中の損失関数では、平均二乗誤差 (MSE) 損失を使用します。次に、この論文では、分留サンプリング (SDS) 損失と提案された AMA 損失を使用して、DMTET と CG-LoRA を最適化し、3D 表現と入力テキスト プロンプト間の整合性を保証します。 外観学習のために、この論文では双方向反射分布関数 (BRDF) モデリングを使用しています。具体的には、この論文では、トレーニング可能なパラメータを持つ MLP を利用して表面材質を予測します。幾何学的学習段階と同様に、SDS 損失と AMA 損失を使用して、MLP と CG-LoRA のトレーニング可能なパラメータを最適化し、3D 表現とテキスト キューの整合を実現します。図2はX-Dreamerの詳細な構成を示しています。 図 2 ジオメトリ学習と外観学習を含む X-Dreamer の概要。 幾何学の学習 このモジュールでは、X-Dreamer は MLP ネットワークを利用して、DMTET を 3D 表現にパラメータ化します。幾何学的モデリングの安定性を高めるために、本論文では、DMTET の初期構成として 3D 楕円体を使用します。四面体メッシュに属する各頂点について、SDF 値と変形オフセットという2 つの重要な量を予測するようにトレーニングします。 t を楕円体に初期化するために、この論文では楕円体内に均一に分布する N 個の点をサンプリングし、対応する SDF 値を計算します。その後、平均二乗誤差 (MSE) 損失が最適化に使用されます。この最適化プロセスにより、DMTET が 3D 楕円体に似た形に効果的に初期化されます。 MSE 損失の計算式は次のとおりです。 ジオメトリを初期化した後、DMTET のジオメトリを入力テキスト プロンプトに合わせます。これは、差分レンダリング技術を使用して、ランダムにサンプリングされたカメラポーズ c が与えられた初期化された DMTET から法線マップ n とオブジェクトマスク m を生成することによって行われます。次に、法線マップ n は、トレーニング可能な CG-LoRA 埋め込みを備えた凍結された安定拡散モデル (SD) に入力され、次のように定義される SDS 損失を使用してパラメータが更新されます。 ここで、はSD のパラメータを表し、はノイズ レベル t とテキスト埋め込み y が与えられた場合に SD で予測されるノイズです。さらに、 は正規分布からサンプリングされたノイズを表します。 、およびの実装はDreamFusion [4]に基づいています。 さらに、SD を前景オブジェクトの生成に集中させるために、X-Dreamer は追加の AMA 損失を導入し、次のようにオブジェクト マスクを SD の注意マップに合わせます。 ここで、は注意層の数を表し、は i 番目の注意層の注意マップです。この関数は、レンダリングされた 3D オブジェクト マスクのサイズを変更して、そのサイズがアテンション マップのサイズと一致するようにするために使用されます。 外見の学習 この論文の目的は、3D オブジェクトのジオメトリを取得した後、物理ベース レンダリング (PBR) マテリアル モデルを使用して 3D オブジェクトの外観を計算することです。材料モデルには、拡散項、粗さ項、金属項、法線変化項が含まれます。幾何学的物体の表面上の任意の点について パラメータ化された多層パーセプトロン(MLP)を使用して3つの物質的な項目を取得します。これは具体的には次のように表現できます。 その中で、位置エンコーディングにハッシュグリッド技術を使用することを意味します。その後、レンダリングされた画像の各ピクセルは、次の式を使用して計算できます。 このうち、方向からレンダリングされた 3D オブジェクトの表面上の点のピクセル値を表します。は、条件を満たす入射方向の集合によって定義される半球を表します。ここで、は入射方向を表し、は点における表面法線を表します。既成の環境マップからの入射光に対応するのは、マテリアル特性(つまり、)に関連付けられた双方向反射分布関数(BRDF)です。レンダリングされたすべてのピクセルの色を集約することで、レンダリングされた画像を取得できます。ジオメトリ学習段階と同様に、レンダリングされた画像は SD に入力され、SDS 損失と AMA 損失を使用して最適化されます。 カメラガイドによる低ランク適応 (CG-LoRA) テキストから 2D への生成タスクとテキストから 3D への生成タスク間のドメイン ギャップ (最適ではない 3D 結果の生成につながる) に対処するために、X-Dreamer はカメラ ガイド付き低ランク適応を提案しました。 図 3 に示すように、カメラ パラメータと方向認識テキストを使用して CG-LoRA のパラメータ生成をガイドし、X-Dreamer がカメラの位置と方向情報を効果的に認識できるようにします。 図3 カメラ誘導CG-LoRAの概略図。 具体的には、テキストプロンプトとカメラパラメータが与えられたら、まず事前トレーニング済みのテキストCLIPエンコーダーとトレーニング可能なMLPを使用してこれらの入力を特徴空間に投影します。 その中には、それぞれテキスト機能とカメラ機能があります。その後、2 つの低ランク行列を使用して、 CG-LoRA のトレーニング可能な低次元行列に投影します。 このうち、およびは CG-LoRA の 2 次元縮小行列です。関数 テンソルの形状を から に変換します。 と2 つの低ランク行列です。したがって、これらを 2 つの行列の積に分解して、実装におけるトレーニング可能なパラメータを減らすことができます。つまり、、、、は非常に小さい数(たとえば 4)です。 LoRA の構成に応じて、次元拡張マトリックスはゼロに初期化され、モデルが SD の事前トレーニング済みパラメータを使用してトレーニングを開始することが保証されます。したがって、CG-LoRA のフィードフォワード プロセス式は次のようになります。 そのうち、 は、カスケード操作である事前トレーニング済み SD モデルの固定パラメータを表します。この方法の実装では、CG-LoRA を SD の注意モジュールの線形埋め込み層に統合して、方向とカメラ情報を効果的にキャプチャします。 注意マスクアライメント損失(AMA損失) SD は、前景と背景の両方の要素を考慮して 2D 画像を生成するように事前トレーニングされています。ただし、テキストから 3D を生成するには、前景オブジェクトの生成にさらに注意を払う必要があります。この要件を考慮して、X-Dreamer は、SD の注意マップを 3D オブジェクトのレンダリングされたマスク イメージに合わせるために、Attention-Mask Alignment Loss (AMA loss) を提案しました。具体的には、事前トレーニング済みの SD 内の各注意層に対して、クエリ画像の特徴と主要な CLS ランドマークの特徴を使用して注意マップを計算します。計算式は以下のとおりです。 このうち、 はマルチヘッド注意機構におけるヘッドの数を表し、 は注意マップを表し、その後、すべての注意ヘッドにおける注意マップの注意値を平均化することで全体の注意マップの値が計算されます。 注意マップの値はソフトマックス関数を使用して正規化されるため、画像特徴の解像度が高い場合、注意マップ内の活性化値が非常に小さくなる可能性があります。ただし、レンダリングされた 3D オブジェクト マスク内の各要素は 0 または 1 のバイナリ値であることを考慮すると、アテンション マップをレンダリングされた 3D オブジェクト マスクに直接配置することは最適ではありません。この問題に対処するために、この論文では、アテンションマップ内の値を(0、1)の間にマッピングする正規化手法を提案しています。この正規化プロセスの式は次のとおりです。 ここで、 は分母に 0 が現れないようにするための小さな定数値 (たとえば ) を表します。最後に、すべての注意レイヤーの注意マップは、AMA 損失を使用して 3D オブジェクトのレンダリングされたマスクと揃えられます。 実験結果この論文では、実験に 4 つの Nvidia RTX 3090 GPU と PyTorch ライブラリを使用しました。 SDS 損失を計算するために、Hugging Face Diffusers によって実装された安定拡散モデルが利用されます。 DMTET およびマテリアル エンコーダーの場合、それぞれ 2 層 MLP および 1 層 MLP として実装され、隠し層の次元は 32 です。 楕円体から始まるテキストから3Dへの生成 この論文では、図 4 に示すように、楕円体を初期ジオメトリとして使用して X-Dreamer によるテキストから 3D への生成結果を示しています。結果は、X-Dreamer が、入力テキスト プロンプトに正確に対応する高品質でフォトリアリスティックな 3D オブジェクトを生成できることを示しています。 図 4. 楕円体から始まるテキストから 3D への生成。 粗粒度のグリッドから始まるテキストから3Dへの生成 インターネットからは大量の粗粒度のメッシュをダウンロードできますが、これらのメッシュを直接使用して 3D コンテンツを作成すると、幾何学的な詳細が不足しているため、パフォーマンスが低下することがよくあります。ただし、3D 楕円体と比較すると、これらのメッシュは X-Dreamer に対してより優れた 3D 形状の事前情報を提供できます。 したがって、楕円体を使用する代わりに、粗粒度のガイダンス グリッドを使用して DMTET を初期化することもできます。図 5 に示すように、X-Dreamer は、提供された粗粒度のメッシュに詳細がない場合でも、指定されたテキストに基づいて正確な幾何学的詳細を持つ 3D アセットを生成できます。 図 5. 粗粒度メッシュから始まるテキストから 3D への生成。 定性的な比較 X-Dreamerの有効性を評価するために、この論文では、図6に示すように、DreamFusion [4]、Magic3D [8]、Fantasia3D [7]、ProlificDreamer [11]の4つのSOTA手法と比較しています。 SDSベースの方法[4、7、8]と比較すると、X-Dreamerは高品質でリアルな3Dアセットを生成する点で優れています。さらに、VSDベースの方法[11]と比較して、X-Dreamerは、最適化時間を大幅に短縮しながら、同等かそれ以上の視覚品質の3Dコンテンツを生成します。具体的には、X-Dreamer のジオメトリと外観の学習プロセスには約 27 分しかかかりませんが、ProlificDreamer の場合は 8 時間以上かかります。 図6 最先端(SOTA)手法との比較。 アブレーション実験
CG-LoRA と AMA 損失の可能性についての洞察を得るために、各モジュールを個別に追加してその影響を評価するアブレーション研究が実施されました。図 7 に示すように、アブレーションの結果から、CG-LoRA が X-Dreamer から除外されると、生成された 3D オブジェクトの形状と外観の品質が大幅に低下することがわかります。 さらに、X-Dreamer では AMA 損失がないため、生成された 3D アセットのジオメトリと外観の忠実度にも悪影響が及びます。これらのアブレーション実験は、生成された 3D オブジェクトの形状、外観、および全体的な品質の向上における CG-LoRA と AMA 損失の個々の寄与に関する貴重な調査を提供します。 図7 X-Dreamerのアブレーション研究。
AMA 損失を導入する目的は、ノイズ除去中に前景オブジェクトに注意を向けることです。これは、SD の注意マップを 3D オブジェクトのレンダリング マスクに合わせることによって実現されます。この目標を達成するための AMA 損失の有効性を評価するために、形状学習段階と外観学習段階で AMA 損失がある場合とない場合の SD の注意マップを視覚化します。 図 8 に示すように、AMA 損失を追加すると、生成された 3D アセットのジオメトリと外観が改善されるだけでなく、特に前景オブジェクト領域に SD の注目が集中することがわかります。この視覚化により、AMA 損失が SD 注意を誘導する上で有効であることが確認され、幾何学と外観の学習段階で前景オブジェクトの品質と焦点が向上します。 図 8. AMA 損失ありとなしの注意マップ、レンダリング マスク、レンダリング画像の視覚化。 この研究では、テキストから 2D への生成とテキストから 3D への生成の間のドメイン ギャップを解決することで、テキストから 3D への生成を強化することを目的とした、画期的なフレームワーク X-Dreamer を紹介します。これを実現するために、この論文ではまず、3D 関連情報 (方向認識テキストやカメラ パラメータを含む) を事前トレーニング済みの Stable Diffusion (SD) モデルに組み込むモジュールである CG-LoRA を提案しています。そうすることで、3D ドメインに関連する情報を効果的に取得できるようになります。さらに、SD によって生成された注意マップを 3D オブジェクトのレンダリング マスクに合わせるように AMA 損失を設計します。 AMA 損失の主な目的は、テキストから 3D へのモデルの焦点を前景オブジェクトの生成に向けることです。広範囲にわたる実験を通じて、提案されたアプローチの有効性を徹底的に評価し、X-Dreamer がテキストの手がかりに基づいて高品質でリアルな 3D コンテンツを生成できることを実証しました。 |
<<: Gemini vs ChatGPT: Google の最新 AI と ChatGPT のどちらが優れているのでしょうか?
>>: Metaは独立したAI画像ジェネレーターを立ち上げました。現在は無料ですが、英語のプロンプトのみをサポートしています。
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
昨年5月に業界初となるモノのインターネット(IoT)向けAIチップ「Swift」とそのシステムソリュ...
AI.com ドメイン名は、もともと今年 2 月に OpenAI によって購入され、ChatGPT ...
最近、LeCun は、依然として崩壊問題と自己監督に関する新しい研究を発表しました。今回、彼は新しい...
昨日、五菱科技は北京で新製品発表会を開催し、多感覚インタラクション機能を備えた「Luka Hero」...
ロボット時代の到来はそう遠くないかもしれない。少し前に、清華大学は「華志兵」という名のヒューマノイド...
AIは現代のビジネスとテクノロジーのエコシステムをさまざまな形で大きく変えてきました。過去数年間に...
[[212334]]モバイル インターネット時代に生きる技術オタクとして、私は嫌がらせのテキスト メ...
人工知能 (AI) は、過去 10 年ほどの間に SF の世界から現実の世界へと移行し、地球上のほぼ...