香港科技大学のタン・ピン氏のチームが3D生成における重要な問題を突破し、多頭モンスターの出現を防止

生成モデルは画像生成の分野で大きな成功を収めてきましたが、この技術を 3D 分野に拡張するには常に多くの課題に直面してきました。典型的な多頭モンスター問題、つまり 3D でのテキスト生成におけるマルチビュー一貫性の問題は、十分に解決されていません。 Tan Ping 氏のチームの最新の研究論文はすべて、この根本的な問題を解決し、この分野に画期的な進歩と革新をもたらすことに専念しています。

ピン・タン博士は、香港科技大学の電子・コンピュータ工学部の教授です。彼は、アリババDAMOアカデミーのXR研究所の所長、および人工知能研究所のコンピュータービジョンの主任科学者を務めてきました。彼は最近、Light and Shadowという会社を設立し、長年の研究成果を変革しながら、現在も3D分野に注力しています。

論文「SweetDreamer」では、3Dデータを使用して2D拡散モデルを調整し、テキストから高品質の3Dモデルを生成するというタスクを成功裏に達成し、幾何学的不整合の問題を解決しました。 2D モデルに遠近感を与え、標準座標マッピング (CCM) を導入することで、3D 幾何学構造を効果的に整列させ、多様で高品質なオブジェクトを生成する能力を維持し、人間の評価において 85% 以上の一貫性を実現し、従来の方法 (わずか約 30%) をはるかに上回り、テキストから 3D 生成の分野に新たな技術的進歩をもたらしました。

論文アドレス: https://arxiv.org/pdf/2310.02596.pdf
論文ウェブサイト: https://sweetdreamer3d.github.io/

論文「Ctrl-Room」では、「レイアウト生成段階」と「外観生成段階」という2段階の生成方法を採用し、3D屋内シーンのテキスト生成におけるマルチビューの不整合問題を解決しています。レイアウト生成フェーズでは、家具の種類と位置、壁、ドア、窓などの要素を考慮して、適切な内部レイアウトを生成します。外観生成段階では、異なる視点からの画像間の一貫性を確保するためにパノラマ画像を生成し、3D の部屋の構造と家具の配置の合理性を保証します。「Ctrl-Room」を使用すると、家具のサイズ、位置、意味カテゴリの調整、家具の交換や変更など、生成された 3D ルームを柔軟に編集することもできます。

論文アドレス: https://arxiv.org/abs/2310.03602v1

論文URL: https://fangchuan.github.io/ctrl-room.github.io/

次に、この2つの論文の主な内容を見てみましょう。

スウィートドリーマー

SweetDreamer は、Tan Ping 氏のチーム、Tencent、華南理工大学の共同プロジェクトであり、テキスト生成 3D オブジェクトにおけるマルチパースペクティブの不一致の問題を解決することに重点を置いています。2D 拡散モデルを改良することで、テキストを高品質の 3D オブジェクトに変換することに成功し、テキストから 3D への生成における大きな進歩を達成しました。

「SweetDreamer」の中心的な貢献は、テキストから 3D への生成におけるマルチビューの不整合問題を解決することです。研究チームは、既存の方法の主な問題は幾何学的な不整合から生じていると指摘しました。つまり、2D の結果を 3D の世界に昇格させると、2D モデルは視点に依存しない事前知識のみを学習するため、マルチビューの不整合の問題が発生します。この問題は主に幾何学的構造の不整合として現れ、これらの不整合構造を解決することで、生成された結果の問題を大幅に軽減できます。そのため、研究チームは、2D 拡散モデルを遠近法対応にし、リフティングプロセス中に 3D ジオメトリと一致する標準座標マップ (CCM) を生成することで、この問題に対処しました。

この論文で紹介されている方法では、粗い 3D 情報のみが使用され、少量の 3D データのみが必要です。このアプローチは、幾何学的な不整合の問題を解決するだけでなく、これまでにない多様で高品質なオブジェクトを生成する 2D 拡散モデルの能力も維持します。

最終的に、彼らの方法は人間による評価で 85% を超える一貫性を達成し、約 30% であった以前の方法の結果をはるかに上回りました。これは、彼らの方法がテキストから 3D 生成の分野における新たな技術的ブレークスルーを達成したことを意味します。この研究は、3D生成にとって大きな意義を持つだけでなく、バーチャルリアリティ、ゲーム開発、映画やテレビ番組制作などにも幅広い応用の見通しがあり、より高品質で多様な3D生成を実現するための新たな可能性を切り開きます。

方法の紹介

「SweetDreamer」の中心的な目標は、マルチビューの不一致の問題を解決することです。この問題は、幾何学的不整合の問題と外観の不整合の問題という 2 つの観点から考えることができます。研究を通じて、チームは、ほとんどの 3D 不整合問題の主な原因は、幾何学的構造のずれであることを発見しました。したがって、このテクノロジの主な目的は、モデルの汎用性を維持しながら、3D の一貫性のある幾何学的構造を生成できるように、2D の事前モデルを改良することです。

この目標を達成するために、チームは、2D 拡散モデルの幾何学的事前分布を 3D データセットの標準座標マップ (CCM) と揃えることで、3D の一貫したジオメトリを正しく生成する方法を提案しました。この手法は 3D データセットに依存し、データセット内のモデルが標準的な方向と標準化されたサイズを持っていることを前提としています。次に、深度マップがランダムな角度からレンダリングされ、標準座標に変換されます。このプロセスの目的は、幾何学的詳細を生成することではなく、幾何学的事前分布を揃えることであることに注意することが重要です。

最後に、2D 拡散モデルを微調整することで、指定された視野角で標準座標マップを生成し、2D 拡散モデル内の幾何学的事前分布を調整することができます。これらの整列した幾何学的事前分布 (AGP) は、さまざまなテキストから 3D への生成パイプラインに簡単に統合できるため、不整合の問題が大幅に軽減され、最終的に高品質で多様な 3D コンテンツが生成されます。

「SweetDreamer」の主な手順は次のとおりです。

標準座標マッピング (CCM)。まず、モデリングプロセスを簡素化するために、研究者はトレーニングデータ内の同じカテゴリのすべてのオブジェクトが標準的な方向に従っていると仮定しました。次に、オブジェクトのサイズを正規化して、境界ボックスの最大範囲の長さが 1 になり、原点が中心になるようにしました。さらに、オブジェクトからレンダリングされた座標マップに対して異方性スケーリングを実行し、異なる視野角での薄い構造の空間座標の違いを強調して、3D 構造の認識を改善しました。
カメラ情報の挿入。標準座標マップには大まかな遠近法の情報が含まれていますが、研究者は拡散モデルがそれを効果的に活用することが難しいことを発見しました。そこで、彼らは遠近感の認識を改善するために、モデルにカメラ情報を注入しました。このステップの目的は、正確な 3D モデルではなく、大まかなジオメトリを生成することです。
2D 拡散モデルの微調整。標準座標マッピングと対応するカメラパラメータを取得した後、研究者は 2D 拡散モデルを微調整して特定の表示条件下での標準座標マッピングを生成し、最後に 2D 拡散モデル内の幾何学的事前分布を調整しました。

この技術は、マルチビュー 3D 構造の一貫性を解決するだけでなく、2D 拡散モデルの柔軟性と豊かさを維持し、さまざまなレンダリングパイプラインに統合できます。チームは記事の中で、ニューラル放射フィールド (NeRF) に基づく DreamFusion と従来の三角形メッシュに基づく Fantasia3D という 2 つの異なるレンダリングパイプラインを実演しました。

ニューラル放射フィールドベースのパイプライン: チームは 3D オブジェクトのボクセルレンダリングを実行して RGB 画像を取得し、それを拡散モデルに入力して SDS 損失を計算しました。最適化中、チームは標準座標マップ (CCM) をレンダリングし、それを整列ジオメトリ事前分布 (AGP) に入力してジオメトリ SDS 損失を計算し、NeRF のジオメトリブランチを更新しました。

従来の三角形メッシュベースのパイプライン: ここでは、元のプロセスのジオメトリモデリング監視に位置合わせされたジオメトリプライア (AGP) を組み込むために、追加の並列ブランチを追加するだけで済みます。最適化の過程で、チームは粗いジオメトリモデリング段階と細かいジオメトリモデリング段階の両方で追加の監視として、Aligned Geometry Prior (AGP) を導入し、高品質で視点が一貫した結果を簡単に得ることができました。

実験結果

テキスト生成 3D のネットワークに AGP を統合することで、結果が大幅に改善されました。元の方法は、複数の視点の不一致によって簡単に乱れ、複数の頭や複数の手などの無秩序な幾何学的構造を持つ結果を生成します。研究チームは、新しい方法により結果が大幅に改善され、生成された結果には高度な 3D 一貫性があることを発見しました。

チームの定量的評価は、3D 結果のマルチビュー一貫性の評価に重点を置きました。具体的には、チームは 80 個のテキストプロンプトをランダムに選択し、テキストから 3D への合成を実行し、各方法について 80 個の結果を生成しました。次に、3D の不一致 (複数の頭、手、または脚など) の発生を手動で検査してカウントし、3D の一貫性のあるオブジェクトの数を生成された結果の合計数で割った成功率を報告しました。結果によると、SweetDreamer は両方のレンダリングパイプラインで 85% を超える成功率を達成しましたが、従来の方法では 30% 程度しか達成できませんでした。

同時期の研究であるMVDreamもマルチビュー不整合の問題を解決できるものの、限られた3Dデータに過剰適合する傾向があり、拡散モデルの一般化性能に影響が出ると研究チームは考えている。たとえば、「バックパックを背負った豚の画像」というプロンプトを使用すると、MVDream は「バックパック」の存在を見逃してしまいます。それに比べて、AGP の結果はより豊かな外観になります。これは、AGP がジオメトリモデリングにのみ影響し、拡散モデルによって数十億枚の実際の画像から学習された強力な外観の事前条件には影響しないためです。

Ctrl-ルーム

Tan Ping 氏のチームと南開大学の共同プロジェクトである Ctrl-Room は、テキスト生成の 3D 屋内シーンにおけるマルチパースペクティブの不一致の問題を解決することに重点を置いています。レイアウトと外観を切り離すことで、テキストプロンプトによるリアルな 3D 屋内シーンの生成が可能になり、屋内オブジェクトもサイズ変更や位置の移動など、柔軟に編集できます。

「Ctrl-Room」の核となる貢献は、革新的な 2 段階生成方法、つまり「レイアウト生成段階」と「外観生成段階」を採用していることです。レイアウト生成フェーズでは、この方法は、さまざまな家具の種類や位置、さらにはドアや窓のある壁も考慮した、合理的な内部レイアウトを生成できます。このフェーズの鍵となるのは、部屋をオブジェクトのセットとして表すシーンコードの包括的なパラメーター化です。各オブジェクトは、位置、サイズ、セマンティックカテゴリ、および方向を含むベクトルで表されます。

外観生成フェーズでは、この方法は屋内シーンの外観を生成し、それをパノラマ画像として提示します。テキストからパノラマを生成する従来の方法とは異なり、この方法は屋内レイアウトの制約に明示的に従うため、異なる視点からの画像間の一貫性と、3D の部屋の構造および家具の配置の合理性を確保できます。

最も重要なのは、レイアウトと外観を分離する設計により、「Ctrl-Room」では生成された 3D ルームを柔軟に編集できることです。ユーザーは家具アイテムのサイズ、意味カテゴリ、位置を簡単に調整できます。このアプローチにより、ユーザーは高価なエディター固有のトレーニングを必要とせずに、コマンドまたはマウスのクリック 1 回で家具を置き換えたり変更したりすることもできます。

方法の紹介

この技術は、レイアウト生成段階と外観生成段階という 2 つの主要な段階に分かれています。レイアウト生成段階では、チームは包括的なシーンコードを通じて屋内シーンを記述し、拡散モデルを使用してその分布を学習します。これにより、壁やさまざまなオブジェクトの位置やサイズなど、部屋の全体的な構造をテキスト入力から生成できるようになります。ユーザーはこれらのアイテムを好きなように編集し、ドラッグしたり、タイプ、位置、サイズを調整して、自分のニーズを満たすことができます。

外観生成段階では、チームは事前にトレーニングされた拡散モデルを通じて屋内シーンのテクスチャを生成し、屋内レイアウトをパノラマに変換しました。画像の左右の一貫性を保証するために、チームは屋内のシーンをよりリアルに見せるための新しいサイクル一貫性サンプリング方法を提案しました。最後に、生成されたパノラマの深度マップを推定することで、テクスチャ付きの 3D シーンが得られます。

「Ctrl-Room」の主な手順は次のとおりです。

1. レイアウト生成フェーズ

このステージの主な目標は、テキスト入力から屋内 3D シーンのレイアウトを作成することです。これまでの方法とは異なり、チームは家具だけでなく、壁、ドア、窓などの要素も考慮して、室内シーンのレイアウトをより包括的に定義しました。

チームは室内シーンのさまざまな要素を統一された形式にエンコードし、それを「シーンコード」と呼びました。このコードには、位置、サイズ、方向、カテゴリなど、内部シーン内のすべての要素に関する情報が含まれています。その後、チームはこのシーンコードを使用して、シーンレイアウトの分布を学習するための拡散モデルを構築しました。

このモデルは、シーンコードにガウスノイズを徐々に追加することで、離散時間マルコフ連鎖を作成します。最終的な分布がガウス分布になるまで、ノイズは徐々に増加します。次に、ニューラルネットワークをトレーニングしてプロセスを逆転させ、ノイズの多いシーンコードからクリーンなシーンコードを復元します。このプロセスでは、テキスト入力を特定のシーンレイアウトに変換し、後続のシーン生成と編集の基礎を提供できます。

レイアウト生成フェーズの最後に、シーンコードはさまざまなセマンティックタイプの境界ボックスのセットとして表現され、その後のインタラクティブな編集に使用され、ユーザーはニーズに応じて 3D シーンをカスタマイズできるようになります。

2. 外観生成フェーズ

この段階では、屋内シーンのレイアウト情報に基づいて、その外観を表現するのに適したパノラマ画像を生成することを目的としています。過去には、段階的なアプローチを使用してさまざまな視点から画像を徐々に生成し、パノラマを合成する方法もありましたが、これは複数の視点の不一致の影響を受けやすく、最終的なパノラマでは適切な部屋の構造を維持できないという結果になりました。ここでチームは ControlNet テクノロジーを使用して、レイアウト結果に基づいてパノラマ全体を一度に生成し、部屋の構造をより適切に維持できるようになりました。

これを実現するために、チームは境界ボックス表現のレイアウトを意味的にセグメント化されたパノラマに変換しました。その後、研究チームは構造化された 3D データセットを使用してトレーニングデータを増強し、ControlNet を微調整しました。チームは、生成されたパノラマが左右でシームレスに接続されるように、「サイクル一貫性サンプリング」という概念も導入しました。

3. インタラクティブ編集

このモジュールを使用すると、ユーザーはオブジェクトの境界ボックスの位置、意味カテゴリ、サイズを変更することで、生成された 3D 屋内シーンを変更できます。この編集プロセスでは、ユーザーの入力に基づいてコンテンツを変更し、編集されていない部分の外観の一貫性を維持するという 2 つの目標を達成する必要があります。

この編集プロセスは、充填ステップと最適化ステップの 2 つのステップに分かれています。充填ステップは、オブジェクトを移動した後に露出した部分を埋めることです。最適化のステップは、移動された家具やオブジェクトの外観の一貫性を維持することです。

実験結果

研究者らは、プロのアーティストが設計した3,500軒の家屋を含む3DインテリアシーンのデータセットであるStructured3Dを使用してモデルを評価した。研究者たちは、このアプローチを評価するために、4,961 室の寝室と 3,039 室のリビングルームを選択し、そのうち 80 パーセントをトレーニングに、残りをテストに使用しました。

Text2Room や MVDiffusion などの以前のアルゴリズムと比較して、Ctrl-Room は部屋の構造をより適切に保持できます。ただし、Text2Room と MVDiffusion では、リビングルームの暖炉とテレビを繰り返し表示したり、寝室のベッドやその他の重要なオブジェクトを繰り返し表示したりするなど、異なる視点の画像で同じオブジェクトを繰り返し生成することがよくあります。したがって、これらの方法で生成されたシーンは、全体的な構造の点で非常に混沌としていることがよくあります。 Ctrl-Room は、部屋のレイアウトの生成を明示的に導入し、そのレイアウトを使用して最終的な屋内シーンの生成をガイドすることで、この問題を非常にうまく解決できます。

生成されたパノラマ画像の品質を測定するために、チームはフレシェ開始距離 (FID)、CLIP スコア (CS)、開始スコア (IS) などの指標を使用しました。さらに、研究者らは、RGB パノラマ画像の生成にかかる時間コストと、生成された 3D 屋内シーンの品質 (CLIP スコア (CS) やインセプションスコア (IS) など) を比較しました。

Ctrl-Room はパノラマ画像の生成に優れています。 FID メトリックで最高の結果を達成し、比較対象となる他の方法を大幅に上回っています。つまり、部屋のレイアウトを忠実に復元できるため、部屋の外観をより正確に捉えることができます。しかし、CS 指数は部屋にあるオブジェクトの数には敏感ではありません。寝室に 3 ～ 4 個のベッドが生成された場合でも、CS 指数は非常に高くなる可能性があります。そのため、シーン生成を正確に評価することはできません。同時に、Ctrl-Room は生成時間の点でも優れており、他の方法に比べて生成時間が短くなります。

チームはユーザー調査も実施し、61 人のユーザーに最終的な室内シーンの知覚品質と 3D 構造の完全性を評価するよう依頼しました。 Ctrl-Room テクノロジーは、部屋のレイアウト構造や家具の配置に関しても、より明確な利点があるとユーザーから考えられています。

<<: Google 検索と競合する FRESHLLM は、より少ない幻想とより正確な情報で「最新の出来事」を把握しています。

>>: