5分間の技術講演 | GET3D生成モデルの簡単な分析

パート01●

序文

近年、MidjourneyやStable Diffusionに代表されるAI画像生成ツールの台頭により、2D AIGC技術は多くの設計者に実際のプロジェクト作業の補助ツールとして使用され、さまざまな明確なビジネスシナリオに実装され、ますます多くの実質的な価値を生み出しています。同時に、メタバースブームの到来により、多くの業界が大規模な 3D 仮想世界の作成へと移行しています。ゲーム、ロボット工学、建築、ソーシャルプラットフォームなど、一部の業界では、多様で高品質の 3D コンテンツがますます重要になっています。ただし、3D アセットを手動で作成するには時間がかかり、特定の芸術的スキルとモデリングスキルが必要です。主な課題の 1 つは規模です。3D マーケットプレイスで入手できる 3D モデルは膨大ですが、見た目がそれぞれ異なる多数のキャラクターや建物をゲームや映画に組み込むには、アーティストの時間が依然として多くかかります。その結果、3D コンテンツの量、品質、多様性に合わせて拡張できるコンテンツ作成ツールの必要性がますます明らかになりました。

写真

図 1 メタバース (出典: Ralph Breaks the Internet)

2D 生成モデルが高解像度画像合成においてリアルな品質を実現したことにより、この進歩は 3D コンテンツ生成の研究にも刺激を与えました。初期のアプローチは、2D CNN ジェネレーターを 3D ボクセルグリッドに直接拡張することを目的としていましたが、3D 畳み込みのメモリフットプリントが大きく、計算が複雑であるため、高解像度での生成が妨げられていました。代替案として、他の研究では、ポイントクラウド、暗黙的、または八分木表現が検討されています。しかし、これらの作品は主に外観を無視してジオメトリを生成することに重点を置いています。出力表現も、標準のグラフィックエンジンと互換性を持たせるために後処理される必要があります。

コンテンツ制作に実際に適用するには、理想的な 3D 生成モデルは次の要件を満たす必要があります。

(a) 幾何学的詳細と任意のトポロジを持つ形状を生成する機能。

(b) 出力はテクスチャメッシュである必要があります。これは、Blender や Maya などの標準的なグラフィックソフトウェアで使用される主要な表現です。

パート02

3Dジェネレーティブモデリング入門

コンテンツ作成プロセスを容易にし、実用的なアプリケーションを可能にするために、高品質で多様な 3D アセットを生成できる生成 3D ネットワークが最近、活発な研究分野になっています。毎年、ICCV、NeurlPS、ICML などのカンファレンスで多くの 3D 生成モデルが発表されています。最先端のモデルには次のものがあります。

Textured3DGAN: テクスチャ付き 3D メッシュを生成する畳み込み法の拡張として、2 次元の監視下で実際の画像からテクスチャ付きメッシュを生成するために GAN を使用することを学習できる生成モデルです。従来の方法と比較して、ポーズ推定ステップでのキーポイント要件を緩和し、ラベルなしの画像コレクションや ImageNet などの新しいカテゴリ/データセットにこの方法を一般化します。

DIB-R: PyTorch 機械学習フレームワーク上に構築された補間ベースの微分可能レンダラーが、3D Deep Learning (Kaolin) の PyTorch GitHub リポジトリに追加されました。この方法により、画像内のすべてのピクセルの勾配を解析的に計算できます。本質的には、前景のラスタライズをローカル属性の加重補間と見なし、背景のラスタライズをグローバルジオメトリの距離ベースの集約と見なすことで、単一の画像から形状、テクスチャ、照明を予測することを学習します。

PolyGen: Transformer ベースのアーキテクチャを使用してメッシュの頂点と面を順次予測することでメッシュを直接モデル化する自己回帰生成モデル。 ShapeNet Core V2 データセットを使用してトレーニングすることで、結果として得られるモデルは人間が構築した結果に非常に近くなります。

SurfGen: 明示的な表面識別子を使用した敵対的 3D 形状合成。エンドツーエンドでトレーニングされたモデルは、さまざまなトポロジを持つ高忠実度の 3D 形状を生成できます。

GET3D: 画像から学習した高品質の 3D テクスチャ形状の生成モデル。中核となるのは、微分可能サーフェスモデリング、微分可能レンダリング、2D 生成敵対ネットワークを使用して、2D 画像コレクションからモデルをトレーニングし、複雑なトポロジ、豊富な幾何学的詳細、高忠実度のテクスチャを備えた明示的にテクスチャ化された 3D メッシュを直接生成することです。

写真

図2 GET3D生成モデル（出典：GET3D論文公式サイト https://nv-tlabs.github.io/GET3D/）

最近提案された 3D 生成モデルである GET3D は、椅子、オートバイ、車、人、建物など、複雑な形状を持つ複数のカテゴリについて、ShapeNet、Turbosquid、Renderpeople を通じて 3D 形状を無制限に生成する最先端のパフォーマンスを実証しています。

パート03

GET3Dのアーキテクチャと機能

写真

図 3 GET3D アーキテクチャ (出典: GET3D 論文公式サイト https://nv-tlabs.github.io/GET3D/)

2 つの潜在コードを通じて、3D SDF (符号付き距離フィールド) とテクスチャフィールドが生成されます。次に、DMTet (Deep Marching Tetrahedra) を使用して SDF から 3D サーフェスメッシュを抽出し、サーフェスポイントクラウドでテクスチャフィールドを照会して色を取得します。プロセス全体は、2D 画像で定義された敵対的損失を使用してトレーニングされます。特に、RGB 画像とアウトラインは、ラスタライズに基づく微分可能なレンダラーを使用して取得されます。最後に、RGB 画像用と輪郭用の 2 つの 2D 識別子を使用して、入力が本物か偽物かを区別します。モデル全体はエンドツーエンドでトレーニング可能です。

GET3D は、明示的なメッシュを出力表現として使用するだけでなく、他の点でも非常に柔軟性が高く、次のような他のタスクにも簡単に適応できます。

ジオメトリとテクスチャの分離: モデルはジオメトリとテクスチャ間の良好な分離を実現し、ジオメトリ潜在コードとテクスチャ潜在コードの両方を意味のある形で補間できます。

潜在空間でランダムウォークを適用し、対応する 3D 形状を生成することで、さまざまなカテゴリの形状間のスムーズな遷移を生成します。

新しい形状の生成: 小さなノイズを追加してローカルの潜在コードを乱すことで、似ているように見えてもローカルではわずかに異なる形状を生成できます。

教師なしマテリアル生成: DIBR++ と組み合わせることで、この方法は完全に教師なしでマテリアルを生成し、意味のあるビュー依存の照明効果を生み出します。

テキストガイドによる形状生成: StyleGAN NADA と組み合わせて、レンダリングされた 2D 画像とユーザー提供のテキストに対して有向 CLIP 損失を計算することで 3D ジェネレーターを微調整します。ユーザーはテキストプロンプトを使用して、意味のある形状を多数生成できます。

写真

図 4 テキストに基づいて図形を生成する (出典: GET3D 論文公式サイト https://nv-tlabs.github.io/GET3D/)

パート04

要約する

GET3D は、3D テクスチャ形状の実用的な 3D 生成モデルに向けた重要なステップですが、まだいくつかの制限があります。特に、トレーニングプロセスでは、依然として 2D シルエットとカメラ分布の知識に依存しています。したがって、GET3D は現在、合成データでのみ評価されます。有望な拡張機能では、インスタンスのセグメンテーションとカメラのポーズ推定の進歩を活用してこの問題を軽減し、GET3D を現実世界のデータに拡張することができます。 GET3D もカテゴリ別にトレーニングされており、将来的には複数のカテゴリに拡張され、カテゴリ間の多様性をより適切に表現できるようになります。この研究により、AI を使用した 3D コンテンツの自由形式の作成に一歩近づくことを期待しています。

<<: OpenAIがChatGPT Enterprise Editionをリリース、より高いセキュリティとプライバシー保護を実現

>>: モバイルロボットソフトウェアの自動テストの課題への対応