5分間の技術講演 | GET3D生成モデルの簡単な分析

5分間の技術講演 | GET3D生成モデルの簡単な分析

パート01●

序文

近年、MidjourneyやStable Diffusionに代表されるAI画像生成ツールの台頭により、2D AIGC技術は多くの設計者に実際のプロジェクト作業の補助ツールとして使用され、さまざまな明確なビジネスシナリオに実装され、ますます多くの実質的な価値を生み出しています。同時に、メタバースブームの到来により、多くの業界が大規模な 3D 仮想世界の作成へと移行しています。ゲーム、ロボット工学、建築、ソーシャル プラットフォームなど、一部の業界では、多様で高品質の 3D コンテンツがますます重要になっています。ただし、3D アセットを手動で作成するには時間がかかり、特定の芸術的スキルとモデリング スキルが必要です。主な課題の 1 つは規模です。3D マーケットプレイスで入手できる 3D モデルは膨大ですが、見た目がそれぞれ異なる多数のキャラクターや建物をゲームや映画に組み込むには、アーティストの時間が依然として多くかかります。その結果、3D コンテンツの量、品質、多様性に合わせて拡張できるコンテンツ作成ツールの必要性がますます明らかになりました。

写真

図 1 メタバース (出典: Ralph Breaks the Internet)

2D 生成モデルが高解像度画像合成においてリアルな品質を実現したことにより、この進歩は 3D コンテンツ生成の研究にも刺激を与えました。初期のアプローチは、2D CNN ジェネレーターを 3D ボクセル グリッドに直接拡張することを目的としていましたが、3D 畳み込みのメモリ フットプリントが大きく、計算が複雑であるため、高解像度での生成が妨げられていました。代替案として、他の研究では、ポイント クラウド、暗黙的、または八分木表現が検討されています。しかし、これらの作品は主に外観を無視してジオメトリを生成することに重点を置いています。出力表現も、標準のグラフィック エンジンと互換性を持たせるために後処理される必要があります。

コンテンツ制作に実際に適用するには、理想的な 3D 生成モデルは次の要件を満たす必要があります。

(a) 幾何学的詳細と任意のトポロジを持つ形状を生成する機能。

(b) 出力はテクスチャメッシュである必要があります。これは、Blender や Maya などの標準的なグラフィック ソフトウェアで使用される主要な表現です。

(c) 2D画像は明示的な3D形状よりも汎用性が高いため、監視に利用できます。

パート02

3Dジェネレーティブモデリング入門

コンテンツ作成プロセスを容易にし、実用的なアプリケーションを可能にするために、高品質で多様な 3D アセットを生成できる生成 3D ネットワークが最近、活発な研究分野になっています。毎年、ICCV、NeurlPS、ICML などのカンファレンスで多くの 3D 生成モデルが発表されています。最先端のモデルには次のものがあります。

Textured3DGAN: テクスチャ付き 3D メッシュを生成する畳み込み法の拡張として、2 次元の監視下で実際の画像からテクスチャ付きメッシュを生成するために GAN を使用することを学習できる生成モデルです。従来の方法と比較して、ポーズ推定ステップでのキーポイント要件を緩和し、ラベルなしの画像コレクションや ImageNet などの新しいカテゴリ/データセットにこの方法を一般化します。

DIB-R: PyTorch 機械学習フレームワーク上に構築された補間ベースの微分可能レンダラーが、3D Deep Learning (Kaolin) の PyTorch GitHub リポジトリに追加されました。この方法により、画像内のすべてのピクセルの勾配を解析的に計算できます。本質的には、前景のラスタライズをローカル属性の加重補間と見なし、背景のラスタライズをグローバル ジオメトリの距離ベースの集約と見なすことで、単一の画像から形状、テクスチャ、照明を予測することを学習します。

PolyGen: Transformer ベースのアーキテクチャを使用してメッシュの頂点と面を順次予測することでメッシュを直接モデル化する自己回帰生成モデル。 ShapeNet Core V2 データセットを使用してトレーニングすることで、結果として得られるモデルは人間が構築した結果に非常に近くなります。

SurfGen: 明示的な表面識別子を使用した敵対的 3D 形状合成。エンドツーエンドでトレーニングされたモデルは、さまざまなトポロジを持つ高忠実度の 3D 形状を生成できます。

GET3D: 画像から学習した高品質の 3D テクスチャ形状の生成モデル。中核となるのは、微分可能サーフェス モデリング、微分可能レンダリング、2D 生成敵対ネットワークを使用して、2D 画像コレクションからモデルをトレーニングし、複雑なトポロジ、豊富な幾何学的詳細、高忠実度のテクスチャを備えた明示的にテクスチャ化された 3D メッシュを直接生成することです。

写真

図2 GET3D生成モデル(出典:GET3D論文公式サイト https://nv-tlabs.github.io/GET3D/)

最近提案された 3D 生成モデルである GET3D は、椅子、オートバイ、車、人、建物など、複雑な形状を持つ複数のカテゴリについて、ShapeNet、Turbosquid、Renderpeople を通じて 3D 形状を無制限に生成する最先端のパフォーマンスを実証しています。

パート03

GET3Dのアーキテクチャと機能

写真

図 3 GET3D アーキテクチャ (出典: GET3D 論文公式サイト https://nv-tlabs.github.io/GET3D/)

2 つの潜在コードを通じて、3D SDF (符号付き距離フィールド) とテクスチャ フィールドが生成されます。次に、DMTet (Deep Marching Tetrahedra) を使用して SDF から 3D サーフェス メッシュを抽出し、サーフェス ポイント クラウドでテクスチャ フィールドを照会して色を取得します。プロセス全体は、2D 画像で定義された敵対的損失を使用してトレーニングされます。特に、RGB 画像とアウトラインは、ラスタライズに基づく微分可能なレンダラーを使用して取得されます。最後に、RGB 画像用と輪郭用の 2 つの 2D 識別子を使用して、入力が本物か偽物かを区別します。モデル全体はエンドツーエンドでトレーニング可能です。

GET3D は、明示的なメッシュを出力表現として使用するだけでなく、他の点でも非常に柔軟性が高く、次のような他のタスクにも簡単に適応できます。

ジオメトリとテクスチャの分離: モデルはジオメトリとテクスチャ間の良好な分離を実現し、ジオメトリ潜在コードとテクスチャ潜在コードの両方を意味のある形で補間できます。

潜在空間でランダム ウォークを適用し、対応する 3D 形状を生成することで、さまざまなカテゴリの形状間のスムーズな遷移を生成します。

新しい形状の生成: 小さなノイズを追加してローカルの潜在コードを乱すことで、似ているように見えてもローカルではわずかに異なる形状を生成できます。

教師なしマテリアル生成: DIBR++ と組み合わせることで、この方法は完全に教師なしでマテリアルを生成し、意味のあるビュー依存の照明効果を生み出します。

テキストガイドによる形状生成: StyleGAN NADA と組み合わせて、レンダリングされた 2D 画像とユーザー提供のテキストに対して有向 CLIP 損失を計算することで 3D ジェネレーターを微調整します。ユーザーはテキストプロンプトを使用して、意味のある形状を多数生成できます。

写真

図 4 テキストに基づいて図形を生成する (出典: GET3D 論文公式サイト https://nv-tlabs.github.io/GET3D/)

パート04

要約する

GET3D は、3D テクスチャ形状の実用的な 3D 生成モデルに向けた重要なステップですが、まだいくつかの制限があります。特に、トレーニング プロセスでは、依然として 2D シルエットとカメラ分布の知識に依存しています。したがって、GET3D は現在、合成データでのみ評価されます。有望な拡張機能では、インスタンスのセグメンテーションとカメラのポーズ推定の進歩を活用してこの問題を軽減し、GET3D を現実世界のデータに拡張することができます。 GET3D もカテゴリ別にトレーニングされており、将来的には複数のカテゴリに拡張され、カテゴリ間の多様性をより適切に表現できるようになります。この研究により、AI を使用した 3D コンテンツの自由形式の作成に一歩近づくことを期待しています。

<<:  OpenAIがChatGPT Enterprise Editionをリリース、より高いセキュリティとプライバシー保護を実現

>>:  モバイルロボットソフトウェアの自動テストの課題への対応

ブログ    
ブログ    
ブログ    

推薦する

研究により、脳外科手術の訓練においてAIが専門のインストラクターよりも優れていることが判明

COVID-19パンデミックは、医療研修に課題と機会をもたらしています。遠隔学習技術は、さまざまな分...

私の国における AI チップ開発の現状と見通しはどうですか?

近年、人工知能(AI)技術の発展に伴い、多数のAIメーカーが登場しています。 AIにとって、データ、...

自然言語処理シーケンスモデル——HMM隠れマルコフモデル

前回の記事では、主にテキストコーパスの抽出と前処理のプロセスについて説明しました。次のステップは、コ...

アルゴリズム調整、難易度がさらに7.3%上昇、ビットコイン採掘難易度は「回復」継続

ルールによれば、ビットコインは2016ブロックごと、つまり約2週間ごとにマイナーの難易度をリセットし...

人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

The Paperによると、世界経済フォーラムの報告書では、2025年までに8000万の仕事が機械...

...

...

AIは旅行業界の困難を軽減できるか?

[[323317]]現時点では、多くの企業が、数か月前に考えていたよりも見通しが不透明であると感じ...

DAYU200は自閉症の早期スクリーニング音声特徴フィルタリングおよび認識システムを運用しています

オープンソースの詳細については、以下をご覧ください。 51CTO オープンソース基本ソフトウェアコミ...

IoTセキュリティにおける人工知能の重要性

[[423901]]画像ソース: https://pixabay.com/images/id-601...

...

10年後の市場規模は1.3兆ドル。「モデル電源時代」到来

半年以上にわたる大規模なモデル嵐の後、AIGC 市場には新たな変化が起こり始めました。クールな技術デ...

...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT は、企業の神経系と考えることができます。つまり、生産工場のあらゆる場所から貴重な情報...

インテルは新しい小さな「スピン量子ビット」チップをテスト中

最近、インテルの研究者らは、新しい小さな「スピン量子ビット」チップをテストしていることを明らかにした...