5分間の技術講演 | GET3D生成モデルの簡単な分析

5分間の技術講演 | GET3D生成モデルの簡単な分析

パート01●

序文

近年、MidjourneyやStable Diffusionに代表されるAI画像生成ツールの台頭により、2D AIGC技術は多くの設計者に実際のプロジェクト作業の補助ツールとして使用され、さまざまな明確なビジネスシナリオに実装され、ますます多くの実質的な価値を生み出しています。同時に、メタバースブームの到来により、多くの業界が大規模な 3D 仮想世界の作成へと移行しています。ゲーム、ロボット工学、建築、ソーシャル プラットフォームなど、一部の業界では、多様で高品質の 3D コンテンツがますます重要になっています。ただし、3D アセットを手動で作成するには時間がかかり、特定の芸術的スキルとモデリング スキルが必要です。主な課題の 1 つは規模です。3D マーケットプレイスで入手できる 3D モデルは膨大ですが、見た目がそれぞれ異なる多数のキャラクターや建物をゲームや映画に組み込むには、アーティストの時間が依然として多くかかります。その結果、3D コンテンツの量、品質、多様性に合わせて拡張できるコンテンツ作成ツールの必要性がますます明らかになりました。

写真

図 1 メタバース (出典: Ralph Breaks the Internet)

2D 生成モデルが高解像度画像合成においてリアルな品質を実現したことにより、この進歩は 3D コンテンツ生成の研究にも刺激を与えました。初期のアプローチは、2D CNN ジェネレーターを 3D ボクセル グリッドに直接拡張することを目的としていましたが、3D 畳み込みのメモリ フットプリントが大きく、計算が複雑であるため、高解像度での生成が妨げられていました。代替案として、他の研究では、ポイント クラウド、暗黙的、または八分木表現が検討されています。しかし、これらの作品は主に外観を無視してジオメトリを生成することに重点を置いています。出力表現も、標準のグラフィック エンジンと互換性を持たせるために後処理される必要があります。

コンテンツ制作に実際に適用するには、理想的な 3D 生成モデルは次の要件を満たす必要があります。

(a) 幾何学的詳細と任意のトポロジを持つ形状を生成する機能。

(b) 出力はテクスチャメッシュである必要があります。これは、Blender や Maya などの標準的なグラフィック ソフトウェアで使用される主要な表現です。

(c) 2D画像は明示的な3D形状よりも汎用性が高いため、監視に利用できます。

パート02

3Dジェネレーティブモデリング入門

コンテンツ作成プロセスを容易にし、実用的なアプリケーションを可能にするために、高品質で多様な 3D アセットを生成できる生成 3D ネットワークが最近、活発な研究分野になっています。毎年、ICCV、NeurlPS、ICML などのカンファレンスで多くの 3D 生成モデルが発表されています。最先端のモデルには次のものがあります。

Textured3DGAN: テクスチャ付き 3D メッシュを生成する畳み込み法の拡張として、2 次元の監視下で実際の画像からテクスチャ付きメッシュを生成するために GAN を使用することを学習できる生成モデルです。従来の方法と比較して、ポーズ推定ステップでのキーポイント要件を緩和し、ラベルなしの画像コレクションや ImageNet などの新しいカテゴリ/データセットにこの方法を一般化します。

DIB-R: PyTorch 機械学習フレームワーク上に構築された補間ベースの微分可能レンダラーが、3D Deep Learning (Kaolin) の PyTorch GitHub リポジトリに追加されました。この方法により、画像内のすべてのピクセルの勾配を解析的に計算できます。本質的には、前景のラスタライズをローカル属性の加重補間と見なし、背景のラスタライズをグローバル ジオメトリの距離ベースの集約と見なすことで、単一の画像から形状、テクスチャ、照明を予測することを学習します。

PolyGen: Transformer ベースのアーキテクチャを使用してメッシュの頂点と面を順次予測することでメッシュを直接モデル化する自己回帰生成モデル。 ShapeNet Core V2 データセットを使用してトレーニングすることで、結果として得られるモデルは人間が構築した結果に非常に近くなります。

SurfGen: 明示的な表面識別子を使用した敵対的 3D 形状合成。エンドツーエンドでトレーニングされたモデルは、さまざまなトポロジを持つ高忠実度の 3D 形状を生成できます。

GET3D: 画像から学習した高品質の 3D テクスチャ形状の生成モデル。中核となるのは、微分可能サーフェス モデリング、微分可能レンダリング、2D 生成敵対ネットワークを使用して、2D 画像コレクションからモデルをトレーニングし、複雑なトポロジ、豊富な幾何学的詳細、高忠実度のテクスチャを備えた明示的にテクスチャ化された 3D メッシュを直接生成することです。

写真

図2 GET3D生成モデル(出典:GET3D論文公式サイト https://nv-tlabs.github.io/GET3D/)

最近提案された 3D 生成モデルである GET3D は、椅子、オートバイ、車、人、建物など、複雑な形状を持つ複数のカテゴリについて、ShapeNet、Turbosquid、Renderpeople を通じて 3D 形状を無制限に生成する最先端のパフォーマンスを実証しています。

パート03

GET3Dのアーキテクチャと機能

写真

図 3 GET3D アーキテクチャ (出典: GET3D 論文公式サイト https://nv-tlabs.github.io/GET3D/)

2 つの潜在コードを通じて、3D SDF (符号付き距離フィールド) とテクスチャ フィールドが生成されます。次に、DMTet (Deep Marching Tetrahedra) を使用して SDF から 3D サーフェス メッシュを抽出し、サーフェス ポイント クラウドでテクスチャ フィールドを照会して色を取得します。プロセス全体は、2D 画像で定義された敵対的損失を使用してトレーニングされます。特に、RGB 画像とアウトラインは、ラスタライズに基づく微分可能なレンダラーを使用して取得されます。最後に、RGB 画像用と輪郭用の 2 つの 2D 識別子を使用して、入力が本物か偽物かを区別します。モデル全体はエンドツーエンドでトレーニング可能です。

GET3D は、明示的なメッシュを出力表現として使用するだけでなく、他の点でも非常に柔軟性が高く、次のような他のタスクにも簡単に適応できます。

ジオメトリとテクスチャの分離: モデルはジオメトリとテクスチャ間の良好な分離を実現し、ジオメトリ潜在コードとテクスチャ潜在コードの両方を意味のある形で補間できます。

潜在空間でランダム ウォークを適用し、対応する 3D 形状を生成することで、さまざまなカテゴリの形状間のスムーズな遷移を生成します。

新しい形状の生成: 小さなノイズを追加してローカルの潜在コードを乱すことで、似ているように見えてもローカルではわずかに異なる形状を生成できます。

教師なしマテリアル生成: DIBR++ と組み合わせることで、この方法は完全に教師なしでマテリアルを生成し、意味のあるビュー依存の照明効果を生み出します。

テキストガイドによる形状生成: StyleGAN NADA と組み合わせて、レンダリングされた 2D 画像とユーザー提供のテキストに対して有向 CLIP 損失を計算することで 3D ジェネレーターを微調整します。ユーザーはテキストプロンプトを使用して、意味のある形状を多数生成できます。

写真

図 4 テキストに基づいて図形を生成する (出典: GET3D 論文公式サイト https://nv-tlabs.github.io/GET3D/)

パート04

要約する

GET3D は、3D テクスチャ形状の実用的な 3D 生成モデルに向けた重要なステップですが、まだいくつかの制限があります。特に、トレーニング プロセスでは、依然として 2D シルエットとカメラ分布の知識に依存しています。したがって、GET3D は現在、合成データでのみ評価されます。有望な拡張機能では、インスタンスのセグメンテーションとカメラのポーズ推定の進歩を活用してこの問題を軽減し、GET3D を現実世界のデータに拡張することができます。 GET3D もカテゴリ別にトレーニングされており、将来的には複数のカテゴリに拡張され、カテゴリ間の多様性をより適切に表現できるようになります。この研究により、AI を使用した 3D コンテンツの自由形式の作成に一歩近づくことを期待しています。

<<:  OpenAIがChatGPT Enterprise Editionをリリース、より高いセキュリティとプライバシー保護を実現

>>:  モバイルロボットソフトウェアの自動テストの課題への対応

ブログ    
ブログ    

推薦する

ドローン技術が牽引する未来のスマートシティ

テクノロジーが進化し続けるにつれ、ドローンが「破壊」と同義だった時代は終わりました。現在、ドローンは...

張晨成: 第四パラダイムインテリジェントリスク管理ミドルプラットフォームアーキテクチャ設計と応用

共有は主に次の 5 つのポイントを中心に行われます。リスク管理センターの設計背景戦略のフルサイクル管...

2022年にエネルギー・公益事業分野で注目すべき4つの技術トレンド

[[440332]]画像ソース: https://pixabay.com/images/id-425...

テクノロジー市場: エッジデバイスで利用可能なエッジAIソリューション

エッジコンピューティングと人工知能の組み合わせにより、エッジ AI は現在のテクノロジー市場における...

DetZero: Waymo の 3D 検出リストで 1 位、手動ラベル付けに匹敵!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声...

ChatGPT は最近、Microsoft によって内部的に無効化されました。 GPT の新しいバグ: たった 2 つのプロンプトでデータが盗まれる可能性があります

知らせ! GPT を作成するときにアップロードしたデータは、誰でも簡単にダウンロードできます...た...

上海交通大学卒業生によるソロ作品! 50年間のゼロ進歩アルゴリズム問題が解決された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転車が将来の都市生活に及ぼす影響

倫理的配慮無人運転車の問題は、自動運転車の倫理性の問題として要約できます。この問題の典型的なバージョ...

火山エンジンは大型モデル用の大きなベースを作ります! MiniMax、Zhipu AIなどが上陸

Volcano Engine は、大規模モデルのトレンドに関する解答用紙を提出しました。大型モデルサ...

カンファレンスで GitHub のトップ 10 AI アップデートが発表されました。

著者 | タスミア企画 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:...

MetaのAIは、メタバースで「あなたの言葉を実現」することを可能にします

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ハリー・シャムが清華大学の記録を破り、ビデオを通じて任命された史上初の教授となり、説明可能なAIを訴える

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...