Transformerが3Dモデリングに革命を起こし、MeshGPT生成結果がプロのモデラーやネットユーザーに衝撃を与える：革命的なアイデア

コンピュータグラフィックスでは、「三角メッシュ」は 3D 幾何学的オブジェクトの主な表現であり、ゲーム、映画、VR インターフェイスで使用される 3D アセットを表現する主な方法です。業界では通常、建物、車両、動物などの複雑なオブジェクトの表面を三角形メッシュに基づいてシミュレートします。一般的な幾何学的変換、幾何学的検出、レンダリング、シェーディングアクションも三角形メッシュに基づいて実行する必要があります。

ポイントクラウドやボクセルなどの他の 3D 形状表現と比較すると、三角形メッシュはより一貫性のある表面表現を提供します。つまり、より制御しやすく、操作しやすく、コンパクトで、最新のレンダリングパイプラインで直接使用して、より少ないプリミティブでより高い視覚品質を実現できます。

これまで、研究者はボクセル、ポイントクラウド、ニューラルフィールドなどの表現を使用して 3D モデルを生成しようとしてきました。これらの表現は、等値面作成用の Marching Cubes アルゴリズムの使用など、下流のアプリケーションで使用するために後処理によってメッシュに変換される必要もあります。

残念ながら、この結果、メッシュが高密度かつ細かすぎて、次の図に示すように、等値面化によって表面が過度に滑らかになり、凹凸が生じることがよくあります。

対照的に、3D モデリングの専門家によってモデル化された 3D メッシュは、より少ない三角形で鮮明な詳細を維持しながら、よりコンパクトに表現されます。

多くの研究者は長い間、3D アセットの作成プロセスをさらに簡素化するために、三角形メッシュを自動的に生成するタスクを解決したいと望んできました。

最近の論文で、研究者らはメッシュ表現を三角形の集合として直接生成する新しいソリューション、MeshGPT を提案しました。

論文リンク: https://nihalsid.github.io/mesh-gpt/static/MeshGPT.pdf

言語生成モデル Transformer にヒントを得て、三角形メッシュを三角形シーケンスに合成する直接シーケンス生成方式を採用しました。

テキスト生成のパラダイムに従って、研究者たちはまず、潜在的な量子化埋め込みとしてエンコードされた三角形の語彙を学習しました。学習した三角形の埋め込みが局所的な幾何学的特徴と位相的特徴を保持するようにするために、研究者はグラフ畳み込みエンコーダを採用しました。これらの三角形の埋め込みは ResNet デコーダーによってデコードされ、三角形を表すトークンのシーケンスに処理されて、三角形の頂点座標が生成されます。最後に、研究者らは学習した語彙に基づいて GPT ベースのアーキテクチャをトレーニングし、明確なエッジと高い忠実度の利点を備えたメッシュを表す三角形のシーケンスを自動的に生成しました。

ShapeNet データセットの複数のカテゴリでの実験では、MeshGPT は最先端のものと比較して、生成された 3D メッシュの品質を大幅に向上させ、形状カバレッジが平均 9%、FID スコアが 30 ポイント向上することが示されています。

MeshGPT はソーシャルメディアプラットフォームでも白熱した議論を巻き起こしました。

「これは本当に革命的なアイデアだ」と言う人もいます。

あるネットユーザーは、この方法のハイライトは、他の3Dモデリング方法の最大の障害である編集能力を克服している点だと指摘した。

1990 年代以降の未解決の問題はすべて、Transformer からヒントを得られるかもしれないと大胆に予測する人もいます。

3D/映画制作関連業界で働くユーザーの中には、キャリアについて懸念を表明する人もいました。

しかし、論文で示された生成例から判断すると、この方法はまだ大規模実装の段階に達しておらず、プロのモデラーであれば 5 分以内に簡単にこれらのメッシュを生成できると指摘する人もいます。

コメント投稿者は、次のステップとして、LLM に 3D シード生成を制御させ、アーキテクチャの自己回帰部分に画像モデルを追加することを提案しました。このステップに到達して初めて、ゲームなどのシーンの 3D アセットの制作を大規模に自動化できるようになります。

次に、MeshGPT論文の研究内容を見てみましょう。

方法の概要

大規模言語モデルの進歩に触発され、三角形のシーケンスとして三角形メッシュを自己回帰的に生成するシーケンスベースのアプローチを開発しました。この方法では、シャープなエッジと高い忠実度を備えた、クリーンで一貫性のあるコンパクトなメッシュが生成されます。

研究者たちはまず、三角形をエンコードおよびデコードできる多数の 3D オブジェクトメッシュから幾何学的語彙の埋め込みを学習します。次に、学習した埋め込み語彙に基づいて、グリッド生成用のTransformerが自己回帰インデックス予測方式でトレーニングされます。

三角形の語彙を学習するために、研究者らは、メッシュの三角形とその近傍を操作して 3D 形状の複雑な詳細を捉える豊富な幾何学的特徴を抽出するグラフ畳み込みエンコーダを採用しました。これらの特徴は、残差量子化を通じてコードブック内の埋め込みに量子化され、グリッド表現のシーケンス長が効果的に短縮されます。ソート後、これらの埋め込まれた情報は、再構築損失のガイダンスの下で 1 次元 ResNet によってデコードされます。この段階は、Transformer のその後のトレーニングの基礎を築きます。

次に研究者らは、これらの量子化された幾何学的埋め込みを使用して、GPT スタイルの純粋なデコーダートランスフォーマーをトレーニングしました。メッシュ三角形から抽出された幾何学的埋め込みのシーケンスが与えられると、トランスフォーマーはシーケンス内の次の埋め込みのコードブックインデックスを予測するようにトレーニングされます。

トレーニングが完了すると、トランスフォーマーは自己回帰的にサンプリングして埋め込みのシーケンスを予測し、これらの埋め込みをデコードして、人間が描いたグリッドに似た効率的で不規則な三角形を示す新しい多様なグリッド構造を生成できるようになります。

MeshGPT は、グラフ畳み込みエンコーダーを使用してメッシュサーフェスを処理し、幾何学的近傍情報を使用して 3D 形状の複雑な詳細を特徴付ける強力な特徴をキャプチャし、残差量子化方法を使用してこれらの特徴をコードブック埋め込みに量子化します。このアプローチにより、単純なベクトル量子化に比べて再構成品質が向上します。 MeshGPT は再構築損失に基づいて、ResNet を通じて量子化された埋め込みをソートおよびデコードします。

この研究では、Transformer を使用して、事前に学習したコードブック語彙からトークンインデックスとしてグリッドシーケンスを生成します。トレーニング中、グラフエンコーダーはメッシュの顔から特徴を抽出し、それらを顔埋め込みのセットに量子化します。これらの埋め込みは平坦化され、開始トークンと終了トークンでラベル付けされてから、上記の GPT スタイルのトランスフォーマーに送られます。デコーダーは、クロスエントロピー損失を使用して最適化され、各埋め込みの後続のコードブックインデックスを予測します。

実験結果

この研究では、MeshGPT と以下の一般的なメッシュ生成方法を比較しました。

Polygen は、最初に頂点を生成し、次に頂点に基づいて面を生成することでポリゴンメッシュを生成します。
BSPNet は、凸分解によってメッシュを表します。
AtlasNet は、3D メッシュを複数の 2D 平面の変形として表現します。

さらに、この研究では、MeshGPT とニューラルフィールドベースの SOTA 方式 GET3D も比較しました。

図 6、7、表 1 に示すように、MeshGPT は 4 つのカテゴリすべてでベースラインメソッドを上回っています。 MeshGPT は、細かい幾何学的詳細を備えたシャープでコンパクトなメッシュを生成します。

具体的には、Polygen と比較して、MeshGPT はより複雑な詳細を持つ形状を生成できますが、Polygen は推論中にエラーが蓄積される可能性が高くなります。AtlasNet には折り畳みアーティファクトが多く、多様性と形状の品質が低下します。BSPNet はフラットな BSP ツリーを使用し、通常とは異なる三角形分割パターンを持つブロック状の形状を生成することがよくあります。GET3D は優れた高レベルの形状構造を生成できますが、三角形が多すぎて平面が完璧ではありません。

表 2 に示すように、この調査では、MeshGPT によって生成されたメッシュの品質をユーザーに評価してもらいました。形状と三角測量の品質に関しては、MeshGPT は AtlasNet、Polygen、BSPNet を大幅に上回りました。 GET3D と比較して、ほとんどのユーザーは MeshGPT によって生成された形状 (68%) と三角測量 (73%) の品質を好みます。

形の斬新さ。下の図 8 に示すように、MeshGPT はトレーニングデータセットを超えて新しい形状を生成できるため、モデルが既存の形状を単純に取得することはありません。

形状の完成。下の図 9 に示すように、MeshGPT は、指定されたローカルシェイプに基づいて複数の可能な補完を推測し、複数のシェイプ仮説を生成することもできます。

<<: 研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。

>>: