HumanGaussian オープンソース: ガウススプラッティングに基づく高品質な 3D 人体生成のための新しいフレームワーク

3D 生成の分野では、テキストプロンプトに基づいて高品質の 3D 人間の外観と形状を作成することは、仮想試着や没入型テレプレゼンスなどのアプリケーションにとって非常に重要な意味を持ちます。従来の方法では、3D 人間モデルの回帰、バインディング、スキニング、テクスチャマッピング、駆動などの一連の手動プロセスが必要になります。 3Dコンテンツ生成を自動化するために、いくつかの以前の代表的な研究（DreamFusion [1]など）では、スコア蒸留サンプリングを提案しました。これは、さまざまな視点でレンダリングされた2D画像が大規模な事前学習済みテキスト画像モデルの分布に準拠するように、3Dシーンのニューラル表現パラメータを最適化します。しかし、このタイプの方法は単一のオブジェクトに対しては良好な結果を達成していますが、複雑な関節を持つきめ細かい人体を正確にモデル化することは依然として困難です。

人間の構造の事前条件を導入するために、最近のテキスト駆動型 3D 人間生成研究では、SDS と SMPL などのモデルを組み合わせています。具体的には、ボディ形状をメッシュ/NeRF 密度として初期化するか、リニアブレンドスキニングに基づいて変形フィールドを学習することによって、メッシュやニューラル放射フィールド (NeRF) などの表現にボディの事前分布を統合するのが一般的な方法です。しかし、そのほとんどは効率と品質の間でトレードオフを生じます。メッシュベースの方法では、アクセサリやシワなどの微細なトポロジをモデル化するのが困難であり、NeRF ベースの方法では、高解像度の結果をレンダリングするために非常に多くの時間とビデオメモリを消費します。きめ細かい生成を効率的に実現する方法は、未解決の問題のままです。

最近、3Dガウススプラッティング（3DGS）[2]の明示的なニューラル表現が、リアルタイムシーン再構成に新たな視点をもたらしている。マルチ粒度およびマルチスケールのモデリングをサポートしており、3D 人体生成タスクに非常に適しています。ただし、この効率的な表現を使用するには 2 つの課題があります。1) 3DGS は、各錐台で異方性ガウス分布をソートおよびアルファブレンディングしてタイルベースのラスタライゼーションを表現しますが、これは高信頼性ガウス分布のごく一部だけを逆伝播します。ただし、3D サーフェス/ボリュームレンダリングの研究で実証されているように、スパースグラデーションはジオメトリと外観のネットワーク最適化を妨げる可能性があります。したがって、3DGS では、特に階層的なモデリングと制御可能な生成を必要とする人体の領域では、構造ガイダンスが必要です。 2) ナイーブSDSでは、画像とテキストの位置合わせに大規模な分類器フリーのガイダンスが必要である（例えば、DreamFusion [1]では100が使用されている）。しかし、過飽和により視覚的な品質が犠牲になり、リアルな人間の生成が難しくなります。さらに、SDS 損失のランダム性により、3DGS の元の勾配ベースの密度制御が不安定になり、結果がぼやけたり、浮遊アーティファクトが発生したりする可能性があります。

最近の研究で、香港中文大学、テンセントAIラボ、北京大学、香港大学、南洋理工大学のチームは、最新の効果的で高速な3D人体生成モデルHumanGaussianを発表しました。明示的な人体構造ガイダンスと勾配正規化を導入して3Dガウス最適化プロセスを支援することで、多様でリアルな高品質の3D人体モデルを生成できます。現在、コードとモデルは両方ともオープンソースです。

arXiv: https://arxiv.org/abs/2311.17061
ウェブページ: https://alvinliu0.github.io/projects/HumanGaussian
デモ: https://www.youtube.com/watch?v=S3djzHoqPKY
Github とコード: https://github.com/alvinliu0/HumanGaussian

コアメソッド

（１）構造を考慮したSDS

研究者らは、SMPL-Xメッシュの形状に基づいて3Dガウス中心位置を初期化した。1) これまでの研究では、Structure-from-MotionやShap-E [3]やPoint-E [4]などの一般的なテキストからポイントクラウドへの事前分布が使用されていた。しかし、このような方法では通常、人間のカテゴリでは点がまばらすぎる、体の構造が一貫していないなどの問題が発生します。 2) SMPL の拡張として、SMPL-X は顔と手の形状トポロジーを補完し、きめ細かい詳細を備えた複雑な人間のモデリングに役立ちます。これらの観察に基づいて、研究者らは 3DGS 初期化として SMPL-X グリッド表面上の点を均一にサンプリングすることを提案しました。彼らは 3DGS を適切な人間サイズに拡大縮小して変換し、3D 空間の中央に配置しました。

SMPL-X 事前分布は初期化としてのみ使用されるため、3DGS トレーニングを容易にするには、より包括的なガイダンスが必要です。外観や形状のみを学習する単峰性拡散モデルから 3D シーンを学習する代わりに、テクスチャと構造の結合分布を同時にキャプチャする SDS ソースモデルを使用することを提案します。彼らは、事前トレーニング済みの安定拡散モデルを構造エキスパートブランチで拡張し、画像の RGB と深度マップの両方のノイズを除去します。

このようにして、画像の外観のテクスチャと前景/背景関係の構造の両方を捉えた統合モデルが得られ、これを使用して SDS での 3DGS 学習を容易にすることができます。

画像の RGB と深度を空間的に整列させる拡張拡散モデルを生成することで、3DGS 最適化プロセスを構造的側面とテクスチャ側面の両方からガイドできます。

この構造的正規化は幾何学的歪みを軽減するのに役立ち、スパース勾配情報による 3DGS 最適化を容易にします。

（２）アニールネガティブプロンプトガイダンス

テキストと3D生成コンテンツ間の位置合わせを容易にするために、DreamFusion [1]は、より大きな分類器フリーのガイダンススケールを使用して、3Dシーンの最適化のためのスコアマッチング差項を更新します。

この定式化では、スコアマッチングの差は自然に 2 つの部分に分解できます。最初の項は、画像をより現実的な多様体に押し上げる生成スコアです。2 番目の項は、サンプルを暗黙の分類器に合わせる分類器スコアです。ただし、生成されたスコアには高分散のガウスノイズが含まれているため、トレーニングの安定性を損なう確率的勾配情報が提供されます。この問題に対処するために、DreamFusion は意図的により大きな分類器フリーのブートストラップスケールを使用し、分類器スコアが最適化を支配してモードの過飽和につながるようにします。代わりに、研究者は SDS 損失としてより明確な分類器スコアのみを利用します。

Vincent グラフや Vincent 3D の分野では、不要な属性の生成を避けるために否定テキストが広く使用されています。これに基づいて、研究者は、より優れた 3DGS 学習を実現するために、ネガティブテキスト分類スコアを上げることを提案しました。

経験的に、ネガティブテキスト分類スコアは短い時間ステップで品質を低下させることがわかったので、アニーリングされたネガティブテキストガイダンスを使用して、監督のために 2 つのスコアを組み合わせます。

実験結果

研究者らはこれを、3D 視覚化と 3D 人体生成の分野における一般的なモデルと比較しました。ご覧のとおり、HumanGaussian は優れたパフォーマンスを実現し、よりリアルな人間の外観、より一貫した体の構造、より優れたビューの一貫性、よりきめ細かいディテールのキャプチャをレンダリングします。

さらに研究者らはアブレーション実験を通じて各モジュールの有効性を検証した。 SMPL-X が提供する人体構造の事前分布は、3DGS 最適化の初期化情報を提供できることがわかります。ネガティブテキストガイダンスは、リアルな人体テクスチャの外観を保証します。画像 RGB と深度マップのデュアルブランチの SDS 監視制約は、人体の形状とテクスチャを同時に最適化できます。最後に、ガウスサイズに従って剪定すると、霧のようなアーティファクトを除去できます。

以下は、高解像度のマルチビュー 3D 人体生成の結果です。

その他のサンプルについては、プロジェクトのホームページと記事のデモビデオを参照してください。

まとめと今後の課題

本稿では、きめ細かい形状とリアルな外観を備えた高品質の 3D 人間を生成するための効率的で高速なフレームワークである HumanGaussian を提案します。 HumanGaussian は 2 つの主要な貢献をします:

（１）我々は、人間の構造の事前条件を明示的に導入し、同時に人間の外観と形状を最適化する構造を考慮したSDSを設計した。

（２）アニールされたネガティブテキストガイドは、過飽和のないリアルな結果を保証し、浮遊アーティファクトを排除するように設計されています。全体的に、HumanGaussian は、多様でリアルな高品質の 3D 人間モデルを生成し、よりリアルな人間の外観、より一貫性のある身体構造、より優れたビューの一貫性、よりきめ細かい詳細キャプチャをレンダリングすることができます。

今後の仕事:

1. 既存のテキストベースのモデルは手足を生成する性能が限られているため、研究者はこれらの部分を高品質でレンダリングできないことがあることを発見しました。

2. 2D ポーズ条件付きモデルは主に人間の正面図でトレーニングされており、人間の背面図に関する事前知識がほとんどないため、背面図のレンダリングされたテクスチャがぼやけて見える場合があります。

<<:

>>: オープンソースモデル「幻覚」はより深刻です。これは3段階の幻覚検出キットです