HumanGaussian オープンソース: ガウススプラッティングに基づく高品質な 3D 人体生成のための新しいフレームワーク

HumanGaussian オープンソース: ガウススプラッティングに基づく高品質な 3D 人体生成のための新しいフレームワーク

3D 生成の分野では、テキスト プロンプトに基づいて高品質の 3D 人間の外観と形状を作成することは、仮想試着や没入型テレプレゼンスなどのアプリケーションにとって非常に重要な意味を持ちます。従来の方法では、3D 人間モデルの回帰、バインディング、スキニング、テクスチャ マッピング、駆動などの一連の手動プロセスが必要になります。 3Dコンテンツ生成を自動化するために、いくつかの以前の代表的な研究(DreamFusion [1]など)では、スコア蒸留サンプリングを提案しました。これは、さまざまな視点でレンダリングされた2D画像が大規模な事前学習済みテキスト画像モデルの分布に準拠するように、3Dシーンのニューラル表現パラメータを最適化します。しかし、このタイプの方法は単一のオブジェクトに対しては良好な結果を達成していますが、複雑な関節を持つきめ細かい人体を正確にモデル化することは依然として困難です。

人間の構造の事前条件を導入するために、最近のテキスト駆動型 3D 人間生成研究では、SDS と SMPL などのモデルを組み合わせています。具体的には、ボディ形状をメッシュ/NeRF 密度として初期化するか、リニア ブレンド スキニングに基づいて変形フィールドを学習することによって、メッシュやニューラル放射フィールド (NeRF) などの表現にボディの事前分布を統合するのが一般的な方法です。しかし、そのほとんどは効率と品質の間でトレードオフを生じます。メッシュベースの方法では、アクセサリやシワなどの微細なトポロジをモデル化するのが困難であり、NeRF ベースの方法では、高解像度の結果をレンダリングするために非常に多くの時間とビデオ メモリを消費します。きめ細かい生成を効率的に実現する方法は、未解決の問題のままです。

最近、3Dガウススプラッティング(3DGS)[2]の明示的なニューラル表現が、リアルタイムシーン再構成に新たな視点をもたらしている。マルチ粒度およびマルチスケールのモデリングをサポートしており、3D 人体生成タスクに非常に適しています。ただし、この効率的な表現を使用するには 2 つの課題があります。1) 3DGS は、各錐台で異方性ガウス分布をソートおよびアルファブレンディングしてタイルベースのラスタライゼーションを表現しますが、これは高信頼性ガウス分布のごく一部だけを逆伝播します。ただし、3D サーフェス/ボリューム レンダリングの研究で実証されているように、スパース グラデーションはジオメトリと外観のネットワーク最適化を妨げる可能性があります。したがって、3DGS では、特に階層的なモデリングと制御可能な生成を必要とする人体の領域では、構造ガイダンスが必要です。 2) ナイーブSDSでは、画像とテキストの位置合わせに大規模な分類器フリーのガイダンスが必要である(例えば、DreamFusion [1]では100が使用されている)。しかし、過飽和により視覚的な品質が犠牲になり、リアルな人間の生成が難しくなります。さらに、SDS 損失のランダム性により、3DGS の元の勾配ベースの密度制御が不安定になり、結果がぼやけたり、浮遊アーティファクトが発生したりする可能性があります。

最近の研究で、香港中文大学、テンセントAIラボ、北京大学、香港大学、南洋理工大学のチームは、最新の効果的で高速な3D人体生成モデルHumanGaussianを発表しました。明示的な人体構造ガイダンスと勾配正規化を導入して3Dガウス最適化プロセスを支援することで、多様でリアルな高品質の3D人体モデルを生成できます。現在、コードとモデルは両方ともオープンソースです。


  • arXiv: https://arxiv.org/abs/2311.17061
  • ウェブページ: https://alvinliu0.github.io/projects/HumanGaussian
  • デモ: https://www.youtube.com/watch?v=S3djzHoqPKY
  • Github とコード: https://github.com/alvinliu0/HumanGaussian

コアメソッド

(1)構造を考慮したSDS

研究者らは、SMPL-Xメッシュの形状に基づいて3Dガウス中心位置を初期化した。1) これまでの研究では、Structure-from-MotionやShap-E [3]やPoint-E [4]などの一般的なテキストからポイントクラウドへの事前分布が使用されていた。しかし、このような方法では通常、人間のカテゴリでは点がまばらすぎる、体の構造が一貫していないなどの問題が発生します。 2) SMPL の拡張として、SMPL-X は顔と手の形状トポロジーを補完し、きめ細かい詳細を備えた複雑な人間のモデリングに役立ちます。これらの観察に基づいて、研究者らは 3DGS 初期化として SMPL-X グリッド表面上の点を均一にサンプリングすることを提案しました。彼らは 3DGS を適切な人間サイズに拡大縮小して変換し、3D 空間の中央に配置しました。

SMPL-X 事前分布は初期化としてのみ使用されるため、3DGS トレーニングを容易にするには、より包括的なガイダンスが必要です。外観や形状のみを学習する単峰性拡散モデルから 3D シーンを学習する代わりに、テクスチャと構造の結合分布を同時にキャプチャする SDS ソース モデルを使用することを提案します。彼らは、事前トレーニング済みの安定拡散モデルを構造エキスパート ブランチで拡張し、画像の RGB と深度マップの両方のノイズを除去します。

このようにして、画像の外観のテクスチャと前景/背景関係の構造の両方を捉えた統合モデルが得られ、これを使用して SDS での 3DGS 学習を容易にすることができます。

画像の RGB と深度を空間的に整列させる拡張拡散モデルを生成することで、3DGS 最適化プロセスを構造的側面とテクスチャ側面の両方からガイドできます。

この構造的正規化は幾何学的歪みを軽減するのに役立ち、スパース勾配情報による 3DGS 最適化を容易にします。

(2)アニールネガティブプロンプトガイダンス

テキストと3D生成コンテンツ間の位置合わせを容易にするために、DreamFusion [1]は、より大きな分類器フリーのガイダンススケールを使用して、3Dシーンの最適化のためのスコアマッチング差項を更新します。


この定式化では、スコア マッチングの差は自然に 2 つの部分に分解できます。最初の項は、画像をより現実的な多様体に押し上げる生成スコアです。2 番目の項は、サンプルを暗黙の分類器に合わせる分類器スコアです。ただし、生成されたスコアには高分散のガウスノイズが含まれているため、トレーニングの安定性を損なう確率的勾配情報が提供されます。この問題に対処するために、DreamFusion は意図的により大きな分類器フリーのブートストラップ スケールを使用し、分類器スコアが最適化を支配してモードの過飽和につながるようにします。代わりに、研究者は SDS 損失としてより明確な分類器スコアのみを利用します。

Vincent グラフや Vincent 3D の分野では、不要な属性の生成を避けるために否定テキストが広く使用されています。これに基づいて、研究者は、より優れた 3DGS 学習を実現するために、ネガティブ テキスト分類スコアを上げることを提案しました。

経験的に、ネガティブテキスト分類スコアは短い時間ステップで品質を低下させることがわかったので、アニーリングされたネガティブテキストガイダンスを使用して、監督のために 2 つのスコアを組み合わせます。

実験結果

研究者らはこれを、3D 視覚化と 3D 人体生成の分野における一般的なモデルと比較しました。ご覧のとおり、HumanGaussian は優れたパフォーマンスを実現し、よりリアルな人間の外観、より一貫した体の構造、より優れたビューの一貫性、よりきめ細かいディテールのキャプチャをレンダリングします。

さらに研究者らはアブレーション実験を通じて各モジュールの有効性を検証した。 SMPL-X が提供する人体構造の事前分布は、3DGS 最適化の初期化情報を提供できることがわかります。ネガティブ テキスト ガイダンスは、リアルな人体テクスチャの外観を保証します。画像 RGB と深度マップのデュアル ブランチの SDS 監視制約は、人体の形状とテクスチャを同時に最適化できます。最後に、ガウス サイズに従って剪定すると、霧のようなアーティファクトを除去できます。

以下は、高解像度のマルチビュー 3D 人体生成の結果です。

その他のサンプルについては、プロジェクトのホームページと記事のデモビデオを参照してください。

まとめと今後の課題

本稿では、きめ細かい形状とリアルな外観を備えた高品質の 3D 人間を生成するための効率的で高速なフレームワークである HumanGaussian を提案します。 HumanGaussian は 2 つの主要な貢献をします:

(1)我々は、人間の構造の事前条件を明示的に導入し、同時に人間の外観と形状を最適化する構造を考慮したSDSを設計した。

(2)アニールされたネガティブテキストガイドは、過飽和のないリアルな結果を保証し、浮遊アーティファクトを排除するように設計されています。全体的に、HumanGaussian は、多様でリアルな高品質の 3D 人間モデルを生成し、よりリアルな人間の外観、より一貫性のある身体構造、より優れたビューの一貫性、よりきめ細かい詳細キャプチャをレンダリングすることができます。

今後の仕事:

1. 既存のテキストベースのモデルは手足を生成する性能が限られているため、研究者はこれらの部分を高品質でレンダリングできないことがあることを発見しました。

2. 2D ポーズ条件付きモデルは主に人間の正面図でトレーニングされており、人間の背面図に関する事前知識がほとんどないため、背面図のレンダリングされたテクスチャがぼやけて見える場合があります。

<<: 

>>:  オープンソースモデル「幻覚」はより深刻です。これは3段階の幻覚検出キットです

ブログ    
ブログ    
ブログ    

推薦する

新しい5文字描画言語が人気で、ChatGPTはそれを学習しました

たった 5 つの文字でピクセル ペイントを完成させることができます。合計 8 色、最大 256×25...

今後5年間のAI技術の発展と影響を展望する

人工知能 (AI) テクノロジーは、ビジネス プロセスの合理化、運用コストの削減、面倒なタスクの自動...

ボストン・ダイナミクスCEO:軍の命令は否定しないが、ロボット犬を粗雑に扱っていると思う

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

量子もつれによりホログラムが生成されます。物体は画像を形成するために光を放射する必要はありません。

新たな研究によると、量子力学は科学者が物体から光を捉えることなくホログラムを生成するのに役立つ可能性...

AIがパートナー探しをお手伝い:Tinder + AI = 仲人?

[[346697]] 2012年、インキュベーター企業のHatch Labsは、IACとXtrem...

ディープラーニングでは音声認識の問題を解決できない

[[212222]]音声認識にディープラーニングが導入されて以来、単語の誤り率は急速に低下しました。...

AI: 世界の終わりか、それとも新しい時代か?

[[273786]] [51CTO.com クイック翻訳] 1980年代のインターネットの出現から...

中国の自動運転が新たなブレークスルーをもたらす:百度世界2020のCCTV生中継で完全無人運転を体験

中国の自動運転は新たな進歩を遂げ、無人運転の時代が到来した。 9月15日、百度はCCTVニュースと提...

2018年のトップ10の技術開発トレンド:人工知能は応用の「爆発期」に入る

情報技術の調査およびコンサルティング会社であるガートナーは最近、2018 年の戦略的技術開発のトレン...

ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

今週、フランスのパリで国際コンピュータビジョン会議 (ICCV) が開幕しました。 ICCVはコンピ...

DeepMind: ビッグモデルのもう一つの大きな欠陥は、正しい答えが事前にわかっていなければ推論を自己修正できないことだ。

大規模言語モデルのもう一つの重大な欠陥が DeepMind によって明らかにされました。 LLM は...

それは祝福でしょうか、それとも呪いでしょうか?顔認識技術の長所と短所

[[402949]]顔認識技術の向上が進む一方で、その技術を取り巻くプライバシーに関する懸念も浮上し...

OpenAIの人事異動はシリコンバレーで警鐘を鳴らし、一部の技術者はAIの将来を心配している。

過去数年間、シリコンバレーの多くの人々は、OpenAI が普及させた GenAI テクノロジーに希望...

...