3D 生成の分野では、テキスト プロンプトに基づいて高品質の 3D 人間の外観と形状を作成することは、仮想試着や没入型テレプレゼンスなどのアプリケーションにとって非常に重要な意味を持ちます。従来の方法では、3D 人間モデルの回帰、バインディング、スキニング、テクスチャ マッピング、駆動などの一連の手動プロセスが必要になります。 3Dコンテンツ生成を自動化するために、いくつかの以前の代表的な研究(DreamFusion [1]など)では、スコア蒸留サンプリングを提案しました。これは、さまざまな視点でレンダリングされた2D画像が大規模な事前学習済みテキスト画像モデルの分布に準拠するように、3Dシーンのニューラル表現パラメータを最適化します。しかし、このタイプの方法は単一のオブジェクトに対しては良好な結果を達成していますが、複雑な関節を持つきめ細かい人体を正確にモデル化することは依然として困難です。 人間の構造の事前条件を導入するために、最近のテキスト駆動型 3D 人間生成研究では、SDS と SMPL などのモデルを組み合わせています。具体的には、ボディ形状をメッシュ/NeRF 密度として初期化するか、リニア ブレンド スキニングに基づいて変形フィールドを学習することによって、メッシュやニューラル放射フィールド (NeRF) などの表現にボディの事前分布を統合するのが一般的な方法です。しかし、そのほとんどは効率と品質の間でトレードオフを生じます。メッシュベースの方法では、アクセサリやシワなどの微細なトポロジをモデル化するのが困難であり、NeRF ベースの方法では、高解像度の結果をレンダリングするために非常に多くの時間とビデオ メモリを消費します。きめ細かい生成を効率的に実現する方法は、未解決の問題のままです。 最近、3Dガウススプラッティング(3DGS)[2]の明示的なニューラル表現が、リアルタイムシーン再構成に新たな視点をもたらしている。マルチ粒度およびマルチスケールのモデリングをサポートしており、3D 人体生成タスクに非常に適しています。ただし、この効率的な表現を使用するには 2 つの課題があります。1) 3DGS は、各錐台で異方性ガウス分布をソートおよびアルファブレンディングしてタイルベースのラスタライゼーションを表現しますが、これは高信頼性ガウス分布のごく一部だけを逆伝播します。ただし、3D サーフェス/ボリューム レンダリングの研究で実証されているように、スパース グラデーションはジオメトリと外観のネットワーク最適化を妨げる可能性があります。したがって、3DGS では、特に階層的なモデリングと制御可能な生成を必要とする人体の領域では、構造ガイダンスが必要です。 2) ナイーブSDSでは、画像とテキストの位置合わせに大規模な分類器フリーのガイダンスが必要である(例えば、DreamFusion [1]では100が使用されている)。しかし、過飽和により視覚的な品質が犠牲になり、リアルな人間の生成が難しくなります。さらに、SDS 損失のランダム性により、3DGS の元の勾配ベースの密度制御が不安定になり、結果がぼやけたり、浮遊アーティファクトが発生したりする可能性があります。 最近の研究で、香港中文大学、テンセントAIラボ、北京大学、香港大学、南洋理工大学のチームは、最新の効果的で高速な3D人体生成モデルHumanGaussianを発表しました。明示的な人体構造ガイダンスと勾配正規化を導入して3Dガウス最適化プロセスを支援することで、多様でリアルな高品質の3D人体モデルを生成できます。現在、コードとモデルは両方ともオープンソースです。
コアメソッド(1)構造を考慮したSDS 研究者らは、SMPL-Xメッシュの形状に基づいて3Dガウス中心位置を初期化した。1) これまでの研究では、Structure-from-MotionやShap-E [3]やPoint-E [4]などの一般的なテキストからポイントクラウドへの事前分布が使用されていた。しかし、このような方法では通常、人間のカテゴリでは点がまばらすぎる、体の構造が一貫していないなどの問題が発生します。 2) SMPL の拡張として、SMPL-X は顔と手の形状トポロジーを補完し、きめ細かい詳細を備えた複雑な人間のモデリングに役立ちます。これらの観察に基づいて、研究者らは 3DGS 初期化として SMPL-X グリッド表面上の点を均一にサンプリングすることを提案しました。彼らは 3DGS を適切な人間サイズに拡大縮小して変換し、3D 空間の中央に配置しました。 SMPL-X 事前分布は初期化としてのみ使用されるため、3DGS トレーニングを容易にするには、より包括的なガイダンスが必要です。外観や形状のみを学習する単峰性拡散モデルから 3D シーンを学習する代わりに、テクスチャと構造の結合分布を同時にキャプチャする SDS ソース モデルを使用することを提案します。彼らは、事前トレーニング済みの安定拡散モデルを構造エキスパート ブランチで拡張し、画像の RGB と深度マップの両方のノイズを除去します。 このようにして、画像の外観のテクスチャと前景/背景関係の構造の両方を捉えた統合モデルが得られ、これを使用して SDS での 3DGS 学習を容易にすることができます。 画像の RGB と深度を空間的に整列させる拡張拡散モデルを生成することで、3DGS 最適化プロセスを構造的側面とテクスチャ側面の両方からガイドできます。 この構造的正規化は幾何学的歪みを軽減するのに役立ち、スパース勾配情報による 3DGS 最適化を容易にします。 (2)アニールネガティブプロンプトガイダンス テキストと3D生成コンテンツ間の位置合わせを容易にするために、DreamFusion [1]は、より大きな分類器フリーのガイダンススケールを使用して、3Dシーンの最適化のためのスコアマッチング差項を更新します。 この定式化では、スコア マッチングの差は自然に 2 つの部分に分解できます。最初の項は、画像をより現実的な多様体に押し上げる生成スコアです。2 番目の項は、サンプルを暗黙の分類器に合わせる分類器スコアです。ただし、生成されたスコアには高分散のガウスノイズが含まれているため、トレーニングの安定性を損なう確率的勾配情報が提供されます。この問題に対処するために、DreamFusion は意図的により大きな分類器フリーのブートストラップ スケールを使用し、分類器スコアが最適化を支配してモードの過飽和につながるようにします。代わりに、研究者は SDS 損失としてより明確な分類器スコアのみを利用します。 Vincent グラフや Vincent 3D の分野では、不要な属性の生成を避けるために否定テキストが広く使用されています。これに基づいて、研究者は、より優れた 3DGS 学習を実現するために、ネガティブ テキスト分類スコアを上げることを提案しました。 経験的に、ネガティブテキスト分類スコアは短い時間ステップで品質を低下させることがわかったので、アニーリングされたネガティブテキストガイダンスを使用して、監督のために 2 つのスコアを組み合わせます。 実験結果研究者らはこれを、3D 視覚化と 3D 人体生成の分野における一般的なモデルと比較しました。ご覧のとおり、HumanGaussian は優れたパフォーマンスを実現し、よりリアルな人間の外観、より一貫した体の構造、より優れたビューの一貫性、よりきめ細かいディテールのキャプチャをレンダリングします。 さらに研究者らはアブレーション実験を通じて各モジュールの有効性を検証した。 SMPL-X が提供する人体構造の事前分布は、3DGS 最適化の初期化情報を提供できることがわかります。ネガティブ テキスト ガイダンスは、リアルな人体テクスチャの外観を保証します。画像 RGB と深度マップのデュアル ブランチの SDS 監視制約は、人体の形状とテクスチャを同時に最適化できます。最後に、ガウス サイズに従って剪定すると、霧のようなアーティファクトを除去できます。 以下は、高解像度のマルチビュー 3D 人体生成の結果です。 その他のサンプルについては、プロジェクトのホームページと記事のデモビデオを参照してください。 まとめと今後の課題本稿では、きめ細かい形状とリアルな外観を備えた高品質の 3D 人間を生成するための効率的で高速なフレームワークである HumanGaussian を提案します。 HumanGaussian は 2 つの主要な貢献をします: (1)我々は、人間の構造の事前条件を明示的に導入し、同時に人間の外観と形状を最適化する構造を考慮したSDSを設計した。 (2)アニールされたネガティブテキストガイドは、過飽和のないリアルな結果を保証し、浮遊アーティファクトを排除するように設計されています。全体的に、HumanGaussian は、多様でリアルな高品質の 3D 人間モデルを生成し、よりリアルな人間の外観、より一貫性のある身体構造、より優れたビューの一貫性、よりきめ細かい詳細キャプチャをレンダリングすることができます。 今後の仕事: 1. 既存のテキストベースのモデルは手足を生成する性能が限られているため、研究者はこれらの部分を高品質でレンダリングできないことがあることを発見しました。 2. 2D ポーズ条件付きモデルは主に人間の正面図でトレーニングされており、人間の背面図に関する事前知識がほとんどないため、背面図のレンダリングされたテクスチャがぼやけて見える場合があります。 |
>>: オープンソースモデル「幻覚」はより深刻です。これは3段階の幻覚検出キットです
地球は私たちの共通の家であり、地球環境を保護するために私たちは協力しなければなりません。したがって、...
全能の GAN がまたひとつの丘を征服しました。近年、DeepMindが提案したBigGANなど、G...
自然言語生成 (NLG) のタスクとしてのテキスト要約は、主に長いテキストを短い要約に圧縮するために...
視覚、聴覚、嗅覚、味覚、触覚は、人間の最も基本的な五感です。その中でも、視覚は極めて重要です。結局の...
ビッグデータダイジェスト制作著者: カレブ西暦79年、ベスビオ山が噴火し、その麓にあったポンペイの街...
新型コロナウイルス感染症のパンデミックによって引き起こされた市場の混乱は、世界中の企業に引き続き重く...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
表現力豊かな人間の姿勢と形状の推定 (EHPS) の分野では大きな進歩が遂げられていますが、最も先進...
[[398462]]最後の顔認識画像の前処理では、前処理ステップを追加し、環境やその他の要因からの干...
人類の生産性の発展の歴史をみると、肉体労働の時代、機械化の時代、電化の時代、自動化の時代を経て、現在...
今日、私たちはコンピューティングにおける大きなイノベーションの時代を目の当たりにしており、世界中で ...
かつての共同研究者であるジェフリー・ヒントン氏とヨシュア・ベンジオ氏がAIの絶滅を宣言したとき、ルカ...