GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイム レンダリング フレームワーク

GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイム レンダリング フレームワーク


  • 論文タイトル: GauHuman: 単眼の人間動画からの関節型ガウス分布スプラッティング
  • 論文ダウンロードアドレス: https://arxiv.org/abs/2312.02973
  • プロジェクトのホームページ: https://skhu101.github.io/GauHuman
  • オープンソースコード: https://github.com/skhu101/GauHuman

背景

3D デジタルヒューマン再構築は、仮想現実や補助現実などのさまざまなアプリケーションシナリオに大きな影響を与える可能性があります。人間の神経放射場に基づいて、既存の方法では、スパースビューのビデオや単一の画像からでも 3D デジタル ヒューマンを復元できます。ただし、これらの方法では、トレーニングとレンダリングを完了するために高価な計算時間 (最大 10 時間) とリソースが必要になることが多く、実際のシナリオでの適用が大幅に制限されます。モデリングプロセスを加速するために、一般化可能な 3D 人体モデリング法では、事前トレーニングと微調整のパラダイムを採用しています。この種の方法では、通常、一般化可能な 3D 人間表現を得るために数時間の事前トレーニングが必要であり、その後、モデリングを完了するために各 3D デジタル人間に対してさらに 1 時間の微調整が必​​要になります。これらの方法は限られた情報しか提供できない入力画像に依存しているため、3D 人体再構築の品質を向上させる必要があります。別の種類の研究では、マルチ解像度ハッシュエンコーディングやニューラルボリュームプリミティブなど、人体モデリングのためのより効率的な 3D 人間表現が導入されています。多精度ハッシュ表現はトレーニングの収束速度を向上させますが、レンダリング速度が実際の適用を制限します。ニューラル ボリューム プリミティブはレンダリング速度を向上させますが、トレーニング速度と最終的なレンダリング品質にはまだ改善の余地があります。この手法では、静的および動的シーンにおけるガウススプラッティングのリアルタイム レンダリング特性を活用し、高速トレーニング (1 ~ 2 分) とリアルタイム レンダリング (最大 189 フレーム/秒) を備えた単眼人間ビデオ用のガウススプラッティングに基づく 3D 人間モデリング フレームワークを提案します。

図 2 単眼の人間のビデオに基づいて、GauHuman は高品質の 3D 人体を迅速にトレーニング (1 ~ 2 分) し、リアルタイムでレンダリング (最大 189 フレーム/秒) できます。

根拠

ガウススプラッティングを使用して単眼人体ビデオ内の関節付き 3D 人体をモデル化するには、2 つの困難な問題を解決する必要があります。1) 単眼人体ビデオ内の関節付き 3D 人体情報をガウススプラッティング フレームワークに導入する方法、2) 関節付きガウススプラッティングの効率的な最適化を実現する方法。上記の問題に対処するために、比較的簡単に考えられる解決策は、ガウス スプラッティングを使用して 3D 人体を標準空間でモデル化し、リニア ブレンド スキニング (LBS) アルゴリズムを使用して 3D ガウス球を標準空間からターゲット空間に変換し、それによってターゲット空間で画像をレンダリングして損失関数を構築することです。上記の方式の問題の 1 つは、線形スキニング アルゴリズムが 3D 人間の頂点の回転とオフセットを定義することです。SMPL 事前分布における人体の不正確な LBS 係数と姿勢情報から標準空間内の 3D ガウス球の回転とオフセットをどのように学習するかは、依然として難しい問題です。さらに、既存のガウス スプラッティング法では、Structure-from-Motion (SFM) またはランダム初期化によって生成されたポイント クラウドを使用して、3D ガウス球の中心座標を初期化します。この初期化方法は主に静的なシーン向けに設計されており、人体の構造情報を無視しているため、高速な人体モデリングには適していません。モデリング プロセス中に発生する過剰再構築および不十分再構築の現象に対応して、Gaussian Splatting 論文では、3D ガウス球の数を動的に制御するための分割操作と複製操作を提案しています。上記の操作により、再構築の品質が大幅に向上しますが、大量の 3D ガウス球も生成されるため、最適化の効率が制限され、大量のハードディスク容量が消費されます (たとえば、静的シーンには 734 MB のストレージ容量が必要です)。注目すべきもう 1 つの点は、既存の Gaussian Splatting フレームワークには多数の冗長な 3D ガウス球が含まれているため、最適化の効率をさらに向上させる余地があるということです。

上記の困難な問題のいくつかに対応するために、モデリング フレームワークと高速最適化アルゴリズムという 2 つの側面から解決策を検討します。 [単眼の人間動画に表現された3D人間情報をガウススプラッティングのフレームワークに導入] 以前の人間の神経放射場(Human NeRF)にヒントを得て、ガウススプラッティングを使用して3D人間の体を標準空間でモデル化し、3Dガウス球を標準空間からターゲット空間に変換します。ガウス関数の変換特性に基づいて、LBS アルゴリズムを使用して 3D ガウス ボールを標準空間からターゲット空間に回転およびオフセットできます。上記の変換には、LBS 係数をどのように推定するかという問題があります。ニューラル ネットワークを直接使用して LBS 係数を推定すると、多くの場合、長い期間の最適化が必要になり、最終的なレンダリング効果も満足のいくものではありません。より正確な LBS 係数を迅速に取得するために、1) ニューラル ネットワークを使用して SMPL の LBS 係数に基づいてバイアス値を提供し、2) トレーニング データに基づいて人体の姿勢情報を修正します。 1024p 画像をレンダリングする場合、上記のモデリング フレームワークでは、限られた数 (13k など) の 3D ガウス球をスノーボールするだけで済みますが、以前の人間の神経放射フィールドでは、3D 空間全体の何百万ものサンプリング ポイントに対してボリューム レンダリング操作を実行する必要があります。これにより、トレーニングとレンダリングにおける計算リソースの消費が大幅に削減されます。 【多関節型ガウススプラッティングの効率的な最適化】1) 3Dガウス球の初期化。 SMPL などの 3D 人体事前分布を使用して 3D ガウス球を初期化することで、最適化の効率が大幅に向上します。 2) 分割/複製/結合。実験分析により、分割操作と複製操作では、3D ゴッサマー ボール間の距離がメトリックとして無視されることがわかりました。上記の分析に基づいて、分割および複製操作を制限するために 3D ハイワイヤーボールの Kullback-Leibler (KL) ダイバージェンスを導入します。多数の冗長な 3D ガウス球に対して、これらの 3D ガウス球を効果的に削減するマージ操作を提案します。 3) 剪定。 3D 人体は特定の構造を持っていることを考慮して、3D ガウス球を 3D 人体から切り離します。上記の高速最適化アルゴリズムに基づいて、約 13,000 個の 3D ガウス球 (約 3.5 MB のハードディスク容量) を使用して、1 ~ 2 分で 3D 人体モデリングを完了できます。

図3 GauHumanフレームワークの概略図。 GauHuman は、まず人体の事前 SMPL に基づいて 3D ガウス ボールの位置を初期化し、次に LBS 係数偏差と人体姿勢補正モジュールに基づいて、標準空間からターゲット空間への 3D ガウス ボールの変換行列を学習します。その後の最適化プロセスでは、GauHuman はタイルベースの微分可能レンダラーを使用して画像をすばやくレンダリングし、人体の事前分布と KL ダイバージェンスを使用して分割、複製、マージ、およびプルーニング操作を制限し、3D ガウス ボールの数を効果的に制御します。

結果の比較

この論文では、2 つの単眼人間データセット、ZJU_MoCap と MonoCap で実験を実施しました。この研究では、NB、AN、AS、HumanNeRF、DVA、InstantNVR、InstantAvatar、PixelNeRF、NHP といったいくつかの高度な 3D 人間再構成手法を比較し、ピーク信号対雑音比 (PSNR)、構造類似性指数 (SSIM)、学習知覚画像パッチ類似性 (LPIPS) 指標を比較しました。下の図に示すように、GauHuman は 3D 人体を素早く (1 ~ 2 分) 再構築し、リアルタイム (最大 189 フレーム/秒) でレンダリングすることができ、パフォーマンス指標において従来のソリューションを上回っています。

応募の見通し

ゲーム映画の制作、仮想現実、拡張現実、またはデジタル ヒューマン モデリングを必要とするその他のシナリオでは、ユーザーは単眼の人間ビデオ、その角度でのカメラ パラメータ、および対応する人間のモーション シェイプ パラメータ (SMPL) を入力することで、3D デジタル ヒューマンを再構築できます。

結論

この論文では、ガウススプラッティングに基づく、高品質の 3D 人体高速再構成 (1 ~ 2 分) およびリアルタイム レンダリング (最大 189 フレーム/秒) フレームワーク GauHuman を提案します。この記事にはまだいくつかの欠陥があることは認められる。まず、3D ガウスから人体のメッシュを抽出する方法については、さらなる研究が必要です。第二に、単眼の人物ビデオから衣服のしわなどの 3D 人物の詳細を復元することは、依然として難しい問題です。実現可能な解決策は、衣服の物理シミュレーション モデルを 3D 人体再構築に導入することです。ついに、私たちのコードは完全にオープンソース化され、誰でもダウンロードして遊ぶことができます。

<<:  海外の詐欺師はAIを使ってテイラー・スウィフトの声を合成し、「無料のキッチン用品」の広告を偽造して詐欺行為を行った。

>>:  国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

ブログ    
ブログ    

推薦する

あまり知られていないがプライバシーを保護するトレーニング方法:フェデレーテッドラーニング

[[261420]]ビッグデータダイジェスト制作出典: MITテクノロジーレビュー編集者: stat...

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれ...

2030 年までに人工知能はどのようになるでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

百度が「AI+X」を実践、AI教育が未来に向けて加速

3月25日〜26日、「新たな始まり、新たな発展、新たなシステム」をテーマにした第3回中国コンピュータ...

...

...

...

Huawei の徐文偉氏: インテリジェントな未来を構想する (HC カンファレンス PPT + スピーチ全文)

第3回HUAWEI CONNECT 2018が2018年10月10日に上海万博展示コンベンションセン...

...

...

...

...

2020年に中国で期待されるAI企業トップ10

近年の新興技術として、人工知能は人々の生活のあらゆる側面に静かに浸透し、比較的ホットな産業に発展しま...

Microsoft が大規模コード モデル WaveCoder をリリースしました。 4つのコードタスクと20,000のインスタンスデータセットにより、LLMの一般化能力が大幅に向上しました。

高品質のデータ セットを使用して命令のチューニングを実行すると、大規模なモデルのパフォーマンスを迅速...