GauHuman オープンソース: ガウススプラッティングに基づく高品質の 3D 人間高速再構成およびリアルタイムレンダリングフレームワーク

論文タイトル: GauHuman: 単眼の人間動画からの関節型ガウス分布スプラッティング
論文ダウンロードアドレス: https://arxiv.org/abs/2312.02973
プロジェクトのホームページ: https://skhu101.github.io/GauHuman
オープンソースコード: https://github.com/skhu101/GauHuman

背景

3D デジタルヒューマン再構築は、仮想現実や補助現実などのさまざまなアプリケーションシナリオに大きな影響を与える可能性があります。人間の神経放射場に基づいて、既存の方法では、スパースビューのビデオや単一の画像からでも 3D デジタルヒューマンを復元できます。ただし、これらの方法では、トレーニングとレンダリングを完了するために高価な計算時間 (最大 10 時間) とリソースが必要になることが多く、実際のシナリオでの適用が大幅に制限されます。モデリングプロセスを加速するために、一般化可能な 3D 人体モデリング法では、事前トレーニングと微調整のパラダイムを採用しています。この種の方法では、通常、一般化可能な 3D 人間表現を得るために数時間の事前トレーニングが必要であり、その後、モデリングを完了するために各 3D デジタル人間に対してさらに 1 時間の微調整が必要になります。これらの方法は限られた情報しか提供できない入力画像に依存しているため、3D 人体再構築の品質を向上させる必要があります。別の種類の研究では、マルチ解像度ハッシュエンコーディングやニューラルボリュームプリミティブなど、人体モデリングのためのより効率的な 3D 人間表現が導入されています。多精度ハッシュ表現はトレーニングの収束速度を向上させますが、レンダリング速度が実際の適用を制限します。ニューラルボリュームプリミティブはレンダリング速度を向上させますが、トレーニング速度と最終的なレンダリング品質にはまだ改善の余地があります。この手法では、静的および動的シーンにおけるガウススプラッティングのリアルタイムレンダリング特性を活用し、高速トレーニング (1 ～ 2 分) とリアルタイムレンダリング (最大 189 フレーム/秒) を備えた単眼人間ビデオ用のガウススプラッティングに基づく 3D 人間モデリングフレームワークを提案します。

図 2 単眼の人間のビデオに基づいて、GauHuman は高品質の 3D 人体を迅速にトレーニング (1 ～ 2 分) し、リアルタイムでレンダリング (最大 189 フレーム/秒) できます。

根拠

ガウススプラッティングを使用して単眼人体ビデオ内の関節付き 3D 人体をモデル化するには、2 つの困難な問題を解決する必要があります。1) 単眼人体ビデオ内の関節付き 3D 人体情報をガウススプラッティングフレームワークに導入する方法、2) 関節付きガウススプラッティングの効率的な最適化を実現する方法。上記の問題に対処するために、比較的簡単に考えられる解決策は、ガウススプラッティングを使用して 3D 人体を標準空間でモデル化し、リニアブレンドスキニング (LBS) アルゴリズムを使用して 3D ガウス球を標準空間からターゲット空間に変換し、それによってターゲット空間で画像をレンダリングして損失関数を構築することです。上記の方式の問題の 1 つは、線形スキニングアルゴリズムが 3D 人間の頂点の回転とオフセットを定義することです。SMPL 事前分布における人体の不正確な LBS 係数と姿勢情報から標準空間内の 3D ガウス球の回転とオフセットをどのように学習するかは、依然として難しい問題です。さらに、既存のガウススプラッティング法では、Structure-from-Motion (SFM) またはランダム初期化によって生成されたポイントクラウドを使用して、3D ガウス球の中心座標を初期化します。この初期化方法は主に静的なシーン向けに設計されており、人体の構造情報を無視しているため、高速な人体モデリングには適していません。モデリングプロセス中に発生する過剰再構築および不十分再構築の現象に対応して、Gaussian Splatting 論文では、3D ガウス球の数を動的に制御するための分割操作と複製操作を提案しています。上記の操作により、再構築の品質が大幅に向上しますが、大量の 3D ガウス球も生成されるため、最適化の効率が制限され、大量のハードディスク容量が消費されます (たとえば、静的シーンには 734 MB のストレージ容量が必要です)。注目すべきもう 1 つの点は、既存の Gaussian Splatting フレームワークには多数の冗長な 3D ガウス球が含まれているため、最適化の効率をさらに向上させる余地があるということです。

上記の困難な問題のいくつかに対応するために、モデリングフレームワークと高速最適化アルゴリズムという 2 つの側面から解決策を検討します。 [単眼の人間動画に表現された3D人間情報をガウススプラッティングのフレームワークに導入] 以前の人間の神経放射場（Human NeRF）にヒントを得て、ガウススプラッティングを使用して3D人間の体を標準空間でモデル化し、3Dガウス球を標準空間からターゲット空間に変換します。ガウス関数の変換特性に基づいて、LBS アルゴリズムを使用して 3D ガウスボールを標準空間からターゲット空間に回転およびオフセットできます。上記の変換には、LBS 係数をどのように推定するかという問題があります。ニューラルネットワークを直接使用して LBS 係数を推定すると、多くの場合、長い期間の最適化が必要になり、最終的なレンダリング効果も満足のいくものではありません。より正確な LBS 係数を迅速に取得するために、1) ニューラルネットワークを使用して SMPL の LBS 係数に基づいてバイアス値を提供し、2) トレーニングデータに基づいて人体の姿勢情報を修正します。 1024p 画像をレンダリングする場合、上記のモデリングフレームワークでは、限られた数 (13k など) の 3D ガウス球をスノーボールするだけで済みますが、以前の人間の神経放射フィールドでは、3D 空間全体の何百万ものサンプリングポイントに対してボリュームレンダリング操作を実行する必要があります。これにより、トレーニングとレンダリングにおける計算リソースの消費が大幅に削減されます。【多関節型ガウススプラッティングの効率的な最適化】1) 3Dガウス球の初期化。 SMPL などの 3D 人体事前分布を使用して 3D ガウス球を初期化することで、最適化の効率が大幅に向上します。 2) 分割/複製/結合。実験分析により、分割操作と複製操作では、3D ゴッサマーボール間の距離がメトリックとして無視されることがわかりました。上記の分析に基づいて、分割および複製操作を制限するために 3D ハイワイヤーボールの Kullback-Leibler (KL) ダイバージェンスを導入します。多数の冗長な 3D ガウス球に対して、これらの 3D ガウス球を効果的に削減するマージ操作を提案します。 3) 剪定。 3D 人体は特定の構造を持っていることを考慮して、3D ガウス球を 3D 人体から切り離します。上記の高速最適化アルゴリズムに基づいて、約 13,000 個の 3D ガウス球 (約 3.5 MB のハードディスク容量) を使用して、1 ～ 2 分で 3D 人体モデリングを完了できます。

図3 GauHumanフレームワークの概略図。 GauHuman は、まず人体の事前 SMPL に基づいて 3D ガウスボールの位置を初期化し、次に LBS 係数偏差と人体姿勢補正モジュールに基づいて、標準空間からターゲット空間への 3D ガウスボールの変換行列を学習します。その後の最適化プロセスでは、GauHuman はタイルベースの微分可能レンダラーを使用して画像をすばやくレンダリングし、人体の事前分布と KL ダイバージェンスを使用して分割、複製、マージ、およびプルーニング操作を制限し、3D ガウスボールの数を効果的に制御します。

結果の比較

この論文では、2 つの単眼人間データセット、ZJU_MoCap と MonoCap で実験を実施しました。この研究では、NB、AN、AS、HumanNeRF、DVA、InstantNVR、InstantAvatar、PixelNeRF、NHP といったいくつかの高度な 3D 人間再構成手法を比較し、ピーク信号対雑音比 (PSNR)、構造類似性指数 (SSIM)、学習知覚画像パッチ類似性 (LPIPS) 指標を比較しました。下の図に示すように、GauHuman は 3D 人体を素早く (1 ～ 2 分) 再構築し、リアルタイム (最大 189 フレーム/秒) でレンダリングすることができ、パフォーマンス指標において従来のソリューションを上回っています。

応募の見通し

ゲーム映画の制作、仮想現実、拡張現実、またはデジタルヒューマンモデリングを必要とするその他のシナリオでは、ユーザーは単眼の人間ビデオ、その角度でのカメラパラメータ、および対応する人間のモーションシェイプパラメータ (SMPL) を入力することで、3D デジタルヒューマンを再構築できます。

結論

この論文では、ガウススプラッティングに基づく、高品質の 3D 人体高速再構成 (1 ～ 2 分) およびリアルタイムレンダリング (最大 189 フレーム/秒) フレームワーク GauHuman を提案します。この記事にはまだいくつかの欠陥があることは認められる。まず、3D ガウスから人体のメッシュを抽出する方法については、さらなる研究が必要です。第二に、単眼の人物ビデオから衣服のしわなどの 3D 人物の詳細を復元することは、依然として難しい問題です。実現可能な解決策は、衣服の物理シミュレーションモデルを 3D 人体再構築に導入することです。ついに、私たちのコードは完全にオープンソース化され、誰でもダウンロードして遊ぶことができます。

<<: 海外の詐欺師はAIを使ってテイラー・スウィフトの声を合成し、「無料のキッチン用品」の広告を偽造して詐欺行為を行った。

>>: 国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました