本当に滑らか: 浙江大学、ETH チューリッヒ、CityU が共同で開発した 3D ヘアモデリングの新しい手法、NeuralHDHair

近年、バーチャルデジタルヒューマン業界は大変人気が高まっており、あらゆる分野の人々が独自のデジタルヒューマンイメージを発表しています。忠実度の高い 3D ヘアモデルによって仮想デジタルヒューマンのリアリティが大幅に向上することは間違いありません。人体の他の部分とは異なり、毛髪の構造を記述して抽出することは、極めて複雑に絡み合った構造のためより困難であり、単一のビューから高忠実度の 3D 毛髪モデルを再構築することは非常に困難です。一般的に、既存の方法では、この問題を 2 つのステップで解決します。まず、入力画像から抽出された 2D 方向マップに基づいて 3D 方向フィールドを推定し、次に 3D 方向フィールドに基づいて毛髪ストランドを合成します。しかし、このメカニズムには実際にはまだいくつかの問題があります。

実際の観察に基づいて、研究者は、ネットワークの 1 回のフォワードパスのみでヘアモデルの再構築が可能など、高い柔軟性を示しながら、きめ細かい特徴を持つ単一の画像 (図 1 を参照) から 3D ヘアモデルを再構築できる、完全に自動化された効率的なヘアモデリング方法を求めています。

これらの問題に対処するため、浙江大学、スイス連邦工科大学チューリッヒ校、香港城市大学の研究者らは、高忠実度の 3D 方向フィールドを生成するために粗から細への戦略を実装する IRHairNet を提案しました。具体的には、粗いモジュールの 2D 方向マップから情報を抽出するための新しいボクセル整列暗黙関数 (VIFu) を導入します。同時に、2D方向マップで失われた局所的な詳細を補うために、研究者らは高解像度の輝度マップを使用して局所的な特徴を抽出し、それを微細モジュールのグローバルな特徴と組み合わせて、忠実度の高いヘアモデリングを実現しました。

3D 方向フィールドから毛髪モデルを効果的に合成するために、研究者らは、ローカル暗黙メッシュ表現を使用したディープラーニングに基づく毛髪成長法である GrowingNet を導入しました。これは、毛髪の形状と成長方向は全体的に異なりますが、特定のローカルスケールでは類似した特徴があるという重要な観察に基づいています。したがって、各ローカル 3D 方向パッチに対して高レベルの潜在コードを抽出し、この潜在コードに基づいて毛髪を成長させるようにニューラル潜在関数 (デコーダー) をトレーニングすることができます。各成長段階の後、毛髪の先端を中心とした新しい局所パッチを使用して成長が継続されます。一度トレーニングすると、任意の解像度の 3D 方向フィールドに適用できます。

論文: https://arxiv.org/pdf/2205.04175.pdf

IRHairNet と GrowingNet は NeuralHDHair の中核を形成します。具体的には、この研究の主な貢献は次のとおりです。

既存の SOTA 方法を大幅に上回る、まったく新しい完全自動単眼ヘアモデリングフレームワークを紹介します。
高品質なヘアモデリングのローカル詳細を充実させるために、新しいボクセル整列潜在関数と輝度マップを使用して、粗いものから細かいものまでヘアモデリングニューラルネットワーク (IRHairNet) を導入しました。
ローカル暗黙関数に基づく新しい毛髪成長ネットワーク (GrowingNet) が提案され、任意の解像度の毛髪モデルを効率的に生成できます。このネットワークは、従来の方法に比べて速度が桁違いに向上します。

方法

図 2 は NeuralHDHair パイプラインを示しています。ポートレート画像の場合は、まず 2D 方向マップを計算し、明るさマップを抽出します。さらに、同じバスト参照モデルに自動的に位置合わせされ、バスト深度マップが取得されます。これらの 3 つのグラフは、IRHairNet にフィードバックされます。

IRHairNet は、単一の画像から高解像度の 3D ヘアジオメトリ特徴を生成するように設計されています。このネットワークへの入力には、入力ポートレート画像から取得された 2D 方向マップ、明るさマップ、およびフィッティングされたバスト深度マップが含まれます。出力は、各ボクセル内のローカルな成長方向を含む 3D 方向フィールドと、各ボクセルが毛束が通過するか (1) 通過しないか (0) を示す 3D 占有フィールドです。
GrowingNet は、IRHairNet によって推定された 3D 方向フィールドと 3D 占有フィールドから完全な毛髪ストランドモデルを効率的に生成するように設計されています。3D 占有フィールドは、毛髪の成長領域を制限するために使用されます。

方法の詳細については、元の論文を参照してください。

実験

このセクションでは、アブレーション研究（セクション 4.1）を通じて各アルゴリズムコンポーネントの有効性と必要性を評価し、次に私たちの方法を現在の SOTA（セクション 4.2）と比較します。実装の詳細とさらなる実験結果については補足資料をご覧ください。

アブレーション実験

研究者らは、GrowingNet の忠実度と効率性を定性的および定量的観点から評価しました。まず、合成データに対して 3 セットの実験を実施します。1) 従来のヘアグローイングアルゴリズム、2) 重複潜在パッチスキームのない GrowingNet、3) この論文の完全なモデルです。

図 4 と表 1 に示すように、従来の育毛アルゴリズムと比較すると、GrowingNet は視覚品質における同じ育毛パフォーマンスを維持しながら、時間消費の点で明らかな利点があります。さらに、図 4 の 3 列目と 4 列目を比較すると、重複する潜在的なパッチソリューションがない場合、パッチ境界の毛髪が不連続になる可能性があり、毛髪の成長方向が急激に変化するとこの問題はさらに深刻になることがわかります。ただし、このソリューションは、精度がわずかに低下する代わりに効率を大幅に向上させることは注目に値します。これは、人体のデジタル化における便利で効率的なアプリケーションにとって非常に重要です。

SOTA方式との比較

NeuralHDHairのパフォーマンスを評価するために、研究者らはそれをいくつかのSOTA手法[6,28,30,36,40]と比較した。 Autohairはデータ駆動型のアプローチに基づいて毛髪合成を実行しますが、HairNet[40]は毛髪の成長プロセスを無視してエンドツーエンドの毛髪モデリングを実現します。対照的に、[28、36]は、まず3D方向フィールドを推定し、次にそこから毛髪を合成するという2段階の戦略を実装しました。 PIFuHD[30]は、粗いものから細かいものへの戦略に基づいた単眼高解像度3Dモデリング手法であり、3Dヘアモデリングに使用できます。

図 6 に示すように、HairNet の結果は満足のいくものに見えますが、局所的な詳細や全体的な形状さえも入力画像の髪の毛と一致していません。これは、この方法では髪を合成する単純で粗雑な方法を使用し、乱れた髪の束を 1 枚の画像から直接復元するためです。

再構成結果はAutohair[6]およびSaito[28]とも比較される。図 7 に示すように、Autohair はリアルな結果を合成できますが、データベースに含まれるヘアスタイルが限られているため、入力画像と構造的にうまく一致させることができません。一方、斎藤氏の結果には局所的な詳細が欠けており、形状が入力画像と一致していません。対照的に、私たちの方法の結果は、髪の形状の一貫性を確保しながら、髪の全体的な構造と局所的な詳細をより適切に保存します。

PIFuHD[30]とDynamic Hair[36]は、高忠実度の3Dヘアジオメトリ特徴を推定し、リアルなヘアモデルを生成することを目的としています。図 8 は 2 つの代表的な比較結果を示しています。 PIFuHD で採用されているピクセルレベルの暗黙的な関数では、複雑な髪の毛を適切に描写できず、結果が滑らかすぎて、局所的な詳細がなく、適切なグローバル構造さえも得られないことがわかります。ダイナミックヘアは、詳細度を低くしてより妥当な結果を生成でき、その結果の髪の成長傾向は入力画像とよく一致しますが、特に複雑なヘアスタイルの場合、多くのローカル構造の詳細 (階層など) をキャプチャすることはできません。対照的に、私たちの方法は、さまざまなヘアスタイル、さらには極めて複雑な構造にも適応し、グローバルな特徴とローカルな詳細を最大限に活用して、より詳細な高忠実度、高解像度の 3D ヘアモデルを生成できます。

<<: 中小企業はデジタル変革の悪循環からどのように抜け出すことができるでしょうか?

>>: 610億ドルを費やす！半導体大手ブロードコム、ソフトウェアとハードウェアの統合実現のためVMwareを買収