顔の照明を自由に編集：ジェネレーティブモデルに基づく3Dリライティングシステムがリリース

実際の人間の顔の 3 次元モデリング、合成、再照明は、コンピュータグラフィックスの分野で高い応用価値を持つ研究分野です。人間の顔の皮膚組織の構造は複雑なため、照明効果を正確に計算するには、高度な前処理の幾何学的マテリアルモデリングと複雑な光路シミュレーションが必要になることが多く、これには高いハードウェアコストと計算時間が必要になります。

既存の方法では、暗黙的な生成ネットワークを使用して、消費者向けハードウェア上で超リアルな 3D 顔を迅速に合成することに成功しています。これから照明を暗黙的に分離するというアイデアは、ハードウェアコストが低く、高品質でリアルな効果を実現できるため、潜在的な研究方向となっています。しかし、照明や影の効果と材質の間には大きな曖昧性があり、生成されたネットワークの多様性を確保しながら、照明や影と材質の曖昧さを解決するために大量の実データを収集することは困難です。

コンピュータグラフィックスのトップジャーナルであるACM Transactions on Graphics（ToG）に掲載されたNeRFFaceLighting [1]は、顔の照明方向を暗黙的に切り離し、生成モデルによって学習された分布事前分布を使用して、実際の光と影の切り離しを実現します。

NeRFFaceLighting は、光と影の制御を分離する 3D 顔生成モデルを構築します。顔の形状と材質を決定した後、ユーザーは希望する照明効果とカメラの視点を与えるだけで、対応する顔画像をリアルタイムで生成できます。

この方法に基づく 3D 顔再照明システムは、ユーザーが 3D モデリングや照明モデルに精通していなくても、2D の実際の顔画像から 3D 顔モデルを簡単に復元し、照明効果を適切に調整することができます。まずはNeRFFaceLightingを使った効果を見てみましょう！

図 1. NeRFFaceLighting システムを使用して入力された実際の顔画像を再照明した効果。

図2 NeRFFaceLighting より重い照明効果

パートI背景

近年、ニューラル放射場[2]と生成的敵対的ネットワーク[3]を組み合わせた、EG3D[4]を含む様々な高品質で高速レンダリングの3D顔生成ネットワークが提案されています。

図3. 異なる視点から見たEG3Dの生成効果と幾何学的表現

この手法の3次元表現は、従来の2次元敵対的生成ネットワークと最新の3次元暗黙的表現を組み合わせたもので、StyleGAN [5]の強力な生成能力とニューラル放射場の表現能力を継承しています。ただし、これらの生成モデル自体は無条件であり、顔の光と影を切り離すことはできません。

既存の研究では、3D 顔生成ネットワークの潜在空間内の潜在変数を編集することで 3D 顔の光と影の制御を実現していますが、顔領域を超えた幾何学的一貫性を確保することは困難です。他の研究では、明示的な照明モデルと固定された幾何学的モデリングを通じて、優れた幾何学的一貫性を備えた 3D 顔の再照明を実現できますが、現実感は十分ではありません。

上記の問題を解決するために、NeRFFaceLighting は 3 平面表現を 3 平面の幾何学的マテリアル表現と 3 平面の光と影の表現に分解し、光と影の編集中に幾何学的マテリアルの一貫性を確保し、条件付き識別器を通じて光と影の効果の信頼性を監視します。 NeRFFaceLighting は、このネットワークによって暗黙的に生成される幾何学的マテリアルと光と影の分解表現に基づいて、敵対的生成ネットワークの能力を最大限に活用して、スパースなデータセットから密な空間を学習し、生成された単一のサンプルをデータセットの全体的な分布特性を示すように制限して、この暗黙的な幾何学、マテリアル、光と影の分解の曖昧さを排除します。そのため、NeRFFaceLighting は、光と影のコントロールを分離した 3D 顔生成ネットワークをトレーニングした後、実際の顔を生成ネットワークにエンコードするエンコーダーをさらにトレーニングし、リアルな光と影のコントロールと新しい視点の生成を実現します。

パート2 NeRFFaceLightingのアルゴリズム原理

NeRFFaceLighting は、オリジナルの 3 平面ジェネレーターをベースに、オリジナルの 3 平面を独立した光と影の表現として合成した後、合成ブロックの 2 つのレイヤーを追加して、光と影の 3 平面を合成します。さらに、照明条件を記述する 2 次球面調和照明係数は、マッピングネットワークを通じて中間光と影の潜在変数に変換され、光と影の 3 平面の生成をガイドする条件として機能します。したがって、光と影の潜在変数のみを変更すると、元の 3 つの平面は変更されず、光と影の 3 つの平面は変更されます。元の 3 つの平面には、光と影以外の情報、つまりジオメトリとマテリアル情報が含まれていると考えられます。本来の潜在空間は、幾何学と物質の潜在空間でもあると考えられます。

ジオメトリとマテリアルの 3 平面と光と影の 3 平面が与えられた場合、元のデコーダーは、ジオメトリとマテリアルの 3 平面からサンプリングされた特徴から密度 σ とアルベド a (元の色に対応しますが、意味が異なります) をデコードし、新しく構築された光と影のデコーダーは、光と影の 3 平面からサンプリングされた特徴から光と影 s をデコードし、最終的な色は c=s∙a で与えられます。ボリュームレンダリングにより、密度とアルベドが結合されてアルベドマップが形成され、密度と色が結合されて最終的な顔画像が形成されます。

顔画像は画像識別器と光と影の識別器に送られ、真贋判定が行われます。画像識別器は本来の識別器であり、光と影の識別器は条件として2次球面調和関数の照明係数を入力します。そのため、NeRFFaceLightingはDPR [6]を使用して、実際の顔データセットFFHQ内の各顔の照明条件を注釈付けします。

全体的なネットワーク構造を下図に示します。

図4 NeRFFaceLightingネットワークアーキテクチャ

さらに、野外で収集された大規模な実際の顔画像には、異なる照明条件下での同一人物の写真が複数含まれていないため、ジオメトリ、マテリアル、光と影の暗黙的な分解自体が曖昧であり、ネットワークがマテリアルを光と影としてモデル化したり、光と影をマテリアルとしてモデル化したりしないという保証はありません。

マテリアル表現に光と影の情報が残る問題に対処するため、NeRFFaceLighting は、敵対的生成ネットワークが疎なデータセットから密な生成空間まで学習する能力を持っていることを観察しました。つまり、生成されたサンプルに対して、生成ネットワークは同じジオメトリで異なるマテリアルと光と影の効果を持つ他のサンプルを簡単に生成できます。さらに、同じジオメトリを持つこれらの他のサンプルの光と影の効果は、マテリアルが異なっていても、データセットの光と影の効果の分布に似ていることがよくあります。また、十分な大規模データセット内の光と影の分布は中心対称であることも観察されています。つまり、光と影の分布の平均は、光と影がない未知の状態です。NeRFFaceLighting は、これらの幾何学的に同一のサンプルを使用して相互監視を提供し、各サンプルのマテリアル内の残留光と影の情報を平均、つまり残留光と影がない状態に制約し、それによって間接的に光と影の効果の精度を制約することを提案しています。（詳しい分析と説明については論文の補足資料をご覧ください。）

さらに、NeRFFaceLighting は、データセット内の未知の照明効果を一般化する暗黙的な照明モデルの機能を強化し、マテリアル情報を照明表現にモデル化する可能性を減らします。 (詳細は論文を参照してください。) 制約フローを以下に示します。

図5. ジオメトリ、材質、光と影の分解の妥当性制約戦略

最後に、NeRFFaceLightingはEncoder-For-Editing[7]をベースラインモデルとして使用し、いくつかの追加の制約を適用してエンコーダをトレーニングし、実際の画像をジェネレーターのジオメトリとマテリアルの潜在空間にエンコードし、それをPivotal Tuning Inversion[8]と組み合わせて、実際の画像の正確な3D再構築を実現します。その後、2 次球面調和関数の係数とカメラの視点を与えることで、新しい視点の再照明を実現できます。

パート3効果の表示と実験の比較

NeRFFaceLighting を使用すると、生成された 3D の顔の光と影を制御できます ((a) の額のハイライト、(b) のメガネによる顔の影、(c) の髪の光と影、(d) の首の影に注目してください)。

図6 3D顔照明制御（参考のためアルベドを顔画像の右下に配置）

ここでは、ジオメトリとマテリアルの隠し空間、およびライトとシャドウの隠し空間の補間をそれぞれ示します。

図7 3D顔形状と材質潜在変数の補間効果、および光と影潜在変数の補間効果

さらに、導入された分解妥当性トレーニング戦略によって生じる光、影、および材質の明確化は次のとおりです。

図8. トレーニング前後のアルベド結果の比較（生成モデルであるため、顔の識別情報が異なることに注意してください）

最後に、エンコーダーと組み合わせることで、実際の 2D 顔画像の 3D 再構築と再照明を実現できます。

図9: 実際の顔画像を再照明する効果: 2D顔画像から3D顔モデルを再構築し、再照明する

生成品質と多様性の面では、NeRFFaceLightingはFrechet Inception Distance [9]を介して他の方法と比較され、表3-1に示すように最良の結果を達成しました。照明の精度と安定性の面では、DECA [10]を使用して顔領域（髪や首などの領域を除く）の照明係数を予測し、他の方法と比較しました。表3-2に示すように、良好な結果が得られました。DisCoFaceGAN [11]と3DFaceShop [12]は、対応する3DMM真値監視により優れた指標を持っていますが、幾何学的な一貫性を維持しながら顔以外の領域でリアルな照明効果を実現することは困難です。

表3-1 生成されたモデルの品質と多様性の比較。

表3-2 再照明精度と安定性の比較。最初のインジケーターは太字、2 番目のインジケーターは下線、3 番目のインジケーターは二重下線が引かれます。

第4部結論と謝辞

デジタルコンテンツ生成は、工業生産やデジタルメディアにおいて幅広い用途があり、特に最近は仮想デジタルヒューマンの生成と編集が広く注目されています。3次元の顔の光と影を分離したリアル編集は、この分野で重要な課題です。この問題を解決することで、2次元の実際の顔画像の新しい視点の合成と再照明の下流アプリケーションが促進されます。

NeRFFaceLighting システムは、3D 顔生成ネットワークの照明を分離し、明示的な照明モデルに依存せずに、3D 顔 (髪、首などを含む) のリアルタイムの再照明を実行できます。NeRFFaceLighting の論文は、コンピュータグラフィックスのトップジャーナルである ACM Transactions on Graphics に受理されました。

現在、NeRFFaceLightingは誰でも利用できるオンラインサービスを提供しています。オンラインシステムは、中国科学院計算技術研究所の情報高速鉄道クラウド機能プラットフォームによる基盤コンピューティングサービスサポートと、中国科学院南京情報高速鉄道研究所による基盤コンピューティングパワーとエンジニアリングサービスサポートを受けています。

オンラインサービスリンク: http://geometrylearning.com/NeRFFaceLighting/interface

論文の詳細については、プロジェクトのホームページをご覧ください: http://www.geometrylearning.com/NeRFFaceLighting/
論文アドレス: https://dl.acm.org/doi/pdf/10.1145/3597300
動画アドレス: https://www.bilibili.com/video/BV1NM411G7n5
コードアドレス: https://github.com/IGLICT/NeRFFaceLighting

<<: OpenAIの仮説が覆される！計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。