NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。

非常にリアルで正確に制御可能な 3 次元の顔のモデリングは、デジタルヒューマン構築における重要な課題の 1 つです。現在、既存のメッシュベースの顔モデリング方法を使用するには、専門家が複雑なソフトウェアを使用し、多くの時間と労力を費やす必要があり、リアルな顔のレンダリング結果を達成することは困難です。

新しい 3D 表現としてのニューラル放射場はリアルな結果を合成できますが、生成された結果を正確に制御および修正して高品質の 3D 顔合成を実現する方法は未解決の問題のままです。

最近、研究者らは線画に基づいて3D顔面神経放射場を生成および編集する方法であるSketchFaceNeRF [1]を提案しました。関連する技術論文は、トップコンピュータグラフィックスカンファレンスSIGGRAPH 2023で発表され、トップグラフィックスジャーナルACM Transactions on Graphicsに掲載されました。このシステムを使用すると、複雑な 3D ソフトウェアの使い方を知らなくても、線画に基づいて自由に 3D の顔を作成できます。まず、SketchFaceNeRF を使用して作成された顔のエフェクトを見てみましょう。

さらに、3D の顔が与えられれば、ユーザーは任意の角度で編集操作を追加できます。

図 2 線画を使用して、任意の表示角度で 3D の面を編集します。

パート1 背景

最近、AIによるペイントが非常に人気になってきています。Stable Diffusion[2]やControlNet[3]などの手法をベースに、テキストを指定することで非常にリアルな2次元画像を生成することができます。しかし、上記の作業では高品質の 3D モデルを生成することはできません。同時に、テキストのみを使用して生成の詳細を制御することは困難です。ControlNet はすでに線画の制御をサポートしていますが、生成された結果のローカル領域を正確に変更することは依然として非常に困難です。

ニューラル放射場[4]と生成的敵対ネットワーク[5]の開発により、EG3D[6]などの既存の手法は、3D顔モデルの高品質な生成と高速レンダリングを実現しました。ただし、これらの生成モデルは顔のランダムサンプリングのみをサポートしており、生成された結果を制御することはできません。 IDE-3D[7]やNeRFFaceEditing[8]はセマンティックラベルグラフを使用して3Dの顔を編集しますが、このような方法では髪の毛やシワの構造の詳細など、より細かい部分を表現することが困難です。同時に、ユーザーが複雑なセマンティックマップをゼロから描くことは困難であり、3次元の顔モデルをゼロから生成することは不可能です。

よりユーザーフレンドリーなインタラクティブな方法として、線画を使用して2次元の顔画像を生成および編集する[9]と[10]が使用されています。しかし、線画を使用して3次元の顔を生成する場合、次のような問題があります。まず、線画はスタイルが多様で、まばらすぎます。2次元画像の生成はすでに困難ですが、3次元モデルの生成はさらに困難です。次に、3次元の顔の場合、ユーザーは任意の視点で編集を追加することがよくあります。3次元の一貫性を維持しながら効果的な編集結果を生成する方法は、解決する必要がある問題です。

上記の課題に対処するために、SketchFaceNeRF は 3 平面表現法を使用して、線画に基づいて顔の 3 平面特徴を直接予測し、それを生成モデルの潜在空間に投影して、高品質の顔 NeRF を取得します。マルチビュー3D顔編集問題を最適化問題としてモデル化し、3つの平面のローカル融合と投影によって初期値を予測し、ライン制約とイメージ制約に基づいて潜在コードを逆最適化して、高品質の顔NeRF編集効果を実現します。

パート2 SketchFaceNeRFアルゴリズムの原理

図3 SketchFaceNeRFのネットワークアーキテクチャ図、生成プロセス。

人間の顔に対するNeRFの制御可能な生成

単一視点の手描きの線画が与えられ、それを生成モデルの潜在空間に直接投影します。合成された顔は、対応が悪く、生成品質が低いなどの問題があります。これは、2次元のまばらな線画と3次元の人間の顔との差が大きすぎることと、手描きの線画にはさまざまなスタイルがあることが原因です。上記の問題を解決するために、段階的な次元マッピング法が提案されています。入力線画には疎な幾何学的情報しか含まれておらず、3Dの顔は外観が異なるため、最初に適応インスタンス正規化（AdaIN [11]）を使用して入力線画をカラー特徴マップに変換し、色、照明、テクスチャ情報を注入します。

さらに、2D 入力には 3D 情報がないため、アルゴリズムはボリュームレンダリングされたステレオ空間に 3D 特徴ボクセルを構築し、空間内の 3D ポイントを 2D 特徴マップに投影して、対応する特徴を取得します。最後に、3 次元ボクセルの形状が x、y、z 軸で変換され、2D 畳み込みネットワークに基づいて 3 平面の特徴マップが取得されます。高品質の顔 NeRF を生成するために、3 つの平面を生成モデルの潜在空間に逆投影して、潜在表現の顔 NeRF モデルを取得します。

トレーニングプロセスは 2 つのステップに分かれています。まず、EG3D を使用してマルチビュートレーニングデータを構築します。線画の3平面予測を入力した後、元のEG3Dレンダリングネットワークに基づいて他の視点からの画像を生成し、真の値を監督として使用して線画の3平面予測ネットワークのトレーニングを完了します。次に、線ドラフト 3 平面予測ネットワークの重みを固定し、投影ネットワークをトレーニングして、3 平面の特徴を EG3D の潜在空間に投影します。

図4 SketchFaceNeRFのネットワークアーキテクチャ図、編集プロセス。

NeRFの正確な顔編集

あらゆる視点からの線画顔編集をサポートするために、本研究では、画像生成ブランチと同じ StyleGAN バックボーンネットワークを共有しながらも、デコーダーと超解像モジュールが異なる EG3D に追加の線画生成ブランチを追加し、3D 一貫性顔線画レンダリング方法を提案します。トレーニングプロセスでは、線画の真の値を監督として使用し、線画の遠近法の一貫性を制限するために正規化項を追加します。

生成された 3D 線画に基づいて、ユーザーはローカル領域を変更し、新しい線画を描きます。単一透視線画入力では、オクルージョンなどの問題があり、元の3次元情報を完全に表現できないため、直接推論では編集前と編集後の非編集領域の一貫性を保つことが困難です。

この目的のために、顔の NeRF を微調整する問題は最適化問題としてモデル化されます。この研究ではまず、初期値予測法を提案します。生成プロセスと共有される線ドラフト 3 平面予測ネットワークを使用して、線ドラフトに対応する 3 平面の特徴を直接予測します。編集されていない領域を変更しないために、線描画によって生成された 3 平面を元の 3 平面の特徴とさらに融合し、生成プロセスと共有されるエンコードネットワークを使用して 3 平面を生成モデルの潜在空間に逆投影して、顔編集の初期値を取得します。

さらに、3次元の顔の洗練された編集を実現するための逆最適化手法が提案されています。具体的には、アルゴリズムは、線画生成ブランチを介して合成線画をレンダリングし、編集領域内の手描き線画との類似性を計算します。同時に、非編集領域では、画像生成ブランチが顔画像をレンダリングし、元の画像との類似度を計算します。編集前後の空間の一貫性を確保するために、編集対象外の領域内の光サンプリングポイントの特徴がさらに同じになるように制約されます。上記の制約に基づいて、隠しコードを逆に最適化し、顔の洗練された編集を実現します。

パート3 エフェクト表示

図 5 に示すように、手描きの線画が与えられれば、この方法に基づいて高品質の顔面神経放射場を生成できます。異なる外観参照画像を選択することで、生成される顔の外観を指定できます。ユーザーは自由に視野角を変更しながら、高品質のレンダリング結果を得ることができます。

図5 線画を元に生成された立体的な顔。

図 6 に示すように、3D の顔が与えられた場合、ユーザーは任意の視点を選択し、レンダリングされた線画を変更して顔 NeRF を編集できます。左側は、ランダムに生成された顔を編集した効果を示しています。右側は、顔生成モデルを使用してバックプロジェクションし、さらに与えられた顔画像に編集を加えた結果を示しています。

図6 線画に基づく3D顔編集結果。

図7に示すように、顔NeRFでは、ユーザーはさまざまな視点から顔に連続的な編集操作を加えることができます。この方法を使用すると、良好な編集結果が得られます。同時に、編集されていない3次元領域の特徴も完全に維持されます。

図7 線画を元に顔の連続編集操作。

図 8 に示すように、生成モデルの潜在空間の優れた特性により、特定の人物に編集操作を追加した後、その前後の潜在コードの差を計算して編集ベクトルを取得し、場合によってはそれを他の人に直接適用して同様の編集効果を得ることができます。

図 8 編集の伝播結果。左側の編集操作の効果は右側の面に伝播されます。

第4部結論

人工知能の急速な発展に伴い、AI ペイントの新しい手法が数多く登場しています。 2次元画像の生成とは異なり、3次元デジタルコンテンツを生成する方法はより困難な問題です。 SketchFaceNeRF は実現可能なソリューションを提供します。手描きの線画に基づいて、ユーザーは高品質の顔モデルを生成し、あらゆる視点から洗練された編集をサポートできます。

このシステムでは、複雑な 3D モデリングソフトウェアをインストールしたり、複雑なスキルを習得したりする必要はなく、何時間も時間と労力を費やす必要もありません。単純な線を描くだけで、一般のユーザーは簡単に頭の中で完璧な顔のモデルを構築し、高品質のレンダリング結果を得ることができます。

SketchFaceNeRF は ACM SIGGRAPH 2023 に採択され、ACM Transactions on Graphics 誌に掲載される予定です。

現在、SketchFaceNeRFは誰でも利用できるオンラインサービスを提供しています。オンラインシステムは、中国科学院コンピューティング技術研究所の情報高速鉄道トレーニングおよび推論プラットフォームであるMLOpsのインテリジェントコンピューティングパワーによってサポートされており、オンラインエンジニアリングサービスの保証は、中国科学院南京情報高速鉄道研究所によって提供されています。

オンラインサービスリンク: http://geometrylearning.com/SketchFaceNeRF/interface

論文の詳細、および論文、ビデオ、コードのダウンロードについては、プロジェクトのホームページをご覧ください。

http://www.geometrylearning.com/SketchFaceNeRF/

オープンソースコード:

https://github.com/IGLICT/SketchFaceNeRF

<<: Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

>>: