トップカンファレンスで新たな AI 技術が登場: リアルな 3D 顔を生成できるのは顔写真だけ

写真しかない場合、どのようにして人物のリアルなデジタルアバターを作成するのでしょうか?

2020年のコンピュータービジョンとパターン認識に関する会議（CVPR）で、インペリアル・カレッジ・ロンドンとAI顔分析スタートアップのFaceSoft.ioの研究者らは、普通の画像や写真からリアルな3D胸像を再構築できる「AvatarMe」という技術を発表した。さらに驚くべきことは、低解像度のターゲットからリアルな 4K x 6K 解像度の 3D 顔を生成できるだけでなく、詳細な光の反射も実行できることです。

図｜3D顔再構成とリアルタイムレンダリング効果（出典：GitHub）

ビデオ会議やバーチャルリアリティから映画やテレビゲームまで、3D 顔のレンダリングには無数の応用シナリオがあります。幾何学的形状は AI なしでも適合できますが、あらゆるシーンで顔をレンダリングするにはより多くの情報が必要です。

この情報を抽出するために、研究者らは 168 個の LED ライトと 9 台の SLR カメラを備えたサンプリングリグを使用して、200 人の顔の毛穴レベルの反射率マップをキャプチャしました。次に、このデータを使用して AI モデル GANFIT をトレーニングしました。このモデルは、レンダリングと出力間の「アイデンティティの一致」を最適化しながら、テクスチャからリアルな顔画像を合成できます。

他の生成的敵対的ネットワーク (GAN) と同様に、GANFIT は、サンプルを生成するジェネレーターと、生成されたサンプルと実際のサンプルを区別しようとする識別子の 2 つの部分からなるモデルです。ジェネレータとディスクリミネータのそれぞれの機能は、ディスクリミネータが実際の例と合成例を区別できなくなるまで、互いに補完し合います。

さらに、AvatarMe の別のコンポーネントはテクスチャの解像度を高める役割を担っており、別のモジュールが、照らされたテクスチャから皮膚構造 (毛穴、しわ、髪の毛など) の各ピクセルの反射率を予測し、表面の詳細 (小じわ、傷跡、皮膚の毛穴など) まで推定します。

研究者らによると、実験では、AvatarMe は最終レンダリングでアーティファクトを生成せず、サングラスや遮蔽物などの「コーナー」のケースをうまく処理し、反射率は一定で、システムがさまざまな環境でも被写体を「リアルに」照らしたという。

図｜さまざまなシーンにおける適応的な顔の光の反射（出典：GitHub）

3D の顔と幾何学的テクスチャの再構築は、現在、コンピュータービジョン、グラフィックス、機械学習の交差点で最も人気のある分野です。この研究の重要なタスクの 1 つは、3D 変形可能モデル (3DMM) フィッティング方法の改善です。

3DMM は「ワイルド」入力画像に適合され、レンダリングと入力間のアイデンティティの一致を最適化しながら完全な UV テクスチャが合成されます。

適切な高周波ディテールを合成するために、テクスチャは 8 回アップサンプリングされました。次に研究者らは、画像変換ネットワークを使用してテクスチャを照らし、高周波の詳細を含む拡散アルベドを取得し、別のネットワークを使用して拡散アルベドと 3DMM 形状法線から鏡面反射率、拡散法線、鏡面法線を推測しました。さらに、ネットワークは 512x512 パッチでトレーニングされ、推論は 1536x1536 パッチで実行されました。最後に、顔の形状と一貫して推定された反射率が頭部モデルに渡され、あらゆる環境でリアルタイムのレンダリングが可能になります。

図｜AvatarMeの基本メソッドフレームワーク（出典：GitHub）

詳細を強化するにはどうすればいいですか?コアとなるのは、パッチベースの画像間変換です。与えられた入力画像 (UV) から照明、反射、拡散反射成分と鏡面反射成分を推測するタスクは、ドメイン適応問題として定式化することができ、研究者が選択したモデルは、高解像度データでの画像間変換で優れた結果を示した pix2pixHD です。

肌のリアルなレンダリングを実現するために、研究者らは必要なジオメトリの拡散アルベドと鏡面アルベド、法線を個別にモデル化しました。したがって、制約のない顔画像を入力として与えると、顔の幾何学的パラメータだけでなく、拡散アルベド (AD)、拡散法線 (ND)、鏡面アルベド (as)、鏡面法線 (NS) も推測できます。

図 | a、画像入力、b、基本的な再構成、c、超解像度、d、デライト、e、最終レンダリング (出典: GitHub)

この詳細な最適化プロセスには、まだいくつかの小さな障害があります。たとえば、アルゴリズムモデルをトレーニングするために研究者がキャプチャしたデータは非常に高解像度 (4K 以上) であるため、ハードウェアの制限により、pix2pixHD を使用して「そのまま」トレーニングに使用することはできません (32 GB GPU でも、このような高解像度のデータを元の形式で収めることは不可能です)。さらに、pix2pixHD はテクスチャ情報のみを考慮し、形状法線や深度などの幾何学的詳細を活用して、生成された拡散反射成分や鏡面反射成分の品質を向上させることはできません。

そこで、上記の問題を克服するために、研究者らは元の高解像度データを 512×512 ピクセルの小さなパッチに分割してトレーニングを行いました。推論プロセス中、ネットワークは完全に畳み込み式であるため、パッチはより大きくなります (たとえば、1536×1536 ピクセル)。

AvatarMe には制限がないわけではなく、この制限は、アメリカのテクノロジー企業が現在激しく非難している「人種差別」の問題です。

論文では、トレーニングデータセットに特定の民族の被験者の例が含まれていないため、肌の色が濃い顔を再構築しようとすると結果が悪くなり、必要なデータと 3DMM モデルの間にわずかな位置合わせエラーがあるため、再構築された鏡面反射アルベドと法線では高周波の毛穴の詳細がわずかにぼやけることがあると述べています。最後に、顔の再構築の精度は入力写真の品質に密接に関係しています。明るく高解像度の写真を使用すると、より正確な結果が得られます。

研究者らによると、これは業界初の、あらゆる肖像画像（白黒写真や手描きの絵を含む）を使って「レンダリング可能な」顔を実現する方法だという。最先端の3D顔生成とリアルタイムレンダリングAIシステムであるAvatarMeは、これまで手作業で設計する必要があったプロセスを徐々に自動化すると期待されている。

<<: 人工知能の実用化を加速させるには

>>: なぜ人工知能には膨大な電力需要があるのでしょうか?