トップカンファレンスで新たな AI 技術が登場: リアルな 3D 顔を生成できるのは顔写真だけ

トップカンファレンスで新たな AI 技術が登場: リアルな 3D 顔を生成できるのは顔写真だけ

写真しかない場合、どのようにして人物のリアルなデジタルアバターを作成するのでしょうか?

2020年のコンピュータービジョンとパターン認識に関する会議(CVPR)で、インペリアル・カレッジ・ロンドンとAI顔分析スタートアップのFaceSoft.ioの研究者らは、普通の画像や写真からリアルな3D胸像を再構築できる「AvatarMe」という技術を発表した。さらに驚くべきことは、低解像度のターゲットからリアルな 4K x 6K 解像度の 3D 顔を生成できるだけでなく、詳細な光の反射も実行できることです。

図|3D顔再構成とリアルタイムレンダリング効果(出典:GitHub)

ビデオ会議やバーチャルリアリティから映画やテレビゲームまで、3D 顔のレンダリングには無数の応用シナリオがあります。幾何学的形状は AI なしでも適合できますが、あらゆるシーンで顔をレンダリングするにはより多くの情報が必要です。

この情報を抽出するために、研究者らは 168 個の LED ライトと 9 台の SLR カメラを備えたサンプリング リグを使用して、200 人の顔の毛穴レベルの反射率マップをキャプチャしました。次に、このデータを使用して AI モデル GANFIT をトレーニングしました。このモデルは、レンダリングと出力間の「アイデンティティの一致」を最適化しながら、テクスチャからリアルな顔画像を合成できます。

他の生成的敵対的ネットワーク (GAN) と同様に、GANFIT は、サンプルを生成するジェネレーターと、生成されたサンプルと実際のサンプルを区別しようとする識別子の 2 つの部分からなるモデルです。ジェネレータとディスクリミネータのそれぞれの機能は、ディスクリミネータが実際の例と合成例を区別できなくなるまで、互いに補完し合います。

さらに、AvatarMe の別のコンポーネントはテクスチャの解像度を高める役割を担っており、別のモジュールが、照らされたテクスチャから皮膚構造 (毛穴、しわ、髪の毛など) の各ピクセルの反射率を予測し、表面の詳細 (小じわ、傷跡、皮膚の毛穴など) まで推定します。

研究者らによると、実験では、AvatarMe は最終レンダリングでアーティファクトを生成せず、サングラスや遮蔽物などの「コーナー」のケースをうまく処理し、反射率は一定で、システムがさまざまな環境でも被写体を「リアルに」照らしたという。

図|さまざまなシーンにおける適応的な顔の光の反射(出典:GitHub)

3D の顔と幾何学的テクスチャの再構築は、現在、コンピューター ビジョン、グラフィックス、機械学習の交差点で最も人気のある分野です。この研究の重要なタスクの 1 つは、3D 変形可能モデル (3DMM) フィッティング方法の改善です。

3DMM は「ワイルド」入力画像に適合され、レンダリングと入力間のアイデンティティの一致を最適化しながら完全な UV テクスチャが合成されます。

適切な高周波ディテールを合成するために、テクスチャは 8 回アップサンプリングされました。次に研究者らは、画像変換ネットワークを使用してテクスチャを照らし、高周波の詳細を含む拡散アルベドを取得し、別のネットワークを使用して拡散アルベドと 3DMM 形状法線から鏡面反射率、拡散法線、鏡面法線を推測しました。さらに、ネットワークは 512x512 パッチでトレーニングされ、推論は 1536x1536 パッチで実行されました。最後に、顔の形状と一貫して推定された反射率が頭部モデルに渡され、あらゆる環境でリアルタイムのレンダリングが可能になります。

図|AvatarMeの基本メソッドフレームワーク(出典:GitHub)

詳細を強化するにはどうすればいいですか?コアとなるのは、パッチベースの画像間変換です。与えられた入力画像 (UV) から照明、反射、拡散反射成分と鏡面反射成分を推測するタスクは、ドメイン適応問題として定式化することができ、研究者が選択したモデルは、高解像度データでの画像間変換で優れた結果を示した pix2pixHD です。

肌のリアルなレンダリングを実現するために、研究者らは必要なジオメトリの拡散アルベドと鏡面アルベド、法線を個別にモデル化しました。したがって、制約のない顔画像を入力として与えると、顔の幾何学的パラメータだけでなく、拡散アルベド (AD)、拡散法線 (ND)、鏡面アルベド (as)、鏡面法線 (NS) も推測できます。

図 | a、画像入力、b、基本的な再構成、c、超解像度、d、デライト、e、最終レンダリング (出典: GitHub)

この詳細な最適化プロセスには、まだいくつかの小さな障害があります。たとえば、アルゴリズム モデルをトレーニングするために研究者がキャプチャしたデータは非常に高解像度 (4K 以上) であるため、ハードウェアの制限により、pix2pixHD を使用して「そのまま」トレーニングに使用することはできません (32 GB GPU でも、このような高解像度のデータを元の形式で収めることは不可能です)。さらに、pix2pixHD はテクスチャ情報のみを考慮し、形状法線や深度などの幾何学的詳細を活用して、生成された拡散反射成分や鏡面反射成分の品質を向上させることはできません。

そこで、上記の問題を克服するために、研究者らは元の高解像度データを 512×512 ピクセルの小さなパッチに分割してトレーニングを行いました。推論プロセス中、ネットワークは完全に畳み込み式であるため、パッチはより大きくなります (たとえば、1536×1536 ピクセル)。

AvatarMe には制限がないわけではなく、この制限は、アメリカのテクノロジー企業が現在激しく非難している「人種差別」の問題です。

論文では、トレーニング データセットに特定の民族の被験者の例が含まれていないため、肌の色が濃い顔を再構築しようとすると結果が悪くなり、必要なデータと 3DMM モデルの間にわずかな位置合わせエラーがあるため、再構築された鏡面反射アルベドと法線では高周波の毛穴の詳細がわずかにぼやけることがあると述べています。最後に、顔の再構築の精度は入力写真の品質に密接に関係しています。明るく高解像度の写真を使用すると、より正確な結果が得られます。

研究者らによると、これは業界初の、あらゆる肖像画像(白黒写真や手描きの絵を含む)を使って「レンダリング可能な」顔を実現する方法だという。最先端の3D顔生成とリアルタイムレンダリングAIシステムであるAvatarMeは、これまで手作業で設計する必要があったプロセスを徐々に自動化すると期待されている。

<<:  人工知能の実用化を加速させるには

>>:  なぜ人工知能には膨大な電力需要があるのでしょうか?

推薦する

機械学習愛好家必読ガイド

[[273182]]このガイドは、機械学習 (ML) に興味があるが、どこから始めればよいかわからな...

...

8つの一般的なアルゴリズムのアイデアを説明する1つの記事

アルゴリズムとデータ構造は、常にプログラマーの基本的なスキルでした。データ構造の基本インフラストラク...

2020年はAI関連ビジネスの発展にとって重要な年となる

今日、人々は仮想世界で触れることができるほぼすべてのものを作成し、さらに構築してきました。人工知能は...

ルーティングテーブルとルーター選択アルゴリズム

標準ルーティングテーブル1.次駅経路選定の基本的な考え方ルーティング テーブルは、宛先までの完全なパ...

生成型人工知能が経済と社会に与える影響

生成アルゴリズム、事前トレーニング済みモデル、マルチモーダルなどの技術の累積的な統合と反復を経て、人...

LinkedIn は、すべてのユーザーに公開される生成 AI 支援投稿作成機能を開始しました。

職場向けソーシャルプラットフォーム「LinkedIn」は6月26日、広告主が生成AIを通じてマーケテ...

ドローンは人気があり、3つの主要なアプリケーションが農家の役に立つ

今日は二十四節気の一つ、白露節気です。白露節気の季節には、我が国のほとんどの地域が秋の収穫期に入り、...

...

...

AWS 上でディープラーニングホストを構築する (Windows 版)

この記事では、Amazon EC2 P2 インスタンスをレンタルして使用する方法について簡単に説明し...

RSA アルゴリズムが解読された場合、暗号化の将来はどうなるでしょうか?

インターネットのセキュリティ層に一夜にして巨大な亀裂が生じたらどうなるか考えたことがありますか? 亀...

負けても落ち込まないで! Google、ロボット工学プロジェクトを再開

[[260578]]海外メディアの報道によると、グーグルは以前の取り組みが失敗した後、ロボット工学プ...

2020年のコロナウイルスパンデミックが仕事の未来に与える影響

[[323304]] [51CTO.com クイック翻訳] 疫病の影響により、多くの企業従業員がリモ...

欧州の複数の企業が、産業の発展を制限するEUのAI法案を批判する公開書簡に署名した。

欧州議会は7月4日、6月14日に人工知能法案草案を可決した。これは、欧州企業が立ち上げたAIモデルを...