Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

2021年、Facebookは「メタバース」を主力事業とし、社名をMetaに変更した。しかし、今年はChatGPTの登場により、生成AIが新たな研究トレンドとなり、多くのテクノロジー企業が生成AIを自社の重要な研究開発事業としています。しかし、Meta は VR/AR に関する研究を止めたことはありません。

最近、Meta の Codec Avatars Lab は、高忠実度で光を調整可能な仮想アバター合成方法である Relightable Gaussian Codec Avatars を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.03704.pdf
プロジェクトホームページ: https://shunsukesaito.github.io/rgca/

今年9月、MetaのCEOであるマーク・ザッカーバーグ氏は、メタバース上でMITの科学者レックス・フリードマン氏と1時間にわたる会話を行った。当時、二人の画像はスキャン技術を使って作られたユーザーの顔の3Dモデルであり、すでに非常にリアルなものでした。

Meta CEO のマーク・ザッカーバーグ氏と MIT の科学者レックス・フリードマン氏がメタバースで 1 時間にわたる会話を交わした。

現在、Relightable Gaussian Codec アバターは、髪の毛の可視化など、さらに詳細な機能を備えた、よりリアルでライト調整可能なリアルタイム 3D アバターを構築できます。

次に、Relightable Gaussian Codec Avatars メソッドのコアコンテンツと実験結果を見てみましょう。

方法の紹介

人間の視覚は顔の外観に非常に敏感であることがわかっているため、3D アバターの合成には常に課題がありました。

まず、人間の頭部は、さまざまな散乱および反射特性を示す非常に複雑で多様な材料で構成されています。たとえば、皮膚は微細構造と著しい表面下散乱により複雑な反射を示し、髪は半透明の繊維構造により多重反射を伴う面外散乱を示し、目には反射率の高い膜を持つ多層構造があります。一般に、特にリアルタイムで、これらすべてを正確に表現できる単一のマテリアル表現は存在しません。

本研究では、人間の頭部のさまざまな材質を統一的に特徴付けるために、球面ガウス分布を使用して全周波数反射のリアルタイム再照明を実現する、学習可能な放射伝達に基づく新しい再照明外観モデルを提案しました。

一方、基礎となるジオメトリの動きを正確に追跡してモデル化することは非常に困難です。この目的のために、本研究では、ガウススプラッティング技術を使用して複雑な幾何学的詳細を効果的にレンダリングする、3D ガウスベースの運転可能なアバターを提案します。

さらに、この研究では、再照明可能な明示的な眼球モデルを提案しました。これにより、初めて、他の顔の動きの視線制御や、完全なデータ駆動型の全周波数眼球反射が可能になり、眼球反射の忠実度がさらに向上しました。

最後に、Relightable Gaussian Codec Avatars は、動的な顔のシーケンス上の髪の毛や毛穴などの 3D 一貫性のあるサブミリメートルの詳細をキャプチャできます。

実験と結果

上の図 1 は、再構築された仮想キャラクターが、ポイントライトや高解像度の環境マップなどの新しい表情、ビュー、照明を持つことができることを示しています。目の光の反射までも高周波の詳細を失うことなく周囲の環境を忠実に再現します。

図 3 に示すように、Relightable Gaussian Codec Avatars メソッドは、3D の一貫性と高忠実度の内部分解を実現できます。

幾何学的表現。この研究では、3 つのバリエーション（私たちのアプローチ、明示的な眼球モデル (EEM) を除外した私たちのアプローチ、およびボクセルベースのプロトタイプ）を比較して、幾何学的コンポーネントを評価します。公平な比較のため、この研究では同じ外観モデルを使用し、幾何学的表現のみを変更しています（表1および2 B、D、H）。

図 4 は、3D ガウスベースのジオメトリが MVP よりも肌の詳細と髪をより適切にモデル化できることを明確に示しています。さらに、完全なモデルを EEM と組み合わせて使用すると、目の反射が非常に説得力のあるものになります。ガウスモデルは、明るい光の下での SSIM メトリックを除くすべてのメトリックで優れたパフォーマンスを実現します。

外観の特徴づけ。外観表現については、この研究では外観モデルを既存の再照明可能な外観表現と比較します。表 1 および表 2 C、D、E に示すように、この論文の外観表現は、ほとんどの指標において既存の外観モデルよりも優れています。

図 5 に示すように、線形モデルでは正しい色を生成できますが、再照明の結果はぼやけており、高周波の詳細が欠けています。 EyeNeRF のビュー依存の球面調和関数はより詳細な反射を示しますが、鏡面反射を実装するために球面調和関数を使用しているため、表現力は制限されます。さらに、この研究では、ビュー依存の球面調和関数は過剰適合になりやすく、アニメーションにちらつきのアーティファクトが生じることが観察されました。対照的に、Relightable Gaussian Codec Avatars アプローチは帯域幅が制限されないため、高周波反射を実現します。

詳細については、原文論文を参照してください。

<<:

>>: 初のオープンソースMoE大型モデル公開！ 7Bx8の専門家、GPT-4に最も近いエピソード