Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

2021年、Facebookは「メタバース」を主力事業とし、社名をMetaに変更した。しかし、今年はChatGPTの登場により、生成AIが新たな研究トレンドとなり、多くのテクノロジー企業が生成AIを自社の重要な研究開発事業としています。しかし、Meta は VR/AR に関する研究を止めたことはありません。

最近、Meta の Codec Avatars Lab は、高忠実度で光を調整可能な仮想アバター合成方法である Relightable Gaussian Codec Avatars を提案しました。


  • 論文アドレス: https://arxiv.org/pdf/2312.03704.pdf
  • プロジェクトホームページ: https://shunsukesaito.github.io/rgca/

今年9月、MetaのCEOであるマーク・ザッカーバーグ氏は、メタバース上でMITの科学者レックス・フリードマン氏と1時間にわたる会話を行った。当時、二人の画像はスキャン技術を使って作られたユーザーの顔の3Dモデルであり、すでに非常にリアルなものでした。

Meta CEO のマーク・ザッカーバーグ氏と MIT の科学者レックス・フリードマン氏がメタバースで 1 時間にわたる会話を交わした。

現在、Relightable Gaussian Codec アバターは、髪の毛の可視化など、さらに詳細な機能を備えた、よりリアルでライト調整可能なリアルタイム 3D アバターを構築できます。

次に、Relightable Gaussian Codec Avatars メソッドのコアコンテンツと実験結果を見てみましょう。

方法の紹介

人間の視覚は顔の外観に非常に敏感であることがわかっているため、3D アバターの合成には常に課題がありました。

まず、人間の頭部は、さまざまな散乱および反射特性を示す非常に複雑で多様な材料で構成されています。たとえば、皮膚は微細構造と著しい表面下散乱により複雑な反射を示し、髪は半透明の繊維構造により多重反射を伴う面外散乱を示し、目には反射率の高い膜を持つ多層構造があります。一般に、特にリアルタイムで、これらすべてを正確に表現できる単一のマテリアル表現は存在しません。

本研究では、人間の頭部のさまざまな材質を統一的に特徴付けるために、球面ガウス分布を使用して全周波数反射のリアルタイム再照明を実現する、学習可能な放射伝達に基づく新しい再照明外観モデルを提案しました。

一方、基礎となるジオメトリの動きを正確に追跡してモデル化することは非常に困難です。この目的のために、本研究では、ガウススプラッティング技術を使用して複雑な幾何学的詳細を効果的にレンダリングする、3D ガウスベースの運転可能なアバターを提案します。

さらに、この研究では、再照明可能な明示的な眼球モデルを提案しました。これにより、初めて、他の顔の動きの視線制御や、完全なデータ駆動型の全周波数眼球反射が可能になり、眼球反射の忠実度がさらに向上しました。

最後に、Relightable Gaussian Codec Avatars は、動的な顔のシーケンス上の髪の毛や毛穴などの 3D 一貫性のあるサブミリメートルの詳細をキャプチャできます。

実験と結果

上の図 1 は、再構築された仮想キャラクターが、ポイント ライトや高解像度の環境マップなどの新しい表情、ビュー、照明を持つことができることを示しています。目の光の反射までも高周波の詳細を失うことなく周囲の環境を忠実に再現します。

図 3 に示すように、Relightable Gaussian Codec Avatars メソッドは、3D の一貫性と高忠実度の内部分解を実現できます。

幾何学的表現。この研究では、3 つのバリエーション(私たちのアプローチ、明示的な眼球モデル (EEM) を除外した私たちのアプローチ、およびボクセル ベースのプロトタイプ)を比較して、幾何学的コンポーネントを評価します。公平な比較のため、この研究では同じ外観モデルを使用し、幾何学的表現のみを変更しています(表1および2 B、D、H)。



図 4 は、3D ガウス ベースのジオメトリが MVP よりも肌の詳細と髪をより適切にモデル化できることを明確に示しています。さらに、完全なモデルを EEM と組み合わせて使用​​すると、目の反射が非常に説得力のあるものになります。ガウスモデルは、明るい光の下での SSIM メトリックを除くすべてのメトリックで優れたパフォーマンスを実現します。


外観の特徴づけ。外観表現については、この研究では外観モデルを既存の再照明可能な外観表現と比較します。表 1 および表 2 C、D、E に示すように、この論文の外観表現は、ほとんどの指標において既存の外観モデルよりも優れています。

図 5 に示すように、線形モデルでは正しい色を生成できますが、再照明の結果はぼやけており、高周波の詳細が欠けています。 EyeNeRF のビュー依存の球面調和関数はより詳細な反射を示しますが、鏡面反射を実装するために球面調和関数を使用しているため、表現力は制限されます。さらに、この研究では、ビュー依存の球面調和関数は過剰適合になりやすく、アニメーションにちらつきのアーティファクトが生じることが観察されました。対照的に、Relightable Gaussian Codec Avatars アプローチは帯域幅が制限されないため、高周波反射を実現します。

詳細については、原文論文を参照してください。

<<: 

>>:  初のオープンソースMoE大型モデル公開! 7Bx8の専門家、GPT-4に最も近いエピソード

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

phind: 開発者に特化したAI検索エンジンの誕生!

みなさんこんにちは、三元です。前回の記事では、AIを使いこなせない人は本当に将来淘汰されていくのか?...

...

アリババクラウドは、70億のパラメータを持つTongyi Qianwen大規模モデルをオープンソース化し、無料で商用利用可能に

大規模モデルの開発動向はオープンソースへと移行し始めています。周知のとおり、ChatGPT、GPT-...

BAIRの最新のRLアルゴリズムはGoogle Dreamerを上回り、パフォーマンスが2.8倍向上しました。

ピクセルベースの RL アルゴリズムが復活しました。BAIR は対照学習と RL を組み合わせたアル...

機械学習を始めるときによくある5つの間違い

[[195041]]機械学習を始めるにあたって、万能のアプローチは存在しません。私たちは皆、少しずつ...

GoogleのAutoML人工知能システムは、人間よりも優れた機械学習コードを作成できるようになりました

Google の AutoML システムは最近、研究者自身よりもさらに効率的な一連の機械学習コードを...

人工知能 (AI) ソリューションを購入または構築する際に尋ねるべき 5 つの重要な質問

人工知能などの新興テクノロジーには、マーケティング上の約束が実際の成果を上回らないようにすることと、...

...

2018年: 人工知能の世界における8つのトレンド

​​ [[206934]]​​人工知能(AI)が私たちの仕事や生活に徐々に浸透してきていることは否定...

恥ずかしい! ChatGPT を使用して論文を書いたのですが、生成ボタンを削除するのを忘れました。出版社から「論文を撤回します」と言われました。

それは恥ずかしいですね。物理学の論文でも ChatGPT ボタンがコピーされていました。結果は2か月...

画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、...

ニューラル機械翻訳のための談話レベルの単一言語修正モデル

[[280280]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

自動化がビジネスに具体的な価値をもたらす方法

[[404690]]長年にわたり、多くの企業がロボット、自動化、人工知能などのテクノロジーからより多...