Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

2021年、Facebookは「メタバース」を主力事業とし、社名をMetaに変更した。しかし、今年はChatGPTの登場により、生成AIが新たな研究トレンドとなり、多くのテクノロジー企業が生成AIを自社の重要な研究開発事業としています。しかし、Meta は VR/AR に関する研究を止めたことはありません。

最近、Meta の Codec Avatars Lab は、高忠実度で光を調整可能な仮想アバター合成方法である Relightable Gaussian Codec Avatars を提案しました。


  • 論文アドレス: https://arxiv.org/pdf/2312.03704.pdf
  • プロジェクトホームページ: https://shunsukesaito.github.io/rgca/

今年9月、MetaのCEOであるマーク・ザッカーバーグ氏は、メタバース上でMITの科学者レックス・フリードマン氏と1時間にわたる会話を行った。当時、二人の画像はスキャン技術を使って作られたユーザーの顔の3Dモデルであり、すでに非常にリアルなものでした。

Meta CEO のマーク・ザッカーバーグ氏と MIT の科学者レックス・フリードマン氏がメタバースで 1 時間にわたる会話を交わした。

現在、Relightable Gaussian Codec アバターは、髪の毛の可視化など、さらに詳細な機能を備えた、よりリアルでライト調整可能なリアルタイム 3D アバターを構築できます。

次に、Relightable Gaussian Codec Avatars メソッドのコアコンテンツと実験結果を見てみましょう。

方法の紹介

人間の視覚は顔の外観に非常に敏感であることがわかっているため、3D アバターの合成には常に課題がありました。

まず、人間の頭部は、さまざまな散乱および反射特性を示す非常に複雑で多様な材料で構成されています。たとえば、皮膚は微細構造と著しい表面下散乱により複雑な反射を示し、髪は半透明の繊維構造により多重反射を伴う面外散乱を示し、目には反射率の高い膜を持つ多層構造があります。一般に、特にリアルタイムで、これらすべてを正確に表現できる単一のマテリアル表現は存在しません。

本研究では、人間の頭部のさまざまな材質を統一的に特徴付けるために、球面ガウス分布を使用して全周波数反射のリアルタイム再照明を実現する、学習可能な放射伝達に基づく新しい再照明外観モデルを提案しました。

一方、基礎となるジオメトリの動きを正確に追跡してモデル化することは非常に困難です。この目的のために、本研究では、ガウススプラッティング技術を使用して複雑な幾何学的詳細を効果的にレンダリングする、3D ガウスベースの運転可能なアバターを提案します。

さらに、この研究では、再照明可能な明示的な眼球モデルを提案しました。これにより、初めて、他の顔の動きの視線制御や、完全なデータ駆動型の全周波数眼球反射が可能になり、眼球反射の忠実度がさらに向上しました。

最後に、Relightable Gaussian Codec Avatars は、動的な顔のシーケンス上の髪の毛や毛穴などの 3D 一貫性のあるサブミリメートルの詳細をキャプチャできます。

実験と結果

上の図 1 は、再構築された仮想キャラクターが、ポイント ライトや高解像度の環境マップなどの新しい表情、ビュー、照明を持つことができることを示しています。目の光の反射までも高周波の詳細を失うことなく周囲の環境を忠実に再現します。

図 3 に示すように、Relightable Gaussian Codec Avatars メソッドは、3D の一貫性と高忠実度の内部分解を実現できます。

幾何学的表現。この研究では、3 つのバリエーション(私たちのアプローチ、明示的な眼球モデル (EEM) を除外した私たちのアプローチ、およびボクセル ベースのプロトタイプ)を比較して、幾何学的コンポーネントを評価します。公平な比較のため、この研究では同じ外観モデルを使用し、幾何学的表現のみを変更しています(表1および2 B、D、H)。



図 4 は、3D ガウス ベースのジオメトリが MVP よりも肌の詳細と髪をより適切にモデル化できることを明確に示しています。さらに、完全なモデルを EEM と組み合わせて使用​​すると、目の反射が非常に説得力のあるものになります。ガウスモデルは、明るい光の下での SSIM メトリックを除くすべてのメトリックで優れたパフォーマンスを実現します。


外観の特徴づけ。外観表現については、この研究では外観モデルを既存の再照明可能な外観表現と比較します。表 1 および表 2 C、D、E に示すように、この論文の外観表現は、ほとんどの指標において既存の外観モデルよりも優れています。

図 5 に示すように、線形モデルでは正しい色を生成できますが、再照明の結果はぼやけており、高周波の詳細が欠けています。 EyeNeRF のビュー依存の球面調和関数はより詳細な反射を示しますが、鏡面反射を実装するために球面調和関数を使用しているため、表現力は制限されます。さらに、この研究では、ビュー依存の球面調和関数は過剰適合になりやすく、アニメーションにちらつきのアーティファクトが生じることが観察されました。対照的に、Relightable Gaussian Codec Avatars アプローチは帯域幅が制限されないため、高周波反射を実現します。

詳細については、原文論文を参照してください。

<<: 

>>:  初のオープンソースMoE大型モデル公開! 7Bx8の専門家、GPT-4に最も近いエピソード

ブログ    
ブログ    

推薦する

2024 年の人工知能に関するトップ 10 の予測

2023年の人工知能分野でキーワードを1つだけ選ぶとしたら、それはおそらく「ビッグモデル」でしょう。...

OpenAIはMicrosoftに対抗するためChatGPTパーソナルアシスタントの発売を計画

6 月 27 日のニュース: わずか半年で、ChatGPT は世界で最も有名なインターネット ブラン...

ロボットも「感情カード」を切るが、人間の本性もアルゴリズムに変えられるのか?

[[228280]]画像出典: Visual Chinaもし人工知能がゆっくりと「感情を理解し」、...

AI規制に関するマスク氏の見解:規制は面倒だが、審判がいるのは良いことだ

現地時間11月3日、木曜日の2日間にわたる英国人工知能安全サミットで、テスラのイーロン・マスクCEO...

「手抜きアルゴリズム」は大企業をターゲットにしており、これがそれだ

[[342088]]基本的なデータ構造の統合は、大規模システムの基礎となります。たとえば、Redis...

畳み込みニューラルネットワーク(CNN)を使用して、最大95%の精度で皮膚がんを検出します。

ドイツ、米国、フランスの研究者で構成された研究チームは、10万枚以上の画像を使用して、畳み込みニュー...

...

...

エンドツーエンドの自動運転における軌道予測の今後の方向性とは?最新レビューを最前線でお届け!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

なぜ2G/3GとAIは火花を散らすことができないのでしょうか?この論文で答えが分かります

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

量産型マスターコントロールチップのネットワークセキュリティ設計

「サイバーセキュリティ」という用語は、ネットワークシステムにおけるハードウェア、ソフトウェア、データ...

機械学習は将来どこに向かうのでしょうか?インテル・南京大学共同研究センターが答えを提供する

[51CTO.com からのオリジナル記事] 人工知能アルゴリズムに関しては、ディープラーニングが現...

中国でApp Storeのランキング操作を禁止しアルゴリズムを調整

国内アプリプロモーション機関APPYINGはこのほど、アップルのApp Store Chinaランキ...