1時間から3.5分まで、Metaの新しいアルゴリズムは携帯電話で3D顔データを収集できる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

人間の顔の 3D モデリングを完了するには、いくつのステップが必要ですか?

データ収集段階での答えは、「携帯電話 1 台 + 3.5 分」でした。

そうです、わずか 3.5 分間のデータで、忠実度が高く、運転可能な、リアルな 3D 顔ポートレートを生成するのに十分です。

この研究は、ザッカーバーグ氏のメタバースプロジェクトの中核部門である Meta Reality Labs によるものです。この論文はSIGGRAPH 2022に採択されました。

著者らは、このアプローチは VR アプリケーションに適していると述べています。

つまり、VRの世界では、将来的には漫画のような顔で登場する必要がなくなるかもしれないのです。

代わりに、太った友達の本当の姿に簡単に会うことができます。

方法の原理

この結果を達成するための方法のフレームワークを下の図に示します。

具体的には、3つの部分に分かれています。

まず、大規模なマルチビュー顔データセットを使用してスーパーネットワークをトレーニングします。このスーパーネットワークは、ニューラルネットワークデコーダーを通じて個人のアバターパラメータを生成できます。

データセット内の顔は、マルチビューキャプチャシステムによって収集され、さまざまな年齢、性別、人種の 255 人の参加者の顔画像データが含まれています。

△左が撮影装置、右が撮影した顔

この巨大な3D顔を撮影する装置は、2019年にMeta社によって開発された。171台の高解像度カメラを搭載し、1秒あたり180GBのデータを記録できる。収集時間は約1時間です。

このハイパーネットワークでは、デコーダーの基本的な構成要素は、バイアスマップを備えた畳み込みアップサンプリングレイヤーであることに留意してください。

これらのバイアスマップは、レイトレーシングを介してアバターをレンダリングするためのボリュームセルを生成するために使用されます。

さらに、デコーダーアーキテクチャは視線を他の顔の動きと区別できるため、VR アプリケーションでは視線追跡システムをより直接的に活用できます。

第二に、軽量な表情キャプチャです。

この研究では、顔を撮影するために深度カメラを備えたスマートフォンのみが必要でした。

実験では、研究者らはiPhone 12を使用した。

収集プロセスは次のようになります。

収集されたデータは次のように処理されます。

顔画像の各フレームの幾何学的形状とテクスチャを取得します。
入力 RGB 画像に対して顔のランドマーク検出とポートレートのセグメンテーションを実行します。
検出された顔のランドマーク、セグメンテーションのアウトライン、深度マップに合わせてテンプレートメッシュをフィットおよび変形します。
各フレームのテクスチャはアンパックされ、集約されて完全な顔のテクスチャが得られます。

モデルをさらに改善する過程で、65 個の特定の表現を収集する必要があります。

最後に、この方法で出力される 3D 顔アバターは、ユーザーの外見に高度に一致するだけでなく、グローバル表現空間を通じてさらに駆動および制御することもできます。

研究者らは、採取プロセス全体には約3.5分かかると述べた。

ただし、モデリングプロセスはリアルタイムではなく、データ処理には数時間かかることに注意してください。

実験結果

ここまで述べてきましたが、どれくらい効果があるのか実験結果を見てみましょう。

Pinscreenの「1枚の写真から3Dデジタルアバターを構築する」方法（CVPR 2021）と比較すると、この方法はよりリアルな顔モデルを生成できます。

ハイデルベルク大学、ミュンヘン工科大学、マックス・プランク研究所などの研究機関による論文「Neural Head Avatars from Monocular RGB Videos」で提案された方法と比較すると、この方法はより忠実度の高い結果を生成できます。

しかし、著者はこの方法には、長い髪や眼鏡をうまく保持できないこと、アーティファクトが発生しやすいことなどの限界もあると指摘しています。さらに、この方法では照明条件に関しても一定の要件があります。

<<: 時代遅れのリソグラフィー機械は中国に販売できません！米国がオランダのASMLに不当な圧力をかけ、国産チップが再び抑制される

>>: 人工知能技術が英語学習にどのように役立つかについての簡単な議論

1時間から3.5分まで、Metaの新しいアルゴリズムは携帯電話で3D顔データを収集できる

方法の原理

実験結果

クラウド上の優れた機械学習サービス

李徳易学士：人工知能の影響を最も受けている業界は教育

ビッグデータアルゴリズムのジレンマ

キッシンジャー：今やAIは人間が世界を理解するための第3の方法となっている

機械学習の経験を人生の指針に活用する: 学習効率を最大化する方法

ネットワークにおける機械学習の実際の応用

Meta主任AI研究者ヤン・リクン氏：今日のAIは愚かであり、規制当局は我々に干渉すべきではない

ロボットを活用する3つの革新的な方法

推薦する

推薦システムにおける大規模言語モデルの実用化

ニューロモルフィックコンピューティングを理解する: 基本原理から実験的検証まで

自動運転タクシーの分野では競争が激しく、中国では百度がリードしています。

人工知能技術を開発すべきでしょうか？

人工知能の発展を推進する4つの技術

SQL Server 2008 のデータマイニングのための 9 つのアルゴリズム

Google GlassのDIY貧弱版、カスタムジェスチャーコントロール、Raspberry Piがまたもや新しい遊び方を開発

GPT-4 の「lazy」バグが修正され、価格が 80% 下がりました。 OpenAIは5つの新モデルを連続リリースし、パフォーマンスが急上昇

大型モデル選択ガイドがここにあります! 6つのシナリオをカバーし、最適なモデルをマッチング

米議会は来月AIサミットを開催し、マスク氏をはじめとする多くの有力者が出席すると報じられている。

人工知能はますます急速に発展しています。将来、人工知能は人間に取って代わるのでしょうか?