Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

Meta のリアルなデジタルヒューマン 2.0 がさらに進化し、iPhone を使用して生成できるようになりました。携帯電話を取り出してスキャンするだけです。

Facebook は、2019 年 3 月という早い時期に、イベントで第一世代のデジタル人間画像 (Codec Avatar 1.0) を披露しました。第一世代のデジタルヒューマンは、複数のニューラルネットワークと 132 台のカメラを備えた専用のキャプチャデバイスを使用して生成されました。

生成されると、VR ヘッドセット上の 5 つのカメラ。それぞれの目は 2 つの内部視点を提供し、その下の顔は 3 つの外部視点を提供します。以下のように。

それ以来、Facebook は、よりリアルな画像を実現するために、マイクと視線追跡技術のみを使用するなど、これらの仮想画像のリアリティを継続的に改善してきました。 2020年8月についにCodec Avatarバージョン2.0に進化しました。バージョン 1.0 に対するバージョン 2.0 の最大の改善点は、カメラが顔をスキャンして追跡する必要がなくなり、目の動きを追跡するだけで済むようになったことです。

新しいニューラルネットワークは、VR ヘッドセットからの視線追跡データとマイクからの音声フィードとを融合し、装着者の表情を推測します。サウンドモデルと眼球運動モデルのデータはハイブリッドモデルにフィードバックされ、融合モデルで処理され、レンダラーによってアバター画像が出力されます。

今年5月、チームはさらに、アバター2.0バージョンが「完全にリアルな」効果を完全に達成したと発表しました。「今後10年間の大きな課題は、対面でのやりとりと区別がつかない遠隔アバターのやりとりを実現できるかどうかだ」とプロジェクトリーダーの一人、シェイク氏は語った。

上の比較を見てください。a は実際の人物の写真、e は最終レンダリングによって生成された仮想人物です。それほど誇張しているようには見えませんよね? ご心配なく、上記は実験での比較結果です。実際の応用シナリオでは、Meta バーチャルヒューマンの現在のイメージは次のようになります。

一番右の「最もリアル」な画像でさえ、まだ漫画のような画像であり、「完全にリアル」というには程遠いだろう。しかし、Meta 氏は 10 年かかると述べており、デモの画像を見ると、この目標が達成される可能性はまだ十分にある。

さらに、バーチャルヒューマン技術の進歩は、リアリティだけに反映されているわけではありません。1つの道を進む必要はありません。Meta は他の方向への試みも行っています。例えば、VRヘッドセットを外すとか？

従来、別のコーデックアバターを生成するには、上の写真に示すように、171 台の高解像度カメラを備えた「MUGSY」と呼ばれる特殊なキャプチャデバイスが必要でした (トライポフォビアの方は退散してください)。

Meta は、これを持ち歩く必要はなく、iPhone だけで十分だと言っています。リアルな仮想人間のアバターを生成するために必要なのは、前面の深度センサーを備えたスマートフォン（FaceID を備えた iPhone など）と簡単なスキャン（正確には数十回のスキャン）だけです。

最初に空白の顔を保持し、一度スキャンしてから、さまざまな異なる表情を作成します。最大 65 種類の表情がサポートされます。

メタ氏によると、携帯電話を使用して表情スキャンを完了するには平均3〜4分かかるという。もちろん、これにはコンピューティング能力のサポートが必要です。最終的に生成されるリアルな仮想人間のアバターは、4 つのハイエンド GPU を搭載したマシンで約 6 時間かかります。もちろん、この技術が製品に利用されれば、これらの計算はクラウド GPU に引き継がれるため、ユーザーは独自のコンピューティングリソースを必要としません。

では、以前は 100 台のカメラが必要だったものが、今では携帯電話だけで実現できるのはなぜでしょうか? その秘密は、ハイパーネットワークと呼ばれる一般的なモデルにあります。これは別のニューラルネットワークの重みを生成するニューラルネットワークです。上記の例では、特定の人物のコーデックアバターが生成されます。

研究者らは、MUGSYによく似た高度なキャプチャ装置（カメラは90台のみ）を使用して、255の異なる顔をスキャンすることでモデルをトレーニングした。

他の研究者らはスマートフォンでスキャンして生成された肖像画を実証しており、Meta 氏は生成された結果は SOTA レベルであると述べています。

しかし、現在のシステムでは、眼鏡や長髪には対応できません。そして、それは頭部にのみ作用し、体の他の部分には作用しません。

もちろん、Meta がこの忠実度レベルに到達するまでには、まだ長い道のりがあります。現在、Meta の肖像画はすべて漫画風になっています。そして、その現実感は時間の経過とともに徐々に薄れていきました。この画像は、Quest 2 で Horizon Worlds をプレイする人により適しているかもしれません。

ただし、コーデックアバターは、現在の漫画スタイルのアップグレードではなく、単なる別のオプションになる可能性があります。 Meta の CEO ザッカーバーグ氏は、将来について次のように説明しました。「通常のゲームをプレイするときは表現主義的な肖像画を使い、仕事の会議などに出席するときはより現実的な肖像画を使うようになるかもしれません。」

今年4月、コーデック・アバターチームを率いるヤセル・シェイク氏は「コーデック・アバターが実用化されるまでにどれくらいの時間がかかるのか予測するのは不可能だ」と語った。しかし、同氏はプロジェクトが大きく前進したと考えていることを明らかにした。

<<: スポットロボット犬が古代ポンペイの警備員として活躍！墓泥棒を防ぐだけでなく、宙返りや3Dモデリングもできる

>>: ジェフ・ディーンらの新しい研究：言語モデルを別の視点から見る：規模が十分でなければ発見されない