Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

Meta のリアルなデジタル ヒューマン 2.0 がさらに進化し、iPhone を使用して生成できるようになりました。携帯電話を取り出してスキャンするだけです。

Facebook は、2019 年 3 月という早い時期に、イベントで第一世代のデジタル人間画像 (Codec Avatar 1.0) を披露しました。第一世代のデジタルヒューマンは、複数のニューラルネットワークと 132 台のカメラを備えた専用のキャプチャデバイスを使用して生成されました。

  

生成されると、VR ヘッドセット上の 5 つのカメラ。それぞれの目は 2 つの内部視点を提供し、その下の顔は 3 つの外部視点を提供します。 以下のように。

 

それ以来、Facebook は、よりリアルな画像を実現するために、マイクと視線追跡技術のみを使用するなど、これらの仮想画像のリアリティを継続的に改善してきました。 2020年8月についにCodec Avatarバージョン2.0に進化しました。バージョン 1.0 に対するバージョン 2.0 の最大の改善点は、カメラが顔をスキャンして追跡する必要がなくなり、目の動きを追跡するだけで済むようになったことです。

 

新しいニューラル ネットワークは、VR ヘッドセットからの視線追跡データとマイクからの音声フィードとを融合し、装着者の表情を推測します。 サウンドモデルと眼球運動モデルのデータはハイブリッドモデルにフィードバックされ、融合モデルで処理され、レンダラーによってアバター画像が出力されます。

  

今年5月、チームはさらに、アバター2.0バージョンが「完全にリアルな」効果を完全に達成したと発表しました。 「今後10年間の大きな課題は、対面でのやりとりと区別がつかない遠隔アバターのやりとりを実現できるかどうかだ」とプロジェクトリーダーの一人、シェイク氏は語った。

  

上の比較を見てください。a は実際の人物の写真、e は最終レンダリングによって生成された仮想人物です。それほど誇張しているようには見えませんよね? ご心配なく、上記は実験での比較結果です。実際の応用シナリオでは、Meta バーチャル ヒューマンの現在のイメージは次のようになります。

  

一番右の「最もリアル」な画像でさえ、まだ漫画のような画像であり、「完全にリアル」というには程遠いだろう。しかし、Meta 氏は 10 年かかると述べており、デモの画像を見ると、この目標が達成される可能性はまだ十分にある。

さらに、バーチャルヒューマン技術の進歩は、リアリティだけに反映されているわけではありません。1つの道を進む必要はありません。Meta は他の方向への試みも行っています。 例えば、VRヘッドセットを外すとか?  

従来、別のコーデックアバターを生成するには、上の写真に示すように、171 台の高解像度カメラを備えた「MUGSY」と呼ばれる特殊なキャプチャデバイスが必要でした (トライポフォビアの方は退散してください)。

Meta は、これを持ち歩く必要はなく、iPhone だけで十分だと言っています。 リアルな仮想人間のアバターを生成するために必要なのは、前面の深度センサーを備えたスマートフォン(FaceID を備えた iPhone など)と簡単なスキャン(正確には数十回のスキャン)だけです。

最初に空白の顔を保持し、一度スキャンしてから、さまざまな異なる表情を作成します。最大 65 種類の表情がサポートされます。

メタ氏によると、携帯電話を使用して表情スキャンを完了するには平均3〜4分かかるという。 もちろん、これにはコンピューティング能力のサポートが必要です。最終的に生成されるリアルな仮想人間のアバターは、4 つのハイエンド GPU を搭載したマシンで約 6 時間かかります。 もちろん、この技術が製品に利用されれば、これらの計算はクラウド GPU に引き継がれるため、ユーザーは独自のコンピューティング リソースを必要としません。  

では、以前は 100 台のカメラが必要だったものが、今では携帯電話だけで実現できるのはなぜでしょうか? その秘密は、ハイパーネットワークと呼ばれる一般的なモデルにあります。 これは別のニューラル ネットワークの重みを生成するニューラル ネットワークです。上記の例では、特定の人物のコーデックアバターが生成されます。

  

研究者らは、MUGSYによく似た高度なキャプチャ装置(カメラは90台のみ)を使用して、255の異なる顔をスキャンすることでモデルをトレーニングした。

他の研究者らはスマートフォンでスキャンして生成された肖像画を実証しており、Meta 氏は生成された結果は SOTA レベルであると述べています。

しかし、現在のシステムでは、眼鏡や長髪には対応できません。そして、それは頭部にのみ作用し、体の他の部分には作用しません。

もちろん、Meta がこの忠実度レベルに到達するまでには、まだ長い道のりがあります。 現在、Meta の肖像画はすべて漫画風になっています。そして、その現実感は時間の経過とともに徐々に薄れていきました。 この画像は、Quest 2 で Horizo​​n Worlds をプレイする人により適しているかもしれません。

  

ただし、コーデック アバターは、現在の漫画スタイルのアップグレードではなく、単なる別のオプションになる可能性があります。 Meta の CEO ザッカーバーグ氏は、将来について次のように説明しました。「通常のゲームをプレイするときは表現主義的な肖像画を使い、仕事の会議などに出席するときはより現実的な肖像画を使うようになるかもしれません。」

今年4月、コーデック・アバターチームを率いるヤセル・シェイク氏は「コーデック・アバターが実用化されるまでにどれくらいの時間がかかるのか予測するのは不可能だ」と語った。しかし、同氏はプロジェクトが大きく前進したと考えていることを明らかにした。

<<:  スポットロボット犬が古代ポンペイの警備員として活躍!墓泥棒を防ぐだけでなく、宙返りや3Dモデリングもできる

>>:  ジェフ・ディーンらの新しい研究:言語モデルを別の視点から見る:規模が十分でなければ発見されない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

新しいインフラの推進により、人工知能の応用は新たな段階に入る

レポート概要新しいインフラストラクチャにより人工知能アプリケーションの実装が加速COVID-19パン...

類似画像検索エンジンを効率的に開発するにはどうすればよいでしょうか?

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟プロジェクト紹介類似画像検索とは、関連するあらゆる画像を検...

...

2020年の人工知能における最大のイノベーション

2020 年は例年とは異なる年となり、コミュニティ全体が数多くの課題に直面しました。しかし、2020...

5Gの導入により、インテリジェント交通は4つの大きな質的変化をもたらします。

現在、あらゆるToB市場において、5G+AIが並行して未来を創造しています。 [[331677]] ...

...

高性能な PyTorch はどのように実現されるのでしょうか?経験豊富な専門家がまとめた落とし穴を避ける10のヒント

最小限の労力で最も効率的な PyTorch トレーニングを完了するにはどうすればよいでしょうか? P...

...

...

Baiduの李振宇氏:Apollo 3.0のリリースはApolloのオープン性の新たな出発点です

自動車業界から大きな注目を集めるアポロオープンプラットフォームは、新たな量産時代を迎えました。 7月...

概要: AI はサイバーセキュリティをどのように変えるのでしょうか?

データセキュリティはこれまで以上に重要になっています。最近のノートン社のレポートによると、一般的なデ...

...

人工知能が建築を変える3つの方法

人工知能の開発は、最も急速に成長している技術分野の 1 つです。 Apple、Google、Sams...

ヒントン、ルカン、ベンジオは、ディープラーニングの過去、現在、未来に関する1万語の記事を共同で発表した。

2018年、ACM(米国計算機協会)は、コンピュータディープラーニング分野への貢献を称え、ヨシュア...