Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

Meta のリアルなデジタル ヒューマン 2.0 がさらに進化し、iPhone を使用して生成できるようになりました。携帯電話を取り出してスキャンするだけです。

Facebook は、2019 年 3 月という早い時期に、イベントで第一世代のデジタル人間画像 (Codec Avatar 1.0) を披露しました。第一世代のデジタルヒューマンは、複数のニューラルネットワークと 132 台のカメラを備えた専用のキャプチャデバイスを使用して生成されました。

  

生成されると、VR ヘッドセット上の 5 つのカメラ。それぞれの目は 2 つの内部視点を提供し、その下の顔は 3 つの外部視点を提供します。 以下のように。

 

それ以来、Facebook は、よりリアルな画像を実現するために、マイクと視線追跡技術のみを使用するなど、これらの仮想画像のリアリティを継続的に改善してきました。 2020年8月についにCodec Avatarバージョン2.0に進化しました。バージョン 1.0 に対するバージョン 2.0 の最大の改善点は、カメラが顔をスキャンして追跡する必要がなくなり、目の動きを追跡するだけで済むようになったことです。

 

新しいニューラル ネットワークは、VR ヘッドセットからの視線追跡データとマイクからの音声フィードとを融合し、装着者の表情を推測します。 サウンドモデルと眼球運動モデルのデータはハイブリッドモデルにフィードバックされ、融合モデルで処理され、レンダラーによってアバター画像が出力されます。

  

今年5月、チームはさらに、アバター2.0バージョンが「完全にリアルな」効果を完全に達成したと発表しました。 「今後10年間の大きな課題は、対面でのやりとりと区別がつかない遠隔アバターのやりとりを実現できるかどうかだ」とプロジェクトリーダーの一人、シェイク氏は語った。

  

上の比較を見てください。a は実際の人物の写真、e は最終レンダリングによって生成された仮想人物です。それほど誇張しているようには見えませんよね? ご心配なく、上記は実験での比較結果です。実際の応用シナリオでは、Meta バーチャル ヒューマンの現在のイメージは次のようになります。

  

一番右の「最もリアル」な画像でさえ、まだ漫画のような画像であり、「完全にリアル」というには程遠いだろう。しかし、Meta 氏は 10 年かかると述べており、デモの画像を見ると、この目標が達成される可能性はまだ十分にある。

さらに、バーチャルヒューマン技術の進歩は、リアリティだけに反映されているわけではありません。1つの道を進む必要はありません。Meta は他の方向への試みも行っています。 例えば、VRヘッドセットを外すとか?  

従来、別のコーデックアバターを生成するには、上の写真に示すように、171 台の高解像度カメラを備えた「MUGSY」と呼ばれる特殊なキャプチャデバイスが必要でした (トライポフォビアの方は退散してください)。

Meta は、これを持ち歩く必要はなく、iPhone だけで十分だと言っています。 リアルな仮想人間のアバターを生成するために必要なのは、前面の深度センサーを備えたスマートフォン(FaceID を備えた iPhone など)と簡単なスキャン(正確には数十回のスキャン)だけです。

最初に空白の顔を保持し、一度スキャンしてから、さまざまな異なる表情を作成します。最大 65 種類の表情がサポートされます。

メタ氏によると、携帯電話を使用して表情スキャンを完了するには平均3〜4分かかるという。 もちろん、これにはコンピューティング能力のサポートが必要です。最終的に生成されるリアルな仮想人間のアバターは、4 つのハイエンド GPU を搭載したマシンで約 6 時間かかります。 もちろん、この技術が製品に利用されれば、これらの計算はクラウド GPU に引き継がれるため、ユーザーは独自のコンピューティング リソースを必要としません。  

では、以前は 100 台のカメラが必要だったものが、今では携帯電話だけで実現できるのはなぜでしょうか? その秘密は、ハイパーネットワークと呼ばれる一般的なモデルにあります。 これは別のニューラル ネットワークの重みを生成するニューラル ネットワークです。上記の例では、特定の人物のコーデックアバターが生成されます。

  

研究者らは、MUGSYによく似た高度なキャプチャ装置(カメラは90台のみ)を使用して、255の異なる顔をスキャンすることでモデルをトレーニングした。

他の研究者らはスマートフォンでスキャンして生成された肖像画を実証しており、Meta 氏は生成された結果は SOTA レベルであると述べています。

しかし、現在のシステムでは、眼鏡や長髪には対応できません。そして、それは頭部にのみ作用し、体の他の部分には作用しません。

もちろん、Meta がこの忠実度レベルに到達するまでには、まだ長い道のりがあります。 現在、Meta の肖像画はすべて漫画風になっています。そして、その現実感は時間の経過とともに徐々に薄れていきました。 この画像は、Quest 2 で Horizo​​n Worlds をプレイする人により適しているかもしれません。

  

ただし、コーデック アバターは、現在の漫画スタイルのアップグレードではなく、単なる別のオプションになる可能性があります。 Meta の CEO ザッカーバーグ氏は、将来について次のように説明しました。「通常のゲームをプレイするときは表現主義的な肖像画を使い、仕事の会議などに出席するときはより現実的な肖像画を使うようになるかもしれません。」

今年4月、コーデック・アバターチームを率いるヤセル・シェイク氏は「コーデック・アバターが実用化されるまでにどれくらいの時間がかかるのか予測するのは不可能だ」と語った。しかし、同氏はプロジェクトが大きく前進したと考えていることを明らかにした。

<<:  スポットロボット犬が古代ポンペイの警備員として活躍!墓泥棒を防ぐだけでなく、宙返りや3Dモデリングもできる

>>:  ジェフ・ディーンらの新しい研究:言語モデルを別の視点から見る:規模が十分でなければ発見されない

ブログ    
ブログ    

推薦する

なぜ失敗したかご存知ですか?機械学習プロジェクトの 87% がこのように失敗します…

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

英国メディアが人工知能の軍事応用とそのリスクを分析

[[440377]]はじめに12月7日、英国のドローン戦争ウェブサイトは、人工知能が各国の軍事部門に...

人工知能はプライバシー侵害につながり、人々は顔スキャンが安全を奪うのではないかと心配している

データの蓄積、コンピュータの計算能力の飛躍的向上、アルゴリズムの最適化により、人工知能は生活をより効...

このアルゴリズムチームは 2020 年に何をしましたか?

[[383980]]冒頭に書いた私自身、毎年まとめを書く習慣があります。2020年は、私の職務が垂...

OpenAIはAPIのアップグレードと価格引き下げでメジャーアップデートを実施

6月14日、OpenAIは生成型人工知能の分野での競争上の優位性を維持するため、テキスト生成モデルを...

AIによる顔の変形は危険だが、VRスキーは素晴らしい

[[402233]]市民がVRスキー体験。本紙(記者 陳龍)5月27日、2021年中国国際ビッグデー...

テクノロジーがコロナウイルスと戦う10の方法

COVID-19の流行は中国の武漢で最初に発生して以来、少なくとも100の国と地域に広がっています。...

2020年のAIの7つの開発トレンド

[[320187]]追加の AI アプリケーションの需要が高まるにつれて、企業はデータ サイエンス ...

大型モデルの中に泥棒はいますか?上海交通大学は、パラメータを保護するために、大規模モデル用の「人間が読める指紋」を作成します

大規模モデルの事前トレーニングには膨大な量のコンピューティング リソースとデータが必要となるため、事...

ビッグデータはスマートな警察活動の基盤であり、AIは包括的な分析と判断の原動力である

都市化と経済発展の加速に伴い、我が国の社会保障を構成する要素が拡大し、公安機関の警察活動に大きな圧力...

...

...

人工知能を活用してビジネスを拡大するための 5 つの戦略

現時点では、インテリジェント技術の期待とリターンはまだ不明確であり、製品の創造性と投資を強化するため...

スマート製造技術:効率的な生産の未来?

2020年の初め以来、工業および製造業はCOVID-19パンデミックの影響を受けています。工場は、...

スポーツへの人工知能とビッグデータの導入は、市場を混乱させたり、破壊したりするのでしょうか?

英国ラフバラー大学とチェルシー・フットボール・クラブの研究者らが共同で、最近のシーズンの選手のデータ...