デジタルヒューマンブラック技術が公開、わずか数分で話す動画を再現可能に

デジタルヒューマンと共存できるサイバーパンクの世界への準備はできていますか?

将来の仮想世界で多くのアプリケーションを構築するためのバックボーンとして、リアルな仮想デジタルヒューマンを作成する方法は、コンピュータービジョン、コンピューターグラフィックス、マルチメディアなどの人工知能関連の分野から常に注目されている重要な研究テーマです。

最近、中国科学技術大学、魯神師科技有限公司、浙江大学、清華大学が共同開発したAD-NeRF技術が学界と産業界から注目を集めています。

中国科学技術大学の張居勇研究グループと他の研究機関の研究者らは、最近人気のNeRF（Neural Radiance Fields）技術に基づいて、音声信号から会話ビデオを直接生成するアルゴリズムを提案した。対象人物の数分間の会話映像のみで、超リアルな人物の映像再現と音声駆動を実現できます。

論文の宛先:
出典：http://arxiv.org/pdf/2103.11078.pdf

プロジェクトアドレス:
https://yudongguo.github.io/ADNeRF/

「仮想人間建築を手の届く範囲に」

人工知能技術が着実に実装されるにつれて、新しい技術を社会に変革し、実用化していくことが学界と産業界におけるコンセンサスとなってきました。このプロセスにおいて、「デジタルバーチャルヒューマン」は間違いなく主流のビジョンの中で非常に「目を引く」概念です。対象キャラクターの最終的な表現形式に応じて、デジタル仮想人間は 2D 型と 3D 型、またはアニメーション、擬人化、実在の人物に分類できます。 2021年春節祝賀会では、全国が家族と再会する時期に、バーチャルアイドルの羅天依が初めてテレビ祝賀会の舞台に登場した。 3月の2回の会期中、CCTV.comが作成したデジタル仮想記者「小C」が、全人代代表とリアルタイムでつながり、生き生きとした人物イメージで政策ニュースを報道する任務を引き受けた。

[[391113]]

上から順に、サムスンのバーチャルデジタルヒューマンのネオン、バーチャルアイドルの羅天依、映画キャラクターのアリータです。

iQiyiが先に発表した「2019年バーチャルアイドル観察レポート」によると、現在中国では少なくとも3億9000万人がバーチャルアイドルをフォローしているという。 Douyin、Kuaishou、Bilibiliなどの主要なショートビデオプラットフォームには、少なくとも数万人のアクティブなデジタルバーチャルヒューマンアンカーが存在します。デジタル仮想人物は、汎エンターテイメントの分野だけでなく、仮想医師、仮想教師、仮想顧客サービス、仮想ショッピングガイドなど、他の一連のソーシャルアプリケーションにも幅広い想像空間を提供します。

人間とコンピュータのインタラクションの重要な媒体として、仮想人間のリアルな外観、自然な表情や動きをいかに効率的に構築するかは、この分野で常に注目されている研究テーマです。その中で、従来のコンピュータグラフィックスやアニメーション制作技術をベースとして、鮮明でリアルな仮想人間の行動ダイナミクス（音声内容に合わせた口の形や表情など）を構築するには、専門的で複雑な手作業が必要であり、仮想デジタルヒューマンの広範な応用に大きな制限があります。近年、ディープラーニング手法に基づく仮想人間構築技術は大きな進歩を遂げています。しかし、画像ベースの生成的敵対的ネットワーク（GAN）法であれ、3D顔再構成モデルに基づく顔編集レンダリング法であれ、既存の学習ベースの方法には、大量のトレーニングデータに依存することや、生成される結果の品質が低いことなどの問題があります。 2017年にSuwajanakornらが提案したSynthesizingObama研究を例に挙げてみましょう。この手法では、オバマ氏単独の役の音声駆動スピーチを実現するために、オバマ氏自身の最大14時間のビデオトレーニングデータを使用し、最終的に優れた画像とビデオ効果を確保しました。しかし、GAN ベースの顔と音声を駆使した多くの作業は、GAN モデル自体のトレーニングの複雑さによって制限されており、通常は 256 x 256 を超えない解像度のビデオ結果しか出力できません。

GAN ベースの方法で生成された画像は解像度が低いですが、ニューラル放射フィールドレンダリングに基づく AD-NeRF は任意の解像度のレンダリングをサポートします。

AD-NeRF方式では、対象人物の3～5分の会話映像だけで、任意の声でキャラクターを操作できる効果が得られます。それだけでなく、生成された結果は高解像度の画質と自然な表情を備えており、従来の方法よりもはるかに優れています。この「安価で高品質」な方法は、少量のトレーニングデータのみで高品質の最終結果を生成するため、仮想の人間の画像を作成するための強力で便利なツールとなることは間違いありません。

フェイスマジックはどのように行われますか?

次の例の図は、AD-NeRF 作業のアルゴリズムフローフレームワークを示しています。

（１）音声から動的神経放射場へのクロスモーダルマッピング：話者の顔、胴体、背景の高品質なディテールとダイナミクスを捉えるために、著者らはDeepSpeechの音声特徴と最新の神経放射場法（NeRF）を組み合わせ、想定されるカメラ位置、視線、対応する音声特徴を入力とし、各光線に沿った連続点の色と密度の値を出力する暗黙の関数Fをモデル化した。光線に沿って積分することで、光線が指すピクセル点の最終的な色値が決定される。

（２）頭部と胴体の完全かつ安定した統合：発話中に顔と胴体の動きが完全に統一されていないという事実を考慮して、著者らは元の神経放射場モデルを異なる機能を持つ２つの暗黙のモデル表現に分割した。まず、トレーニングデータの各フレームに対してセマンティックセグメンテーションを実行しました。顔部分の3次元モーションパラメータは、連続したオプティカルフローの複数フレームを使用して推定され、人間の頭部の神経放射場をトレーニングするための仮想カメラ外部情報に直接変換されました。人間の頭部モデルに基づくボディモジュールは、人間の頭部のモーションパラメータを追加の条件情報として使用し、体の部分のモデリングを制御します。この設計の明らかな利点は、頭と体の姿勢の不一致によって生じるジッター効果を解決できることです。

（３）背景と視点の編集のサポート：神経放射場によって描写される暗黙の３次元情報を利用して、著者らは背景を任意に置き換えたり、観察角度を変えたりするその後の応用をさらに検討した。これらのアプリケーションを実装するには、テストオーディオを入力するときに、想定されるカメラの外部情報と背景画像を変更するだけです。これらのアプリケーションの例は次の図に示されています。

AD-NeRF はどのような可能性をもたらすのでしょうか?

かつて、デジタルヒューマンはSF小説や映画で人気のサイバーパンクのテーマでしたが、現在ではデジタル仮想人間作成技術の反復と更新により、この未来的なコンセプトは前例のないスピードで一般家庭に浸透しつつあります。では、AD-NeRF はどのような実用的な仮想人間アプリケーションに技術的な可能性をもたらすのでしょうか?

まず、ビデオ会議の分野では、上記のように、AD-NeRF は任意の文字画像に対して音声によるサポートを簡単にサポートできます。高い帯域幅を必要とするビデオ会議アプリケーションでは、ビデオコーデック信号をリアルタイムで送信する必要がなくなり、話者自身の仮想イメージを駆動するためのオーディオ信号のみを送信するだけで済む場合があります。 AD-NeRFがサポートする背景の置き換えや姿勢編集は、ARヘルメットなどのデバイスと組み合わせることで、自由に作り出せる3次元のシーンの中で、まるでその場にいるかのような臨場感や相手との会話を味わうことができます。

第二に、AD-NeRF では、特定の文字画像の動的放射フィールドをトレーニングするのに数分間のビデオしか必要ありません。親しい友人といつでも直接会ってコミュニケーションが取れるように、その友人のデジタル画像を残しておきたい場合、AD-NeRF のアルゴリズム設計により、このデジタル画像の作成の難しさが大幅に軽減されます。サイバースペースでの不滅はもはや夢ではないかもしれません。

最後に、AD-NeRF は間違いなく、現在の商用デジタル仮想人間構築プロセスを改善する大きな可能性を秘めています。リアルな仮想アンカー、フレンドリーな仮想ショッピングガイド、本格的な仮想教師など、どんなものを作成する場合でも、AD-NeRF を使用すると簡単に作成できます。必要なのは、表現力豊かな俳優が音声ビデオを録音することだけです。残りは、ビジネスイノベーションにおける幅広い応用の見込みがある自動音声駆動型テクノロジーに任せることができます。

一方、強力な技術的権限を持つ一方で、閾値とデータ要件がますます低くなっているため、デジタル仮想人間の作成には多くのリスクと論争が伴います。たとえば、偽のデジタル画像を使用して他人の財産を盗んだり、偽のニュースを広めるためにビデオを偽造したり、さらには故意に他人を中傷して人格を侮辱したりすることなどです。昨年、DeepFakeやZaoなど一連の「AI顔変え」人工知能アプリケーションが、倫理やプライバシーの問題に関する幅広い社会的な議論を引き起こしました。それに応じて、DeepForensicsをテーマにした一連の「顔変え検出」研究も学術界で生まれました。

現在、AD-NeRF はアプリケーションレベルからより高度な基礎アルゴリズムを使用して、神経放射フィールドを通じて 3 次元の動きの詳細を暗黙的にモデル化し、完全でリアルな画像フレームをレンダリングし、本物の顔と偽物の顔のビデオの区別と検出に対してより価値のある課題を提示しています。

中国のことわざに「悪魔は一尺高ければ、道は十尺高くなる」とある。セキュリティとプライバシー保護のニーズから、より強力な偽造防止および検出アルゴリズムは、将来、仮想人間技術とともに必然的に共通の競争と発展の双星となるだろう。公平性と正義の観点から、デジタル時代の産物であるバーチャルヒューマンも、法律、規制、業界ルールの制約に従う必要があります。将来、仮想デジタルヒューマンは知性、利便性、信頼性の代名詞となり、この世界での情報交換や対人交流の向上に大きく貢献すると信じています。

<<: 人工知能の簡単な歴史 | （1）相農は人工知能の誕生を目撃した

>>: MITのロボットは、浸透する無線周波数を使って隠れた物体を感知する