デジタルヒューマンブラック技術が公開、わずか数分で話す動画を再現可能に

デジタルヒューマンブラック技術が公開、わずか数分で話す動画を再現可能に

デジタルヒューマンと共存できるサイバーパンクの世界への準備はできていますか?

将来の仮想世界で多くのアプリケーションを構築するためのバックボーンとして、リアルな仮想デジタルヒューマンを作成する方法は、コンピュータービジョン、コンピューターグラフィックス、マルチメディアなどの人工知能関連の分野から常に注目されている重要な研究テーマです。

最近、中国科学技術大学、魯神師科技有限公司、浙江大学、清華大学が共同開発したAD-NeRF技術が学界と産業界から注目を集めています。

中国科学技術大学の張居勇研究グループと他の研究機関の研究者らは、最近人気のNeRF(Neural Radiance Fields)技術に基づいて、音声信号から会話ビデオを直接生成するアルゴリズムを提案した。対象人物の数分間の会話映像のみで、超リアルな人物の映像再現と音声駆動を実現できます。

論文の宛先:
出典:http://arxiv.org/pdf/2103.11078.pdf

プロジェクトアドレス:
https://yudongguo.github.io/ADNeRF/

「仮想人間建築を手の届く範囲に」

人工知能技術が着実に実装されるにつれて、新しい技術を社会に変革し、実用化していくことが学界と産業界におけるコンセンサスとなってきました。このプロセスにおいて、「デジタルバーチャルヒューマン」は間違いなく主流のビジョンの中で非常に「目を引く」概念です。対象キャラクターの最終的な表現形式に応じて、デジタル仮想人間は 2D 型と 3D 型、またはアニメーション、擬人化、実在の人物に分類できます。 2021年春節祝賀会では、全国が家族と再会する時期に、バーチャルアイドルの羅天依が初めてテレビ祝賀会の舞台に登場した。 3月の2回の会期中、CCTV.comが作成したデジタル仮想記者「小C」が、全人代代表とリアルタイムでつながり、生き生きとした人物イメージで政策ニュースを報道する任務を引き受けた。

[[391113]]

上から順に、サムスンのバーチャルデジタルヒューマンのネオン、バーチャルアイドルの羅天依、映画キャラクターのアリータです。

iQiyiが先に発表した「2019年バーチャルアイドル観察レポート」によると、現在中国では少なくとも3億9000万人がバーチャルアイドルをフォローしているという。 Douyin、Kuaishou、Bilibiliなどの主要なショートビデオプラットフォームには、少なくとも数万人のアクティブなデジタルバーチャルヒューマンアンカーが存在します。デジタル仮想人物は、汎エンターテイメントの分野だけでなく、仮想医師、仮想教師、仮想顧客サービス、仮想ショッピングガイドなど、他の一連のソーシャルアプリケーションにも幅広い想像空間を提供します。

人間とコンピュータのインタラクションの重要な媒体として、仮想人間のリアルな外観、自然な表情や動きをいかに効率的に構築するかは、この分野で常に注目されている研究テーマです。その中で、従来のコンピュータグラフィックスやアニメーション制作技術をベースとして、鮮明でリアルな仮想人間の行動ダイナミクス(音声内容に合わせた口の形や表情など)を構築するには、専門的で複雑な手作業が必要であり、仮想デジタルヒューマンの広範な応用に大きな制限があります。近年、ディープラーニング手法に基づく仮想人間構築技術は大きな進歩を遂げています。しかし、画像ベースの生成的敵対的ネットワーク(GAN)法であれ、3D顔再構成モデ​​ルに基づく顔編集レンダリング法であれ、既存の学習ベースの方法には、大量のトレーニングデータに依存することや、生成される結果の品質が低いことなどの問題があります。 2017年にSuwajanakornらが提案したSynthesizingObama研究を例に挙げてみましょう。この手法では、オバマ氏単独の役の音声駆動スピーチを実現するために、オバマ氏自身の最大14時間のビデオトレーニングデータを使用し、最終的に優れた画像とビデオ効果を確保しました。しかし、GAN ベースの顔と音声を駆使した多くの作業は、GAN モデル自体のトレーニングの複雑さによって制限されており、通常は 256 x 256 を超えない解像度のビデオ結果しか出力できません。

GAN ベースの方法で生成された画像は解像度が低いですが、ニューラル放射フィールド レンダリングに基づく AD-NeRF は任意の解像度のレンダリングをサポートします。

AD-NeRF方式では、対象人物の3~5分の会話映像だけで、任意の声でキャラクターを操作できる効果が得られます。それだけでなく、生成された結果は高解像度の画質と自然な表情を備えており、従来の方法よりもはるかに優れています。この「安価で高品質」な方法は、少量のトレーニング データのみで高品質の最終結果を生成するため、仮想の人間の画像を作成するための強力で便利なツールとなることは間違いありません。

フェイスマジックはどのように行われますか?

次の例の図は、AD-NeRF 作業のアルゴリズム フロー フレームワークを示しています。

(1)音声から動的神経放射場へのクロスモーダルマッピング:話者の顔、胴体、背景の高品質なディテールとダイナミクスを捉えるために、著者らはDeepSpeechの音声特徴と最新の神経放射場法(NeRF)を組み合わせ、想定されるカメラ位置、視線、対応する音声特徴を入力とし、各光線に沿った連続点の色と密度の値を出力する暗黙の関数Fをモデル化した。光線に沿って積分することで、光線が指すピクセル点の最終的な色値が決定される。

(2)頭部と胴体の完全かつ安定した統合:発話中に顔と胴体の動きが完全に統一されていないという事実を考慮して、著者らは元の神経放射場モデルを異なる機能を持つ2つの暗黙のモデル表現に分割した。まず、トレーニングデータの各フレームに対してセマンティックセグメンテーションを実行しました。顔部分の3次元モーションパラメータは、連続したオプティカルフローの複数フレームを使用して推定され、人間の頭部の神経放射場をトレーニングするための仮想カメラ外部情報に直接変換されました。人間の頭部モデルに基づくボディ モジュールは、人間の頭部のモーション パラメータを追加の条件情報として使用し、体の部分のモデリングを制御します。この設計の明らかな利点は、頭と体の姿勢の不一致によって生じるジッター効果を解決できることです。

(3)背景と視点の編集のサポート:神経放射場によって描写される暗黙の3次元情報を利用して、著者らは背景を任意に置き換えたり、観察角度を変えたりするその後の応用をさらに検討した。これらのアプリケーションを実装するには、テスト オーディオを入力するときに、想定されるカメラの外部情報と背景画像を変更するだけです。これらのアプリケーションの例は次の図に示されています。

AD-NeRF はどのような可能性をもたらすのでしょうか?

かつて、デジタルヒューマンはSF小説や映画で人気のサイバーパンクのテーマでしたが、現在ではデジタル仮想人間作成技術の反復と更新により、この未来的なコンセプトは前例のないスピードで一般家庭に浸透しつつあります。では、AD-NeRF はどのような実用的な仮想人間アプリケーションに技術的な可能性をもたらすのでしょうか?

まず、ビデオ会議の分野では、上記のように、AD-NeRF は任意の文字画像に対して音声によるサポートを簡単にサポートできます。高い帯域幅を必要とするビデオ会議アプリケーションでは、ビデオ コーデック信号をリアルタイムで送信する必要がなくなり、話者自身の仮想イメージを駆動するためのオーディオ信号のみを送信するだけで済む場合があります。 AD-NeRFがサポートする背景の置き換えや姿勢編集は、ARヘルメットなどのデバイスと組み合わせることで、自由に作り出せる3次元のシーンの中で、まるでその場にいるかのような臨場感や相手との会話を味わうことができます。

第二に、AD-NeRF では、特定の文字画像の動的放射フィールドをトレーニングするのに数分間のビデオしか必要ありません。親しい友人といつでも直接会ってコミュニケーションが取れるように、その友人のデジタル画像を残しておきたい場合、AD-NeRF のアルゴリズム設計により、このデジタル画像の作成の難しさが大幅に軽減されます。サイバースペースでの不滅はもはや夢ではないかもしれません。

最後に、AD-NeRF は間違いなく、現在の商用デジタル仮想人間構築プロセスを改善する大きな可能性を秘めています。リアルな仮想アンカー、フレンドリーな仮想ショッピング ガイド、本格的な仮想教師など、どんなものを作成する場合でも、AD-NeRF を使用すると簡単に作成できます。必要なのは、表現力豊かな俳優が音声ビデオを録音することだけです。残りは、ビジネスイノベーションにおける幅広い応用の見込みがある自動音声駆動型テクノロジーに任せることができます。

一方、強力な技術的権限を持つ一方で、閾値とデータ要件がますます低くなっているため、デジタル仮想人間の作成には多くのリスクと論争が伴います。たとえば、偽のデジタル画像を使用して他人の財産を盗んだり、偽のニュースを広めるためにビデオを偽造したり、さらには故意に他人を中傷して人格を侮辱したりすることなどです。昨年、DeepFakeやZaoなど一連の「AI顔変え」人工知能アプリケーションが、倫理やプライバシーの問題に関する幅広い社会的な議論を引き起こしました。それに応じて、DeepForensicsをテーマにした一連の「顔変え検出」研究も学術界で生まれました。

現在、AD-NeRF はアプリケーション レベルからより高度な基礎アルゴリズムを使用して、神経放射フィールドを通じて 3 次元の動きの詳細を暗黙的にモデル化し、完全でリアルな画像フレームをレンダリングし、本物の顔と偽物の顔のビデオの区別と検出に対してより価値のある課題を提示しています。

中国のことわざに「悪魔は一尺高ければ、道は十尺高くなる」とある。セキュリティとプライバシー保護のニーズから、より強力な偽造防止および検出アルゴリズムは、将来、仮想人間技術とともに必然的に共通の競争と発展の双星となるだろう。公平性と正義の観点から、デジタル時代の産物であるバーチャルヒューマンも、法律、規制、業界ルールの制約に従う必要があります。将来、仮想デジタルヒューマンは知性、利便性、信頼性の代名詞となり、この世界での情報交換や対人交流の向上に大きく貢献すると信じています。

<<:  人工知能の簡単な歴史 | (1)相農は人工知能の誕生を目撃した

>>:  MITのロボットは、浸透する無線周波数を使って隠れた物体を感知する

ブログ    
ブログ    

推薦する

私の国の最新のトップ10のブラックテクノロジーが発表され、あなたの想像力を覆します

人工知能の急速な発展により、「ブラックテクノロジー」という言葉が人々の心に深く根付いている。目もくら...

次世代の人工知能は将来のテクノロジーの展望を一変させるだろう

過去 10 年間、従来のシステムからクラウド コンピューティング サービス、ランサムウェア対策まで、...

英国で新たな自動運転規制が導入され、ドライバーはもはや「集中」する必要がなくなった

自動運転は近年市場で最も活発なトピックの1つです。資金が継続的に流入し、大手企業が存在感を示そうと競...

2022年の自動運転のトップ10トレンドが発表されました。データインテリジェンスシステムは、自動運転の商用化のクローズドループの鍵となるでしょうか?

「2022年は自動運転産業の発展にとって最も重要な年となるだろう。乗用車の運転支援分野での競争は正...

ドローンは電力網を守り、点検や障害物の除去も可能!

[[412066]]現在、全国的に気温が上昇し続けているため、私の国では電力消費のピークの新たな波...

AIで製造業を解放する: 企業がアプリケーションシナリオを発見し、課題に対処する方法

まとめ現在、さまざまな業界がデジタルビジネスシナリオを実装または強化するために機械学習機能を構築して...

韓国中央銀行が警告:AIが国内で400万の雇用を奪う可能性

IT Homeは11月16日、韓国銀行が最近、人工知能(AI)が労働市場に与える影響に関する調査報告...

AIがコンテンツマーケティングを進化させる方法

デジタル メディアはほぼすべての人の日常生活に浸透し、私たちのあらゆる活動に永続的な影響を及ぼしてい...

[探索] 機械学習モデルのトレーニングをサポートする 8 つの JavaScript フレームワーク

[[221813]] [51CTO.com クイック翻訳] JavaScript 開発者は、さまざま...

研究者らは、キーボードの打鍵音からデータを盗むためのディープラーニングモデルを最大95%の精度で訓練することに成功した。

8月7日のニュース、キーボードで入力した内容が他人に聞かれる可能性があることをご存知ですか?英国の...

...

創造性がデジタル変革を推進する

人工知能はビジネス環境を一新し、競争環境を変え、仕事の本質を変革しています。しかし、人間の創造性も ...

...