自分だけのデジタルヒューマンを開発しよう、FACEGOODが音声駆動表現技術をオープンソース化

自分だけのデジタルヒューマンを開発しよう、FACEGOODが音声駆動表現技術をオープンソース化


現在、メタバースのトレンドの下、AIデジタルヒューマンもエンターテインメント、サービス、教育、マーケティングなど多くの分野に関わり始めています。市場に出回っている AI デジタルヒューマンには、仮想アシスタント、仮想ツアーガイド、仮想カスタマーサービスなどの機能的 AI デジタルヒューマン、仮想パートナー、仮想家族などのコンパニオン AI デジタルヒューマン、仮想アンカー、仮想アイドル、仮想教師、仮想医師、仮想ショッピングガイドなどのソーシャル AI デジタルヒューマンが含まれます。

浦東発展銀行の銀行業界初のデジタル従業員、シャオ・プー

Huya AI デジタルヒューマン ワンユ

Sohu News ClientとSogouが立ち上げた初の有名人「AIデジタルヒューマン」キャスター。

仮想デジタルヒューマンのマルチドメイン浸透を実現し、より多くのAIデジタルヒューマンシナリオを実装するために、 FACEGOODはAI仮想デジタルヒューマンのコアアルゴリズムである音声駆動リップシンクアルゴリズム技術を正式にオープンソース化することを決定しました。この技術がオープンソース化されると、AIデジタルヒューマンの開発ハードルが大幅に下がります

プロジェクトアドレス: https://github.com/FACEGOOD/Audio2Face

プロジェクトの背景

2019年、第10回中国国際ニューメディア短編映画祭の組織委員会とFACEGOODが共同で、陸川監督のAIデジタルヒューマンを発表しました。

陸川監督のAIデジタルヒューマンイメージ

観客はAIデジタルLu Chuanと直接対面して交流することができ、仮想空間と現実空間の間の次元の壁を打ち破るリアルタイムでリアルなコミュニケーションとインタラクティブな体験をもたらします。リアルタイムのインタラクティブ効果を実現するために、FACEGOOD は音声から表情アニメーションへのリアルタイム変換を実現するデジタルヒューマンリアルタイム音声インタラクションシステムを開発しました。

今日、FACEGOOD は音声駆動表現セット全体の技術コードをオープンソース化し、デジタル ヒューマン開発者に無料で提供することを決定しました。

技術通訳

この技術は、音声を表情ブレンドシェイプアニメーションにリアルタイムで変換できます。これを行う理由は、現在の業界では、BSを使用してデジタル画像のアニメーション表現を駆動することが依然として主流であり、アニメーションアーティストが最終的なアニメーション出力に最も芸術的な調整を加えるのに便利であり、送信されるデータ量が少なく、異なるデジタル画像間でアニメーションを転送するのに便利であるなどです。

FACEGOOD は、これらの実際の制作ニーズに基づいて、入力データと出力データに適切な調整を加えました。サウンド データに対応するラベルは、モデル アニメーションのポイント クラウド データではなく、モデル アニメーションのブレンドシェイプ ウェイトになりました。最終的な使用プロセスを以下の図 1 に示します。

上記のプロセスでは、 FACEGOODが主にAudio2Face部分を完成させ、ASRとTTSはAISpiechインテリジェントロボットによって完成されます。自分の音声や第三者の音声を使用する場合は、ASR と TTS を自分で置き換えることができます。

もちろん、 FACEGOOD Audio2face部分は、自分の好みに合わせて再トレーニングすることもできます。例えば、自分の声や他の種類の声、またはFACEGOODが使用しているものと異なるモデルバインディングを運転データとして使用したい場合は、下記のプロセスに従って、自分専用のアニメーション運転アルゴリズムモデルトレーニングを完了することができます

では、Audio2Face のフレームワークとは何でしょうか?独自のトレーニングデータをどのように作成しますか?詳細は以下の図 2 に示されています。

従来のニューラル ネットワーク モデルのトレーニングは、データの収集と生成、データの前処理、データ モデルのトレーニングという 3 つの段階に大まかに分けられます。


  • 最初の段階はデータの収集と生成です。ここには主にサウンドデータとサウンドに対応したアニメーションデータの2種類のデータがあります。音声データは主に中国語のアルファベットの発音といくつかの特殊な破裂音を記録しており、発音付きのテキストを可能な限り多く収録しています。アニメーション データは、録音した音声データを Maya にインポートし、独自のバインディングに従ってモデルの顔の特徴に応じて対応する発音アニメーションを作成します。
  • 第 2 段階では、主に LPC を介してサウンド データを処理し、サウンド データをアニメーションに対応するフレーム データに分割し、Maya アニメーション フレーム データをエクスポートします。
  • 3 番目の段階では、処理されたデータをニューラル ネットワークの入力として使用し、損失関数が収束するまでトレーニングします。




<<:  IDC: 2024年までにIoTシステムの約20%が人工知能をサポートすると予想

>>:  量子コンピューティングの画期的な論文3本がネイチャーの表紙に登場:忠実度は99%を超え、実用レベルに到達

推薦する

生成型AIが小学生の「初めてのプログラミングレッスン」に登場:線を描いて音楽を生成し、スケッチが一瞬で傑作に変わる

古典作品「星の王子さま」には、蛇が象を飲み込む絵を描いた少年が、大人たちにその絵を見せて怖いかと尋ね...

GPT-3の良き「パートナー」:この方法はモデルの劣化を軽減し、出力をより自然にします

テキスト生成は、多くの自然言語処理アプリケーションにとって重要です。しかし、ニューラル言語モデルの最...

金融業界がAI自動化を採用すべき理由

ガートナーによると、「ロボティック・プロセス・オートメーション(RPA)ソフトウェア市場は2020年...

2022 年に予測されるロボット技術のトレンド トップ 10

COVID-19パンデミックは、物流やスーパーマーケットなどの分野に問題と機会の両方をもたらしまし...

...

データセンター冷却のための人工知能: 単なる夢物語ではない

現在、AI はデータセンターのあらゆる場所に存在し、ネットワークの管理と保護、アラートのフィルタリン...

人工知能はビジネス開発にどのような影響を与えるのでしょうか?

[[403654]]人工知能はイノベーションを推進し、ビジネス開発を変えています。人工知能と機械学...

海外メディア:NvidiaはARMアーキテクチャに基づくPCチップを設計しており、早ければ2025年に発売される予定

10月24日、チップ大手のNvidiaが人工知能(AI)コンピューティングチップ市場を独占した。現在...

戦闘計画システムにおける人工知能技術の応用に関する研究

近年、人工知能技術は飛躍的な進歩を遂げており、各国は人工知能技術の戦略的意義を認識し、国家戦略レベル...

生成 AI は岐路に立っています。次の波はどこから来るのでしょうか?

生成 AI は、特にビジネスの世界でますます人気が高まっています。ウォルマートはつい最近、店舗外の従...

中国語で最も強力なオープンソース モデルがここにあります! 130億のパラメータ、商用利用の閾値0、Kunlun Wanweiより

最も徹底したオープンソース モデルがここにあります - 130 億のパラメーター、申請なしで商用利用...

...

ディープラーニングのメリットが終わりを迎える中、AIは再び「死の谷」に直面しているのでしょうか?

[[384224]]大いに期待されているディープラーニングは、人工知能を再び AI の冬に突入させ...