USTCとJD.comの最新の成果:AIが本物の人間のように話し、リアルなジェスチャーを披露

USTCとJD.comの最新の成果:AIが本物の人間のように話し、リアルなジェスチャーを披露

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

人間は話すときに、話し方を豊かにするために自然にボディランゲージを使います。

現在、 USTC と JD.comの研究者は AI に次のような機能を搭載しています。

任意のタイプの音声オーディオを与えるだけで、対応するジェスチャーを実行できます。

とても自然なコラボレーションですね。

同じオーディオに対して、複数の異なるポーズを生成することもできます。

「デュアルストリーム」アーキテクチャを採用

人それぞれ習慣が異なるため、発話と身体の動きの間には一定の対応関係がなく、発話生成姿勢を完成させる作業が少し難しくなります。

△ イタリア語で最も代表的なジェスチャー

既存の方法のほとんどは、特定のスタイルを条件として、決定論的に音声を対応する体の動きにマッピングしますが、その結果は特に理想的ではありません。

言語研究に触発されて、この記事の著者は、発話動作をポーズモードとリズムダイナミクスという 2 つの補完的な部分に分解し、新しい「speech2gesture」モデルであるFreeMoを提案しています。

FreeMo は「デュアル ストリーム」アーキテクチャを採用しており、1 つのブランチはメインの姿勢生成に使用され、もう 1 つのブランチは「リズムのビート」に使用されます。つまり、メインの姿勢に小さなリズミカルな動きを適用して、最終的な姿勢をより豊かで自然なものにします。

前述のように、話者の姿勢は主に習慣的なものであり、慣習的な意味論はありません。そのため、著者らは姿勢生成の形式に特別な制約を課すのではなく、条件付きサンプリングを導入して潜在空間内のさまざまな姿勢を学習しました。

処理を容易にするために、入力オーディオは非常に短いセグメントに分割され、音声特徴パラメータ MFCC と音声テキストが抽出されます。

主なジェスチャーは、音声テキストに一致するキーワードによって生成されます。

音声特徴パラメータ MFCC は、リズミカルな動きを生成するために使用されます。

リズムアクションジェネレーターは畳み込みネットワークで構成されています。具体的なプロセスは図に示されています。

1人はUSTCのXu Jing氏です。

赤いボックスは、アクション シーケンスの平均ポーズのオフセットを示します。 2 つのシーケンスのオフセットを交換することで、メインポーズに影響を与えずにモデルを「リズミカルに」制御できます。

より多様で、より自然に、より同期的に

FreeMo のトレーニングおよびテスト ビデオには、多数のテレビ ホストのプログラムを含む専用の Speech2Gesture データセットが含まれています。

しかし、これらの動画は環境(観客の歓声など)によって大きく乱され、司会者の動きが制限される可能性があるため、著者らはトレーニングとテスト用にTEDスピーチ動画やYoutube動画もいくつか紹介しました。

比較される SOTA モデルは次のとおりです。

  • RNN を使用したオーディオからボディへのダイナミクス  (オーディオ2ボディ)
  • 畳み込みネットワークを使用したSpeech2Gesture   (S2G)
  • スピーチドライブテンプレート  (Tmpt、姿勢テンプレート一式を装備)
  • Mix StAGE(スピーカーごとにスタイルを生成可能)
  • トライモーダルコンテキスト  (TriCon、RNN、入力にはオーディオ、テキスト、スピーカーが含まれます)

指標は 3 つあります。

(1)発話と動作の同期性

(2)行動の多様性

(3)話者の実際の動作と比較して得られる品質レベル。

その結果、FreeMo は 5 つの SOTA モデルを上回り、3 つの指標すべてで最高の結果を達成しました。

△ シンクロニシティスコア、低いほど良い

多様性と品質レベルのスコア

ps. 5 つの SOTA モデルは本質的に学習された決定論的マッピングであるため、多様性はありません。

より直感的な品質比較:

左上には実際のスピーカーの動きが表示されています。FreeMo が最もパフォーマンスが良いことがわかります (Audio2Body も優れています)。

著者について

1人はUSTCのXu Jing氏です。

責任著者は、JD.com の AI プラットフォームおよび研究部門の AI 研究所副所長、JD.com グループの技術担当副社長、IEEE フェローである Mei Taoです。

残りの3人の著者は、JD AIの研究者Zhang Wei氏とBai Yalong氏、USTCのSun Qibin教授です。

論文の宛先:
https://arxiv.org/abs/2203.02291

コードはオープンソースです:
https://github.com/TheTempAccount/Co-Speech-Motion-Generation

<<:  アンドリュー・ン氏との独占インタビュー: 今後 10 年間の AI、ハードウェア優先からデータ優先へ

>>:  この遠隔操作脳実験は成功したが、ネットユーザーを怖がらせた

ブログ    

推薦する

アメリカは最強のAIを開発するために1億ドルを投資しています。あなたを狙っているわけではありませんが、ここにいる全員が職を失う可能性があります。

米企業が人工知能に1億ドルを投資人工知能といえば、誰もが知っているものでしょう。AppleファンのS...

スマートヘルスケアは急速に普及しつつあり、さまざまなスマートテクノロジーが好まれている

人々の生活の重要な分野として、医療産業の発展は大きな注目を集めています。現在、医師の診察の難しさや高...

CIIE 2019 サノフィと朱江知能が共同で医療のデジタル未来を創造

第2回中国国際輸入博覧会が11月10日に成功裏に終了した。医療機器と医薬健康展示エリアでは、世界有数...

...

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

文芸グラフィックの分野で非常に人気となっている Stability AI は、本日、2024 年向け...

移動ロボットの分野に新たな大手企業が参入し、業界の人気は高まり続けている。

ABBは7月20日、欧州最大のAMRプロバイダーの1つであるASTI Mobile Robot G...

デュアルポインタとスライディングウィンドウアルゴリズムテンプレート

[[428819]]ダブルポインタのアルゴリズム原理は、2 つのポインタを介して 1 つの for ...

34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

数学的推論は言語モデルが避けることのできない問題点です。さまざまなブラックテクノロジーのサポートがあ...

ニューラルネットワークの内部はどのようになっているのでしょうか?

ニューラル ネットワークは錬金術の炉のようなものです。大量のデータを入力すると、魔法のような結果が生...

生成型人工知能に関する簡単な議論

生成AIには長い歴史があります。いくつかの情報源によれば、1950 年代にはすでに登場していたようで...

機械学習翻訳の限界を説明する

機械学習による翻訳は人間のコミュニケーションに非常に有益ですが、限界もあります。機械学習は、企業に文...

イスラエルの科学者がロボットにイナゴの耳を装備させ、バイオセンサーで画期的な進歩を遂げる

[[387788]]簡単に言えば、ロボットに「聞く」機能を持たせるには、音声信号を電気信号に変換し、...

研究により機械学習のバックドア問題が発見される

翻訳者 | 李睿校正:孫淑娟第三者が機械学習モデルを提供し、そこに悪意のあるバックドアを密かに埋め込...

上海交通大学卒業生によるソロ作品! 50年間のゼロ進歩アルゴリズム問題が解決された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

無人経済が新たな機会をもたらす

[[385322]]春節が過ぎ、広州のアパレル工場は「労働者の採用難」という問題に直面した。広州服装...