この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 人間は話すときに、話し方を豊かにするために自然にボディランゲージを使います。 現在、 USTC と JD.comの研究者は AI に次のような機能を搭載しています。 任意のタイプの音声オーディオを与えるだけで、対応するジェスチャーを実行できます。 とても自然なコラボレーションですね。 同じオーディオに対して、複数の異なるポーズを生成することもできます。 「デュアルストリーム」アーキテクチャを採用人それぞれ習慣が異なるため、発話と身体の動きの間には一定の対応関係がなく、発話生成姿勢を完成させる作業が少し難しくなります。 △ イタリア語で最も代表的なジェスチャー 既存の方法のほとんどは、特定のスタイルを条件として、決定論的に音声を対応する体の動きにマッピングしますが、その結果は特に理想的ではありません。 言語研究に触発されて、この記事の著者は、発話動作をポーズモードとリズムダイナミクスという 2 つの補完的な部分に分解し、新しい「speech2gesture」モデルであるFreeMoを提案しています。 FreeMo は「デュアル ストリーム」アーキテクチャを採用しており、1 つのブランチはメインの姿勢生成に使用され、もう 1 つのブランチは「リズムのビート」に使用されます。つまり、メインの姿勢に小さなリズミカルな動きを適用して、最終的な姿勢をより豊かで自然なものにします。 前述のように、話者の姿勢は主に習慣的なものであり、慣習的な意味論はありません。そのため、著者らは姿勢生成の形式に特別な制約を課すのではなく、条件付きサンプリングを導入して潜在空間内のさまざまな姿勢を学習しました。 処理を容易にするために、入力オーディオは非常に短いセグメントに分割され、音声特徴パラメータ MFCC と音声テキストが抽出されます。 主なジェスチャーは、音声テキストに一致するキーワードによって生成されます。 音声特徴パラメータ MFCC は、リズミカルな動きを生成するために使用されます。 リズムアクションジェネレーターは畳み込みネットワークで構成されています。具体的なプロセスは図に示されています。 1人はUSTCのXu Jing氏です。 赤いボックスは、アクション シーケンスの平均ポーズのオフセットを示します。 2 つのシーケンスのオフセットを交換することで、メインポーズに影響を与えずにモデルを「リズミカルに」制御できます。 より多様で、より自然に、より同期的にFreeMo のトレーニングおよびテスト ビデオには、多数のテレビ ホストのプログラムを含む専用の Speech2Gesture データセットが含まれています。 しかし、これらの動画は環境(観客の歓声など)によって大きく乱され、司会者の動きが制限される可能性があるため、著者らはトレーニングとテスト用にTEDスピーチ動画やYoutube動画もいくつか紹介しました。 比較される SOTA モデルは次のとおりです。
指標は 3 つあります。 (1)発話と動作の同期性 (2)行動の多様性 (3)話者の実際の動作と比較して得られる品質レベル。 その結果、FreeMo は 5 つの SOTA モデルを上回り、3 つの指標すべてで最高の結果を達成しました。 △ シンクロニシティスコア、低いほど良い 多様性と品質レベルのスコア ps. 5 つの SOTA モデルは本質的に学習された決定論的マッピングであるため、多様性はありません。 より直感的な品質比較: 左上には実際のスピーカーの動きが表示されています。FreeMo が最もパフォーマンスが良いことがわかります (Audio2Body も優れています)。 著者について1人はUSTCのXu Jing氏です。 責任著者は、JD.com の AI プラットフォームおよび研究部門の AI 研究所副所長、JD.com グループの技術担当副社長、IEEE フェローである Mei Taoです。 残りの3人の著者は、JD AIの研究者Zhang Wei氏とBai Yalong氏、USTCのSun Qibin教授です。 論文の宛先: コードはオープンソースです: |
<<: アンドリュー・ン氏との独占インタビュー: 今後 10 年間の AI、ハードウェア優先からデータ優先へ
>>: この遠隔操作脳実験は成功したが、ネットユーザーを怖がらせた
[[408920]]編集部注:人工知能(AI)の発達により、人々は徐々に未来についてより多様な想像...
参加者が50の文章を話している間に神経活動が収集されました。機械学習アルゴリズムは、収集されたデータ...
人工知能(AI)は、環境、教育、医療などの重要な問題の解決に新たな可能性をもたらします。人工知能は、...
[[351390]]コインの表裏のように、技術の進歩は人々の生産と生活を促進する一方で、深刻な実際...
AI の出現は雇用者と従業員の両方からさまざまな程度の懐疑と恐怖を招いてきましたが、リモートワークに...
ChatGPT は 11 月下旬のリリース以来、ビジネス、法律、医学部の大学院レベルの試験に合格する...
人間の脳にチップを埋め込み、脳とコンピューターの統合によってそれを制御するという話は、SFの世界から...
普遍的なグラフモデルはありますか?分子構造に基づいて毒性を予測するだけでなく、ソーシャル ネットワー...
マシンビジョン技術には、コンピューターサイエンス、人工知能、信号処理、画像処理、機械学習、光学、自動...
執筆者:Qianshan過去 1 か月間、OpenAI に関する物議を醸す報道が多くありました。一方...
報告書によると、医療における人工知能の主な応用分野の一つである医療ロボットの市場規模は2019年に4...