マイクロソフトの新しい AI テクノロジー: プロフィール写真を動かして感情を「伝える」

マイクロソフトの新しい AI テクノロジー: プロフィール写真を動かして感情を「伝える」

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

十分なコーパスがあれば、人間の顔の動きと発話動作を同期させることができることを示す研究が増えています。 2年前、カーネギーメロン大学の研究者たちは、ある人の顔の動きを別の人に転送する方法を説明する論文を発表しました。

今年6月、サムスンの応用科学者らは、人物の頭部のクローズアップショットで眉毛、口、まつ毛、頬をアニメーション化できるエンドツーエンドのモデルを発表した。わずか数週間後、Udacity は音声ナレーションからスタンドアップ ビデオ講義を自動的に生成できるシステムを実演しました。

マイクロソフトの研究チームは、これまでの研究と作業に基づいて、今週、ある技術を提案しました。彼らは、この技術によってトーキングヘッドアニメーションのリアリティを向上させることができると主張している。以前は、ヘッドアニメーションの生成には、ニュートラルなトーンのクリアで比較的ノイズのないオーディオが必要でした。現在、研究者らは、この技術によって音声シーケンスを発話内容や背景雑音などの要素に分解し、雑音が多く「感情的な」データサンプルを使用できると述べている。

Leifeng.com 注: 画像はMicrosoftから提供

ご存知のとおり、話し方は異なります。同じ単語でも、人によって文脈が異なり、持続性、振動の振幅、イントネーションなども異なります。声の内容に加えて、声自体にも豊富な情報が含まれており、人の感情状態、アイデンティティ(性別、年齢、人種)、性格などを明らかにすることができます。

実際、Microsoft の研究者が提案した手法は、潜在表示を備えた変分オートエンコーダ (VAE) の学習に基づいています。 VAE は、入力オーディオを、エンコードされたコンテンツ、表情、その他の変化要素を含むさまざまな表現に分解できます。入力オーディオに基づいて、いくつかのコンテンツ表現シーケンスが分布からサンプリングされます。このシーケンスは、入力された顔画像とともに、顔のアニメーション処理のためにビデオ ジェネレーターに送られます。

VAE をトレーニングしてテストするために、研究者は次の 3 つのデータ セットを選択しました。

  • GRID: これはオーディオビジュアルコーパスであり、それぞれに 34 人の話者による 1000 件の録音が含まれています。

  • CREMA-D: さまざまな民族の 91 人の俳優による 7442 本のビデオ クリップが含まれています。

  • LRS3: TED ビデオからの 100,000 以上の音声文を含むデータベース。

研究者らは、GRID と CREMA-D からのデータをモデルに入力して音声と感情の表現を識別し、次に、ピーク信号対雑音比 (PSNR) と構造類似性指数 (SSIM) という 2 つの定量的指標を使用して、生成されたビデオの品質を評価しました。

研究チームによれば、パフォーマンスの面では、彼らの方法はあらゆる基準で他の明瞭で中立的な話し方と同等だという。彼らは、このアプローチは感情の全範囲にわたって一貫して機能できるだけでなく、現在最先端の音声アバター方式すべてと互換性があることを指摘しています。

注目すべきは、その変種固有の学習可能な事前アプローチは、アイデンティティや性別などの他の音声要素にも拡張でき、将来の研究の一環として検討できるということです。研究者らは、ノイズの多い感情的な音声サンプルでモデルをテストしてその有効性を検証し、音声が変化する場合に現在の最先端技術よりも優れていることを示しました。

注: この記事は、venturebeat に掲載された KYLE WIGGERS の記事を翻訳したものです。

<<:  人工知能が教育を改善する32の方法

>>:  Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデル タスクの精度が最大 3 倍向上します。

ブログ    
ブログ    
ブログ    

推薦する

自己教師学習の効率限界を突破! Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

過去数年間、教師なし学習と自己教師あり学習 (SSL) は大きな進歩を遂げてきました。SSL を通じ...

OpenAIの最初の投資家コスラ氏:AIスタートアップのほとんどは過大評価されている

2019年10月25日、人工知能の新興企業OpenAIが非営利団体から「営利企業」へと転換した際、シ...

...

...

...

YOLOv5の魔法:手話を学び、聴覚障害者を支援する

コンピュータービジョンはアメリカ手話を学習して聴覚障害者を助けることができるでしょうか?データサイエ...

報告書は、中国が人工知能の特許出願数で世界一であると指摘している。

最近、2020年中国人工知能産業年次大会が蘇州で開催されました。大会で発表された「中国人工知能発展報...

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をい...

プログラミングアルゴリズムと人生の選択

毎年、就職活動の時期になると、どうやって内定を選んだらいいのか、テンセントに行くべきか豆板に行くべき...

Zookeeper の選出アルゴリズムとスプリットブレイン問題の詳細な説明

ZKの紹介ZK = 動物園の飼育係ZK は、マイクロサービス ソリューションにおけるサービス登録と検...

機械学習を利用してデータベースの運用と保守の問題を解決します

著者についてPing An Technology のデータベース チームの運用保守開発エンジニアであ...

同義千文の720億パラメータモデルがオープンソース化、初の「フルサイズ・フルモード」オープンソース化を実現

12月1日、アリババクラウド同義千文の720億パラメータモデルQwen-72Bがオープンソース化され...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT を企業の神経系と考えてください。これは、生産工場のあらゆる場所から貴重な情報を収集し...

研究によると、話題が真実か虚偽かに関係なく、AIが書いたマイクロブログは実際の人間よりも説得力があるという。

6月29日、最新の研究により、人工知能によって生成されたツイートは実際の人間が書いたものよりも説得...