Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

今年初め、検索大手の百度は、人気のディープラーニング技術を使用してテキスト読み上げ(TTS)変換を実現する「DeepVoice」という新しいAIシステムを立ち上げました。 DeepVoice の最初のバージョンでは、短い文章を生成できるため、注意深く聞かないと、実際の人間が話しているように思えるかもしれません。このシステムは一度に 1 つの音を学習し、わずか数時間で習得することができます。今年5月に発売されたDeepVoice 2は、1時間以内にアクセントを真似ることができ、単一のシステムで何百もの異なるアクセントを学習できる。

現在、百度はDeepVoiceの「最終バージョン」をリリースしており、30分ごとに1万の音声のデータ学習を完了できると主張している。多種多様なサウンドを効率的に生成するこの技術は、多くのユースケースへの扉を開きます。

たとえば、オーディオブックやビデオゲームでは、各キャラクターに独自の声を持たせることで、ユーザーエクスペリエンスを向上させることができます。しかし、実際の人物による吹き替えと比較すると、Baidu DeepVoice によって生成されたアクセントには、依然として非常に明らかな合成感が残っています。

これに対し、百度は、これは彼らの目標ではないと答えた。「1つか2つのアクセントしか生成されない場合、当社のシステムは、かなり自然で人間のアクセントに近いものを合成できることがずっと前から証明されており、デジタルアシスタントとして簡単に使用できます。」

Deep Voice 3 アーキテクチャ図

Baidu がやろうとしているのは、複数のアクセントや文字間の微妙な違いを把握できるシステムを構築することです。

これは、スケーリングによって何が可能かを示すための初期作業にすぎません。私たちのシステムは、これまで公開された TTS モデルでは達成できなかった規模までトレーニングをスケールアップすることに成功しました。

大規模で高品質なデータセットの使用と追加の機械学習エンジニアリングトレーニングにより、近い将来にその品質が大幅に向上すると考えています。

注目すべきは、Baidu がコンピューター音声合成に取り組んでいる唯一の検索大手ではないということだ。Google の DeepMind 部門も WaveNet と呼ばれる同様のプロジェクトに取り組んでいる。

最新バージョンの WaveNet では、アクセントの習得がさらに向上し、本物の人間のような「唇の音」も生成できるようになりました。現在、Google アシスタントの英語版と日本語版で使用されています。

[TheVergeより翻訳、出典:Baidu Research Institute]

<<:  ロンドンの顔認識で誤った人物が逮捕される:合理的な使用が鍵

>>:  世界各国の人工知能の配置をご存知ですか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

空中戦における人工知能の応用

現在、世界中の軍隊が AI を活用した防衛システムの実験を始めています。 AIを完全に理解して既存の...

フロスト&サリバンは、倉庫管理用の自律配送ロボットの市場が2025年までに272億ドルに達すると予測している。

コロナウイルスのパンデミックが業界に与える影響の程度は地域や業種によって異なると報告書は述べている合...

ソフトウェアテストに AI を統合する 9 つのメリット

[[390945]] [51CTO.com 速訳]人工知能の普及は人々に大きな期待をもたらしました。...

Adobeは、より高品質な画像を提供するために、AI生成モデルの新世代であるFirefly Image 2をリリースしました。

アドビは10月11日、先日開催されたAdobe MAXクリエイティブカンファレンスにおいて、同社のA...

元Googleロボット部門責任者が伸縮自在のアシスタントロボットを開発

海外メディアの報道によると、過去3年間、グーグルの元ロボット工学部長であるアーロン・エドシンガー博士...

マスク氏はAIが人間を超えると述べ、それを信じない人は単に賢いだけだと語る

北京時間7月23日、テスラのCEOイーロン・マスク氏は水曜日、人工知能(AI)の将来についての懸念を...

データが人工知能の基盤となる理由

データ注釈とは何ですか?ほとんどのデータはラベル付けされておらず、非構造化データですが、人工知能のト...

Yann LeCun 氏は衝撃的な発言をしました。「ディープラーニングは死んだ、微分可能プログラミング万歳!」

ディープラーニングの分野で最も有名な学者の一人であるヤン・ルカン氏が本日、自身のFacebookに投...

2023年振り返り、大型模型産業の急速な発展の365日

4兆度(345MeV)は、2010年に米国ニューヨークのブルックヘブン国立研究所が相対論的重イオン衝...

第19回全国大会報告書に人工知能が盛り込まれました!私の国のAIの4つの大きな利点と唯一の欠点

[[206874]]昨日、中国共産党第19回全国代表大会が開幕した。 AIの重要なポイントを強調して...

AIの偏見を公平に防ぐ方法

人工知能 (AI) には、ビジネス運営に革命を起こす大きな可能性があります。実際、ある調査によると、...

...

...