Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

今年初め、検索大手の百度は、人気のディープラーニング技術を使用してテキスト読み上げ(TTS)変換を実現する「DeepVoice」という新しいAIシステムを立ち上げました。 DeepVoice の最初のバージョンでは、短い文章を生成できるため、注意深く聞かないと、実際の人間が話しているように思えるかもしれません。このシステムは一度に 1 つの音を学習し、わずか数時間で習得することができます。今年5月に発売されたDeepVoice 2は、1時間以内にアクセントを真似ることができ、単一のシステムで何百もの異なるアクセントを学習できる。

現在、百度はDeepVoiceの「最終バージョン」をリリースしており、30分ごとに1万の音声のデータ学習を完了できると主張している。多種多様なサウンドを効率的に生成するこの技術は、多くのユースケースへの扉を開きます。

たとえば、オーディオブックやビデオゲームでは、各キャラクターに独自の声を持たせることで、ユーザーエクスペリエンスを向上させることができます。しかし、実際の人物による吹き替えと比較すると、Baidu DeepVoice によって生成されたアクセントには、依然として非常に明らかな合成感が残っています。

これに対し、百度は、これは彼らの目標ではないと答えた。「1つか2つのアクセントしか生成されない場合、当社のシステムは、かなり自然で人間のアクセントに近いものを合成できることがずっと前から証明されており、デジタルアシスタントとして簡単に使用できます。」

Deep Voice 3 アーキテクチャ図

Baidu がやろうとしているのは、複数のアクセントや文字間の微妙な違いを把握できるシステムを構築することです。

これは、スケーリングによって何が可能かを示すための初期作業にすぎません。私たちのシステムは、これまで公開された TTS モデルでは達成できなかった規模までトレーニングをスケールアップすることに成功しました。

大規模で高品質なデータセットの使用と追加の機械学習エンジニアリングトレーニングにより、近い将来にその品質が大幅に向上すると考えています。

注目すべきは、Baidu がコンピューター音声合成に取り組んでいる唯一の検索大手ではないということだ。Google の DeepMind 部門も WaveNet と呼ばれる同様のプロジェクトに取り組んでいる。

最新バージョンの WaveNet では、アクセントの習得がさらに向上し、本物の人間のような「唇の音」も生成できるようになりました。現在、Google アシスタントの英語版と日本語版で使用されています。

[TheVergeより翻訳、出典:Baidu Research Institute]

<<:  ロンドンの顔認識で誤った人物が逮捕される:合理的な使用が鍵

>>:  世界各国の人工知能の配置をご存知ですか?

ブログ    
ブログ    

推薦する

一流大学のAIが一流弁護士に勝つ:契約書のレビューを26秒で完了

最近、アメリカの一流弁護士たちが人工知能と競争したが、弁護士たちは負けたと報じられている。法律AIプ...

2020 年の AI トレンド トップ 10

デジタル労働力をサポートし維持するために職場で AI が普及することは、2020 年の明確なトレンド...

...

1時間から3.5分まで、Metaの新しいアルゴリズムは携帯電話で3D顔データを収集できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

世界各国の人工知能の配置をご存知ですか?

[[207472]]人工知能は未来をリードする戦略技術です。世界の主要先進国は人工知能の発展を国家...

人工知能が話題になって3年。雇用情勢は依然として明るいのか?

私が人工知能の分野で働き始めた頃は、まだ広大な海でした。モデルの展開方法さえ知っていれば、モデルの調...

予測 AI は顧客とのつながりをどのように変えるのでしょうか?

[[422098]]予測分析は、私たちが必ずしも気づいていないとしても、私たちの生活の多くの分野に...

人工知能によって破壊される可能性のある7つの業界

[[417720]]人工知能は最先端の技術から人々の日常生活に組み込まれる技術へと急速に進化していま...

愚かではないチャットボットを構築したいですか? 6つの実用的なガイドラインをご紹介します

AppleがSiriを発表してから7年、そしてジェフ・ベゾスがスタートレックにインスピレーションを得...

大型模型のレイアウトは何度も変わります!

ChatGPT の Android バージョンが登場します。 OpenAI は今年 5 月に早くも...

都市のモビリティの変化: スマートシティにおけるインテリジェント交通

持続可能で住みやすい都市空間を創造するために、世界中の都市がスマートシティの概念を採用しています。こ...

私の国のドローンは新たな段階に入り、成熟した開発にはまだ3つのレベルを通過する必要があります

[[428031]]先日の建国記念日、ドローンは間違いなく「最もクールな存在」でした。交通の補助、景...

...

人工知能に関してどのような基礎教育が必要でしょうか?

人工知能の基礎教育を強化することは、将来の社会の発展に備えるための避けられない選択であり、要件です。...

OpenAI憲章中国語版

この文書は、OpenAI 内外の多くの人々からのフィードバックを含め、過去 2 年間にわたって改良し...