Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

最近、マイクロソフトは最新の Azure ニューラル ネットワーク音声合成技術 Uni-TTSv3 多言語音声合成モデルをリリースしました。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 音声合成は、忠実度が高く、速度が速く、トレーニング時間が短く、コストが低く、効率が高くなります。 Microsoft は、Uni-TTSv3 でアメリカ英語の合成女性音声 Jenny をアップグレードしました。新しくアップグレードされたJenny Multilingual Neuralは、クロスランゲージ機能を備え、14の国と地域の言語をサポートしています。さらに、Uni-TTSv3 に基づいて構築されたディープ ニューラル ネットワーク カスタマイズ音声サービスでは、言語間カスタマイズ サービス機能も拡張されました。お客様は、1 つの言語の録音データをコーパスとして提供するだけで、カスタマイズ モデルが同時に複数の言語を話せるようにトレーニングできます。

ジェニー多言語ニューラルオーディオの例

技術の継続的な進化により、Microsoft のインテリジェント音声パフォーマンスは実際の人間に匹敵するようになり、110 を超える国と地域の言語をサポートし、270 を超えるニューラル ネットワーク音声を提供しています。音声の使用シナリオをさらに拡大し、さまざまな業界の顧客の多様なニーズを満たすために、Microsoft Intelligent Voice は新しいサービスと機能を常に模索しています。

l多言語音声技術要件: 1つの音声だけで、世界中のユーザーを同時にカバーする多言語アプリケーション要件を生成できます。たとえば、仮想ゲームでは、多言語機能を備えたNPC(ノンプレイヤーキャラクター)を作成したり、インテリジェントなカスタマーサービスなどのシナリオで複数の言語を使用してユーザーとコミュニケーションしたりして、ユーザーエクスペリエンスを向上させることができます。

l安定的かつ効率的なプラットフォーム要件:音声モデルをより堅牢(システム安定性)にして、カスタマイズされたサービスシナリオでも外部環境の影響を受けないようにし、さまざまな種類のトレーニングデータを安定的かつ効率的に処理できるようにします。

上記の要求に対処し、以下の機能を改善するために、新世代のニューラル ネットワーク音声合成テクノロジ Uni-TTSv3 が提案されています。

高忠実度

Uni-TTSv3 は、FastSpeech 2 (高速で高品質の音声合成モデル) に基づいて構築された非自己回帰音声合成モデルです。実際の音声を直接トレーニングに使用し、発話速度、イントネーション、ストレス パターンなどの音声変化情報をさらに導入することで、合成音声の品質が向上します。音声の自然さを専門的に評価する、業界で認められたMOS(平均オピニオンスコア)テストの結果によると、さまざまな言語におけるインテリジェント合成女性音声Jenny Multilingual Neuralの平均スコアは4.2ポイント以上(合計5ポイント中)に達し、音声の忠実度が高いことが示されました。

Uni-TTSv3 モデル構造図

多言語サポート

Uni-TTSv3 は、多言語および多話者のデータセットでトレーニングされた強力な多言語音声モデルです。 Uni-TTSv3 は、50 を超えるさまざまな地域やアクセントの話者がさまざまなシナリオで録音した 3,000 時間以上の音声データをトレーニングすることで、多言語ユニバーサル基本音声モデルを構築し、AI 音声が発話速度、イントネーション、ストレス パターンを変更することなく複数の言語を解釈できるようにします。

トレーニング時間の短縮

Uni-TTSv3 は、Azure 音声合成プラットフォームとカスタム ニューラル音声を強化して、多言語音声をサポートします。 Uni-TTSv3 では、カスタム ニューラル音声トレーニング パイプラインをアップグレードし、お客様がより短いトレーニング時間で高品質の音声モデルを作成できるようにサポートします。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 のチューニング プロセスは、特に音響トレーニング部分でシンプルです。トレーニング時間は大幅に約 50% 短縮され、コストがさらに削減され、効率が向上します。

Uni-TTSv3 モデルトレーニング図

Uni-TTSv3 多言語音声合成モデルを今すぐ試してみませんか? Microsoft Azure Audio Content Creation Platform を使用して高品質の合成音声を作成してみませんか?今すぐ試すにはここをクリックしてください!

<<:  「ICV革新的アルゴリズム研究タスク」が正式にリリースされました!登録は11月18日に開始されます

>>:  ペンシルバニア大学は、ディープニューラルネットワークの対称構造を研究し、層ごとの剥離解析モデルを提案した。

ブログ    
ブログ    
ブログ    

推薦する

...

今日のアルゴリズム: 文字列の乗算

[[421393]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

OpenAIがロボットチームを解散、創設者は「これまでで最高の決断」と語る

OpenAIの共同創設者であるヴォイチェフ・ザレンバ氏はポッドキャストで、OpenAIがロボット工学...

ジオメトリテクスチャ再構築における新しい SOTA!浙江大学がSIFUを提案:一枚の画像で高品質の3D人体モデルを再構築可能

AR、VR、3Dプリント、シーン構築、映画制作など多くの分野において、衣服を着た人体の高品質な3Dモ...

1 つの記事で 4 つの基本的なニューラル ネットワーク アーキテクチャを理解する

[[260546]]ニューラル ネットワークを使い始めたばかりのときは、ニューラル ネットワーク ア...

顔認識システムにおける「バイアス」のジレンマとは何ですか?ジェフ・ディーンは、この若者のスピーチに思わず賛同した。

AIアルゴリズムの偏り(性別、人種など)は海外ではもはや新しい話題ではありません。少し前には、イン...

人工知能が私たちの日常生活を変える5つの方法

人工知能はもはや未来的な概念ではなく、私たちの日常生活に欠かせないものとなっています。私たちが目覚め...

本物と見間違えるほどリアルなAI変顔技術は本当に完璧なのか?

囲碁界の無敵の「アルファ碁」から、どこにでもある「顔認識」まで、機械学習は人々の生活に驚異的な変化を...

インテリジェントロボット:伝染病との戦いを強化し、スマート医療への道を探る

ビッグデータ技術は画像認識や遺伝子配列解析などの分野で先駆的な役割を果たしており、インテリジェントロ...

テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

[[313367]]テスラのエンジニアたちは、データの拡大に伴ってエンジニアの数を増やすことなく、...

戦争における顔認識:フランスの諜報機関がチェチェン兵士の身元を発掘、ウクライナは捕虜の身元確認に利用

ビッグデータダイジェスト制作ロシアとウクライナの紛争が始まると、カディロフ・ジュニアはチェチェンの首...

AIは人間社会のさまざまなビジネスモデルをどのように変えるのでしょうか?

過去20年間、一部の懐疑論者は、人工知能(AI)の発展が企業構造を混乱させ、大量の失業と富の格差の拡...

米国は中国のハイテク製品を全面的に禁止する「2021年戦略競争法」を提案した。

米国の民主党と共和党は常に深刻な対立関係にあるが、両党は中国との対決という一つの問題において稀な一致...

ボストン・ダイナミクスの最新倉庫ロボットは1時間あたり800個のレンガを移動できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械はどのように学習するのでしょうか?人工知能の「双方向戦闘」を詳しく解説

金庸の武侠小説『射雁英雄伝』には、桃花島に閉じ込められた「悪童」周伯同が「左右の格闘術」を編み出した...