Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

最近、マイクロソフトは最新の Azure ニューラル ネットワーク音声合成技術 Uni-TTSv3 多言語音声合成モデルをリリースしました。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 音声合成は、忠実度が高く、速度が速く、トレーニング時間が短く、コストが低く、効率が高くなります。 Microsoft は、Uni-TTSv3 でアメリカ英語の合成女性音声 Jenny をアップグレードしました。新しくアップグレードされたJenny Multilingual Neuralは、クロスランゲージ機能を備え、14の国と地域の言語をサポートしています。さらに、Uni-TTSv3 に基づいて構築されたディープ ニューラル ネットワーク カスタマイズ音声サービスでは、言語間カスタマイズ サービス機能も拡張されました。お客様は、1 つの言語の録音データをコーパスとして提供するだけで、カスタマイズ モデルが同時に複数の言語を話せるようにトレーニングできます。

ジェニー多言語ニューラルオーディオの例

技術の継続的な進化により、Microsoft のインテリジェント音声パフォーマンスは実際の人間に匹敵するようになり、110 を超える国と地域の言語をサポートし、270 を超えるニューラル ネットワーク音声を提供しています。音声の使用シナリオをさらに拡大し、さまざまな業界の顧客の多様なニーズを満たすために、Microsoft Intelligent Voice は新しいサービスと機能を常に模索しています。

l多言語音声技術要件: 1つの音声だけで、世界中のユーザーを同時にカバーする多言語アプリケーション要件を生成できます。たとえば、仮想ゲームでは、多言語機能を備えたNPC(ノンプレイヤーキャラクター)を作成したり、インテリジェントなカスタマーサービスなどのシナリオで複数の言語を使用してユーザーとコミュニケーションしたりして、ユーザーエクスペリエンスを向上させることができます。

l安定的かつ効率的なプラットフォーム要件:音声モデルをより堅牢(システム安定性)にして、カスタマイズされたサービスシナリオでも外部環境の影響を受けないようにし、さまざまな種類のトレーニングデータを安定的かつ効率的に処理できるようにします。

上記の要求に対処し、以下の機能を改善するために、新世代のニューラル ネットワーク音声合成テクノロジ Uni-TTSv3 が提案されています。

高忠実度

Uni-TTSv3 は、FastSpeech 2 (高速で高品質の音声合成モデル) に基づいて構築された非自己回帰音声合成モデルです。実際の音声を直接トレーニングに使用し、発話速度、イントネーション、ストレス パターンなどの音声変化情報をさらに導入することで、合成音声の品質が向上します。音声の自然さを専門的に評価する、業界で認められたMOS(平均オピニオンスコア)テストの結果によると、さまざまな言語におけるインテリジェント合成女性音声Jenny Multilingual Neuralの平均スコアは4.2ポイント以上(合計5ポイント中)に達し、音声の忠実度が高いことが示されました。

Uni-TTSv3 モデル構造図

多言語サポート

Uni-TTSv3 は、多言語および多話者のデータセットでトレーニングされた強力な多言語音声モデルです。 Uni-TTSv3 は、50 を超えるさまざまな地域やアクセントの話者がさまざまなシナリオで録音した 3,000 時間以上の音声データをトレーニングすることで、多言語ユニバーサル基本音声モデルを構築し、AI 音声が発話速度、イントネーション、ストレス パターンを変更することなく複数の言語を解釈できるようにします。

トレーニング時間の短縮

Uni-TTSv3 は、Azure 音声合成プラットフォームとカスタム ニューラル音声を強化して、多言語音声をサポートします。 Uni-TTSv3 では、カスタム ニューラル音声トレーニング パイプラインをアップグレードし、お客様がより短いトレーニング時間で高品質の音声モデルを作成できるようにサポートします。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 のチューニング プロセスは、特に音響トレーニング部分でシンプルです。トレーニング時間は大幅に約 50% 短縮され、コストがさらに削減され、効率が向上します。

Uni-TTSv3 モデルトレーニング図

Uni-TTSv3 多言語音声合成モデルを今すぐ試してみませんか? Microsoft Azure Audio Content Creation Platform を使用して高品質の合成音声を作成してみませんか?今すぐ試すにはここをクリックしてください!

<<:  「ICV革新的アルゴリズム研究タスク」が正式にリリースされました!登録は11月18日に開始されます

>>:  ペンシルバニア大学は、ディープニューラルネットワークの対称構造を研究し、層ごとの剥離解析モデルを提案した。

ブログ    
ブログ    

推薦する

手書き認識のための単層基本ニューラルネットワーク

[[214992]]まず、コードテンソルフローをインポートする tensorflow.example...

ソースディレクトリ内のファイルをプレフィックスに応じて異なるディレクトリに分散するためのアルゴリズム設計と C コードの実装

1. 要件の説明Linux システムのソース ディレクトリには、同じサフィックスを持つファイルがいく...

ハイパーオートメーション — AIの新時代における自動化

ハイパーオートメーションとは何か、そして AI 主導のオートメーションが製品プロセスを改善してより迅...

...

生成 AI は SOC アナリストにどのような力を与えるのでしょうか?

今日のサイバーセキュリティの脅威がますます深刻化する中、セキュリティ オペレーション センター (S...

...

ボストン・ダイナミクスのロボット犬がチャットできるようになりました! ChatGPTは機知に富んだ会話をサポートします

すごいですね、ボストン・ダイナミクスのロボット犬が直接話せるようになりました。そして、Siriの「人...

スマートテクノロジーは高齢化問題の解決に役立つでしょうか?

世界保健機関によれば、2050年までに世界中で約20億人が60歳以上になると予想されています。これら...

DeepMindは、一般のプログラマーに匹敵するAlphaCodeをリリースしました。同日、OpenAIが数学オリンピックで優勝しました。

カールしすぎ!中国が春節を祝っている間、2つの有名なAI研究機関であるDeepMindとOpenAI...

論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

ジェネレーティブ AI は人工知能コミュニティに旋風を巻き起こしました。個人も企業も、Vincent...

大型モデル全般において中国と米国の差を縮めるにはどうすればいいでしょうか? 全国人民代表大会でその答えが分かった

「一般的な大きなモデルは国家の運命をめぐる闘争に関連している」... 「人工知能+」が政府活動報告に...

...

...

無人公共交通機関が議題に上がっており、自動運転はまだ改善の余地がある

10月21日、蘇州で5G無人バスの定期運行が開始された。蘇州高速鉄道新城でデビューしたこの無人バスは...

...