Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

Uni-TTS音声合成モデルのアップグレード:1つの音声、複数の言語、高忠実度、高効率

最近、マイクロソフトは最新の Azure ニューラル ネットワーク音声合成技術 Uni-TTSv3 多言語音声合成モデルをリリースしました。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 音声合成は、忠実度が高く、速度が速く、トレーニング時間が短く、コストが低く、効率が高くなります。 Microsoft は、Uni-TTSv3 でアメリカ英語の合成女性音声 Jenny をアップグレードしました。新しくアップグレードされたJenny Multilingual Neuralは、クロスランゲージ機能を備え、14の国と地域の言語をサポートしています。さらに、Uni-TTSv3 に基づいて構築されたディープ ニューラル ネットワーク カスタマイズ音声サービスでは、言語間カスタマイズ サービス機能も拡張されました。お客様は、1 つの言語の録音データをコーパスとして提供するだけで、カスタマイズ モデルが同時に複数の言語を話せるようにトレーニングできます。

ジェニー多言語ニューラルオーディオの例

技術の継続的な進化により、Microsoft のインテリジェント音声パフォーマンスは実際の人間に匹敵するようになり、110 を超える国と地域の言語をサポートし、270 を超えるニューラル ネットワーク音声を提供しています。音声の使用シナリオをさらに拡大し、さまざまな業界の顧客の多様なニーズを満たすために、Microsoft Intelligent Voice は新しいサービスと機能を常に模索しています。

l多言語音声技術要件: 1つの音声だけで、世界中のユーザーを同時にカバーする多言語アプリケーション要件を生成できます。たとえば、仮想ゲームでは、多言語機能を備えたNPC(ノンプレイヤーキャラクター)を作成したり、インテリジェントなカスタマーサービスなどのシナリオで複数の言語を使用してユーザーとコミュニケーションしたりして、ユーザーエクスペリエンスを向上させることができます。

l安定的かつ効率的なプラットフォーム要件:音声モデルをより堅牢(システム安定性)にして、カスタマイズされたサービスシナリオでも外部環境の影響を受けないようにし、さまざまな種類のトレーニングデータを安定的かつ効率的に処理できるようにします。

上記の要求に対処し、以下の機能を改善するために、新世代のニューラル ネットワーク音声合成テクノロジ Uni-TTSv3 が提案されています。

高忠実度

Uni-TTSv3 は、FastSpeech 2 (高速で高品質の音声合成モデル) に基づいて構築された非自己回帰音声合成モデルです。実際の音声を直接トレーニングに使用し、発話速度、イントネーション、ストレス パターンなどの音声変化情報をさらに導入することで、合成音声の品質が向上します。音声の自然さを専門的に評価する、業界で認められたMOS(平均オピニオンスコア)テストの結果によると、さまざまな言語におけるインテリジェント合成女性音声Jenny Multilingual Neuralの平均スコアは4.2ポイント以上(合計5ポイント中)に達し、音声の忠実度が高いことが示されました。

Uni-TTSv3 モデル構造図

多言語サポート

Uni-TTSv3 は、多言語および多話者のデータセットでトレーニングされた強力な多言語音声モデルです。 Uni-TTSv3 は、50 を超えるさまざまな地域やアクセントの話者がさまざまなシナリオで録音した 3,000 時間以上の音声データをトレーニングすることで、多言語ユニバーサル基本音声モデルを構築し、AI 音声が発話速度、イントネーション、ストレス パターンを変更することなく複数の言語を解釈できるようにします。

トレーニング時間の短縮

Uni-TTSv3 は、Azure 音声合成プラットフォームとカスタム ニューラル音声を強化して、多言語音声をサポートします。 Uni-TTSv3 では、カスタム ニューラル音声トレーニング パイプラインをアップグレードし、お客様がより短いトレーニング時間で高品質の音声モデルを作成できるようにサポートします。以前の世代の音声合成モデルと比較すると、Uni-TTSv3 のチューニング プロセスは、特に音響トレーニング部分でシンプルです。トレーニング時間は大幅に約 50% 短縮され、コストがさらに削減され、効率が向上します。

Uni-TTSv3 モデルトレーニング図

Uni-TTSv3 多言語音声合成モデルを今すぐ試してみませんか? Microsoft Azure Audio Content Creation Platform を使用して高品質の合成音声を作成してみませんか?今すぐ試すにはここをクリックしてください!

<<:  「ICV革新的アルゴリズム研究タスク」が正式にリリースされました!登録は11月18日に開始されます

>>:  ペンシルバニア大学は、ディープニューラルネットワークの対称構造を研究し、層ごとの剥離解析モデルを提案した。

ブログ    
ブログ    

推薦する

...

...

データサイエンスの現在と未来

データサイエンスは、近年テクノロジー分野で最もホットな分野の 1 つです。データサイエンスまたは関連...

2025年にはL3自動運転が普及する。まだ手動で運転しているのですか?

最近、中国自動車工学協会副秘書長、国際自動車工学科学技術革新戦略研究所執行理事の侯福神氏は上海モータ...

人間の脳神経を模倣してAIを開発!ケンブリッジ大学の最新研究がネイチャー誌に掲載:人工脳がAIの新たな方向性となる

地球上で最も複雑な知能の担い手である人間の脳の最大の特徴の 1 つは、高いエネルギー効率で知能を生み...

海外メディア:科学者らが深海を探索できる魚のようなソフトロボットを設計

3月4日のニュース、外国メディアの報道によると、ネイチャー誌に最近発表された研究によると、中国のエン...

...

AI が会議をよりクリエイティブにする 5 つの方法

[[263855]]人工知能について考えるとき、まず頭に浮かぶのは人間とのコミュニケーション、特に非...

AIが「自由意志」を持つとき

人工知能が盛んに使われる一方で、この技術に伴う問題や潜在的な脅威も現れつつあります。 AI技術の「価...

...

対照学習も次元の崩壊を引き起こすのでしょうか? LeCunとTian Yuandongのチームの新しい研究DirectCLRは、

[[431792]]自己教師学習はコンピューター ビジョンで広く使用されており、手動で注釈を付ける...

人工知能はビジネスモデルの革新を促進し、行動の変化を予測することがより一般的になっている

[[353959]]現在、世界の主要国は人工知能産業の発展を非常に重視しています。我が国は、新世代の...

AIと機械学習がDevOpsをどう変えるのか

人工知能と機械学習が DevOps に新たな自動化機能をもたらすにつれて、これらのテクノロジーが組織...

...

トランスフォーマーの層が 2 層未満で、注意ブロックのみの場合、GPT-3: 問題を起こそうとしていますか?

過去 2 年間にわたり、Transformer アーキテクチャに基づいて開発された大規模言語モデルは...