Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは「潜在拡散」設計を採用しており、ゼロサンプル音声合成において優れた結果を示しています。マイクロソフトは、このモデルが「商用グレード」の音声/歌唱ソリューションを提供し、ユーザーに高品質で多様な音声合成体験を提供できると主張しています。

Microsoft は NaturalSpeech2 の一連のデモンストレーションを実施し、ゼロショットの状況でさまざまな話者のアイデンティティ、韻律、スタイル (歌唱など) の音声を生成する能力を示しました。

▲ 画像出典: NaturalSpeech 2 論文

従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表現するために「個別のタグ」ではなく「連続ベクトル」を使用するため、より完全な音声セグメントが生成され、 「感情の欠如」や「棒読み (単語ごとに話す)」現象が発生しないことが報告されています。

▲ 画像出典: NaturalSpeech 2 論文

実験結果によると、ゼロサンプル条件下でNaturalSpeech2によって生成された音声は、音声プロンプトや実際の音声のリズムとほぼ一致しており、LibriTTSおよびVCTKテストセットでの自然さ(CMOSで測定)は実際の人間の音声と区別するのが困難です

このプロジェクトの論文は GitHub で公開されています。興味のある IT Home の友人は、ここをクリックしてアクセスできます。

<<:  スマートフォンアプリケーションにおける人工知能の役割

>>:  アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

ブログ    
ブログ    
ブログ    

推薦する

AIは細胞構造の識別において人間にはできないことができる

[[390952]]人工知能 (AI) を使用して細胞の 3D 構造にラベルを付けて識別することは、...

なぜ機械学習展開プラットフォームを Python ではなく Go で作成したのでしょうか?

Python は機械学習の分野で広く使われるようになりました。しかし、Python は、全能の神が...

2019年の人工知能レビュー:産業の発展は急速な進展を遂げている

2019年、中国の人工知能市場は「熱狂的」だった。IDCの統計によると、世界の人工知能市場規模は20...

AI基盤を強化し、業界の実践に注力する---WOTグローバル人工知能技術サミット機械学習実践フォーラムの記録

[51CTO.comよりオリジナル記事] 6月21日、51CTO主催のWOT2019グローバル人工知...

AIビッグモデルは今後も拡大し続けるのか?

人工知能は現在、ビジネスと金融のあらゆる側面に急速に導入されています。いくつかの刺激的な成功により、...

TensorFlow 学習ニューラルネットワーク構築

1. ニューラルネットワークを構築してレイヤーを追加する入力値、入力サイズ、出力サイズ、活性化関数ニ...

OpenAIは、かつてAGIロボットの開発に取り組んだロボット工学チームを解散。創設者:最良の決断

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

国際翻訳コンテストで優勝したモデルがByteDanceによってオープンソース化された。

Transformer などの主流のテキスト生成アルゴリズムの単語単位の生成は、並列計算に適した ...

チャットボットについては長い間話されてきましたが、良いチャットボットとはどのように定義されるのでしょうか?

なぜ良いチャットボットがないのでしょうか? これは私がかなり頻繁に、おそらく平均して週に 2 回は聞...

EfficientViT-SAM: 精度を変えずにその場で離陸!

著者らは、高速化された SAM モデル ファミリである EfficientViT-SAM を提案しま...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

LRUアルゴリズムの概念から実装まで、React非同期開発の未来

[[428240]]みなさんこんにちは、カソンです。 React ソース コードは、さまざまなモジュ...