マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは「潜在拡散」設計を採用しており、ゼロサンプル音声合成において優れた結果を示しています。マイクロソフトは、このモデルが「商用グレード」の音声/歌唱ソリューションを提供し、ユーザーに高品質で多様な音声合成体験を提供できると主張しています。 Microsoft は NaturalSpeech2 の一連のデモンストレーションを実施し、ゼロショットの状況でさまざまな話者のアイデンティティ、韻律、スタイル (歌唱など) の音声を生成する能力を示しました。 ▲ 画像出典: NaturalSpeech 2 論文 従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表現するために「個別のタグ」ではなく「連続ベクトル」を使用するため、より完全な音声セグメントが生成され、 「感情の欠如」や「棒読み (単語ごとに話す)」現象が発生しないことが報告されています。 ▲ 画像出典: NaturalSpeech 2 論文 実験結果によると、ゼロサンプル条件下でNaturalSpeech2によって生成された音声は、音声プロンプトや実際の音声のリズムとほぼ一致しており、LibriTTSおよびVCTKテストセットでの自然さ(CMOSで測定)は実際の人間の音声と区別するのが困難です。 このプロジェクトの論文は GitHub で公開されています。興味のある IT Home の友人は、ここをクリックしてアクセスできます。 |
<<: スマートフォンアプリケーションにおける人工知能の役割
>>: アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ
[[390952]]人工知能 (AI) を使用して細胞の 3D 構造にラベルを付けて識別することは、...
Python は機械学習の分野で広く使われるようになりました。しかし、Python は、全能の神が...
2019年、中国の人工知能市場は「熱狂的」だった。IDCの統計によると、世界の人工知能市場規模は20...
[51CTO.comよりオリジナル記事] 6月21日、51CTO主催のWOT2019グローバル人工知...
人工知能は現在、ビジネスと金融のあらゆる側面に急速に導入されています。いくつかの刺激的な成功により、...
1. ニューラルネットワークを構築してレイヤーを追加する入力値、入力サイズ、出力サイズ、活性化関数ニ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
Transformer などの主流のテキスト生成アルゴリズムの単語単位の生成は、並列計算に適した ...
[[408223]] 6月30日のニュース 6月24日、マイクロソフトは一連の新たな改良を加えたWi...
なぜ良いチャットボットがないのでしょうか? これは私がかなり頻繁に、おそらく平均して週に 2 回は聞...
著者らは、高速化された SAM モデル ファミリである EfficientViT-SAM を提案しま...
人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...
[[428240]]みなさんこんにちは、カソンです。 React ソース コードは、さまざまなモジュ...