Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは「潜在拡散」設計を採用しており、ゼロサンプル音声合成において優れた結果を示しています。マイクロソフトは、このモデルが「商用グレード」の音声/歌唱ソリューションを提供し、ユーザーに高品質で多様な音声合成体験を提供できると主張しています。

Microsoft は NaturalSpeech2 の一連のデモンストレーションを実施し、ゼロショットの状況でさまざまな話者のアイデンティティ、韻律、スタイル (歌唱など) の音声を生成する能力を示しました。

▲ 画像出典: NaturalSpeech 2 論文

従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表現するために「個別のタグ」ではなく「連続ベクトル」を使用するため、より完全な音声セグメントが生成され、「感情の欠如」や「棒読み (単語ごとに話す)」現象が発生しないことが報告されています。

▲ 画像出典: NaturalSpeech 2 論文

実験結果によると、ゼロサンプル条件下でNaturalSpeech2によって生成された音声は、音声プロンプトや実際の音声のリズムとほぼ一致しており、LibriTTSおよびVCTKテストセットでの自然さ（CMOSで測定）は実際の人間の音声と区別するのが困難です。

このプロジェクトの論文は GitHub で公開されています。興味のある IT Home の友人は、ここをクリックしてアクセスできます。

<<: スマートフォンアプリケーションにおける人工知能の役割

>>: アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

人工知能の新たなブレークスルー：ニューラルネットワークが画像内の物体を自律的に識別できる

人工知能の新たなブレークスルー：ニューラルネットワークが画像内の物体を自律的に識別できる

ブログ

トレンド検索No.1！ B駅のアップマスターはAIを使って李大昭、陳延年らを笑顔にした

トレンド検索No.1！ B駅のアップマスターはAIを使って李大昭、陳延年らを笑顔にした

ブログ

TensorFlow には重大なバグがあり、Keras と併用すると重量が減る可能性があるが、まだ修正されていない。

TensorFlow には重大なバグがあり、Keras と併用すると重量が減る可能性があるが、まだ修正されていない。

ブログ

AMD: Meta はクラウドチップを使用して新しい AI 戦略をサポートします

AMD: Meta はクラウドチップを使用して新しい AI 戦略をサポートします

ブログ

AIも失業するだろう。スウェーデンの銀行はAIを解雇した

AIも失業するだろう。スウェーデンの銀行はAIを解雇した

ブログ

ブログ

ChatGPTを使用して安全ヘルメット着用検出プロジェクトを完全に自動的に開発する

ChatGPTを使用して安全ヘルメット着用検出プロジェクトを完全に自動的に開発する

ブログ

教育におけるAIの役割: AIが学習方法をどのように変えるか

教育におけるAIの役割: AIが学習方法をどのように変えるか

ブログ

ブログ

ブログ

推薦する

AIは細胞構造の識別において人間にはできないことができる

[[390952]]人工知能 (AI) を使用して細胞の 3D 構造にラベルを付けて識別することは、...

なぜ機械学習展開プラットフォームを Python ではなく Go で作成したのでしょうか?

Python は機械学習の分野で広く使われるようになりました。しかし、Python は、全能の神が...

2019年の人工知能レビュー：産業の発展は急速な進展を遂げている

2019年、中国の人工知能市場は「熱狂的」だった。IDCの統計によると、世界の人工知能市場規模は20...

AI基盤を強化し、業界の実践に注力する---WOTグローバル人工知能技術サミット機械学習実践フォーラムの記録

[51CTO.comよりオリジナル記事] 6月21日、51CTO主催のWOT2019グローバル人工知...

AIビッグモデルは今後も拡大し続けるのか？

人工知能は現在、ビジネスと金融のあらゆる側面に急速に導入されています。いくつかの刺激的な成功により、...

TensorFlow 学習ニューラルネットワーク構築

1. ニューラルネットワークを構築してレイヤーを追加する入力値、入力サイズ、出力サイズ、活性化関数ニ...

OpenAIは、かつてAGIロボットの開発に取り組んだロボット工学チームを解散。創設者：最良の決断

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載...

...

...

国際翻訳コンテストで優勝したモデルがByteDanceによってオープンソース化された。

Transformer などの主流のテキスト生成アルゴリズムの単語単位の生成は、並列計算に適した ...

マイクロソフトはWindows 11アプリストアの検索アルゴリズムを改善し、ブラウザウェブアプリのインストールをサポートする予定

[[408223]] 6月30日のニュース 6月24日、マイクロソフトは一連の新たな改良を加えたWi...

チャットボットについては長い間話されてきましたが、良いチャットボットとはどのように定義されるのでしょうか?

なぜ良いチャットボットがないのでしょうか? これは私がかなり頻繁に、おそらく平均して週に 2 回は聞...

EfficientViT-SAM: 精度を変えずにその場で離陸!

著者らは、高速化された SAM モデルファミリである EfficientViT-SAM を提案しま...

この記事では人工知能とは何かを徹底的に解説します！

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

LRUアルゴリズムの概念から実装まで、React非同期開発の未来

[[428240]]みなさんこんにちは、カソンです。 React ソースコードは、さまざまなモジュ...