Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

Microsoft が NaturalSpeech2 音声合成モデルを発表: 音声再構成は「より正確」になり、「行き詰まる」こともなくなる

マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは「潜在拡散」設計を採用しており、ゼロサンプル音声合成において優れた結果を示しています。マイクロソフトは、このモデルが「商用グレード」の音声/歌唱ソリューションを提供し、ユーザーに高品質で多様な音声合成体験を提供できると主張しています。

Microsoft は NaturalSpeech2 の一連のデモンストレーションを実施し、ゼロショットの状況でさまざまな話者のアイデンティティ、韻律、スタイル (歌唱など) の音声を生成する能力を示しました。

▲ 画像出典: NaturalSpeech 2 論文

従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表現するために「個別のタグ」ではなく「連続ベクトル」を使用するため、より完全な音声セグメントが生成され、 「感情の欠如」や「棒読み (単語ごとに話す)」現象が発生しないことが報告されています。

▲ 画像出典: NaturalSpeech 2 論文

実験結果によると、ゼロサンプル条件下でNaturalSpeech2によって生成された音声は、音声プロンプトや実際の音声のリズムとほぼ一致しており、LibriTTSおよびVCTKテストセットでの自然さ(CMOSで測定)は実際の人間の音声と区別するのが困難です

このプロジェクトの論文は GitHub で公開されています。興味のある IT Home の友人は、ここをクリックしてアクセスできます。

<<:  スマートフォンアプリケーションにおける人工知能の役割

>>:  アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

ブログ    
ブログ    
ブログ    

推薦する

専門家:歩行者の安全問題を解決するために都市は自動運転だけに頼ることはできない

自動運転技術が業界全体で開発のマイルストーンに到達し続ける一方で、都市は自動運転車(AV)の目標を補...

「映画を見る」こと以外に、人工知能は医療の分野で何ができるのでしょうか?

6月26日に開催されたセコイア・グローバル・ヘルスケア産業サミットで、スタンフォード大学のフェイフ...

元GitHub CEO:AIプログラミングアシスタントCopilotは価格よりも安く、損失はない

10月13日、元マイクロソフト幹部で元GitHub CEOのナット・フリードマン氏は、10月12日に...

ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

今週、フランスのパリで国際コンピュータビジョン会議 (ICCV) が開幕しました。 ICCVはコンピ...

AIは自メディア記事の質を知っている。これがWeChatの自動評価アルゴリズムだ

セルフメディアの時代において、すべてのパブリックアカウントは、自分の記事をより多くの人に見てもらえる...

キング・オブ・グローリーのプレイからサッカーのプレイまで、テンセントのAIが再び進化

テンセントは12月30日、同社の人工知能チームが第1回Google Football Kaggleコ...

2022 年に予測されるロボティック プロセス オートメーションのトップ 10 トレンド

ロボティック プロセス オートメーション (RPA) を導入する企業の主な目標は、時間のかかる反復的...

AIがまだ人間を超えられない9つの分野

人工知能技術の急速な発展により、画像認識や音声認識など多くの分野で大きな進歩を遂げ、一部の分野では人...

RNN の理論から PyTorch まで

RNN とは何か、どこで使用されているか、どのように前方および後方に伝播するか、そして PyTorc...

AIは近い将来自己認識できるようになるのでしょうか? Facebook がメタバースへの扉を開く「Ego4D」を発表

ある日、ヘルメットをかぶると、SFのような美しい世界が目の前に浮かび上がるのを想像したことはありませ...

世界で最も強力なオープンソース モデルが一夜にして所有者が変わりました。 Google Gemma 7B が Llama 2 13B を圧倒、オープンソース戦争が再燃

真夜中に雷鳴が轟いた。Google は本当に LLM をオープンソース化したのか? !今回、オープン...

基数ソートのヒント 1 つ、ソート方法 2 つ、ソートアルゴリズム 3 つ

[[421174]]基数ソートコンセプト基数ソートは、整数をビットごとにソートする非比較整数ソート ...

...

階乗関連のアルゴリズムとその C++ 実装

階乗とは、必要な数値が得られるまで 1 × 2 × 3 × 4 を掛け合わせることを意味します。 C...

人工知能センターオブエクセレンス:ビジネス変革を推進する新たなエンジン

AIセンターオブエクセレンスは、人材の統合、プラットフォームの標準化、ビジネス領域全体への成果の普及...