マイクロソフトは7月27日、NaturalSpeech2という音声モデルを発表しました。このモデルは「潜在拡散」設計を採用しており、ゼロサンプル音声合成において優れた結果を示しています。マイクロソフトは、このモデルが「商用グレード」の音声/歌唱ソリューションを提供し、ユーザーに高品質で多様な音声合成体験を提供できると主張しています。 Microsoft は NaturalSpeech2 の一連のデモンストレーションを実施し、ゼロショットの状況でさまざまな話者のアイデンティティ、韻律、スタイル (歌唱など) の音声を生成する能力を示しました。 ▲ 画像出典: NaturalSpeech 2 論文 従来の音声テキスト変換 (TTS) システムとは異なり、Microsoft の NaturalSpeech2 は音声を表現するために「個別のタグ」ではなく「連続ベクトル」を使用するため、より完全な音声セグメントが生成され、 「感情の欠如」や「棒読み (単語ごとに話す)」現象が発生しないことが報告されています。 ▲ 画像出典: NaturalSpeech 2 論文 実験結果によると、ゼロサンプル条件下でNaturalSpeech2によって生成された音声は、音声プロンプトや実際の音声のリズムとほぼ一致しており、LibriTTSおよびVCTKテストセットでの自然さ(CMOSで測定)は実際の人間の音声と区別するのが困難です。 このプロジェクトの論文は GitHub で公開されています。興味のある IT Home の友人は、ここをクリックしてアクセスできます。 |
<<: スマートフォンアプリケーションにおける人工知能の役割
>>: アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ
自動運転技術が業界全体で開発のマイルストーンに到達し続ける一方で、都市は自動運転車(AV)の目標を補...
6月26日に開催されたセコイア・グローバル・ヘルスケア産業サミットで、スタンフォード大学のフェイフ...
10月13日、元マイクロソフト幹部で元GitHub CEOのナット・フリードマン氏は、10月12日に...
今週、フランスのパリで国際コンピュータビジョン会議 (ICCV) が開幕しました。 ICCVはコンピ...
セルフメディアの時代において、すべてのパブリックアカウントは、自分の記事をより多くの人に見てもらえる...
テンセントは12月30日、同社の人工知能チームが第1回Google Football Kaggleコ...
ロボティック プロセス オートメーション (RPA) を導入する企業の主な目標は、時間のかかる反復的...
人工知能技術の急速な発展により、画像認識や音声認識など多くの分野で大きな進歩を遂げ、一部の分野では人...
RNN とは何か、どこで使用されているか、どのように前方および後方に伝播するか、そして PyTorc...
ある日、ヘルメットをかぶると、SFのような美しい世界が目の前に浮かび上がるのを想像したことはありませ...
真夜中に雷鳴が轟いた。Google は本当に LLM をオープンソース化したのか? !今回、オープン...
[[421174]]基数ソートコンセプト基数ソートは、整数をビットごとにソートする非比較整数ソート ...
階乗とは、必要な数値が得られるまで 1 × 2 × 3 × 4 を掛け合わせることを意味します。 C...
AIセンターオブエクセレンスは、人材の統合、プラットフォームの標準化、ビジネス領域全体への成果の普及...