GPT や DALL-E などの大規模な生成モデルが自然言語処理やコンピューター ビジョンの研究に革命をもたらしたことはよく知られています。これらのモデルは、忠実度の高いテキストや画像を生成でき、その重要な特徴は「ジェネラリスト」であり、トレーニングされていないタスクを解決できることです。対照的に、音声生成モデルは、規模とタスクの一般化の点で「画期的な」成果を達成していません。 本日、Meta は 6 つの言語で音声を合成し、ノイズ除去、コンテンツ編集、オーディオ スタイルの変換などを実行できる「画期的な」生成音声システムを発表しました。 Meta はこれを最も多用途な音声生成 AI と呼んでいます。 関連する研究論文も発表されています。次に、この研究を詳しく見てみましょう。 論文: https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/ Meta 氏は、Voicebox は音声生成用に特別にトレーニングされていないが、音声生成タスクに一般化できる初のモデルであると述べました。 画像やテキストの生成と同様に、Voicebox は、最初から出力を作成したり、指定されたサンプルを変更したりするなど、さまざまなスタイルで音声出力を作成できます。 Voicebox は 6 つの言語で音声を合成できるほか、ノイズ除去、コンテンツ編集、スタイル転送、多様なサンプル生成も実行できます。 Voicebox が登場する前は、音声生成 AI は、慎重に準備されたトレーニング データを使用して、各タスクごとに特別にトレーニングする必要がありました。 Voicebox は、元の音声とそれに付随するトランスクリプトから学習するだけで、特定のサンプルの任意の部分を変更できます。 Voicebox は、拡散モデルを改善することが実証されている Flow Matching と呼ばれる手法に基づいています。 生成効果の面では、Voicebox の明瞭度 (単語誤り率: 1.9% VS 5.9%) と音声類似度 (0.681 VS 0.580) は現在の英語音声生成 SOTA モデル VALL-E より優れており、速度は 20 倍高速です。言語間のスタイル転送タスクでは、Voicebox は YourTTS よりも優れており、平均単語エラー率が 10.9% から 5.2% に低下し、オーディオ類似性が 0.335 から 0.481 に向上しました。 Voicebox は単語エラー率の点で Vall-E および YourTTS を上回り、新しい SOTA を達成しました。 Voicebox は、英語と多言語ベンチマークの両方において、オーディオ スタイルの類似性メトリックに関する新たな最先端の結果を達成しました。 音声生成の新しい方法既存の音声合成装置の主な制限は、トレーニング データが対象タスク用に準備されていることです。これらの入力には基本的に単調なクリーンなデータが必要ですが、これを入手するのは難しく、データの量は非常に限られており、このデータでトレーニングされたモデルは単調な音しか出力できません。 Voicebox は、テキストと音声間の非常に非決定論的なマッピングを学習できる、Meta の非自己回帰生成モデルの最新の進歩である Flow Matching モデルに基づいています。非決定論的マッピングは、Voicebox がさまざまな音声データから、それらのバリエーションを注意深く注釈付けすることなく学習できるため便利です。つまり、Voicebox はより多様なデータでトレーニングできるため、使用可能なデータの範囲がはるかに広くなります。 Meta が Voicebox のトレーニングに使用したデータは、英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語の 6 つの言語から取得され、50,000 時間分の録音と書き起こし、パブリック ドメインのオーディオブックが含まれていました。 Voicebox のトレーニング目標は、周囲の音声とセグメントの転記されたテキストに基づいて、セグメントの音声を予測することです。コンテキストに基づいて音声を補完することを学習した後、モデルは、オーディオ録音内の欠落したセグメントを生成する(入力全体を再構築する必要はありません)など、さまざまな音声生成タスクに使用できます。 Voicebox のこの汎用性により、次のようなさまざまなタスクに最適です。 コンテキストベースのテキスト読み上げ合成:わずか 2 秒の入力オーディオ サンプルを使用して、Voicebox はサンプルのオーディオ スタイルを一致させ、テキスト読み上げ生成に使用できます。この機能は、発話が困難な人に音声表現機能を提供したり、NPCキャラクターや仮想アシスタントの音声をユーザーがカスタマイズできるようにしたりするなど、重要な応用の見通しがあります。 言語間のスタイル転送:音声サンプルと対応するテキスト フラグメントが指定されると、Voicebox は、英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語など、その言語でテキストを読み取ることができます。これは、たとえ同じ言語を話していなくても、人々が自然かつ本物のコミュニケーションをとるのに役立つため、非常に興味深い機能です。 音声ノイズの低減と編集: Voicebox のコンテキスト学習機能により、音声録音でシームレスなセグメントを生成できます。オーディオにノイズが混じった部分がある場合、それを再合成したり、再録音せずに元のオーディオの間違った単語を置き換えたりすることもできます。ユーザーは、ノイズ(犬の鳴き声など)によって汚染された元のオーディオのセグメントを識別し、それを切り取って、Voicebox にそのセグメントを再生成するように指示することができます。この機能により、一般的な画像編集ツールを使用して画像を調整するのと同じくらい簡単にオーディオ編集を行うことが期待されます。 多様な音声サンプリング: Voicebox は多様な野生データから学習するため、実際の音声のような音声を生成でき、上記の 6 つの言語をサポートします。将来的には、この機能を使用して、たとえば音声アシスタント モデルのトレーニングに使用できるデータを合成できるようになります。 Meta の実験結果によると、Voicebox 合成音声に基づいてトレーニングされた音声認識モデルのパフォーマンスは、実際の音声を使用してトレーニングされたモデルとほぼ同等であり、エラー率はわずか 1% 高いだけです。また、以前のテキスト読み上げモデルによって合成されたデータを使用してトレーニングすると、エラー率は 45% ~ 70% 増加します。 Meta 氏は、Voicebox はタスクの一般化をうまく実行できる最初の効率的で多用途なモデルとして、音声生成 AI の新しい時代を先導するだろうと述べました。 しかし、Meta 社は、この技術が悪用されたり、悪意を持って使用されたりする可能性も否定していない。この可能性に対処し、潜在的なリスクを軽減するために、Meta は、実際の音声と VoiceBox によって生成された音声を効果的に区別できると主張する分類器も構築しました。 Voicebox は、生成 AI 研究における重要な前進です。タスク一般化機能を備えた生成 AI モデルは、テキスト、画像、ビデオ生成を含む実用的なアプリケーションを生み出しており、生成 AI を次のレベルに引き上げます。 |
<<: 目の反射神経が 3D の世界を開き、ブラック ミラーを実現します。メリーランド州出身の中国人による新作がSFファンを熱狂させる
[[407987]]過去 10 年間、コンピューター ビジョン認識タスクは畳み込みニューラル ネッ...
最近、Google Brain の従業員であり TensorFlow プロダクト マネージャーでもあ...
最近、修士号を取得して卒業しようとしているネットユーザーがネットユーザーに助けを求めました。「強化学...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
GPTとはGPT は「Generative Pre-Training」の略で、画像とテキストの入力...
[[202854]]画像認識とは何ですか? なぜ必要なのですか?マシンビジョンの概念では、画像認識と...
編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)次世代のス...
[[422011]] 2013年、バハマで仕事をしていたとき、私は現在ドローンとして知られているもの...
[[194630]] 1. 背景インターネットとモバイルインターネットの発展に伴い、企業の伝統的なネ...
現在、IT 開発の 2 つの中核トレンドとして、AI/ML とコンテナが企業で広く利用されています。...
執筆者 | 王 瑞平校正 | Yun Zhao最近また「100均戦争」が始まってます…一輪の花が春を...
1 月 10 日、マイクロソフトとパシフィック・ノースウエスト国立研究所 (PNNL) は AI の...
高性能プロセッサに関する研究は、ムーアの法則を継続する新たな方向性が到来していることを示しています。...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...