音声における GPT の瞬間: Meta が複数のタスクを解決するための普遍的なモデルである「画期的な」生成音声システムをリリース

GPT や DALL-E などの大規模な生成モデルが自然言語処理やコンピュータービジョンの研究に革命をもたらしたことはよく知られています。これらのモデルは、忠実度の高いテキストや画像を生成でき、その重要な特徴は「ジェネラリスト」であり、トレーニングされていないタスクを解決できることです。対照的に、音声生成モデルは、規模とタスクの一般化の点で「画期的な」成果を達成していません。

本日、Meta は 6 つの言語で音声を合成し、ノイズ除去、コンテンツ編集、オーディオスタイルの変換などを実行できる「画期的な」生成音声システムを発表しました。 Meta はこれを最も多用途な音声生成 AI と呼んでいます。

関連する研究論文も発表されています。次に、この研究を詳しく見てみましょう。

論文: https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta 氏は、Voicebox は音声生成用に特別にトレーニングされていないが、音声生成タスクに一般化できる初のモデルであると述べました。

画像やテキストの生成と同様に、Voicebox は、最初から出力を作成したり、指定されたサンプルを変更したりするなど、さまざまなスタイルで音声出力を作成できます。 Voicebox は 6 つの言語で音声を合成できるほか、ノイズ除去、コンテンツ編集、スタイル転送、多様なサンプル生成も実行できます。

Voicebox が登場する前は、音声生成 AI は、慎重に準備されたトレーニングデータを使用して、各タスクごとに特別にトレーニングする必要がありました。 Voicebox は、元の音声とそれに付随するトランスクリプトから学習するだけで、特定のサンプルの任意の部分を変更できます。

Voicebox は、拡散モデルを改善することが実証されている Flow Matching と呼ばれる手法に基づいています。

生成効果の面では、Voicebox の明瞭度 (単語誤り率: 1.9% VS 5.9%) と音声類似度 (0.681 VS 0.580) は現在の英語音声生成 SOTA モデル VALL-E より優れており、速度は 20 倍高速です。言語間のスタイル転送タスクでは、Voicebox は YourTTS よりも優れており、平均単語エラー率が 10.9% から 5.2% に低下し、オーディオ類似性が 0.335 から 0.481 に向上しました。

Voicebox は単語エラー率の点で Vall-E および YourTTS を上回り、新しい SOTA を達成しました。

Voicebox は、英語と多言語ベンチマークの両方において、オーディオスタイルの類似性メトリックに関する新たな最先端の結果を達成しました。

音声生成の新しい方法

既存の音声合成装置の主な制限は、トレーニングデータが対象タスク用に準備されていることです。これらの入力には基本的に単調なクリーンなデータが必要ですが、これを入手するのは難しく、データの量は非常に限られており、このデータでトレーニングされたモデルは単調な音しか出力できません。

Voicebox は、テキストと音声間の非常に非決定論的なマッピングを学習できる、Meta の非自己回帰生成モデルの最新の進歩である Flow Matching モデルに基づいています。非決定論的マッピングは、Voicebox がさまざまな音声データから、それらのバリエーションを注意深く注釈付けすることなく学習できるため便利です。つまり、Voicebox はより多様なデータでトレーニングできるため、使用可能なデータの範囲がはるかに広くなります。

Meta が Voicebox のトレーニングに使用したデータは、英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語の 6 つの言語から取得され、50,000 時間分の録音と書き起こし、パブリックドメインのオーディオブックが含まれていました。 Voicebox のトレーニング目標は、周囲の音声とセグメントの転記されたテキストに基づいて、セグメントの音声を予測することです。コンテキストに基づいて音声を補完することを学習した後、モデルは、オーディオ録音内の欠落したセグメントを生成する（入力全体を再構築する必要はありません）など、さまざまな音声生成タスクに使用できます。

Voicebox のこの汎用性により、次のようなさまざまなタスクに最適です。

コンテキストベースのテキスト読み上げ合成:わずか 2 秒の入力オーディオサンプルを使用して、Voicebox はサンプルのオーディオスタイルを一致させ、テキスト読み上げ生成に使用できます。この機能は、発話が困難な人に音声表現機能を提供したり、NPCキャラクターや仮想アシスタントの音声をユーザーがカスタマイズできるようにしたりするなど、重要な応用の見通しがあります。

言語間のスタイル転送:音声サンプルと対応するテキストフラグメントが指定されると、Voicebox は、英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語など、その言語でテキストを読み取ることができます。これは、たとえ同じ言語を話していなくても、人々が自然かつ本物のコミュニケーションをとるのに役立つため、非常に興味深い機能です。

音声ノイズの低減と編集: Voicebox のコンテキスト学習機能により、音声録音でシームレスなセグメントを生成できます。オーディオにノイズが混じった部分がある場合、それを再合成したり、再録音せずに元のオーディオの間違った単語を置き換えたりすることもできます。ユーザーは、ノイズ（犬の鳴き声など）によって汚染された元のオーディオのセグメントを識別し、それを切り取って、Voicebox にそのセグメントを再生成するように指示することができます。この機能により、一般的な画像編集ツールを使用して画像を調整するのと同じくらい簡単にオーディオ編集を行うことが期待されます。

多様な音声サンプリング： Voicebox は多様な野生データから学習するため、実際の音声のような音声を生成でき、上記の 6 つの言語をサポートします。将来的には、この機能を使用して、たとえば音声アシスタントモデルのトレーニングに使用できるデータを合成できるようになります。 Meta の実験結果によると、Voicebox 合成音声に基づいてトレーニングされた音声認識モデルのパフォーマンスは、実際の音声を使用してトレーニングされたモデルとほぼ同等であり、エラー率はわずか 1% 高いだけです。また、以前のテキスト読み上げモデルによって合成されたデータを使用してトレーニングすると、エラー率は 45% ～ 70% 増加します。

Meta 氏は、Voicebox はタスクの一般化をうまく実行できる最初の効率的で多用途なモデルとして、音声生成 AI の新しい時代を先導するだろうと述べました。

しかし、Meta 社は、この技術が悪用されたり、悪意を持って使用されたりする可能性も否定していない。この可能性に対処し、潜在的なリスクを軽減するために、Meta は、実際の音声と VoiceBox によって生成された音声を効果的に区別できると主張する分類器も構築しました。

Voicebox は、生成 AI 研究における重要な前進です。タスク一般化機能を備えた生成 AI モデルは、テキスト、画像、ビデオ生成を含む実用的なアプリケーションを生み出しており、生成 AI を次のレベルに引き上げます。

<<: 目の反射神経が 3D の世界を開き、ブラックミラーを実現します。メリーランド州出身の中国人による新作がSFファンを熱狂させる

>>:

音声における GPT の瞬間: Meta が複数のタスクを解決するための普遍的なモデルである「画期的な」生成音声システムをリリース

音声生成の新しい方法

信頼できる AI はどのように発展すべきでしょうか?

AIが初めて人間よりも上手に写真から話すことができるようになりました！マイクロソフトの認知AIチームは、Transformerを超える視覚単語リストの事前トレーニングを提案

アルゴリズムの視覚化: 理解しにくいコードをゴッホの星空に描く

さまざまな業界の技術専門家の皆様にアンケートにご参加いただき、Yiou Industryの年間会員カードを受け取り、多数の業界レポートのロックを解除していただくよう心からお願い申し上げます。

Nvidia は、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリースしました。

今後 20 年間で、人工知能ロボットが介護士に取って代わり、高齢者の世話をすることになり、介護士よりも信頼できる存在になるでしょう。

中国人民大学のウェン・ジロン、ガオ・リンらによる32ページにわたるAI自律エージェントの包括的なレビュー。構築、応用、評価を網羅している。

IntelがLoihi 2チップとLavaフレームワークを発表

推薦する

「許してバオ」に続き、「ワンクリック脱衣」が再び登場。テクノロジーの悪の問題をどう解決するのか？

ビッグデータAIベースのセキュリティシステムにおける倫理的偏見

マスク氏：大胆なアイデアがあるんです！信号機にAIビジョンプラグインを追加する

マイクロソフトがローブを買収：一般の人々が人工知能を簡単に利用できるように

予想外だが妥当: ガートナーの 2020 年データサイエンスおよび機械学習プラットフォームのマジッククアドラントの解釈

軍事用AIは普及するだろうか？公共の安全を重視すべきか、住民のプライバシーを重視すべきか？

脳コンピューターインターフェースから量子コンピューティングまで: 今後 10 年間のトップ 10 のテクノロジートレンド

4つのディープラーニングフレームワークの紹介：初心者はどのように選択すべきか？

SEO技術における人工知能の応用

AIストレージプラットフォームが機械学習とデータ分析のニーズを満たす方法