はじめにと動機大規模言語モデル (LLM) は、特に ChatGPT の登場により、人工知能生成コンテンツ (AIGC) において大きな注目を集めています。 しかし、大規模な言語モデルを使用して連続音声を処理する方法は未解決の課題のままであり、音声生成への応用を妨げています。音声信号には、純粋なテキストデータを超えて、話者や感情などの豊富な情報が含まれているため、音声ベースの言語モデル (音声 LM) が次々と登場しています。 音声言語モデルは、テキストベースの言語モデルと比較するとまだ初期段階ですが、音声データにはテキストよりも豊富な情報が含まれているため、大きな可能性を秘めており、非常に有望です。 研究者たちは、事前トレーニング済みの言語モデルの力を解き放つためのプロンプトパラダイムの可能性を積極的に探究しています。このヒントは、少数のパラメータを微調整することで、事前トレーニング済みの言語モデルが特定の下流タスクを実行するようにガイドします。この手法は、その効率性と有効性により、NLP 分野で非常に好まれています。音声処理の分野では、SpeechPrompt はパラメータ効率の大幅な改善を示し、さまざまな音声分類タスクで競争力のあるパフォーマンスを実現します。 しかし、プロンプトが音声言語モデルの生成タスクの完了に役立つかどうかは謎のままです。本稿では、生成タスクのための音声言語モデルの潜在能力を解き放つことを目的とした革新的な統合フレームワーク SpeechGen を提案します。下の図に示すように、音声と特定のプロンプトが音声 LM に入力され、音声 LM は特定のタスクを実行できます。たとえば、赤いプロンプトを入力として受け取ると、音声 LM は音声翻訳のタスクを実行できます。 私たちが提案するフレームワークには、次のような利点があります。 1. テキストレス: 当社のフレームワークとそれが依存する音声言語モデルはテキスト データに依存せず、計り知れない価値があります。結局のところ、音声と組み合わせるラベル付きテキストを取得するプロセスは時間がかかり面倒であり、言語によっては適切なテキストを見つけることさえ不可能です。テキストを必要としないという事実により、当社の強力な音声生成機能はさまざまな言語ニーズに対応でき、全人類に大きな利益をもたらします。 2. 汎用性: 私たちが開発したフレームワークは非常に汎用性が高く、さまざまな音声生成タスクに適用できます。この論文の実験では、音声翻訳、音声復元、音声連続性を例として挙げています。 3. わかりやすい: 私たちが提案するフレームワークは、さまざまな音声生成タスクに一般的なソリューションを提供するため、下流のモデルと損失関数の設計が容易になります。 4. 移植性: 私たちのフレームワークは、将来的にさらに高度な音声言語モデルに簡単に適応できるだけでなく、効率性と有効性をさらに向上させる大きな可能性を秘めています。高度な音声言語モデルが利用可能になるにつれて、私たちのフレームワークがさらに強力になることが特に楽しみです。 5. 手頃な価格: 当社のフレームワークは、大規模な言語モデル全体ではなく、少数のパラメータのみをトレーニングするだけで済むように慎重に設計されています。これにより、計算負荷が大幅に軽減され、トレーニング プロセスを GTX 2080 GPU で実行できるようになります。大学の研究室でも、このような計算コストを負担することができます。 SpeechGenの紹介 私たちの研究アプローチは、主に音声言語モデル (SLM) を使用してさまざまな下流の音声生成タスクを微調整する新しいフレームワーク SpeechGen を構築することです。トレーニング中、SLM のパラメータは変更されず、私たちの方法はタスク固有のプロンプト ベクトルの学習に重点を置きます。 SLM は、キュー ベクトルと入力ユニットの両方を同時に調整することにより、特定の音声生成タスクに必要な出力を効果的に生成します。これらの個別のユニット出力は、ユニットベースの音声合成装置に入力され、対応する波形が生成されます。 当社の SpeechGen フレームワークは、音声エンコーダー、SLM、音声デコーダーの 3 つの要素で構成されています。 まず、音声エンコーダーは波形を入力として受け取り、それを有限の語彙から派生した単位のシーケンスに変換します。シーケンスの長さを短くするために、繰り返される連続するユニットを削除して、圧縮されたユニットのシーケンスを生成します。 SLM は単位シーケンスの言語モデルとして機能し、単位シーケンス内の前の単位と後続の単位を予測することで尤度を最適化します。 SLM に対してキュー チューニングを実行し、タスクに基づいて適切なユニットを生成するようにガイドします。最後に、SLM によって生成されたトークンは音声デコーダーによって処理され、波形に変換されます。私たちのヒント調整戦略では、入力シーケンスの先頭にヒント ベクトルが挿入され、生成プロセス中に SLM の方向をガイドします。挿入されるプロンプトの正確な数は、SLM のアーキテクチャによって異なります。シーケンスツーシーケンス モデルでは、エンコーダーとデコーダーの両方の入力にヒントが追加されますが、エンコーダーのみまたはデコーダーのみのアーキテクチャでは、入力シーケンスの先頭にのみヒントが追加されます。 mBART などのシーケンスツーシーケンス SLM では、入力とターゲット音声を処理するために HuBERT などの自己教師あり学習モデルを採用しています。これにより、入力の離散単位と、ターゲットの対応する離散単位が生成されます。入力シーケンスを構造化するために、エンコーダーとデコーダーの両方の入力の前にヒント ベクトルを追加します。さらに、アテンションメカニズムのキーと値のペアを置き換えることで、ヒントのガイド機能をさらに強化します。 モデルのトレーニング中、すべての生成タスクの目的関数としてクロスエントロピー損失を使用し、モデルの予測結果をターゲットの離散ユニットラベルと比較して損失を計算します。このプロセスでは、プロンプト ベクトルはモデル内でトレーニングする必要がある唯一のパラメーターであり、SLM のパラメーターはトレーニング プロセス中に変更されないため、モデルの動作の一貫性が保証されます。キュー ベクトルを挿入して、SLM が入力からタスク固有の情報を抽出できるようにガイドし、特定の音声生成タスクを満たす出力を生成する可能性を高めます。このアプローチにより、基礎となるパラメータを変更することなく、SLM の動作を微調整および調整できます。 一般的に、私たちの研究方法は、プロンプトベクトルをトレーニングすることでモデルの生成プロセスをガイドし、特定の音声生成タスクを満たす出力を効果的に生成できるようにする新しいフレームワーク、SpeechGen に基づいています。 実験私たちのフレームワークは、あらゆる音声 LM やさまざまな生成タスクに使用でき、大きな可能性を秘めています。私たちの実験では、VALL-E と AudioLM はオープンソースではないため、ケーススタディの音声 LM として Unit mBART を使用することを選択しました。私たちのフレームワークの機能を実証するために、音声翻訳、音声修復、音声継続を例として使用します。これら 3 つのタスクの概略図を下図に示します。すべてのタスクは音声入力と音声出力で行われ、テキストによる支援は必要ありません。 音声翻訳 音声翻訳をトレーニングする際には、スペイン語から英語へのタスクを使用しました。モデルにスペイン語の音声を入力し、モデルが英語の音声を生成することを期待します。プロセス全体ではテキストによる支援は必要ありません。以下に音声翻訳のいくつかの例を示します。ここでは正解 (正解) とモデル予測 (モデル予測) を示しています。これらのデモンストレーションの例は、モデルの予測が正解の核心的な意味を捉えていることを示しています。 音声修復 私たちの音声修復実験では、後続の処理の対象音声として 2.5 秒を超える音声セグメントを具体的に選択し、ランダム選択プロセスを通じて 0.8 秒から 1.2 秒の持続時間の音声セグメントを選択しました。次に、選択したセグメントをマスクして、音声修復タスクで欠落または破損した部分をシミュレートします。損傷したセグメントの修復度を評価する指標として、単語エラー率 (WER) と文字エラー率 (CER) を使用します。 SpeechGen によって生成された出力を不完全な音声と比較すると、次の表に示すように、モデルは音声語彙を大幅に再構築し、WER を 41.68% から 28.61% に、CER を 25.10% から 10.75% に削減できます。これは、私たちが提案した方法により音声再構成能力が大幅に向上し、最終的に音声出力の精度と明瞭度が向上することを意味します。 下の図はデモンストレーションの例です。上のサブ図は破損した音声で、下のサブ図は SpeechGen によって生成された音声です。SpeechGen が破損した音声を非常にうまく修復していることがわかります。 スピーチの連続性 LJSpeech による音声継続タスクの実践的な応用を紹介します。トレーニングプロンプト中、私たちの戦略は、モデルにフラグメントのシードセグメントのみを認識させることです。シードセグメントは、音声の全体の長さの一定の割合を占め、これを条件比 (r) と呼びます。そして、モデルに後続の音声の生成を続行させます。 以下にいくつかの例を示します。黒いテキストはシード セグメントを表し、赤いテキストは SpeechGen によって生成された文です (ここでのテキストは、最初に音声認識によって取得されます。トレーニングおよび推論プロセス中、モデルは音声間タスクのみを実行し、テキスト情報をまったく受け取りません)。さまざまな条件比率により、SpeechGen はさまざまな長さの文を生成し、一貫性を実現して完全な発話を完成させることができます。品質の観点から見ると、生成された文は基本的にシードフラグメントと文法的に一貫しており、意味的にも関連しています。しかし、生成された音声では完全な意味を完璧に伝えることはできません。この問題は、将来的にはより強力な音声モデルで解決されるものと期待しています。 欠点と今後の方向性音声言語モデルと音声生成は急成長段階にあり、私たちのフレームワークは、音声生成に強力な言語モデルを巧みに活用する可能性を提供します。ただし、このフレームワークにはまだ改善の余地があり、詳細な調査に値する問題が数多くあります。 1. テキストベースの言語モデルと比較すると、音声言語モデルはまだ開発の初期段階にあります。私たちが提案するプロンプト フレームワークは、音声言語モデルに音声生成タスクを実行するよう動機付けることができますが、優れたパフォーマンスを達成することはできません。しかし、GSLM から Unit mBART への大きな転換など、音声言語モデルの継続的な進歩により、プロンプトのパフォーマンスは大幅に向上しました。特に、以前は GSLM にとって困難だったタスクが、Unit mBART ではより優れたパフォーマンスを示すようになりました。将来的には、さらに高度な音声言語モデルが登場すると予想されます。 2. コンテンツ情報を超えて: 現在の音声言語モデルは話者と感情の情報を完全には捉えることができず、この情報を効果的に処理する上で現在の音声プロンプトフレームワークに課題が生じています。この制限を克服するために、話者と感情の情報をフレームワークに挿入するためのプラグアンドプレイ モジュールを導入します。今後、将来の音声言語モデルでは、これらのコンテキストを超えた情報を統合して活用することで、パフォーマンスが向上し、音声生成タスクにおける話者や感情に関連する側面をより適切に処理できるようになると期待されます。 3. プロンプト生成の可能性: プロンプト生成には柔軟なオプションがあり、テキストや画像の指示など、さまざまな種類の指示を統合できます。この論文のように訓練された埋め込みをプロンプトとして使用するのではなく、画像やテキストを入力として受け取るようにニューラル ネットワークを訓練できると想像してください。このトレーニングされたネットワークはプロンプトジェネレーターとなり、フレームワークに多様性を追加します。このアプローチにより、プロンプトの生成がより面白く、多彩なものになります。 結論は本稿では、さまざまな生成タスクにおける音声言語モデルのパフォーマンスを解き放つためのヒントの使用を検討しました。私たちは、約 1,000 万個のトレーニング可能なパラメータのみを持つ SpeechGen と呼ばれる統合フレームワークを提案します。私たちが提案するフレームワークには、テキストフリー、多用途、効率的、転送可能、手頃な価格など、いくつかの特性があります。 SpeechGen フレームワークの機能を実証するために、Unit mBART をケーススタディとして取り上げ、音声翻訳、音声復元、音声継続という 3 つの異なる音声生成タスクに関する実験を実施します。 この論文が arXiv に提出されたとき、Google はより高度な音声言語モデルである SPECTRON を提案し、話者や感情などの情報をモデル化する音声言語モデルの可能性を示しました。これは間違いなく刺激的なニュースであり、高度な音声言語モデルが提案され続けているため、私たちの統一フレームワークには大きな可能性があります。 |
<<: GPT-4 に先んじよう! Microsoft Bingは突然、ミームを読んだり、病気を診断したり、コードを書いたりできる「画像認識」機能をアップグレードした。
>>: この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。
[[399333]] [51CTO.com クイック翻訳]非常に大きなデータセットの場合、理想的な状...
[[312225]]テキスト | 梁玉山1月7日、教育省の公式サイトによると、国家教科書委員会はこ...
先週金曜日、知会君は微博で「来週は良いものがリリースされる」と発表した。 「来週」になって間もなく、...
古典的なデータ構造とアルゴリズムをいくつ知っていますか?大企業で面接を受けてみませんか?アルゴリズム...
フロリダ州中部にある、約12万5000人の住民を抱えるザ・ビレッジの退職者コミュニティには、約750...
[制作|網易智能計画/ 翻訳|炳漢]昨年3月、囲碁が打てる「AlphaGo」が人工知能を一躍有名にし...
昨年の公開クラスツアーに続き、Baidu AI Express [EasyDLゼロ閾値モデルトレーニ...
「スマートホーム」という用語は何年も前から存在しているようですが、業界自体は比較的初期段階にあります...
最近、北京市自転車・電動自動車産業協会が主催した「第一回ターミナル配送インテリジェント交通サミットフ...
オープンソースの微調整ツール Unsloth が新しいテクノロジーを携えて戻ってきました。前回のアッ...
ハイパーオートメーションとは何か、そして AI 主導のオートメーションが製品プロセスを改善してより迅...