Wav2vec 2.0 [1]、HuBERT [2]、WavLM [3]などの音声事前トレーニングモデルは、数万時間分のラベルなし音声データ(Libri-lightなど)に対する自己教師学習を通じて、自動音声認識(ASR)、テキスト読み上げ(TTS)、音声会話(VC)などの下流の音声タスクのパフォーマンスを大幅に向上させました。しかし、これらのモデルには公開された中国語バージョンがないため、中国語の音声研究シナリオに適用するのは不便です。 WenetSpeech [4]は、NPUのオーディオ、音声、言語処理研究グループ(ASLP@NPU)、Mobvoi、Hillbeikeが共同でリリースした10,000時間を超えるマルチドメイン音声データセットです。中国語音声事前トレーニング モデルのギャップを埋めるために、10,000 時間の WenetSpeech データに基づいてトレーニングされた Wav2vec 2.0 および HuBERT モデルの中国語バージョンをオープンソース化しました。 事前トレーニング済みモデルのパフォーマンスを確認するために、ASR タスクの検証を実施しました。実験結果によると、100 時間の教師ありデータを使用した ASR タスクでは、事前トレーニング済みモデルによって学習された音声表現は、従来の音響 FBank 機能に比べてパフォーマンスが大幅に向上しています。教師ありデータが 100 時間しかない場合でも、1000 時間の教師ありデータを使用した場合と同等の結果を得ることができます。 モデルリンク: https://github.com/TencentGameMate/chinese_speech_pretrain モデル紹介Wav2vec 2.0 モデル図1: Wav2vec 2.0 モデルアーキテクチャ (Baevski et al., 2020) Wav2vec 2.0 [1]は、2020年にMetaによって公開された教師なし音声事前トレーニングモデルです。その中心的なアイデアは、ベクトル量子化 (VQ) を通じて自己構築の教師ありトレーニング ターゲットを構築し、入力に対して多数のマスキングを行った後、対照学習損失関数を使用してトレーニングを実行することです。モデル構造は上の図 1 に示されています。畳み込みニューラル ネットワーク (CNN) に基づく特徴抽出器は、元のオーディオをフレーム特徴シーケンスにエンコードし、各フレーム特徴を自己教師ターゲットとして機能する VQ モジュールを介して離散特徴 Q に変換します。同時に、フレーム特徴シーケンスはマスクされ、Transformer [5]モデルに入力されてコンテキスト表現Cが得られます。最後に、学習損失関数を対比することにより、マスク位置のコンテキスト表現と対応する離散特徴qとの間の距離、つまり正のサンプルペアが短縮されます。元の論文では、Wav2vec 2.0 BASE モデルは 12 層の Transformer 構造を使用し、1,000 時間の LibriSpeech データでトレーニングされていますが、LARGE モデルは 24 層の Transformer 構造を使用し、60,000 時間の Libri-light データでトレーニングされています。トレーニング時間に関しては、BASE モデルは 64 枚の V100 グラフィック カードを使用してトレーニングするのに 1.6 日かかり、LARGE モデルは 128 枚の V100 グラフィック カードを使用してトレーニングするのに 5 日かかります。ダウンストリーム ASR 評価では、わずか 10 分間の教師ありデータでも、システムは 4.8 という単語誤り率 (WER) 結果を達成できます。 HuBERT モデル図2: HuBERTモデル構造(Hsu et al., 2021) HuBERT[2]は2021年にMetaが公開したモデルです。モデル構造はWav2vec 2.0に似ていますが、違いはトレーニング方法です。 Wav2vec 2.0 は、トレーニング中に音声特徴を自己教師ターゲットとして離散化しますが、HuBERT は MFCC 特徴または HuBERT 特徴に対して K 平均法クラスタリングを実行してトレーニング ターゲットを取得します。 HuBERT モデルは反復トレーニング法を使用します。BASE モデルは最初の反復で MFCC 特徴に対してクラスタリングを実行し、2 番目の反復では最初の反復で取得した HuBERT モデルの中間層特徴に対してクラスタリングを実行します。LARGE モデルと XLARGE モデルは、BASE モデルの 2 番目の反復から抽出された特徴を使用してクラスタリングを行います。元の論文の実験結果から判断すると、HuBERT モデルは、特に下流のタスクに 1 時間や 10 分などの教師ありトレーニング データが非常に少ない場合に、Wav2vec 2.0 よりも優れたパフォーマンスを発揮します。 中国語の事前学習済みモデル実験構成WenetSpeech [4] train_lセットから10,000時間の中国語データを教師なし事前学習データとして使用します。データは主に YouTube とポッドキャストから取得され、さまざまな種類の録音シーン、背景ノイズ、話し方などをカバーしています。その分野には主に、オーディオブック、解説、ドキュメンタリー、テレビシリーズ、インタビュー、ニュース、朗読、スピーチ、バラエティ番組など、10 の主要なシーンが含まれます。我々は[1, 2]のモデル構成に従って、それぞれFairseqツールキット[6]に基づいてWav2vec 2.0とHuBERTモデルをトレーニングした。各事前トレーニング済みモデルには、BASEとLARGEの2つのサイズが含まれている。 BASE モデルでは、勾配累積が 8 の 8 枚の A100 グラフィック カードを使用し、トレーニング用に 64 枚のグラフィック カードをシミュレートします。 LARGE モデルでは、勾配累積が 8 の 16 枚の A100 グラフィック カードを使用し、トレーニング用に 128 枚のグラフィック カードをシミュレートします。 下流の音声認識タスクの検証事前学習済みモデルが下流のASRタスクに与える影響を検証するために、ESPnet [7,8,9]ツールキットのConformer [10]モデルの実験構成に従いました。つまり、事前学習済みモデルを特徴抽出器として使用し、事前学習済みモデルの隠れ層表現の加重合計を入力音声に対して抽出します。得られた音声表現は、Conformer ASRモデルの入力として、従来のFBank特徴に代わるものです。
トレーニング用の教師データとして Aishell 178 時間トレーニング セットを使用し、FBank 機能、Wav2vec 2.0 BASE/LARGE モデル機能、HuBERT BASE/LARGE モデル機能を使用して文字エラー率 (CER) の結果を比較しました。同時に、WenetSpeech train_l セットと Aishell テスト セットの 10,000 時間の中国語データを使用して、トレーニング セットのパフォーマンスも比較しました。トレーニングデータは可変速度(0.9、1.0、1.1倍)とSpecAugmentデータ拡張技術を使用し、デコード方法はビームサーチ、再スコアリングにはTransformerベースの言語モデルを使用しました。 表1: Aishellテストセットにおけるさまざまなモデルの単語誤り率(CER%)の結果 表 1 の結果によると、事前トレーニング済みモデルと数万時間に及ぶ教師なしデータトレーニングを組み合わせることで、下流の ASR タスクの効果が大幅に改善されたことがわかります。特に、HuBERT LARGE モデルを使用した場合、テスト セットで CER が相対的に約 30% 向上し、178 時間の教師ありトレーニング データで業界最高の結果を達成しました。
WenetSpeech train_s セットの 100 時間の中国語データをトレーニング用の教師データとして使用し、FBank 機能、Wav2vec 2.0 BASE/LARGE モデル機能、HuBERT BASE/LARGE モデル機能を使用して文字エラー率 (CER) の結果を比較しました。同時に、WenetSpeech train_m セットの 1000 時間および train_l セットの 10,000 時間の中国語データの FBank 機能を使用してトレーニングされたモデルの結果も比較しました。トレーニング データでは可変速度や SpecAugment データ拡張テクノロジは使用されず、デコード方法はビーム検索であり、言語モデルの再スコアリングは使用されませんでした。 表2: WenetSpeechテストセットにおける異なるモデルの単語誤り率(CER%)の結果 表 2 の結果によると、数万時間の教師なしデータでトレーニングされた事前トレーニング済みモデルを組み合わせることで、下流の ASR 結果が大幅に改善されたことがわかります。特に、音声表現抽出器として HuBERT LARGE を使用する場合、100 時間の教師ありデータでトレーニングされた ASR モデルは、1,000 時間の FBank 機能でトレーニングされたモデルよりもパフォーマンスが優れており、10,000 時間のデータでトレーニングされたモデルにさえ近い結果が出ています。 音声ダウンストリームタスクの詳細な実験結果については、GitHub リンク (https://github.com/TencentGameMate/chinese_speech_pretrain) を参照してください。当社が提供する中国語音声事前トレーニング モデルを使用して、中国語や関連する多くのシナリオでの音声事前トレーニング モデルの適用について調査および検討することができます。 |
<<: StarCraft II の共同競技ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習の問題を解決
>>: MITのコンピューターの先駆者ジョエル・モーゼス氏が死去! 50年前にコンピューターに微積分を教えた
CISO、CSO、およびそのチームは毎日、侵害を検出し、リスクを評価し、適切に対応するという課題に直...
小売業におけるロボット工学の応用により、企業は小売業のバリューチェーン全体を変革し、強化することがで...
[51CTO.comより引用] 本日、アリババクラウドカンファレンス南京サミットが正式に開催され、ま...
3月5日、中国人民政治協商会議全国委員会委員で、360グループ会長兼CEOの周鴻毅氏は、今年の「両会...
バッチ正規化は、確かにディープラーニングの分野における大きな進歩の 1 つであり、近年研究者によって...
[[412045]]人工知能は、マーケティングテクノロジーを含むあらゆる業界の状況を変えています。マ...
Google がゲームを撤回しました! Gemini が API を公開してから1 週間も経たないう...
[[241542]] Forbes によれば、FORTRAN のパンチカードから Go を使用した分...
このアイデアは、かなり早い段階で思いつきました。私は検索エンジンの経験があるため、検索エンジンにおけ...
現在、ビジネス界、テクノロジー界、金融界を問わず、最もホットな言葉は「ブロックチェーン」に他なりませ...
顔認識技術は国民の自由に深刻な脅威を与えるほど強力になっている。それにもかかわらず、業界は繁栄し続け...