音声認識のクロスドメインおよびクロス言語移行の難しさを少しずつ軽減するにはどうすればよいでしょうか?

編集者注: ディープラーニングの継続的な発展により、音声認識技術は大幅に向上し、人々の日常生活に多くの利便性をもたらしています。しかし、音声データの入手は当然難しく、データのラベル付けには時間とコストがかかり、モデルのドリフトやラベル付きデータの不足などの問題にも直面するため、音声モデルのトレーニングは簡単ではありません。そのため、音声データには転移学習技術が非常に重要です。音声認識のクロスドメインおよびクロス言語問題を解決するために、Microsoft Research Asia と Microsoft (Asia) Internet Engineering Academy の機械学習グループは、クロスドメインおよびクロス言語音声認識用の CMatch および Adapter メソッドを提案しました。これら 2 つのテクノロジーは、モデル転移学習のパフォーマンスをどのように向上させるのでしょうか?彼らはどのような革新的な技術を使用しましたか?今日の記事から答えを見つけてみましょう。

音声認識は、人間の声を対応するテキストに変換するプロセスです。音声アシスタントや携帯電話の音声入力、スマートホームの音声制御照明やスマートテレビの操作、映画やテレビの字幕生成、音声や速記の録音など、今日の日常生活で重要な用途があります。音声認識をコア技術とするアプリケーションはすでに一般的です。しかし、音声データは当然ながら入手が難しく、データのラベル付けには時間とコストがかかります。人によって方言、アクセント、話し方が異なります。この制限により、収集された音声データのほとんどは、モデルのドリフトやラベル付きデータの不足などの問題に直面します。

特に、音声認識におけるクロスドメインおよびクロス言語のシナリオは非常に困難です。クロスドメインとは、ドメイン A (共通マイクなど) でトレーニングされたモデルをドメイン B (専用マイクなど) に転送する方法を指します。クロスリンガルとは、言語 A (ロシア語など) でトレーニングされたモデルを言語 B (チェコ語など) に移行する方法を指します。これは、ラベル付けされたデータが不足している一部の少数言語に特に当てはまります。したがって、低リソースでの言語間転送を研究することが重要です。

上記の問題を解決するために、マイクロソフトリサーチアジアは音声認識のための教師なし文字レベル分布適応転送学習法CMatchとパラメータ効率の高い言語間転送法アダプタアーキテクチャに基づくアダプタ。関連論文は、音声分野における2つのトップカンファレンスおよびジャーナルであるInterspeech 2021およびIEEE/ACM TASLP 2022に採択されました。（論文リンクは記事末尾をご覧ください）

転移学習法CMatch:

文字レベルのクロスドメイン適応の実現

ご存知のとおり、ディープラーニングに基づくエンドツーエンドのASRは（自動音声認識）大規模なトレーニングデータと強力なモデルにより、優れたパフォーマンスを実現できます。ただし、録音機器や環境の違いにより、トレーニングデータとテストデータの分布が類似しているものの一致しない場合があり、その結果、ASR モデルのテスト中に認識精度が低下します。このようなドメインや分布の不一致は非常に多様かつ一般的であるため、各ドメインから大量の音声データを収集してラベル付けすることは困難です。この場合、モデルはターゲットドメインでのパフォーマンスを向上させるために、教師なしドメイン適応に依存する必要があることがよくあります。

既存の教師なしドメイン適応法では、通常、各ドメインを分布と見なし、ドメイン敵対的トレーニングや特徴マッチングなどのドメイン適応を実行します。これらの方法では、文字、音素、単語など、さまざまなドメインにおけるよりきめ細かい分布知識が無視される可能性があり、これはある程度、適応効果に影響します。これは以前の研究「画像分類のためのディープサブドメイン適応ネットワーク」[1]で検証されており、サブドメイン（つまり、クラスラベルで分割されたドメイン）に整列された画像は、通常、ドメイン全体で整列する従来の方法と比較して、より優れた適応パフォーマンスを達成できることが示されています。

Microsoft Research Asia は、2 つの異なるドメインの各文字間のきめ細かい適応を実行するために、ASR 用の教師なし文字レベル分布マッチング手法である CMatch を提案しました。 Libri-Adapt データセットでの実験では、CMatch により、クロスデバイスおよびクロス環境適応における相対単語誤り率 (WER) がそれぞれ 1.1% と 1.2% 削減されることが示されています。 14.39% そして 16.50% 。同時に、研究者らはフレームレベルのラベル割り当てとTransformerベースのドメイン適応に関するさまざまな戦略も包括的に分析しました。

図 1 を例にとると、CMatch アルゴリズムを実行すると、2 つのフィールドで同じ特性を持つ文字の特徴分布が近づきます。

図1: CMatch実行前後の効果の比較

CMatch メソッドは次の 2 つのステップで構成されます。フレームレベルのラベル割り当てと文字レベルの分布マッチング。

その中で、フレームレベルのラベル割り当てはより正確な正確な「特徴とラベル」の対応は、ラベル（つまり、文字）に基づいて分布適応を実装する次のステップの基礎となります。より細かい特徴分布を取得するには、フレームレベルのラベルが必要です。続行するにはフレームレベルのラベル割り当てまず、より正確なラベルの位置合わせを取得する必要があります。図 2 には、CTC 強制アライメント、動的フレーム平均化、疑似 CTC ラベルの 3 つの方法が示されています。次のようなことが分かる。 CTC 強制アライメント事前トレーニング済みの CTC モジュールは、各テキストの最も可能性の高い CTC パスを計算し (繰り返しと空白記号を挿入)、各音声フレームに割り当てます。この方法は比較的正確ですが、計算コストが高くなります。ダイナミックフレーム平均化この方法では、音声フレームを各文字に均等に分配します。この方法では、ソースドメインとターゲットドメインの音声速度が均一であるという前提が必要です。疑似CTCラベルこの方法では、ソースドメインで十分に学習された CTC モジュールを活用し、信頼性に基づくフィルタリング (図 2 の t、e、p など) を追加することで、効率と精度の両方を考慮します。

図2: 3つのフレームレベルのラベル割り当て戦略

なお、ソースドメインでのラベル割り当てに実際のテキストを使用する場合、ターゲットドメインにはテキストが存在しないため、まずソースドメインモデルを使用してターゲットドメインの音声データを疑似的に注釈付けし、その後モデルによって注釈付けされたテキストをラベル割り当てに使用する必要があります。

フレームレベルのラベルを取得したら、文字レベルの分布マッチング。研究者たちは、特徴のマッチングに最大平均差異 (MMD) メトリックを使用することを選択しました。 MMD は 2 つの分布の差を評価するために使用され、転移学習における一般的な分布測定方法です。その式は次のとおりです。

実際には、ソースドメインサンプルX_SとターゲットドメインサンプルX_Tが与えられた場合、MMDのバイアスのある経験的推定値を計算します。

すべての文字間の平均 MMD を計算することで、文字レベルの分布マッチング損失関数を取得できます。

最終的に、Microsoft Research Asia は CTC-Attention ハイブリッドモデルを基本的な ASR モデルとして採用し、学習 CTC モジュール (フレームレベルのラベル割り当て用) と Transformer Decoder に基づく Seq2Seq Loss を同時に混合したため、音声認識の損失関数は次のように表現できます。

分布マッチング損失関数と音声認識損失関数を組み合わせると、最終的な損失関数が得られます。

最終的なアルゴリズムフローは表 1 に示されています。

表1: CMatch学習アルゴリズム

CMatchは、さまざまな分野、デバイス、環境において音声認識で最高の結果を達成します。

表 2 は、デバイス間の音声認識の結果を示しています。他のデバイスで録音された音声に対するソースのみのモデルの認識効果は、フィールドでのモデルよりもやや低いことに注意してください。グローバル MMD とドメイン敵対的トレーニングに基づく方法は改善を示しましたが、CMatch はすべてのケースで最高の結果を達成しました。

表2: クロスデバイス音声認識結果

表 3 の結果は、CMatch がクロス環境 (ノイズ耐性) 音声認識でも良好な結果を達成していることを示しています。

表3: クロス環境（ノイズ耐性）音声認識結果

表 4 はアブレーション実験を示しており、自己トレーニングと細分化された分布マッチングを組み合わせることで、CMatch が最良の結果を達成できることがわかります。

表4: CMatchアブレーション実験結果

さらに、研究者らは3つの文字割り当て方法を分析・比較しました。表 5 からわかるように、CTC 強制アライメントは最良の結果を達成しますが、計算オーバーヘッドも最も高くなります。FrameAverage も良好な結果を達成しますが、ドメインとターゲットドメインの発話速度が均一であることが前提となっています。また、CTC 疑似ラベルを使用する方法は、CTC 強制アライメントと同様の結果を達成し、計算効率もより高くなります。

表5: 3つの文字割り当て方法の実験結果

最後に、デコーダー側でCMatch Lossを使用する必要があるかどうかについては、実験結果を表6に示します。実験のデコーダーには機能的な違いがなく、ターゲットテキストはすべて標準的な英語であるため、デコーダーの分布の違いを減らしても効果はなく、むしろパフォーマンスが低下する可能性があります。

表6: デコーダ側でCMatch Lossを使用したテスト結果

アダプタの進化:

トレーニングデータが少ないほど、精度が上がる

何世代にもわたる科学者やエンジニアの努力のおかげで、音声認識システムは英語、中国語、フランス語、ロシア語、スペイン語などさまざまな主流言語で非常に優れた結果を達成し、人々が日常生活にもたらす利便性を享受できるようになりました。しかし、世界には約 7,000 の言語があり、そのほとんどは話者が少数で、人によって方言、アクセント、話し方が異なるため、これらの言語の音声データは非常に不足しています。リソース不足（ l 低リソース）言語。ラベル付きデータの不足により、近年のエンドツーエンドの音声認識の成果の多くがこれらの言語への適用が遅れているという現状があります。

この目的のために、Microsoft Research Asiaの研究者は、転移学習を使用して主流言語（英語、中国語など）の知識を低リソース言語の学習に役立て、複数の言語間で共有することで「レバレッジ」効果を実現し、小規模言語での音声認識のパフォーマンスを向上させる方法について考え始めました。図 3 に示すように、ルーマニア語をターゲット言語とした場合、比較的データが豊富なイタリア語、ウェールズ語、ロシア語を使用して、より優れたルーマニア語の音声認識モデルをトレーニングするにはどうすればよいでしょうか。

図 3: 複数のソース言語がある場合、どのようにして知識をターゲット言語に転送するのでしょうか?

幸いなことに、近年ではwav2vec2.0 [2]などの事前学習済みモデルが多言語版でリリースされています。Microsoft Research Asiaによる以前の研究でも、簡単な微調整だけで大規模な多言語モデルを低リソース言語に適応させ、認識性能を大幅に向上できることが実証されています。

しかし同時に、研究者たちは2つの新たな問題も発見しました。

大規模な多言語モデルには、多くの場合、多数のパラメータが含まれるため、データ量が非常に少ない場合にモデルが過剰適合しやすくなります。
世界中のあらゆる少数言語に対して大規模で微調整されたモデルを維持すると、コストは莫大なものになります。

しかし、Houlsbyら[3]は、事前学習済みのBERTの場合、モデルのバックボーンパラメータを変更せずにモデルをさまざまな下流タスクに適応させるには、図4に示すように、Transformerの各層にアダプタを挿入するだけでよいことを以前に発見しました。モデル全体を微調整した場合に近いパフォーマンスを実現できる。アダプターは主に、元の特徴を再スケーリングするために使用される LayerNorm レイヤー、特徴を圧縮して復元するダウンサンプリングレイヤーとアップサンプリングレイヤー、そして最後に元の特徴が引き続き通過できることを保証する残差接続で構成され、これによりトレーニング中のアダプターの安定性が向上します。

図4: アダプタ構造図

アダプタに触発されて、マイクロソフトリサーチアジアの研究者はアダプタを使ってモデルのオーバーフィッティングの問題を解決しようとしました。彼らはアダプタを使って事前トレーニングされた多言語ASRモデルを高いパラメータ効率で移行する方法を研究し、メタアダプタそしてシムアダプターアダプタをさらに最適化するには、 2.5% そして 15.5% 学習可能なパラメータの場合、単語誤り率（WER ）完全なモデルの微調整と比較して、 2.98% そして 2.55% 。

Microsoft Research Asia は、実験に独自の事前トレーニング済み多言語モデルを使用しました。この方法は、wav2vec2.0 などのモデルでも使用できます。具体的には、モデルのバックボーンはTransformer構造に基づいており、主に12層のEncoderと6層のDecoderモデルで構成されており、11のコーパス（42の言語をカバーし、総時間は約5,000時間）を使用して事前トレーニングされています。同時に、モデルは CTC-Attention ハイブリッド損失関数を使用してトレーニングの安定性を向上させ、トレーニングを加速します。つまり、エンコーダーの出力機能に CTC レイヤーを追加し、制約に CTC 損失を使用します。研究者らは、フィードフォワードネットワークにアダプタを配置した。）その後、各レイヤーの出力機能が調整されます。

図5: バックボーンモデルの概略図

メタアダプタ MetaAdapterは構造的にはAdapterと同一ですが、唯一の違いはMAML（Model-Agnostic Meta-Learning）[4]メタ学習アルゴリズムを使用してAdapterのより良い初期化を学習することです。 MetaAdapterは、さまざまな言語で使用できるように、複数のソース言語を学習する方法を学ぶ必要があります。暗黙の共有情報を収集する新しい言語を学ぶのに役立ちます。実験により、メタアダプタ過剰適合や非常に少量のデータに対する堅牢性、および最終的な移行効果は、元のアダプターよりも大幅に強力です。

図6: メタアダプタ

シムアダプター：MetaAdapterが暗黙の共有情報を収集して新しい言語を学習する必要がある場合、SimAdapterはさまざまな言語間の類似関係をモデル化することを明示的に要求するターゲット言語をより良く学習できるように、その構造を図 7 に示します。研究者の見解では、多言語モデルの元々の特徴は比較的言語に依存しません。これらの特徴をクエリとして使用し、各言語アダプタ（ターゲット言語を含む）によって出力される言語に強く関連する特徴をキーと値として使用すれば、アテンションメカニズムを構築することで、ターゲット言語とソース言語からそれぞれ有効な情報を抽出し、より優れたターゲット言語の特徴として機能させることができます。

図7: SimAdapter構造図

SimAdapter+は最高の結果を達成し、MetaAdapterはデータが非常に少ないシナリオで優れています

このモデルはCommon Voiceの5つの低リソース言語で実験され、その結果は表7に示されています。移行するかどうか、および移行方法に応じて、さまざまな方法を次の 3 つのカテゴリに分けることができます。

転移なし (左の列): 従来の DNN/HMM ハイブリッドモデル、ゼロからトレーニングされた Transformer (B. サイズと構造はこの記事で使用されているバックボーンモデルと一致しています。S. は、過剰適合を抑制するためにパラメーターが小さいバージョンを指します)、およびターゲット言語の出力層を学習するための特徴抽出器としての事前トレーニング済みモデルの使用が含まれます。
微調整に基づく転送（中央の列）：完全なモデルの微調整が含まれ、過剰適合を抑制しようとします（完全なモデルの微調整 + L2 正則化、モデルパラメータの最後の数層のみを微調整）
アダプタベースの移行（右列）：この記事で紹介したさまざまな方法を指しますが、そのうち SimAdapter+ は SimAdapter と MetaAdapter を組み合わせたアップグレード版です。

表7: Common Voiceの5つの低リソース言語におけるMetaAdapterとSimAdapterの実験結果

ここでは、モデルのさまざまな機能を反映するために、2 つの平均化方法が使用されています。1. 直接平均化: これは、さまざまな言語のデータ量を考慮せず、非常に少ないデータで作業するのに特に適したアルゴリズムに適しています。2. 加重平均化: これは、さまざまな言語のデータ量を考慮し、さまざまな状況でのモデルの総合的なパフォーマンスを測定するのに適しています。

結果から次のことがわかります。

転移学習を使用する方法は転移学習を使用しない方法よりも大幅に優れており、転移学習の重要性を裏付けています。
モデル全体を微調整すると、非常に強力な効果が得られます。従来の L2 正則化を適用したり、モデルパラメータの最後の数層のみを微調整したりしても、理想的な結果は得られません。
オリジナルのアダプターは、適切なトレーニング方法を使用した場合、基本的に完全なモデルの微調整と同じレベルを達成できます。これは、ASR タスクにおけるアダプターの有効性を示しています。
本論文で提案されている SimAdapter と MetaAdapter は Adapter のパフォーマンスをさらに向上させ、それらの組み合わせである SimAdapter+ は本論文で最高の結果を達成します。
注目すべきは、MetaAdapter はデータ量が非常に少ない場合に優れているのに対し、SimAdapter はよりバランスの取れたパフォーマンスを発揮するということです。

革新的なトレーニング方法と実験方法：

アダプタとSimAdapterのパフォーマンスをさらに検証する

マイクロソフトリサーチアジアは、音声認識タスクにおけるアダプタのパフォーマンスを向上させる2段階のトレーニング方法を提案した。 : モデル移行プロセス中に、新しい言語の語彙を学習する必要があります。語彙をアダプタと一緒にトレーニングすると、単語埋め込みが継続的に更新され、アダプタの学習目標に混乱が生じる可能性があります。アダプタと語彙を同時に学習すると、単語埋め込みがアダプタの機能の一部を引き継ぐことになり、アダプタが言語関連機能を十分に学習できず、後続の SimAdapter のパフォーマンスが低下する可能性があります。したがって、まずバックボーンモデルを修正し、新しい言語の語彙をモデルと同じ潜在空間にマッピングします。）上記の例では、語彙を修正してアダプタを学習すると、表 9 に示すように、より良い結果が得られます。

表9: 2段階トレーニング法

さらに、SimAdapter が実際に他の言語から有用な知識を学習できることを証明するために、研究者らは次の 2 つの実験を設計しました。

まず、ターゲット言語自体のアダプタを削除し、SimAdapter にソース言語を通じてのみターゲット言語に役立つ機能を学習するように要求します。結果は表 10 に示されています。ターゲット言語アダプターを使用しなくても、SimAdapterはほとんどの言語で大幅な改善を達成できます。。

表10: SimAdapterアブレーション実験

次に、2 つの異なる SimAdapter モデルをウクライナ語でトレーニングし、異なるソース言語 (イタリア語とロシア語) の寄与を分析します。ロシア語とウクライナ語は似ているため、ロシア語アダプターを使用してトレーニングされた SimAdapter はより多くのメリットを得られるはずです。結果によると、イタリア語アダプタを使用した SimAdapter の単語エラー率は 48.70 であるのに対し、ロシア語アダプタを使用した SimAdapter の単語エラー率はわずか 47.73 であり、これは、SimAdapter がウクライナ語をモデル化するためにイタリア語よりもロシア語からより多くの有用な知識を学習できることを示しています。

Microsoft Research Asia は、CMatch および Adapter コードを次のアドレスでオープンソース化しました。

https://github.com/microsoft/NeuralSpeech/master/CMatch

https://github.com/microsoft/NeuralSpeech/master/Adapter

<<: AIがスマートビルをより環境に優しく、より持続可能なものにする方法

>>: オープンソースプロジェクト AutoXGB を使用して AutoML 開発を支援し、わずか数行のコードでアプリケーション API を構築します。