ディープフィードフォワードシーケンスメモリニューラルネットワークに基づく大語彙連続音声認識

【51CTO.comオリジナル記事】

まとめ

本研究では、ディープフィードフォワードシーケンスメモリニューラルネットワーク（DFSMN）と呼ばれる改良されたフィードフォワードシーケンスメモリニューラルネットワーク構造を提案しました。さらに、ディープフィードフォワードシーケンスメモリニューラルネットワークと低フレームレート（LFR）技術を組み合わせて、LFR-DFSMN音声認識音響モデルを構築しました。このモデルは、長短期記憶ユニットに基づく現在の最先端の双方向リカレントニューラルネットワーク (BLSTM) と比較して、大規模な語彙を使用した英語と中国語の両方の認識タスクで大幅なパフォーマンスの向上を実現できます。さらに、LFR-DFSMN は、トレーニング速度、モデルパラメータの数、デコード速度、モデル遅延の点で BLSTM よりも明らかな利点があります。

背景

近年、ディープニューラルネットワークは、大語彙連続音声認識システムにおける主流の音響モデルとなっています。音声信号は長期相関が強いため、LSTM やその変形構造など、長期相関をモデル化する機能を持つリカレントニューラルネットワーク (RNN) を使用することが現在一般的です。リカレントニューラルネットワークは強力なモデリング機能を備えていますが、そのトレーニングでは通常 BPTT アルゴリズムが使用され、トレーニング速度が遅い、勾配が消失するなどの問題があります。以前の研究では、信号の長期相関を効果的にモデル化できる、フィードフォワード順次メモリネットワーク (FSMN) と呼ばれる新しい非再帰ネットワーク構造を提案しました。リカレントニューラルネットワークと比較して、FSMN トレーニングはより効率的で、より優れたパフォーマンスを実現できます。

本論文では、これまでの FSMN 関連の研究に基づいて、Deep-FSMN (DFSMN) と呼ばれる改良された FSMN 構造をさらに提案しました。 FSMN 内の隣接するメモリモジュール間にスキップ接続を追加して、高レベルネットワークの勾配が低レベルレイヤーに適切に伝達されるようにし、深層ネットワークが勾配消失の問題に直面しないようにします。さらに、DFSMN を実際の音声認識モデリングタスクに適用するには、モデルのパフォーマンスだけでなく、計算の複雑さとモデルのリアルタイムパフォーマンスも考慮する必要があります。この問題に対処するために、DFSMN と低フレームレート (LFR) を組み合わせてモデルのトレーニングとテストを高速化することを提案します。同時に、DFSMNの構造を設計し、DFSMNのメモリモジュールの順序を調整することで遅延制御を実現し、LFR-DFSMNに基づく音響モデルをリアルタイム音声認識システムに適用できるようになりました。

英語や中国語を含むいくつかの大語彙連続音声認識タスクで DFSMN のパフォーマンスを検証します。一般的な 2,000 時間の英語 FSH タスクでは、DFSMN は現在主流の BLSTM と比較して 1.5% の絶対改善を達成でき、モデルパラメータも少なくなります。 20,000 時間の中国語データベースでは、LFR-DFSMN は LFR-LCBLSTM と比較して 20% 以上の相対パフォーマンスの向上を達成できます。さらに、LFR-DFSMN は遅延を柔軟に制御できます。遅延を音声の 5 フレームに制御すると、遅延が 40 フレームの LFR-LCBLSTM よりも優れたパフォーマンスが得られることがわかりました。

FSMNレビュー

最も初期に提案された FSMN のモデル構造を図 1 (a) に示します。これは本質的にはフィードフォワード型の完全接続ニューラルネットワークです。周囲のコンテキスト情報をモデル化するために、隠れ層の隣にいくつかのメモリブロックを追加することで、モデルは時系列信号の長期的な相関関係をモデル化できます。 FSMN の提案は、デジタル信号処理におけるフィルタ設計理論にヒントを得たものです。つまり、任意の無限インパルス応答 (IIR) フィルタは、高次有限インパルス応答 (FIR) フィルタで近似できます。フィルタの観点から見ると、図 1 (c) に示す RNN モデルの再帰層は、図 1 (d) に示すように 1 次 IIR フィルタとみなすことができます。 FSMNが使用するメモリモジュールは、図1(b)に示すように、高次FIRフィルタとみなすことができます。したがって、FSMN は RNN と同様に信号の長期相関を効果的にモデル化することもできます。同時に、FIR フィルターは IIR フィルターよりも安定しているため、FSMN は RNN よりもトレーニングが簡単で安定しています。

図1. FSMNモデル構造とRNNとの比較

メモリモジュールのエンコード係数の選択に応じて、1) スカラー FSMN (sFSMN)、2) ベクトル FSMN (vFSMN) に分類できます。名前が示すように、sFSMN と vFSMN は、メモリモジュールのエンコード係数としてそれぞれスカラーとベクトルを使用します。 sFSMN と vFSMN のメモリモジュールの表現は次のとおりです。

上記の FSMN は、履歴情報が現在の瞬間に与える影響のみを考慮しており、一方向の FSMN と言えます。過去の情報と将来の情報が現在の瞬間に与える影響を同時に考慮すると、単方向 FSMN を拡張して双方向 FSMN を取得できます。双方向 sFSMN および vFSMN メモリモジュールのエンコード式は次のとおりです。

図2. cFSMN構造図

FNN と比較すると、FSMN ではメモリモジュールの出力を次の隠し層への追加入力として使用する必要があり、これにより追加のモデルパラメータが導入されます。隠し層に含まれるノードの数が増えるほど、導入されるパラメータの数も増えます。私たちは、低ランク行列分解の考え方を組み合わせて改良された FSMN 構造を提案し、これをコンパクト FSMN (cFSMN) と呼んでいます。図2は、l番目の隠れ層にメモリモジュールが含まれるcFSMNの構造ブロック図です。

cFSMN では、ネットワークの隠れ層の後に低次元の線形投影層が追加され、線形投影層にメモリモジュールが追加されます。さらに、cFSMN ではメモリモジュールのエンコード式にいくつかの変更が加えられ、現時点での出力をメモリモジュールの式に明示的に追加することで、次のレイヤーの入力としてメモリモジュールの式のみを使用すればよいようになりました。これにより、モデルパラメータの数を効果的に削減し、ネットワークのトレーニングを高速化できます。具体的には、単方向および双方向 cFSMN メモリモジュールの式は次のとおりです。

DFSMN の紹介

図3. Deep-FSMN (DFSMN) モデル構造図

図 3 は、私たちがさらに提案した Deep-FSMN (DFSMN) のネットワーク構造図です。左側の最初のボックスは入力層を表し、右側の最初のボックスは出力層を表します。 cFSMN のメモリモジュール (赤いボックスで示されています) 間にスキップ接続を追加して、下位レベルのメモリモジュールの出力を上位レベルのメモリモジュールに直接蓄積できるようにします。このように、トレーニングプロセス中に、高レベルメモリモジュールの勾配が低レベルメモリモジュールに直接割り当てられるため、ネットワークの深さによって発生する勾配消失の問題を克服し、安定したディープネットワークのトレーニングが可能になります。また、メモリモジュールの表現にもいくつかの変更を加えました。膨張畳み込み[3]の考え方を借用して、メモリモジュールにいくつかのストライド係数を導入しました。具体的な計算式は次のとおりです。

LFR-DFSMN音響モデル

現在の音響モデルは、音声信号の各フレームから抽出された音響特徴を入力します。音声の各フレームの持続時間は通常 10 ミリ秒で、入力された音声フレーム信号ごとに対応する出力ターゲットがあります。最近、ある研究では、低フレームレート (LFR) モデリングスキームが提案されました。これは、隣接する瞬間の音声フレームを入力としてまとめることで、これらの音声フレームのターゲット出力が予測され、平均出力ターゲットが得られるというものです。特定の実験では、モデルのパフォーマンスを損なうことなく、3 つのフレーム (またはそれ以上のフレーム) を結合できます。これにより、入力と出力を元の量の 3 分の 1 以上に削減できるため、音声認識システムに提供する際の音響スコアの計算とデコードの効率が大幅に向上します。上記で提案したDFSMNとLFRを組み合わせて、図4に示すようにLFR-DFSMNに基づく音声認識音響モデルを構築しました。複数の実験を経て、最終的に音響モデルとして10層のDFSMN + 2層のDNNを持つDFSMNを使用し、入出力にLFRを使用することで、フレームレートを元の3分の1に削減することにしました。

図4. LFR-DFSMN音響モデル構造図

実験結果

1) 英語の認識

提案された DFSMN モデルを 2,000 時間の英語 FSH タスクで検証します。まず、DFSMN のネットワーク深度がパフォーマンスに与える影響を検証しました。DFSMN に 6、8、10、12 の DFSMN レイヤーが含まれるケースを検証しました。最終モデルの認識性能は次の表に示されています。ネットワークの深さを増やすことで、パフォーマンスを大幅に向上させることができます。

また、いくつかの主流の音響モデルと比較した結果を次の表に示します。結果から、DFSMN は現在進歩している BLSTM よりもパラメータが少ないだけでなく、絶対的なパフォーマンスが 1.5% 向上することがわかります。

2) 中国の認識

中国語認識タスクに関しては、まず5000時間のタスクで実験を行いました。出力層モデリング単位として、それぞれ結合音素状態 (CD-State) と結合音素 (CD-Phone) の使用を検証しました。音響モデルに関しては、遅延制御可能なBLSTM（LCBLSTM）、cFSMN、DFSMNを比較しました。 LFR モデルでは、モデリングユニットとして CD-Phone を採用しています。詳細な実験結果を次の表に示します。

ベースライン LCBSLTM の場合、LFR のパフォーマンスは従来の単一フレーム予測と同様ですが、効率は 3 倍向上します。従来の単一フレーム予測と比較して、LFR を使用する cFSMN は効率を向上させるだけでなく、より優れたパフォーマンスも実現できます。これは主に、LFR が入力信号のタイミングをある程度破壊するのに対し、BLSTM のメモリメカニズムはタイミングに対してより敏感であるためです。さらに、ネットワークの深さがパフォーマンスに与える影響を調査しました。以前の cFSMN ネットワークでは、ネットワークの深さを 10 層に増やすと、一定のパフォーマンスの低下が発生しました。私たちが提案する DFSMN の場合、10 層ネットワークでも 8 層ネットワークに比べてパフォーマンスの向上を実現できます。最後に、ベースライン LFR-LCBLSTM モデルと比較して、20% を超える相対的なパフォーマンスの向上を達成できます。

次の表では、LFR-DFSMN と LFR-LCBLSTM のトレーニング時間と、デコードのリアルタイム係数 (RTF) を比較しています。結果から、トレーニング速度を 3 倍に上げ、リアルタイム係数を元の 3 分の 1 近くに削減できることがわかりました。

音声認識システムの場合、考慮する必要があるもう 1 つの要素は、モデルの遅延です。元の BLSTM は、デコード用の出力を取得する前に、文全体が受信されるまで待機する必要があります。 LCBLSTM はデコード遅延を制御できる改良構造です。現在使用されている LFR-LCBLSTM の遅延フレーム数は 40 フレームです。 DFSMN では、メモリモジュールのフィルタ順序を設計することで、遅延フレームの数を柔軟に制御できます。最後に、遅延が 5 フレームしかない場合でも、LFR-DFSMN は LFR-LCBLSTM よりも優れたパフォーマンスを実現できます。

大語彙連続音声認識のための Deep-FSMN
チーム: Alibaba Voice Interaction Intelligence チーム

著者: Shiliang Zhang、Ming Lei、Zhijie Yan、LiRong Dai

会議: ICASSP-2018

オリジナルリンク: 大語彙連続音声認識のための Deep-FSMN

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: AI とクラウドコンピューティングが出会うとき、サービスとしての AI は神でしょうか、それとも悪魔でしょうか?

>>: 3.15を利用して、あなたの周りの偽の人工知能を数えましょう