最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNをオープンソース化し、世界の音声認識精度記録を96.04%に引き上げました(このデータテストは、世界最大の無料音声認識データベースであるLibriSpeechに基づいています)。 業界で最も広く使用されているモデルである LSTM モデルと比較すると、DFSMN モデルはトレーニング速度が速く、認識精度も高くなります。新しい DFSMN モデルを使用するスマート スピーカーやスマート ホーム デバイスでは、前世代のテクノロジーと比較して、ディープラーニングのトレーニング速度が 3 倍、音声認識速度が 2 倍向上します。 オープンソースアドレス: https://github.com/tramphero/kaldi アリババが音声認識モデルDFSMNをオープンソース化 先日の雲奇会議武漢サミットでは、DFSMN音声認識モデルを搭載した「AIレジ係」が実際の店員との競争の中で、騒がしい環境でもユーザーの音声注文を正確に認識し、わずか49秒で34杯のコーヒーを注文した。さらに、この音声認識技術を搭載した自動券売機も上海地下鉄で導入されている。 著名な音声認識の専門家で、西北工科大学の教授である謝磊氏は、「アリババが今回オープンソース化したDFSMNモデルは、音声認識精度の着実な向上において画期的な成果を達成した。これは近年の音声認識分野におけるディープラーニングの最も代表的な成果の一つであり、世界の学術界とAI技術の応用に大きな影響を与えている」と述べた。 図:アリババは自社開発のDFSMN音声認識モデルをGitHubプラットフォームでオープンソース化した 音声認識音響モデル 音声認識技術は、人間とコンピュータの相互作用技術において常に重要な部分を占めてきました。音声認識技術により、機械は人間のように音声を理解し、考え、理解し、フィードバックを与えることができるようになります。 近年、ディープラーニング技術の活用により、ディープニューラルネットワークをベースとした音声認識システムの性能が大幅に向上し、実用化され始めています。音声認識に基づく音声入力、音声転写、音声検索、音声翻訳などの技術が広く利用されてきました。 現在、主流の音声認識システムでは、一般的にディープニューラルネットワークと隠れマルコフモデル(DNN-HMM)に基づく音響モデルが使用されており、そのモデル構造を図1に示します。音響モデルの入力は、ウィンドウ化およびフレーム化された従来の音声波形であり、その後、PLP、MFCC、FBK などのスペクトル特徴が抽出されます。モデルの出力では、通常、モノフォン、モノフォン状態、トライフォン状態など、異なる粒度の音響モデリング単位が採用されます。入力から出力まで、異なるニューラル ネットワーク構造を使用できます。入力された音響特徴は、異なる出力モデリング ユニットの事後確率を取得するためにマッピングされ、その後、HMM と組み合わせてデコードされ、最終的な認識結果が得られます。 最も初期に採用されたネットワーク構造は、フィードフォワード完全接続ニューラル ネットワーク (FNN) でした。 FNN は固定入力から固定出力への 1 対 1 のマッピングを実現しますが、音声信号に固有の長期的な相関情報を効果的に活用することはできません。改善された解決策は、Long-Short Term Memory (LSTM) に基づくリカレント ニューラル ネットワーク (RNN) を使用することです。 LSTM-RNN は、隠れ層の再帰フィードバック接続を通じて、隠れ層のノードに履歴情報を保存できるため、音声信号の長期的な相関を効果的に活用できます。 図1. DNN-HMMに基づく音声認識システムのブロック図 さらに、双方向リカレントニューラルネットワーク (BidirectionalRNN) を使用することで、音声信号の履歴情報と未来情報を効果的に活用することができ、音声の音響モデリングにさらに役立ちます。リカレント ニューラル ネットワークに基づく音声音響モデルは、フィードフォワード完全接続ニューラル ネットワークと比較して、大幅なパフォーマンスの向上を実現できます。ただし、リカレント ニューラル ネットワークは、フィードフォワードの完全接続ニューラル ネットワーク モデルよりも複雑で、多くの場合、より多くのパラメーターが含まれるため、モデルのトレーニングとテストの両方でより多くのコンピューティング リソースが必要になります。 さらに、双方向リカレントニューラルネットワークに基づく音声音響モデルは大きな遅延問題に直面し、リアルタイムの音声認識タスクには適していません。レイテンシ制御双方向長短期記憶ユニット(レイテンシ制御LSTM、LCBLSTM)[1-2]やフィードフォワード順次記憶ニューラルネットワーク(FSMN)[3-5]などの改良モデルもいくつかある。昨年、当社は業界で初めて LCBLSTM をベースにした音声認識音響モデルをリリースしました。アリババの大規模コンピューティングプラットフォームとビッグデータと連携し、マルチマシン、マルチカード、16ビット量子化などのトレーニングと最適化の方法を採用して音響モデルを構築し、FNNモデルと比較して約17〜24%の相対認識エラー率の削減を達成しました。 FSMNモデルの過去と現在 1. FSMNモデル FSMN は、FNN の隠れ層にいくつかの学習可能なメモリ モジュールを追加することで、音声の長期的な相関関係を効果的にモデル化できる、最近提案されたネットワーク構造です。 LCBLSTM と比較して、FSMN はレイテンシをより便利に制御できるだけでなく、より優れたパフォーマンスを実現し、必要なコンピューティング リソースが少なくなります。しかし、標準的な FSMN では非常に深い構造をトレーニングすることは難しく、勾配消失問題のためにトレーニング効果は低くなります。深い構造を持つモデルは、多くの分野でより強力なモデリング機能を持つことが証明されています。そこで、DeepFSMN (DFSMN) と呼ばれる改良された FSMN モデルを提案します。さらに、LFR(低フレームレート)技術を組み合わせて、効率的なリアルタイム音声認識音響モデルを構築しました。昨年発表したLCBLSTM音響モデルと比較すると、20%以上の相対パフォーマンス向上を達成し、トレーニングとデコードの2〜3倍の加速を実現し、システムの実際のアプリケーションに必要なコンピューティングリソースを大幅に削減できます。 図2. FSMNモデル構造とRNNとの比較 2. FSMNからcFSMNへの開発プロセス 最も初期に提案されたFSMNモデル[3]の構造を図2(a)に示します。これは本質的にフィードフォワード型完全結合ニューラルネットワークです。周囲のコンテキスト情報をモデル化するために隠れ層の隣にいくつかのメモリブロックを追加することで、モデルは時系列信号の長期相関をモデル化できます。メモリモジュールは、図2(b)に示すようなタップ遅延構造を使用して、現在の瞬間と前のN個の瞬間の隠れ層出力を係数セットを通じてエンコードし、固定式を取得します。 FSMN の提案は、デジタル信号処理におけるフィルタ設計理論にヒントを得たものです。つまり、任意の無限インパルス応答 (IIR) フィルタは、高次有限インパルス応答 (FIR) フィルタで近似できます。フィルタの観点から見ると、図 2 (c) に示す RNN モデルの再帰層は、図 2 (d) に示すように 1 次 IIR フィルタと見なすことができます。図2(b)に示すようにFSMNが使用するメモリモジュールは、高次FIRフィルタとみなすことができます。したがって、FSMN は RNN と同様に信号の長期相関を効果的にモデル化することもできます。同時に、FIR フィルターは IIR フィルターよりも安定しているため、FSMN は RNN よりもトレーニングが簡単で安定しています。 メモリモジュールのエンコード係数の選択に応じて、1) スカラー FSMN (sFSMN)、2) ベクトル FSMN (vFSMN) に分類できます。名前が示すように、sFSMN と vFSMN は、メモリ モジュールのエンコード係数としてそれぞれスカラーとベクトルを使用します。 sFSMN と vFSMN のメモリ モジュールの表現は次のとおりです。 上記の FSMN は、履歴情報が現在の瞬間に与える影響のみを考慮しており、一方向の FSMN と言えます。過去の情報と将来の情報が現在の瞬間に与える影響を考慮すると、単方向 FSMN を拡張して双方向 FSMN を取得できます。双方向 sFSMN および vFSMN メモリ モジュールのエンコード式は次のとおりです。 ここで、 と はそれぞれルックバックとルックアヘッドの順序を表します。順序を増やしたり、複数の隠し層にメモリ モジュールを追加したりすることで、FSMN の長期依存関係をモデル化する機能を強化できます。 図3. cFSMN構造図 FNN と比較すると、FSMN ではメモリ モジュールの出力を次の隠し層への追加入力として使用する必要があり、これにより追加のモデル パラメータが導入されます。隠し層に含まれるノードの数が増えるほど、導入されるパラメータの数も増えます。研究[4]では、低ランク行列分解の考え方を組み合わせて、 l番目の隠れ層にメモリモジュールが含まれるcFSMNの構造ブロック図であるコンパクトFSMN(cFSMN)と呼ばれる改良されたFSMN構造を提案した。 cFSMN では、ネットワークの隠れ層の後に低次元の線形投影層が追加され、線形投影層にメモリ モジュールが追加されます。さらに、cFSMN はメモリ モジュールのエンコード式にいくつかの変更を加えます。メモリ モジュールの式に現在の瞬間の出力を明示的に追加することで、次のレイヤーの入力としてメモリ モジュールの式のみを使用する必要があります。これにより、モデルパラメータの数を効果的に削減し、ネットワークのトレーニングを高速化できます。一方向および双方向 cFSMN メモリ モジュールの具体的な計算式は次のとおりです。 図4. Deep-FSMN (DFSMN) モデル構造図 LFR-DFSMN音響モデル 1. Deep-FSMN (DFSMN) ネットワーク構造 図4は、私たちがさらに提案したDeep-FSMN(DFSMN)のネットワーク構造ブロック図であり、左側の最初のボックスは入力層を表し、右側の最初のボックスは出力層を表します。 cFSMN のメモリ モジュール (赤いボックスで示されています) 間にスキップ接続を追加して、下位レベルのメモリ モジュールの出力を上位レベルのメモリ モジュールに直接蓄積できるようにします。このように、トレーニングプロセス中に、高レベルメモリモジュールの勾配が低レベルメモリモジュールに直接割り当てられるため、ネットワークの深さによって発生する勾配消失の問題を克服し、安定したディープネットワークのトレーニングが可能になります。また、メモリモジュールの表現にもいくつかの変更を加えました。膨張畳み込み[6]の考え方を借用して、メモリモジュールにいくつかのストライド係数を導入しました。具体的な計算式は次のとおりです。 ここで、は、 層メモリ モジュールの t 番目の時間ステップの出力を表します。 S1 と S2 は、それぞれ過去の瞬間と未来の瞬間のエンコード ステップ係数を表します。たとえば、S1=2 は、過去の情報をエンコードするときに、1 つおきの瞬間に値が入力として取得されることを意味します。この方法では、同じ順序でより長い履歴を確認できるため、長期的な相関関係をより効果的にモデル化できます。 リアルタイム音声認識システムでは、将来の順序を柔軟に設定することでモデルの遅延を制御できます。極端な場合、各メモリモジュールの将来の順序を 0 に設定すると、遅延のない音響モデルを実現できます。一部のタスクについては、ある程度の遅延を許容し、将来の注文を小さく設定することができます。 以前の cFSMN と比較して、私たちが提案する DFSMN の利点は、ジャンプ接続を通じて非常に深いネットワークをトレーニングできることです。オリジナルの cFSMN では、各隠れ層が行列の低ランク分解によって 2 層構造に分割されているため、4 つの cFSMN 層と 2 つの DNN 層を含むネットワークの場合、層の総数は 13 に達します。したがって、cFSMN 層をさらに使用すると、層の数が増加し、トレーニング中に勾配消失問題が発生し、トレーニングが不安定になります。私たちが提案した DFSMN は、スキップ接続を通じて深層ネットワークの勾配消失問題を回避し、深層ネットワークのトレーニングを安定させます。ここでのジャンプ接続は、隣接するレイヤー間だけでなく、隣接しないレイヤー間にも追加できることに注意してください。ジャンプ接続自体は線形変換または非線形変換になります。具体的な実験では、数十層の DFSMN ネットワークをトレーニングし、cFSMN と比較して大幅なパフォーマンスの向上を実現できます。 オリジナルのFSMNからcFSMNに変換すると、モデルのパラメータを効果的に削減できるだけでなく、より良いパフォーマンスも達成できます[4]。さらに、cFSMN に基づいて、モデルのパフォーマンスを大幅に向上できる DFSMN を提案しました。次の表は、2000 時間の英語タスクにおける BLSTM、cFSMN、および DFSMN に基づく音響モデルのパフォーマンスを比較したものです。
上記の表からわかるように、2000 時間のようなタスクでは、DFSMN モデルは BLSTM 音響モデルと比較してエラー率を 14% 削減でき、音響モデルのパフォーマンスが大幅に向上します。 2. LFR-DFSMNに基づく音声認識音響モデル 図5. LFR-DFSMN音響モデル構造図 現在の音響モデルは、音声信号の各フレームから抽出された音響特徴を入力します。音声の各フレームの持続時間は通常 10 ミリ秒で、入力された音声フレーム信号ごとに対応する出力ターゲットがあります。最近の研究では、低フレームレート(LFR)[7]モデリング方式が提案されています。これは、隣接する瞬間の音声フレームを入力として束ねることで、これらの音声フレームのターゲット出力が平均出力ターゲットを取得するように予測されるというものです。特定の実験では、モデルのパフォーマンスを損なうことなく、3 つのフレーム (またはそれ以上のフレーム) を結合できます。これにより、入出力を元の量の 3 分の 1 以上に削減でき、音声認識システムに提供する際の音響スコアの計算とデコードの効率が大幅に向上します。上記で提案したDFSMNとLFRを組み合わせて、図5に示すようにLFR-DFSMNに基づく音声認識音響モデルを構築しました。複数の実験を経て、最終的に音響モデルとして10個のcFSMN層+2個のDNN層からなるDFSMNを使用し、入出力にLFRを使用することで、フレームレートを元の3分の1に削減することにしました。次の表は、昨年リリースした最新の LCBLSTM ベースラインとの認識結果の比較を示しています。
LFR技術を組み合わせることで、3倍の認識高速化を実現できます。上記の表からわかるように、実際の産業規模のアプリケーションでは、LFR-DFSMN モデルは LFR-LCBLSTM モデルと比較してエラー率を 20% 削減でき、大規模データに対するモデリング特性が優れていることがわかります。 複数のマシンと複数の GPU に基づくビッグデータ音響モデルのトレーニング 実際の音声認識サービスでは通常、非常に複雑な音声データが扱われます。音声認識音響モデルは、さまざまな会話、さまざまなチャネル、さまざまなノイズ、さらにはさまざまなアクセントなど、可能な限り多くのシナリオをカバーする必要があり、膨大な量のデータが必要になります。膨大な量のデータを活用して音響モデルを迅速にトレーニングし、サービスを開始する方法は、ビジネス対応のスピードに直接関係します。 Alibaba の Max-Compute コンピューティング プラットフォームとマルチマシン マルチ GPU 並列トレーニング ツールを使用しました。16 枚の GPU カードと 5,000 時間のトレーニング データを備えた 8 台のマシンを使用した場合、LFR-DFSMN 音響モデルと LFR-LCBLSTM のトレーニング速度は次のようになります。
ベースライン LCBLSTM モデルと比較して、DFSMN はエポックあたりのトレーニング速度を 3 倍向上させることができます。 20,000 時間のデータで LFR-DFSMN をトレーニングする場合、モデルが収束するまでに通常 3 ~ 4 エポックしかかかりません。したがって、16 枚の GPU カードを使用すると、20,000 時間のデータで LFR-DFSMN 音響モデルのトレーニングを約 2 日で完了できます。 デコード遅延、認識速度、モデルサイズ より実用的な音声認識システムを設計するには、システムの認識性能を可能な限り向上させるだけでなく、システムのリアルタイム性能も考慮して、ユーザーに優れたエクスペリエンスを提供する必要があります。さらに、実際のアプリケーションではサービスコストも考慮する必要があるため、音声認識システムの電力消費には一定の要件があります。従来の FNN システムではスプライシング技術を使用する必要があり、デコード遅延は通常 5 ~ 10 フレーム、約 50 ~ 100 ミリ秒です。昨年開始された LCBLSTM システムは、BLSTM の全文遅延の問題を解決し、最終的には遅延を約 20 フレーム、つまり約 200 ミリ秒に制御できるようになりました。レイテンシに対する要件が高い一部のオンライン タスクでは、認識パフォーマンスのわずかな低下 (絶対値で約 0.2% ~ 0.3%) で遅延を 100 ミリ秒以内に制御できるため、さまざまなタスクのニーズを完全に満たすことができます。最良の FNN と比較すると、LCBLSTM は 20% 以上の相対的なパフォーマンス向上を達成できますが、同じ CPU 上での認識速度は遅くなります (つまり、消費電力が高くなります)。これは主にモデルの複雑さが原因です。 当社の最新の LFR-DFSMN は、LFR テクノロジにより認識速度を 3 倍以上高速化できます。さらに、DFSMN は LCBLSTM と比較してモデルの複雑さを約 3 分の 1 に削減できます。次の表は、テスト セット内のさまざまなモデルに必要な認識時間を示しています。時間が短いほど、必要な計算能力は少なくなります。
LFR-DFSMN のデコード遅延問題に関しては、将来を見据えてメモリモジュールフィルタの次数を減らすことで遅延を減らすことができます。具体的な実験では、さまざまな構成を検証しました。LFR-DFSMN の遅延を 5 ~ 10 フレームに制御すると、パフォーマンスは約 3% しか低下しませんでした。 また、複雑なLFR-LCBLSTMモデルと比較すると、LFR-DFSMNモデルは合理化されたモデルであることが特徴で、10層のDFSMNを備えているにもかかわらず、全体のモデルサイズはLFR-LCBLSTMモデルの半分に過ぎず、モデルサイズは50%圧縮されています。 参考文献: 1. Yu Zhang、Guoguo Chen、Dong Yu、Kaisheng Yao、ng Yao、「遠隔音声認識のための長期短期記憶 RNN」、IEEE 国際音響、音声、信号処理会議 (ICASSP)、2016 年、pp. 5755-5759。 2.XueS、Yan Z. オンライン音声認識のための遅延制御BLSTM音響モデルの改善[C]//音響、音声および信号処理(ICASSP)、2016 IEEE国際会議。IEEE。2017。 3. Zhang S、Liu C、Jiang H、et al. Feedforwards 順次記憶ネットワーク: 長期依存性を学習する新しい構造[J].arXiv プレプリント arXiv:1512.08301、2015。 4. Zhang S、Jiang H、Xiong S、他「大語彙連続音声認識のためのコンパクトフィードフォワードシーケンシャルメモリネットワーク[C]//INTERSPEECH. 2016: 3389-3393. 5. Zhang S、Liu C、Jiang H、et al. 長期依存性のための非再帰ニューラル構造[J]。IEEE/ACM Transactions on Audio、Speech、およびLanguage Processing、2017、25(4): 871-884。 6. Oord A、Dieleman S、Zen H、他「Wavenet: 生のオーディオを生成するモデル[J]」arXivプレプリントarXiv:1609.03499、2016年。 7. Pundak G、Sainath T N. 低フレームレートニューラルネットワーク音響モデル[C]//INTERSPEECH。2016: 22-26。 |
<<: 不意を突かれたGoogleの「人間の創造」の成功は恐ろしい!人類は歴史上最悪の失業の波に直面しています...
>>: 百度、「小度スマートスピーカー」を89元の試用価格で発売
高度に自動化された社会では、人々の反復的な労働のレベルは最小限に抑えられています。人件費が高い分野で...
著者: Yajie Yingliang、Chen Long 他導入美団のフードデリバリー事業が成長を...
機械学習モデルの数学解答能力を測定するために、カリフォルニア大学バークレー校とシカゴ大学の研究者らは...
[[263741]]自動運転は短期間で実現できるのか?数年前なら、大手各社はおそらく肯定的な答えを...
Gartner の調査によると、約 37% の組織が何らかの形で AI を実装しています。しかし、E...
6月26日のニュース:大学入試願書の記入は毎年大学入試後の重要なステップであり、受験生や保護者が最も...
Facebook は、数十億のノードと数兆のエッジを持つグラフ モデルを効率的にトレーニングできる...
[[429813]]人工知能は、企業のマーケティング範囲の拡大に大きく貢献することが証明されています...
長年にわたり、自動化はほぼすべての業界に浸透してきました。自動化は、工場の機械が組立ラインの生産を高...
COVID-19 パンデミックにより、企業はデジタル変革の取り組みを数か月、場合によっては数年も加速...
ニューラルネットワークがうまく動作しない場合はどうすればいいでしょうか?この記事の著者は、データの前...