音声認識におけるCNNの応用

音声認識におけるCNNの応用

序文

音声認識の現在の開発状況をまとめると、DNN、RNN/LSTM、CNN が音声認識における主流の方向性の一部であると考えられています。 2012年、マイクロソフトのDeng Li教授とYu Dong教授は、音響モデリングにFeed Forward Deep Neural Network(FFDNN)を導入し、FFDNNの出力層確率を使用して、以前のGMM-HMMでGMMによって計算された出力確率を置き換え、DNN-HMMハイブリッドシステムのトレンドを開始しました。 Long Short Term Memory (LSTM) ネットワークは、音声認識で最も広く使用されている構造です。このネットワークは音声の長期的な相関関係をモデル化できるため、認識精度が向上します。双方向 LSTM ネットワークはより優れたパフォーマンスを実現できますが、トレーニングの複雑さが高く、デコードの遅延も大きいという問題があり、産業分野のリアルタイム認識システムに適用するのは困難です。

[[207865]]

過去 1 年間の音声認識の発展を振り返ると、ディープ CNN は間違いなくホットなキーワードであり、多くの企業がこの分野に多大な研究を投入してきました。実際、CNN は音声認識に長い間使用されてきました。2012 年と 2013 年に、Ossama Abdel-Hamid 氏が音声認識に CNN を導入しました。当時は、畳み込み層とプーリング層が交互に登場し、畳み込みカーネルの規模が比較的大きかった。CNN層の数は多くなく、主にDNN分類により適した特徴を加工・処理するために使われていた。 CNN が画像処理の分野でますます普及するにつれて、VGGNet、GoogleNet、ResNet の応用により、音声認識における CNN にさらに多くのアイデアがもたらされました。たとえば、複数の畳み込み層の後にプーリング層を追加し、畳み込みカーネルのサイズを縮小すると、より深く効果的な CNN モデルをトレーニングできるようになります。

1 音声認識に CNN を使用する理由

通常、音声認識は時間周波数分析後の音声スペクトルに基づいて行われ、音声時間周波数スペクトルは構造的な特徴を持っています。音声認識率を向上させるためには、話者(話者自身および話者間)の多様性や環境の多様性など、音声信号が抱えるさまざまな多様性を克服する必要があります。畳み込みニューラル ネットワークは、時間と空間における変換不変の畳み込みを提供します。畳み込みニューラル ネットワークの考え方を音声認識の音響モデリングに適用すると、畳み込みの不変性を利用して音声信号自体の多様性を克服できます。この観点からは、音声信号全体を解析して得られる時間周波数スペクトルを画像として扱い、画像で広く使われている深層畳み込みネットワークを用いて認識する、という方法が考えられます。

実用的な観点から見ると、CNN は大規模な並列コンピューティングを実装するのも簡単です。 CNN 畳み込み演算には多くの小さな行列演算が含まれますが、演算は低速です。しかし、CNN 演算の高速化は比較的成熟しており、例えば Chellapilla らは、これらすべての小さな行列を 1 つの大きな行列の積に変換できる技術を提案しました。 Tensorflow、Caffe などの一般的なフレームワークでも CNN の並列アクセラレーションが提供されており、音声認識で CNN を試すことができます。

以下では、音声認識における CNN の応用を「浅い」ものから「深い」ものまで紹介します。

2 CLDN

音声認識におけるCNNの応用について話すとき、CLDNN(畳み込み、長短期記憶、完全接続ディープニューラルネットワーク)[1]について言及する必要があります。CLDNNには2層のCNNアプリケーションがあり、浅いCNNアプリケーションの代表と見なすことができます。 CNN と LSTM は、音声認識タスクにおいて DNN よりも優れたパフォーマンスを実現できます。モデリング機能の点では、CNN は周波数領域の変化を減らすのに優れており、LSTM は長期記憶を提供できるため、時間領域で広く使用されています。一方、DNN は特徴を独立した空間にマッピングするのに適しています。 CLDNN では、CNN、LSTM、DNN を 1 つのネットワークに統合して、単一のネットワークよりも優れたパフォーマンスを実現します。

CLDNN ネットワークの一般的な構造は、入力層が時間領域関連の特徴であり、CNN のいくつかの層が接続されて周波数領域の変化が削減され、CNN の出力が LSTM のいくつかの層に入力されて時間領域の変化が削減され、LSTM の最後の層の出力が完全に接続された DNN 層に入力され、特徴空間をより分類しやすい出力層にマッピングすることが目的です。これまでにも CNN、LSTM、DNN を融合する試みはありましたが、一般的には 3 つのネットワークは別々にトレーニングされ、その後、融合レイヤーを介して融合されます。一方、CLDNN は 3 つのネットワークを同時にトレーニングします。実験により、LSTM に優れた特徴を入力すると、そのパフォーマンスが向上することがわかっています。これにヒントを得て、著者は CNN を使用して周波数領域の変化を減らし、LSTM 入力をより適応的な特徴にし、DNN を追加して隠れ層と出力層の間の深さを増やし、より強力な予測機能を獲得しました。

2.1 CLDNNネットワーク構造

図1. CLDNNアーキテクチャ

ネットワーク構造図を図1に示します。中心フレームを と仮定し、コンテンツの関連性を考慮して左にLフレーム、右にRフレームを展開すると、入力特徴シーケンスは[, . . . ,]となり、特徴ベクトルは40次元のlog Mel特徴を使用します。

CNN 部分は 2 つの CNN 層で構成され、各層には 256 個の特徴マップがあります。最初の層は 9x9 の時間周波数領域フィルターを使用し、2 番目の層は 4x3 フィルターを使用します。プーリング層は最大プーリング戦略を採用し、第 1 層のプーリング サイズは 3 であり、第 2 層の CNN はプーリング層に接続されていません。

CNN の最後のレイヤーの出力次元は非常に大きく、サイズは特徴マップ時間周波数であるため、CNN の後、LSTM の前に線形レイヤーを接続して次元を削減します。実験では、次元を削減してパラメーターを削減しても、精度に大きな影響を与えないことも示されています。線形レイヤーの出力は 256 次元です。

CNN の後には 2 つの LSTM レイヤーが続き、各 LSTM レイヤーは次元削減のために 832 個のセルと 512 次元のマッピング レイヤーを使用します。出力状態ラベルは 5 フレーム遅延され、その時点で DNN 出力情報は現在のフレームをより適切に予測できるようになります。 CNN の入力特徴は左に l フレーム、右に r フレーム拡張されるため、LSTM が将来 5 フレーム以上を参照しないようにするために、r を 0 に設定します。 ***、周波数領域と時間領域でモデリングした後、LSTM の出力は完全に接続された DNN 層の複数の層に接続されます。

著者は、画像分野における CNN の応用を参考に、長期および短期の特徴も試し、CNN の入力特徴を短期特徴として LSTM に部分入力として直接入力し、CNN の出力特徴を DNN の部分入力特徴として直接入力しました。

2.2 実験結果

CLDNN 構造については、独自の中国語データを使用して一連の実験を実施しました。実験データは、300 時間の中国語のノイズ音声です。すべてのモデル入力機能は、フレーム レートが 10 ミリ秒の 40 次元 fbank 機能です。モデルのトレーニングではクロスエントロピー CE 基準を採用し、ネットワーク出力は 2w 状態以上になります。 CNN の入力には l と r の 2 つのパラメータを設定する必要があるため、r は 0 に設定され、実験後の最適解として l は 10 になります。以下の実験結果では、デフォルトで l=10、r=0 と想定されています。

LSTM は 3 層、1024 セルで、プロジェクトは 512 です。CNN + LSTM と CNN + LSTM + DNN の特定のネットワーク パラメータは、次の図に示すようにわずかに調整されています。さらに、2 層の CNN と 3 層の LSTM を組み合わせた一連の実験が追加されました。実験では、LSTM を 1 層追加すると結果が改善されることが検証されていますが、LSTM 層の数を増やし続けても結果は改善されません。

図2. CLDNN実験構造

表1 テストセット1の結果

表2 テストセット2の結果

3 ディープ CNN

過去 1 年間で、音声認識において大きな進歩がありました。 IBM、Microsoft、Baiduなど多くの機関が、音声認識の精度を向上させるために、独自のDeep CNNモデルを相次いでリリースしています。 Residual/Highway ネットワークの導入により、ニューラル ネットワークをより深くトレーニングできるようになります。 Deep CNN を試す過程では、大きく分けて 2 つの戦略があります。1 つは、HMM フレームワークの Deep CNN 構造に基づく音響モデルです。CNN は、VGG、残差接続 CNN ネットワーク構造、または CLDNN 構造にすることができます。もう 1 つは、CTC フレームワークで CNN または CLDNN を使用してエンドツーエンドのモデリングを実現する、または最近提案された低フレーム レートやチェーン モデルなどの粗粒度モデリング ユニット テクノロジなど、過去 2 年間で非常に人気が高まっているエンドツーエンド構造です。

入力側については、従来の信号処理の特徴を入力し、異なるフィルターを使用して処理し、その後左右またはフレームスキップ拡張を実行するという2つのタイプに大別できます。

図3. マルチスケール入力機能。スタック31140

2つ目の方法は、元のスペクトルを直接入力し、スペクトルを画像として処理することです。

図4. 周波数帯域入力

3.1 百度のディープスピーチ

Baidu は、VGGNet と残差接続を備えたディープ CNN 構造を使用してディープ CNN を音声認識研究に適用し、LSTM と CTC エンドツーエンドの音声認識技術を組み合わせることで、認識エラー率を 10% 以上 (元のエラー率の 90%) 削減しました。

これまで、Baidu Voice のモデル アルゴリズムは、DNN、識別モデル、CTC モデル、そして今日の Deep CNN へと、毎年継続的に更新されてきました。 LSTM-CTC ベースの音響モデルも、2015 年末にすべての音声関連製品に導入されました。主な進捗状況は以下のとおりです。1) 2013年、メルサブバンドに基づくCNNモデル。2) 2014年、シーケンス識別トレーニング(差別化モデル)。3) 2015年初頭、LSTM-HMMに基づく音声認識。4) 2015年後半、LSTM-CTCに基づくエンドツーエンド音声認識。5) 2016年、Deep CNNモデル。現在、BaiduはDeep CNNに基づくdeep speech3を開発しています。トレーニングにはビッグデータを使用し、パラメータの調整に数万時間、製品の作成には10万時間かかると言われています。

図5. Baiduの音声認識開発

Baidu は、ディープ CNN 構造により HMM 音声認識システムのパフォーマンスが大幅に向上するだけでなく、CTC 音声認識システムのパフォーマンスも向上することを発見しました。ディープ CNN のみを使用したエンドツーエンドのモデリングのパフォーマンスは比較的低いため、LSTM や GRU などの再帰型隠し層を CNN と組み合わせることは比較的良い選択です。 VGG構造で3*3などの小さなカーネルを使用したり、残差接続を使用したりすることで、パフォーマンスを向上させることができます。畳み込みニューラルネットワークのレイヤーとフィルターの数は、モデル全体のモデリング能力に大きく影響します。さまざまなサイズの音声トレーニングデータベースでは、BaiduはさまざまなサイズのDeepCNNモデル構成を使用して最高のパフォーマンスを実現する必要があります。

そのため、Baidu は次のように考えています。1) モデル構造において、DeepCNN はモデルが時間と周波数領域で優れた変換不変性を持つようにし、モデルをより堅牢 (ノイズ耐性) にします。2) これに基づいて、DeepLSTM と CTC はシーケンス分類に重点を置き、LSTM の再帰接続構造を通じて長期情報を統合します。 3) DeepCNN の研究では、時間軸上の畳み込み構造の受容野とフィルターの数が、さまざまなサイズのデータ​​ベースでトレーニングされた音声認識モデルのパフォーマンスに非常に重要な役割を果たします。 4) 数万時間の音声データベースで正確なモデルをトレーニングするには、多くのモデルハイパーパラメータの調整が必要であり、これは複数のマシンと複数の GPU を備えた高性能コンピューティング プラットフォームに依存することによってのみ完了できます。 5) DeepCNN に基づくエンドツーエンドの音声認識エンジンも、モデルの計算複雑度をある程度まで高めています。Baidu が独自に開発したハードウェアにより、このようなモデルは大多数の音声認識ユーザーにも対応できます。

3.2 IBM

2015 年、IBM Watson は英語会話音声認識における大きなマイルストーンを発表しました。このシステムは、一般的なベンチマークである Switchboard データベースで 8% の単語誤り率 (WER) を達成しました。 2016 年 5 月、IBM Watson チームは、自社のシステムが同タスクで 6.9% の単語エラー率という新記録を樹立したと発表しました。デコード部分には HMM が使用され、言語モデルには優れたニューラル ネットワーク言語モデルが使用されました。音響モデルには、主に、最大出力活性化を伴うリカレント ニューラル ネットワーク、3*3 畳み込みカーネルを伴うディープ畳み込みニューラル ネットワーク、双方向の長短期記憶ネットワークという 3 つの異なるモデルが含まれています。それらの内部構造を詳しく見てみましょう。

図6. IBM Deep CNNフレームワーク

非常に深い畳み込みニューラル ネットワークは、2014 年の ImageNet コンテストに参加した VGG ネットワークからヒントを得ています。中心となるアイデアは、より大きな畳み込みカーネルの代わりに、より小さな 3*3 畳み込みカーネルを使用することです。プーリング層の前に複数の畳み込みネットワーク層を積み重ね、ReLU 活性化関数を使用することで、より少ないパラメータとより高い非線形性という利点を持ちながら、同じ知覚領域を得ることができます。

上図に示すように、左の 1 は最も古典的な畳み込みニューラル ネットワークで、2 つの畳み込み層のみを使用し、その間にプーリング層が含まれています。畳み込み層の畳み込みカーネルも 99 と 43 と大きく、畳み込み特徴面の数も 512 と多くなっています。

左 2、左 3、左 4 はすべて、深層畳み込みニューラル ネットワークの構造です。従来の畳み込みニューラル ネットワークとの違いは、畳み込み特徴面の数が 64 から 128、さらに 256 に増加し、畳み込み特徴面の数が増える前にプーリング層が配置されていること、畳み込みカーネルはすべてより小さな 33 畳み込みカーネルを使用し、プーリング層のプーリング サイズが 21 から 2*2 に増加していることです。

右端の 10-conv のパラメータ数は、左端の従来の畳み込みニューラル ネットワークのパラメータ数と同じですが、計算の複雑さはわずかに増加しますが、収束速度は 5 倍速くなります。

3.3 マイクロソフト

2016 年 9 月、Microsoft の研究者は、業界標準の Switchboard 音声認識タスクにおいて、業界トップクラスの単語誤り率 (WER) 6.3% を達成しました。ニューラルネットワークの音響モデルと言語モデルの開発に基づいて、いくつかの音響モデルを組み合わせて、ResNet を音声認識に適用します。

2016 年 10 月、マイクロソフトの AI 研究部門のチームは、自社の音声認識システムが 5.9% の単語誤り率 (WER) を達成したと報告しました。これは、プロの速記者のそれと同等かそれ以下です。単語誤り率 5.9% は、同じ会話を人間が速記で書き起こしたレベルに相当し、現在 Switchboard 音声認識タスクにおける最高記録です。この画期的な出来事は、コンピューターが初めて会話の中で人間と同じように言葉を認識できるようになったことを意味します。畳み込みニューラル ネットワークと LSTM ニューラル ネットワークが体系的に使用され、新しい空間平滑化手法と格子フリー MMI 音響トレーニングが組み合わされています。

精度の飛躍的進歩を示す数値ベンチマークが示されたものの、マイクロソフトの研究はより学術的なもので、2,000 時間分のデータしかない標準データベースである音声言語データベース Switchboard で完了しました。

3.4 グーグル

メアリー・ミーカーの年次インターネットレポートによると、機械学習をベースとしたGoogleの音声認識システムは、2017年3月に英語分野で95%の単語精度を達成し、これは人間の音声認識の精度に近い数値だという。定量的に分析すると、Google のシステムは 2013 年以降パフォーマンスが 20% 向上しています。

図7. Google音声認識性能の向上

近年のさまざまなカンファレンスでの Google の記事から、Google のディープ CNN への道は、主に Network-in-Network (NiN)、Batch Normalization (BN)、Convolutional LSTM (ConvLSTM) 方式など、複数の方法とモデルの融合を採用していることがわかります。例えば、2017年のICASSPカンファレンスでGoogleが発表した構造

図8. [5]には、下部に2つの畳み込み層があり、その後に4つの残差ブロックとLSTM NiNブロックが続きます。各残差ブロックには、1つの畳み込みLSTM層と1つの畳み込み層が含まれています。

3.5 アイフライテックDFCNN

2016年、iFLYTEKは、Feed-forward Sequential Memory Network(FSMN)と呼ばれる新しいフレームワークを提案した後、Deep Fully Convolutional Neural Network(DFCNN)と呼ばれる音声認識フレームワークを提案しました。これは、多数の畳み込み層を使用して文章全体の音声信号を直接モデル化し、音声の長期的な相関関係をより適切に表現します。

DFCNNの構造は下図の通りです。スペクトル信号を入力するだけでなく、音声文を直接入力として画像に変換します。つまり、まず音声の各フレームに対してフーリエ変換を実行し、次に時間と周波数を画像の2次元として使用します。次に、多数の畳み込み層とプーリング層の組み合わせにより、音声文全体をモデル化します。出力ユニットは、音節や漢字などの最終的な認識結果に直接対応します。

図9. DFCNNフレームワーク

まず、入力側から見ると、従来の音声特徴は、フーリエ変換後に特徴を抽出するために人工的に設計されたさまざまなフィルタ群を使用しているため、周波数領域、特に高周波領域で情報が失われます。さらに、従来の音声特徴は、計算上の考慮事項のために非常に大きなフレームシフトを使用する必要があり、これは間違いなく時間領域での情報損失を引き起こし、話者が速く話すほどそれが顕著になります。したがって、DFCNN はスペクトログラムを直接入力として使用します。これは、従来の音声機能を入力として使用する他の音声認識フレームワークよりも当然の利点があります。第二に、モデル構造の観点から見ると、DFCNNは音声認識における従来のCNNとは異なり、画像認識における最も効果的なネットワーク構成を借用しています。各畳み込み層は小さな3x3畳み込みカーネルを使用し、複数の畳み込み層の後にプーリング層を追加します。これにより、CNNの表現力が大幅に向上します。同時に、このような畳み込みプーリング層ペアを大量に蓄積することで、DFCNNは非常に長い履歴情報と未来情報を見ることができるため、DFCNNは音声の長期的な相関関係を優れた形で表現でき、RNNネットワーク構造よりも堅牢です。 ***、出力側では、DFCNN は最近人気の CTC ソリューション*** と組み合わせてモデル全体のエンドツーエンドのトレーニングを実現することもできます。また、プーリング層などの特殊な構造により、上記のエンドツーエンドのトレーニングをより安定させることができます。

4 結論

CNN 独自の周波数領域での畳み込みの変換不変性と、VGG や残差ネットワークなどのディープ CNN ネットワークの導入により、CNN は新たな発展をもたらし、過去 2 年間で音声認識の最もホットな方向性の 1 つになりました。その利用法も、当初の2~3層の浅いネットワークから10層以上の深層ネットワークへ、HMM-CNNフレームワークからエンドツーエンドのCTCフレームワークへと進化しており、さまざまな企業もディープCNNの応用において目覚ましい成果を上げています。

まとめると、CNN の開発動向は一般的に次のようになります。

1 より深く複雑なネットワークの場合、CNN は通常、ネットワークの最初の数層として使用されます。これは、CNN を使用して特徴を抽出し、その後に LSTM または DNN を使用することを意味します。同時に、アテンションモデル、ResNet テクノロジーなどの複数のメカニズムを組み合わせます。

2 エンドツーエンドの認識システム、エンドツーエンドテクノロジーCTC、LFRなどを使用。

3 粗粒度のモデリング単位: 傾向は状態から電話、そして文字へと移り、モデリング単位はますます大きくなっています。

しかし、CNNにも限界があります。[2,3] 研究によると、畳み込みニューラルネットワークはトレーニングセットやデータの違いが小さいタスクで最も効果的であることがわかっています。他のほとんどのタスクでは、単語エラー率の相対的な減少は一般的に2%から3%の範囲にすぎません。いずれにせよ、音声認識の重要な分野の 1 つとして、CNN は大きな研究価値があります。

<<:  AIプログラミングは原作者を打ち負かす。プログラマー:私が書いたプログラムのせいで失業した

>>:  自然言語処理技術により、機械はより人間的な視点から問題を解決できるようになる。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

電荷ベースの原子シミュレーションのための事前学習済み汎用ニューラルネットワーク CHGNet

複雑な電子相互作用の大規模シミュレーションは、原子モデル化における最大の課題の 1 つです。古典的な...

機械学習は音楽界を征服するのに役立ち、あなたは次のヴィンセント・ファングになるでしょう

私はアークティック・モンキーズが大好きですが、彼らはもう何年も新しいシングルをリリースしていません。...

今後 10 年間で 21 の新しい仕事が生まれます。あなたに何ができるか見てみましょう。

[[242467]]現在観察できるマクロ経済、政治、人口、社会、文化、ビジネス、テクノロジーの一般...

ナレッジグラフの紹介

1.1 ナレッジグラフの開発履歴ナレッジグラフは 1950 年代に始まり、大きく 3 つの開発段階に...

...

教師なし学習のための最も強力な戦略

[[279087]] MLKはMachine Learning Knowledgeの略で、機械学習の...

マイクロソフトCEOナデラ氏:AIはルールを変えるインターネットの波のようなもの

8月18日、マイクロソフトが人工知能(AI)技術の研究開発に注力し、OpenAIに100億ドル以上を...

顔認識情報セキュリティは大きな注目を集めており、専門家の代表者らは多くの提案を行っている。

近年、人工知能技術の成熟に伴い、顔認識の応用範囲はますます広がっています。 「顔スキャン」は、効率、...

顔認識は普及しつつあるのに、なぜ禁止されているのでしょうか?

顔認識は誰もが知っている技術です。iPhoneのFace IDからAlipayの顔認証決済まで、かつ...

...

顔認証の過去と現在の徹底分析

​​ [[211140]]​​人工知能は、まず知覚段階、次に認知段階の 2 つの段階に分かれています...

決まりました!国は人工知能に関する重要なニュースを発表し、これらの人々は集団的に失業することになるだろう...

1寝耳に水! 11月15日、国からビッグニュースが発表されました!科学技術部は、新世代人工知能開発...

「顔認識」は「性格認識」を生み出しました。テクノロジーが善のために使われるようになるまでにはどれくらい時間がかかるのでしょうか?

最近、顔認識の新技術に関する記事が科学誌「サイエンティフィック・リポーツ」に掲載された。ロシアの研究...

ネイチャー誌の年間トップ10科学者・イベント:天問1号の主任設計者、張栄橋氏がリスト入り

Nature の年間トップ 10 科学者およびトップ 10 科学イベントが発表されました。今年の科学...

AIを使って死後の意識を蘇らせることは信頼できるのか?デジタル不滅には経済計算が必要

十分なデータがあれば、愛する人が亡くなった後でも、その人の意識を生かし続けることができます。それは何...