2016年の音声認識の発展を技術的な観点から振り返る

ディープラーニングと人工ニューラルネットワークの発展により、音声認識は 2016 年に一連のブレークスルーを達成し、製品アプリケーションにおいてますます成熟してきました。音声認識は音声インタラクションの分野において極めて重要な部分であり、常にテクノロジー大手の研究の焦点となっており、国内外で数多くの優れたスタートアップ企業が誕生しています。

[[185805]]

今年初め、Machine Intelligence は ACM の中国語版から「詳細 | 40 年間の課題と栄光 - 歴史的観点から音声認識の発展を振り返る」と題する記事を公開しました。この記事では、Microsoft の主任音声科学者である Huang Xuedong 氏が、音声認識の歴史と発展の課題について詳細に解説しています。

長い間、人間と機械が会話をすることは、人間とコンピュータの相互作用の分野における夢でした。非常に基本的な技術である音声認識は、今年もまた大きな進歩を遂げました。

Syncedは今年、iFlytekを訪問し、UnisoundやAISpeechなどの新興企業と面会しました。マイクロソフトが英語音声認識で画期的な進歩を遂げた後、マイクロソフトの黄雪東氏と于東氏にも詳細なインタビューを行いました。少し前には、Baiduの音声開発プラットフォーム3周年のテーマイベントで、BaiduのチーフサイエンティストAndrew Ng氏からBaiduの音声認識開発について学びました。 Machine Heart の記事から得た手がかりが、音声認識の将来の発展への洞察を提供してくれることを願っています。

この記事では、2016 年に機械知能が注目した音声認識分野における画期的な研究、今後解決すべき課題、音声認識の発展の歴史におけるより重要な時点についてレビューします。

1. 2016 年に音声認識分野でどのような進歩がありましたか?

このセクションでは、Synced が 2016 年に気づいた、主に Baidu、IBM、Microsoft などの企業が関与した音声認識精度の進歩について説明します。これらのブレークスルーに基づいて、音声認識技術の開発の道筋を整理しました。

1. Baidu Deep Speech 2のフレーズ認識単語エラー率は3.7%に低下

発生日: 2016年2月

Deep Speech 2が2015年12月に初めてリリースされたとき、主任科学者のアンドリュー・ン氏は、その認識精度がGoogle Speech API、wit.ai、MicrosoftのBing Speech、AppleのDictationを少なくとも10パーセント上回ったと述べた。今年2月までに、Deep Speech 2のフレーズ認識における単語誤り率は3.7%にまで低下しました。

少し前、Baidu は、VGGNet と残差接続を含むディープ CNN 構造を使用し、LSTM と CTC エンドツーエンドの音声認識技術を組み合わせたディープ CNN を音声認識研究に適用し、認識エラー率を 10% 以上 (元のエラー率の 90%) 削減しました。

Baidu の音声技術部門の認識技術責任者であり、Deep Speech 中国語研究開発責任者でもある Li Xiangang 博士によると、Baidu は Deep Speech 3 の推進に力を入れており、この研究が Deep Speech 3 の中核コンポーネントになる可能性も否定できないとのことです。

技術改善の基盤：1. エンドツーエンドのディープラーニング方式。2. 深層畳み込みニューラルネットワーク技術（Deep CNN）を音声認識音響モデリングに適用し、長短期記憶単位（LSTM）と接続時間分類（CTC）に基づくエンドツーエンドの音声認識技術と組み合わせます。

2. IBM Watsonの会話単語エラー率は6.9%と低い

発生時期: 2016年5月

2015 年、IBM Watson は英語会話音声認識における大きなマイルストーンを発表しました。このシステムは、一般的なベンチマークである Switchboard データベースで 8% の単語誤り率 (WER) を達成しました。今年5月、IBM Watsonチームは、自社のシステムが同タスクで6.9%の単語誤り率という新記録を樹立したと発表しました。

技術改善基盤：音響と言語モデルの改善

3. マイクロソフトの新システムの英語音声認識単語エラー率は6.3%と低い

発生時期: 2016年9月

業界標準の Switchboard 音声認識タスクにおいて、Microsoft の研究者は業界最低の単語誤り率 (WER) 6.3% を達成しました。

技術改善基盤：ニューラルネットワークに基づく音響・言語モデルの開発、複数の音響モデルの組み合わせ、音声認識におけるResNetの使用。

4. マイクロソフトの英語音声認識の単語エラー率は5.9%に達し、人間と同等

発生時期: 2016年10月

マイクロソフトの AI および研究部門のチームは、自社の音声認識システムが 5.9% の単語誤り率 (WER) を達成したと報告しました。これは、プロの速記者のそれと同等かそれよりも低い数値です。単語誤り率 5.9% は、人間が同じ会話を速記で録音したレベルに相当し、現在の業界標準である Switchboard 音声認識タスクにおける最低記録です。この画期的な出来事は、コンピューターが会話の中で人間と同じように言葉を認識できるようになった初めての出来事だ。

技術改善の基礎: 体系的に使用された畳み込みと LSTM ニューラルネットワークに、新しい空間平滑化法と格子フリー MMI 音響トレーニングを組み合わせました。

両社とも精度の飛躍的進歩を示す数値ベンチマークを提供していますが、Baidu は Microsoft や IBM (スイッチボードでテスト済み) とは大きく異なります。 Microsoft の研究はより学術的なもので、2,000 時間分のデータしか含まれていない標準データベースである音声言語データベース Switchboard で行われました。

Microsoft Research の研究は、交換台データベースに基づいて音声認識が最終的にどのようなパフォーマンスを達成できるかに焦点を当てています。百度の音声認識技術責任者、李向剛氏によれば、同社は音声技術をいかにして日常のアプリケーションに統合するかに注力しており、使用するデータは数万時間に及ぶという。

黄雪東氏は、Synced との以前のインタビューでも、同社の音声認識システムにはバグがなく、標準データでこのようなレベルを達成したことはエンジニアリングの完成度を反映していると語った。

それぞれのブレークスルーの技術的改善の根拠については、次のように明確に整理することができます。

1. これまで、LSTMなどのモデルが音声認識にうまく適用され始めており、今年のその後の研究ではLSTMのモデル効果がさらに向上しました。

2. もう一つの大きな進歩は、Deep CNN です。 Deep CNN には、双方向 LSTM に比べて 1 つの利点 (双方向の効果が優れている) があります - レイテンシーです。したがって、リアルタイムシステムでは、双方向 LSTM よりも Deep CNN の方が好まれます。

3. エンドツーエンドの学習。これは、NIPS 2016 で Baidu の主任科学者 Andrew Ng 氏も強調した点です。たとえば、音声認識では、入力は音声で出力はテキストであり、これは比較的純粋なエンドツーエンドの学習です。しかし、欠点もあります。それは、十分に大きなトレーニングセットが必要になることです。

図: Andrew Ng の NIPS 2016 ppt

この分野における現在の研究は、主に 2 種類のモデルに焦点を当てています。 1 つは CTC モデルで、ジョンズホプキンス大学の Dan Povey 博士が CTC から開発した格子フリー MMI が含まれます。もう 1 つは注意ベースのシーケンスツーシーケンスモデルです。現在、そのパフォーマンスはハイブリッドモデルに比べて劣っており、トレーニングの安定性も劣っていますが、これらのモデルには大きな可能性があります (Synced による Yu Dong 教授への独占インタビューをご覧ください)。

中国には音声認識を行う企業が他にもいくつかあります。ここでは、iFlytek、Sogou、Unisound の音声認識システムについて簡単に紹介します。

昨年末、iFLYTEKは、フィードフォワードシーケンシャルメモリネットワーク（FSMN）に代表される新世代の音声認識システムを提案しました。

今年、iFLYTEK は、多数の畳み込み層を使用して文章全体の音声信号を直接モデル化し、音声の長期的な相関関係をより適切に表現する新しい Deep Fully Convolutional Neural Network (DFCNN) 音声認識フレームワークを発表しました。このフレームワークのパフォーマンスは、学界および産業界における最高の双方向 RNN 音声認識システムよりも 15% 以上高いことが報告されています。構造図は以下のとおりです。

iFlytek DFCNNの構造図

同時に、Sogou と Unisound が提供する音声認識システムのプロセスも添付しました。皆さんが学習し、比較し、参照できるようにしてください。

音声認識システムのプロセス: 音声信号がフロントエンド信号処理、エンドポイント検出などによって処理された後、フレームごとに音声特徴が抽出されます。従来の特徴タイプには、MFCC、PLP、FBANK などの特徴が含まれます。抽出された特徴はデコーダーに送信されます。音響モデル、言語モデル、発音辞書の共同ガイダンスの下で、最も一致する単語シーケンスが認識結果出力として見つかります。

Sogou CNN音声認識システムのモデリングプロセス

雲智声音声認識システム

2. 課題とフロンティアの方向性

音声認識が急速に発展したこの1年間、私たちは黄雪東氏や于東氏を含むこの分野の多くの専門家にインタビューし、音声認識分野が直面している将来の方向性、課題、問題について必然的に議論してきました。今後の音声認識研究に役立つよう、以下のように構成されています。

1. 意味理解

Huang Xuedong 氏は、音声認識を向上させるには意味理解を向上させる必要があり、この 2 つは互いに補完し合うと考えています。「人間は非常に頑強です。新しい話題が持ち上がると、会話を通じてコミュニケーションを取り、良い結果を得ることができます。しかし、機械はノイズに耐性がなく、新しい話題での会話コミュニケーション能力が劣っています。最も重要な点は、音声認識があなたのセマンティクスを理解していないことです。セマンティクスの理解は人工知能が克服しなければならない次の課題であり、私たちのチームが多くの時間とエネルギーを費やしているのはこのことです。」

2. 注目すべき4つの方向性

以前 Yu Dong 氏と行ったインタビューで、Synced 氏は音声認識の分野におけるいくつかの最先端分野を指摘しました。

静かな環境や近距離マイクの使用時には、音声認識の認識率は実用的な閾値を超えていますが、一部のシナリオでは効果がまだそれほど良くなく、これが私たちの分野の最先端です。ここで、いくつかの点に焦点を当ててみましょう。
まず、遠距離認識、特に人間の音声干渉の場合の認識率をさらに向上させることは可能でしょうか? 現時点では、遠距離認識のエラー率は近距離認識の約 2 倍であるため、多くの場合、音声認識システムは依然として不十分です。少なくとも現時点では、遠距離認識はバックエンドモデルの強化だけでは解決できません。現在、研究は、マルチチャンネル信号処理（マイクアレイなど）とバックエンド処理を組み合わせて、音源から認識システムまでのプロセス全体を最適化し、システム全体のパフォーマンスを向上させることに重点が置かれています。
さらに、より優れた認識アルゴリズムの研究も続けています。 この「より良い」にはいくつかの側面があります。1 つの側面は、よりシンプルにできるかどうかです。 現在のモデルトレーニングプロセスはまだ比較的複雑で、多くのステップが必要です。 HTK や Kaldi のようなオープンソースソフトウェアやレシピがなければ、DNN の使用によって敷居が大幅に下がったとしても、多くのチームは適切なシステムを構築するのに長い時間を費やさなければなりません。 CNTK のようなディープラーニングツールキットを含むオープンソースソフトウェアとレシピのおかげで、物事ははるかに簡単になりましたが、さらに簡素化できる余地はまだあります。この分野では、アライメントや辞書の必要性を回避する方法を含め、多くの作業が行われています。現在の研究は依然として主にエンドツーエンドのアプローチに基づいており、これにより以前は手作業や前処理を必要としていた手順の一部が削除されます。現状の効果は従来のハイブリッドシステムを上回ることはできませんが、すでにハイブリッドシステムの性能に近づいています。
一方、近年では、当初は単純なDNNを使用していたものが、LSTMやDeep CNNなどの比較的複雑なモデルへと進化しています。 しかし、多くの場合、これらのモデルは十分ではありません。したがって、研究の方向性の 1 つは、モデル化したいすべてのものを配置できる特別なネットワーク構造を見つけることです。私たちはこれまでにもいくつかの試みを行ってきました。例えば、ある人が他の人と話しているとき、その人は予測を続けます。この予測には、相手が次に何を言いたいかだけでなく、相手のアクセントなどに基づいて次に何を言うかを判断するなど、さまざまなことが含まれます。認識性能を向上させるために、これらの現象をモデルに組み込むようにしました。多くの研究者もこの方向に進んでいます。
もう 1 つの方向性は、迅速適応法、つまり人間の介入を必要としない迅速適応法 (教師なし適応) です。 現在、いくつかの適応アルゴリズムが存在しますが、それらの適応速度は比較的遅いか、より多くのデータを必要とします。より速い適応を実現する方法はありますか?それは、強いアクセントのある人と初めて話すとき、最初は理解できないかもしれませんが、2、3文話した後には理解できるようになります。人々はまた、非常に高速で優れたパフォーマンスを保証できるこのような適応型の方法を探しています。迅速な適応は実用的な観点から非常に重要です。多くの場合、適応によって認識率が向上する可能性があるからです。

3. 音声認識の簡単な歴史

このセクションでは、音声認識の歴史におけるいくつかの重要な時点を簡単に整理しました。音声認識技術の詳細な研究の歴史については、前述の黄雪東教授の著書「苦難と栄光の40年 - 歴史的観点から音声認識の発展を見る」を参照してください。

1952年、デイビスらはベル研究所で10個の英語の数字の発音を認識できる世界初の実験システムを開発したが、認識できたのは1人の人の発音だけだった。
1962 年に IBM は Shoebox を発表しました。シューボックスは、16 の話し言葉と 0 から 9 までの英語の数字を理解できます。
1969 年、ベル研究所のジョン・ピアースは、成熟した音声認識には人工知能が必要となるため、実現には何十年もかかるだろうと予測しました。
1970 年、プリンストン大学のレニー・バウムが隠れマルコフモデルを発明しました。
1970年代にカーネギーメロン大学は、3歳児の語彙に相当する1011語を認識できるハーピー音声認識システムを開発しました。
1980 年代に、隠れマルコフモデルが音声認識に導入されました。
最初の消費者向け製品である DragonDictate は 1990 年代に登場し、国際的な音声認識会社 Nuance によってリリースされました。
2007 年、Dag Kittlaus 氏と Adam Cheyer 氏が Siri.Inc. を設立しました。その後、Apple に買収され、2011 年に iPhone 4s で初めて登場しました。
2009年以降、機械学習分野におけるディープラーニング研究の発展とビッグデータコーパスの蓄積により、音声認識技術は急速に進歩しました。
2011年、マイクロソフトは最初のブレークスルーを達成しました。ディープニューラルネットワークモデルを使用した結果、音声認識のエラー率が30%減少しました。
2015 年、IBM Watson は英語会話音声認識における大きなマイルストーンを発表しました。このシステムは、一般的なベンチマークである Switchboard データベースで 8% の単語誤り率 (WER) を達成しました。

音声認識は今年大きな進歩を遂げ、アルゴリズムからモデルへの質的変化を遂げました。音声分野の他の研究（音声合成など）と組み合わせることで、音声技術は産業、家庭用ロボット、通信、カーナビゲーションなど、さまざまな分野に徐々に浸透してきました。ある日、機械が人間の言語を本当に「理解」して応答できるようになると、新しい時代が到来するでしょう。

<<: これらのよく知られた VR 音声テクノロジーソリューションをご存知ですか?

>>: 音声認識：市場の見通しは有望だが、コア技術にはまだブレークスルーが必要