ディープラーニングと人工ニューラルネットワークの発展により、音声認識は 2016 年に一連のブレークスルーを達成し、製品アプリケーションにおいてますます成熟してきました。音声認識は音声インタラクションの分野において極めて重要な部分であり、常にテクノロジー大手の研究の焦点となっており、国内外で数多くの優れたスタートアップ企業が誕生しています。
今年初め、Machine Intelligence は ACM の中国語版から「詳細 | 40 年間の課題と栄光 - 歴史的観点から音声認識の発展を振り返る」と題する記事を公開しました。この記事では、Microsoft の主任音声科学者である Huang Xuedong 氏が、音声認識の歴史と発展の課題について詳細に解説しています。 長い間、人間と機械が会話をすることは、人間とコンピュータの相互作用の分野における夢でした。非常に基本的な技術である音声認識は、今年もまた大きな進歩を遂げました。 Syncedは今年、iFlytekを訪問し、UnisoundやAISpeechなどの新興企業と面会しました。マイクロソフトが英語音声認識で画期的な進歩を遂げた後、マイクロソフトの黄雪東氏と于東氏にも詳細なインタビューを行いました。少し前には、Baiduの音声開発プラットフォーム3周年のテーマイベントで、BaiduのチーフサイエンティストAndrew Ng氏からBaiduの音声認識開発について学びました。 Machine Heart の記事から得た手がかりが、音声認識の将来の発展への洞察を提供してくれることを願っています。 この記事では、2016 年に機械知能が注目した音声認識分野における画期的な研究、今後解決すべき課題、音声認識の発展の歴史におけるより重要な時点についてレビューします。 1. 2016 年に音声認識分野でどのような進歩がありましたか? このセクションでは、Synced が 2016 年に気づいた、主に Baidu、IBM、Microsoft などの企業が関与した音声認識精度の進歩について説明します。これらのブレークスルーに基づいて、音声認識技術の開発の道筋を整理しました。 1. Baidu Deep Speech 2のフレーズ認識単語エラー率は3.7%に低下 発生日: 2016年2月 Deep Speech 2が2015年12月に初めてリリースされたとき、主任科学者のアンドリュー・ン氏は、その認識精度がGoogle Speech API、wit.ai、MicrosoftのBing Speech、AppleのDictationを少なくとも10パーセント上回ったと述べた。今年2月までに、Deep Speech 2のフレーズ認識における単語誤り率は3.7%にまで低下しました。 少し前、Baidu は、VGGNet と残差接続を含むディープ CNN 構造を使用し、LSTM と CTC エンドツーエンドの音声認識技術を組み合わせたディープ CNN を音声認識研究に適用し、認識エラー率を 10% 以上 (元のエラー率の 90%) 削減しました。 Baidu の音声技術部門の認識技術責任者であり、Deep Speech 中国語研究開発責任者でもある Li Xiangang 博士によると、Baidu は Deep Speech 3 の推進に力を入れており、この研究が Deep Speech 3 の中核コンポーネントになる可能性も否定できないとのことです。 技術改善の基盤:1. エンドツーエンドのディープラーニング方式。2. 深層畳み込みニューラルネットワーク技術(Deep CNN)を音声認識音響モデリングに適用し、長短期記憶単位(LSTM)と接続時間分類(CTC)に基づくエンドツーエンドの音声認識技術と組み合わせます。 2. IBM Watsonの会話単語エラー率は6.9%と低い 発生時期: 2016年5月 2015 年、IBM Watson は英語会話音声認識における大きなマイルストーンを発表しました。このシステムは、一般的なベンチマークである Switchboard データベースで 8% の単語誤り率 (WER) を達成しました。今年5月、IBM Watsonチームは、自社のシステムが同タスクで6.9%の単語誤り率という新記録を樹立したと発表しました。 技術改善基盤:音響と言語モデルの改善 3. マイクロソフトの新システムの英語音声認識単語エラー率は6.3%と低い 発生時期: 2016年9月 業界標準の Switchboard 音声認識タスクにおいて、Microsoft の研究者は業界最低の単語誤り率 (WER) 6.3% を達成しました。 技術改善基盤:ニューラルネットワークに基づく音響・言語モデルの開発、複数の音響モデルの組み合わせ、音声認識におけるResNetの使用。 4. マイクロソフトの英語音声認識の単語エラー率は5.9%に達し、人間と同等 発生時期: 2016年10月 マイクロソフトの AI および研究部門のチームは、自社の音声認識システムが 5.9% の単語誤り率 (WER) を達成したと報告しました。これは、プロの速記者のそれと同等かそれよりも低い数値です。単語誤り率 5.9% は、人間が同じ会話を速記で録音したレベルに相当し、現在の業界標準である Switchboard 音声認識タスクにおける最低記録です。この画期的な出来事は、コンピューターが会話の中で人間と同じように言葉を認識できるようになった初めての出来事だ。 技術改善の基礎: 体系的に使用された畳み込みと LSTM ニューラル ネットワークに、新しい空間平滑化法と格子フリー MMI 音響トレーニングを組み合わせました。 両社とも精度の飛躍的進歩を示す数値ベンチマークを提供していますが、Baidu は Microsoft や IBM (スイッチボードでテスト済み) とは大きく異なります。 Microsoft の研究はより学術的なもので、2,000 時間分のデータしか含まれていない標準データベースである音声言語データベース Switchboard で行われました。 Microsoft Research の研究は、交換台データベースに基づいて音声認識が最終的にどのようなパフォーマンスを達成できるかに焦点を当てています。百度の音声認識技術責任者、李向剛氏によれば、同社は音声技術をいかにして日常のアプリケーションに統合するかに注力しており、使用するデータは数万時間に及ぶという。 黄雪東氏は、Synced との以前のインタビューでも、同社の音声認識システムにはバグがなく、標準データでこのようなレベルを達成したことはエンジニアリングの完成度を反映していると語った。 それぞれのブレークスルーの技術的改善の根拠については、次のように明確に整理することができます。 1. これまで、LSTMなどのモデルが音声認識にうまく適用され始めており、今年のその後の研究ではLSTMのモデル効果がさらに向上しました。 2. もう一つの大きな進歩は、Deep CNN です。 Deep CNN には、双方向 LSTM に比べて 1 つの利点 (双方向の効果が優れている) があります - レイテンシーです。したがって、リアルタイム システムでは、双方向 LSTM よりも Deep CNN の方が好まれます。 3. エンドツーエンドの学習。これは、NIPS 2016 で Baidu の主任科学者 Andrew Ng 氏も強調した点です。たとえば、音声認識では、入力は音声で出力はテキストであり、これは比較的純粋なエンドツーエンドの学習です。しかし、欠点もあります。それは、十分に大きなトレーニング セットが必要になることです。 図: Andrew Ng の NIPS 2016 ppt この分野における現在の研究は、主に 2 種類のモデルに焦点を当てています。 1 つは CTC モデルで、ジョンズ ホプキンス大学の Dan Povey 博士が CTC から開発した格子フリー MMI が含まれます。もう 1 つは注意ベースのシーケンスツーシーケンス モデルです。現在、そのパフォーマンスはハイブリッドモデルに比べて劣っており、トレーニングの安定性も劣っていますが、これらのモデルには大きな可能性があります (Synced による Yu Dong 教授への独占インタビューをご覧ください)。 中国には音声認識を行う企業が他にもいくつかあります。ここでは、iFlytek、Sogou、Unisound の音声認識システムについて簡単に紹介します。 昨年末、iFLYTEKは、フィードフォワードシーケンシャルメモリネットワーク(FSMN)に代表される新世代の音声認識システムを提案しました。 今年、iFLYTEK は、多数の畳み込み層を使用して文章全体の音声信号を直接モデル化し、音声の長期的な相関関係をより適切に表現する新しい Deep Fully Convolutional Neural Network (DFCNN) 音声認識フレームワークを発表しました。このフレームワークのパフォーマンスは、学界および産業界における最高の双方向 RNN 音声認識システムよりも 15% 以上高いことが報告されています。構造図は以下のとおりです。 iFlytek DFCNNの構造図 同時に、Sogou と Unisound が提供する音声認識システムのプロセスも添付しました。皆さんが学習し、比較し、参照できるようにしてください。 音声認識システムのプロセス: 音声信号がフロントエンド信号処理、エンドポイント検出などによって処理された後、フレームごとに音声特徴が抽出されます。従来の特徴タイプには、MFCC、PLP、FBANK などの特徴が含まれます。抽出された特徴はデコーダーに送信されます。音響モデル、言語モデル、発音辞書の共同ガイダンスの下で、最も一致する単語シーケンスが認識結果出力として見つかります。 Sogou CNN音声認識システムのモデリングプロセス 雲智声音声認識システム 2. 課題とフロンティアの方向性 音声認識が急速に発展したこの1年間、私たちは黄雪東氏や于東氏を含むこの分野の多くの専門家にインタビューし、音声認識分野が直面している将来の方向性、課題、問題について必然的に議論してきました。今後の音声認識研究に役立つよう、以下のように構成されています。 1. 意味理解 Huang Xuedong 氏は、音声認識を向上させるには意味理解を向上させる必要があり、この 2 つは互いに補完し合うと考えています。 「人間は非常に頑強です。新しい話題が持ち上がると、会話を通じてコミュニケーションを取り、良い結果を得ることができます。しかし、機械はノイズに耐性がなく、新しい話題での会話コミュニケーション能力が劣っています。最も重要な点は、音声認識があなたのセマンティクスを理解していないことです。セマンティクスの理解は人工知能が克服しなければならない次の課題であり、私たちのチームが多くの時間とエネルギーを費やしているのはこのことです。」 2. 注目すべき4つの方向性 以前 Yu Dong 氏と行ったインタビューで、Synced 氏は音声認識の分野におけるいくつかの最先端分野を指摘しました。
3. 音声認識の簡単な歴史 このセクションでは、音声認識の歴史におけるいくつかの重要な時点を簡単に整理しました。音声認識技術の詳細な研究の歴史については、前述の黄雪東教授の著書「苦難と栄光の40年 - 歴史的観点から音声認識の発展を見る」を参照してください。
音声認識は今年大きな進歩を遂げ、アルゴリズムからモデルへの質的変化を遂げました。音声分野の他の研究(音声合成など)と組み合わせることで、音声技術は産業、家庭用ロボット、通信、カーナビゲーションなど、さまざまな分野に徐々に浸透してきました。ある日、機械が人間の言語を本当に「理解」して応答できるようになると、新しい時代が到来するでしょう。 |
<<: これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?
>>: 音声認識:市場の見通しは有望だが、コア技術にはまだブレークスルーが必要
人工知能の誕生は第二次世界大戦中に連合国が暗号解読機を開発し、それがナチスドイツのエニグマ暗号を解読...
[[415649]]最近、米国防総省は、大量の情報源を分析し、数日後の敵の行動を1分以内に予測し、事...
[51CTO.com クイック翻訳] 機械学習の分野を見ると、ソフトウェアエンジニアリングの原理を...
01不意を突かれた!今回、Google は「人間を作った」のです! 5月8日、Googleは毎年恒...
技術が急速に進歩する時代において、私たちと建築との関係は大きな変化を遂げています。もはやレンガやモル...
本人確認のための顔認識、路上の車両の無線測定と制御、空中検査を行うドローン...人々の日常生活におけ...
2019年、「5G」は大いに期待されるテクノロジーの流行語となり、その人気は間違いなく人工知能に劣り...
2017年8月5日、ペガサスが主催する「FMI人工知能&ビッグデータサミットフォーラム」が北京国家会...
翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟まとめ人工知能 (AI) ベースのシステムは大きな可能性を...
Informa傘下の世界的に有名な市場調査会社Tractica/Ovumは、30の分野で約300件の...
人工知能 (AI) とモノのインターネット (IoT) の統合により、技術革新と機能の新しい時代が到...
ロボティック プロセス オートメーション (RPA) サービス プロバイダーである Blue Pri...
データ センターは、世界中の何十億もの人々が毎日使用するアプリケーション、Web サイト、サービスに...