ディープラーニングでは音声認識の問題を解決できない

[[212222]]

音声認識にディープラーニングが導入されて以来、単語の誤り率は急速に低下しました。しかし、あなたが読んだことにもかかわらず、音声認識はまだ人間のレベルに達していません。音声認識にはすでに多くの失敗モードがあります。 ASR (自動音声認識) を、一部の人々にとってほとんどの場合機能するものから、すべての人にとって常に機能するものに移行させる唯一の方法は、これらの失敗を認識し、それらに対処するための措置を講じることです。

交換機会話音声認識の標準テストにおける単語誤り率の進歩。このデータセットは 2000 年に収集され、ランダムに選ばれた 2 人の英語ネイティブスピーカー間の 40 回の電話通話で構成されています。

交換機での通話結果のみに基づいて人間レベルの音声認識を実現したと主張することは、交通量のない晴れた日に小さな町で自動運転のテストに成功したことに基づいて人間レベルの運転を実現したと主張するようなものです。音声認識の分野における最近の進歩は本当に驚くべきものでした。しかし、人間のパフォーマンスに関する主張は範囲が広すぎます。ここに改善の余地がある領域がいくつかあります。

アクセントと騒音

音声認識における最も明らかな欠陥の1つは、アクセント[1]と背景ノイズの処理です。最も直接的な理由は、トレーニングデータのほとんどが信号対雑音比の高いアメリカ英語であることです。たとえば、交換機通話のトレーニングデータセットとテストデータセットには、ネイティブの英語話者 (ほとんどがアメリカ人) のみが含まれ、バックグラウンドノイズはほとんどありません。

トレーニングデータだけではこの問題を解決できません。言語は非常に多く、方言やアクセントも非常に多いため、あらゆる状況で十分な注釈データを収集することは不可能です。アメリカ英語のアクセントの高品質な音声認識システムを構築するだけでも、5,000 時間を超える音声の書き起こしが必要になります。

様々な音声タイプにおける手動文字起こしとBaiduのDeep Speech 2モデルの比較[2]。人間はアメリカ以外のアクセントを書き起こす場合、一貫して成績が悪くなることに注意してください。これは、書き起こし担当者の集団におけるアメリカ人偏りに起因する可能性があります。地域アクセントの誤り率を減らすために、各地域に現地の筆記者を配置することを希望します。

背景ノイズに関しては、走行中の車内などでは信号対雑音比 (SRN) が -5dB まで低くなることも珍しくありません。このような環境では、人々がコミュニケーションをとることは難しくありませんが、一方で、騒音環境下では音声認識能力が急激に低下します。上の図から、高い信号対雑音比から低い信号対雑音比にかけて、人間とモデル間のエラー率の差が劇的に広がることがわかります。

意味エラー

通常、音声認識システムの実際の目標は単語の誤り率ではありません。私たちがより懸念しているのは、意味エラー率、つまり誤解されるスピーチの部分です。

意味エラーの例としては、誰かが「火曜日に会いましょう」と言ったのに、音声認識が「今日会いましょう」と予測することが挙げられます。また、音声認識機能が「up」を聞き逃して「let's meet Tuesday」と予測するなど、単語が間違っていても意味を正しいままにできるため、発話の意味は変更されません。

単語エラー率を指標として使用する場合は注意が必要です。最悪の例として、エラー率が 5% の場合、20 語のうち 1 語が欠落していることになります。各文が 20 語 (英語の文の平均程度) で構成されている場合、文のエラー率は 100% に達する可能性があります。うまくいけば、間違った単語によって文の意味が変わることはありませんが、誤り率が 5% でもすべての文が誤って読まれる可能性があります。

モデルを人間と比較する際の焦点は、エラー率という言葉を決定的な数字として捉えるのではなく、エラーの性質を見つけることです。私の経験では、人間による書き起こしでは音声認識よりも極端な意味エラーが少なくなります。

最近、マイクロソフトの研究者は、人間レベルの音声認識装置のエラーを人間のものと比較しました[3]。彼らが発見した一つの違いは、モデルは人間よりも「えー」と「うーん」を混同する頻度が高いということだ。これら 2 つの用語の意味は大きく異なります。「uh」は単なるつなぎ言葉ですが、「uh huh」は逆の確認です。モデルは人間と同じような間違いを多く犯します。

単一チャネルおよび複数人セッション

各発信者は別々のマイクで録音されるため、デスク通話を切り替える作業も容易になります。同じオーディオストリーム内で複数の話者が重複することはありません。一方、人間は複数の話者の話を理解することができ、時には同時に話すこともあります。

優れた会話型音声認識装置は、誰が話しているかに応じて音声をセグメント化 (ダイアライゼーション) でき、重複する会話を整理 (ソース分離) できる必要があります。各話者の口の横にマイクがある場合だけでなく、どこで会話をしてもうまく機能します。

フィールドの変更

アクセントと背景ノイズは、音声認識に改善の余地がある 2 つの領域にすぎません。他にもいくつかあります:

音響環境の変化による残響
ハードウェアに起因するアーティファクト
オーディオコーデックと圧縮アーティファクト
サンプリングレート
話者の年齢

ほとんどの人は、mp3 ファイルと wav ファイルの違いに気づきません。しかし、音声認識が人間レベルのパフォーマンスを発揮できると主張するには、多様なドキュメントソースを処理できるようにさらに機能強化する必要があります。

コンテクスト

Switchboard などの人間レベルのエラー率ベンチマークは、実際にはかなり高いことがわかります。友人とコミュニケーションを取っているときに、友人が 20 語のうち 1 語を誤解すると、コミュニケーションは難しくなります。

理由の 1 つは、そのような評価は文脈に依存しないことです。実生活では、他の人が言っていることを理解するために、他の多くの手がかりを利用します。人間がコンテキストを使用し、音声認識エンジンが使用しない状況の例をいくつか示します。

会話の履歴と議論されたトピック
話し手からの視覚的な手がかり（表情や唇の動きなど）
対話相手に関する事前知識

現在、Androidの音声認識機能はすでに連絡先リストを記憶しており、友人の名前を認識することができます[4]。地図製品の音声検索では、地理位置情報を利用して、ナビゲートしたい興味のある場所を絞り込みます[5]。

これらの信号が追加されると、ASR システムは確実に改善されます。ただし、ここでは、利用可能なコンテキストの種類とその使用方法について、ほんの少し触れたにすぎません。

展開する

会話音声の最新の進歩はまだ導入できる状態ではありません。新しい音声アルゴリズムの導入を解決するには、レイテンシと計算の複雑さという 2 つの側面を考慮する必要があります。両者の間には相関関係があり、アルゴリズムの計算量が増加すると、通常はレイテンシも増加します。しかし、わかりやすくするために、個別に説明します。

レイテンシー: レイテンシーとは、ユーザーが話し終えてから文字起こしが完了するまでの時間を指します。低レイテンシは ASR における一般的な製品制約であり、ユーザーエクスペリエンスに大きな影響を与えます。 ASR システムの場合、10 ミリ秒の遅延要件は珍しくありません。これは極端に聞こえるかもしれませんが、転写は多くの場合、複雑な一連の計算の最初のステップにすぎないことを覚えておいてください。たとえば、音声検索では、実際の Web 検索は音声認識後にのみ実行できます。

レイテンシを改善するのが難しい例としては、双方向再帰層が挙げられます。現在の最先端の会話型音声認識はすべてこれを使用しています。問題は、最初のレベルでは何も計算できず、ユーザーが話し終えるまで待たなければならないことです。したがって、ここでの遅延はスピーチの長さに関係しています。

上記: 転記中に計算を実行できる順方向ループは 1 つだけです。

下記: 双方向ループの場合、トランスクリプションを計算する前に発話全体が話されるまで待つ必要があります。

音声認識に将来の情報を効果的に組み込む方法は、未解決の問題として残っています。

コンピューティング: 音声を書き起こすために必要なコンピューティング能力は経済的な制約となります。音声認識装置の精度を向上させるごとに、コスト効率を考慮する必要があります。改善が経済的基準を満たさない場合、導入することはできません。

決して展開されない継続的改善の典型的な例は統合です。エラーを 1% または 2% 削減しても、計算労力が 2 ～ 8 倍増加するほどの価値はほとんどありません。新世代の RNN 言語モデルも、ビーム検索で使用するにはコストがかかることからこのカテゴリに分類されますが、これは将来変更されると予想されます。

誤解のないように言っておきますが、私は、多大な計算コストをかけて精度を向上させる方法を研究することが無駄だとは思いません。「最初はゆっくり正確に始め、その後スピードを上げる」というモデルの成功を私たちは見てきました。一つ言及しておきたいのは、十分な速さで改善されるまでは使用できないということです。

今後5年間

音声認識の分野には、未解決で困難な問題がまだ数多くあります。