音声認識の次のピークは「人間の領域」でしょうか?

[[208154]]

ディープラーニングが普及し、音声認識に広く使用されるようになって以来、字幕の単語エラー率は劇的に低下しました。それでも、音声認識は人間のレベルには達しておらず、まだいくつかの不具合があります。これらを認識し、対処するための措置を講じることが、音声認識の進歩にとって重要です。これは、一部の人を認識できる ASR から、いつでも誰でも認識できる ASR に移行する唯一の方法です。

最近の Switchboard 音声認識ベンチマークテストでは、単語エラー率が改善されました。 Switchboard セットは実際には 2000 年に収集されたもので、ランダムに選ばれた 2 人の英語ネイティブスピーカーによる 40 件の電話会話で構成されています。

会話音声認識は「人間」レベルに到達したと言えますが、それは Switchboard においてのみです。その結果は、晴れた日に街中で 1 人だけがハンドルを握って自動運転車をテストしているようなものになります。この分野における最近の進歩は驚くべきものですが、「人間レベル」のパフォーマンスについて話すのは範囲が広すぎるため、まだ改善が必要な領域がいくつかあります。

アクセントと騒音

音声認識における最も顕著な欠陥の 1 つは、アクセントと背景ノイズへの対応です。最も直接的な理由は、トレーニングデータのほとんどが、信号対雑音比の高いアメリカ英語で構成されていることです。

ただし、トレーニングデータを増やすだけでは、この問題は解決されない可能性があります。現実の生活でも、方言やアクセントはたくさんあります。したがって、ラベル付けされたデータを使用してすべての状況に対処することは現実的ではありません。英語を母国語とする人だけを対象に、5,000 時間以上の音声を書き起こす高品質の音声認識装置を構築することは可能でしょうか?

この文字起こしツールを Baidu の Deep Speech 2 システムと比較すると、アメリカ英語以外のアクセントの文字起こしではパフォーマンスがさらに悪くなることがわかりました。おそらく転写時のアメリカ人の偏見によるものでしょう。

走行中の車がバックグラウンドノイズにより 5 dB まで信号対雑音比が低くなることは珍しくありません。この環境では、人々はお互いの声を非常によく聞き取ることができます。一方、音声認識機能はノイズによって急速に劣化します。上の図では、人間のエラー率とモデルのエラー率の差がはっきりとわかります。低い信号対雑音比から高い信号対雑音比にかけて、この差は急激に増加します。

意味エラー

音声認識システムでは、単語のエラー率が実際の目標になることは通常なく、意味のエラー率が焦点となります。意味の正確さは他人の言葉の理解度に関係するからです。

意味エラーの例としては、誰かが「火曜日に会いましょう」と言ったのに、音声認識エンジンがそれを「今日会いましょう」と認識した場合などが挙げられます。これは意味上の誤りがない単語の誤りの例ですが、もちろんその逆も当てはまります。

エラー率を代理として使用する場合は注意が必要です。その理由を説明するために、最悪の例を挙げてみましょう。 5% の回答は、20 語のうち 1 語が抜けているのと同等になる可能性があります。したがって、文に 20 語しかない場合、この文のエラー率は 100% になる可能性があります。

モデルと人間を比較する場合、答えを単なる確定的な数値として見るのではなく、エラーの性質を調べることが重要です。経験則として、人間による書き起こしでは音声認識よりも意味上の誤りが少なくなります。

Microsoft の研究者は最近、人間による書き起こしと人間の音声認識システムが犯した間違いを比較したところ、モデルが「uh」を「uh huh」と混同していたという矛盾を発見した。これら 2 つの単語は意味がまったく異なります。モデルも人間も、同じ種類の間違いを多く犯します。

単一チャンネル、複数スピーカー

各話者が録音に個別のマイクを使用するため、交換台の会話タスクも簡単になります。同じオーディオストリーム内の複数のスピーカー間で重複はありません。一方、人間は、複数の話者が同時に話している会話でも、何が起こっているのかをかなりよく理解することができます。

優れた会話型音声認識システムは、誰が話しているかに基づいて音声をセグメント化できる必要があります (ダイアライゼーション)。また、重複したスピーカーを使用してオーディオを理解できる必要があります (ソース分離)。これは、各スピーカーにマイクを必要とせずに実行できるため、会話の音声はあらゆる場所で機能します。

ドメインの変更

アクセントと背景ノイズは、音声認識装置にとって重要な要素です。以下にいくつか例を挙げます。

残響音環境の変化
ハードウェアからのアーティファクト
オーディオと圧縮のアーティファクト
サンプリングレート
話者の年齢

ほとんどの人は、mp3 ファイルと通常の wav ファイルの違いに気付かないでしょう。音声認識装置も、人間レベルのパフォーマンスを主張する前に、これらの変動源を強力にサポートする必要があります。

コンテクスト

「switch board」のような単語のエラー率は実際には非常に高いため、友人と話しているときに 20 語のうち 1 語を誤解すると、コミュニケーションが困難になることがわかります。

その理由の 1 つは、評価が文脈に応じて行われることです。実生活では、私たちは文脈と組み合わせて他の多くの手がかりを使って、誰かが言っていることを理解します。しかし、音声認識機能はこれらを認識しません:

会話の履歴と議論されたトピック
誰と話しているかの視覚的な手がかりには、表情や唇の動きなどがある
講演者の経歴

現在、Android の音声認識機能にはすでに連絡先リストが保存されているため、友達の名前を認識できます。マッピング製品の音声検索では、地理位置情報を使用して、閲覧したい興味のある場所を絞り込むことができます。このタイプの信号を使用すると、ASR システムの精度が確実に向上します。

展開する

新しいアルゴリズムを導入する場合、計算量を増やすアルゴリズムはレイテンシを増やすことが多いため、レイテンシとアルゴリズムの両方を考慮することができますが、ここでは簡単にするために、これらを別々に説明します。

レイテンシ: 転写が完了した後は、レイテンシが低くなるのが一般的であり、ユーザーエクスペリエンスに大きな影響を与える可能性があります。したがって、ASR システムでは数十ミリ秒以内の遅延要件は珍しくありません。これは極端に聞こえるかもしれませんが、多くの場合、一連の高価な計算の最初のステップであるため、慎重に取り組む必要があります。

将来の情報を音声認識に効果的に組み込むための適切な方法は未解決の問題であり、現在も議論されています。

計算: 談話を記録するために必要な計算能力は経済的な制約となります。音声認識装置の精度のあらゆる改善を考慮する必要があります。改善が経済的基準を満たさない場合、導入することはできません。

決して展開されなかった継続的改善の典型的な例は統合です。エラーが 1% または 2% 改善されると、計算量は 2 ～ 8 倍増加する可能性があり、最新の RNN 言語モデルは多くの場合このカテゴリに分類されます。

実際、大きな計算コストをかけて精度を向上させることは推奨されておらず、「最初は遅いが正確、その後速度を上げる」という動作モードがすでに存在しています。しかし、問題は、十分な速さで改善されない限り、使用できないままになるということです。

今後5年間

音声認識には、未解決かつ困難な問題がまだ数多く残っています。これらには以下が含まれます:

新しい分野、アクセント、遠距離分野に拡張され、信号対雑音比が低い

認識プロセスにより多くのコンテキストを組み込む

ダイアライゼーションとソース分離

超低レイテンシと効率的な推論

今後 5 年間でこれらの分野で進歩を遂げることを期待しています。

<<: 現在のディープニューラルネットワークモデルの圧縮と加速方法の概要

>>: Analysys OLAP アルゴリズムコンペティションの結果が発表され、オープンソースグループのダークホースがその腕前を披露しました。

トップ 10 の AI フレームワークとリポジトリのレビュー、その長所と短所の分析

音声認識の次のピークは「人間の領域」でしょうか?

トップ 10 の AI フレームワークとリポジトリのレビュー、その長所と短所の分析

Adobe のインターンのインテリジェントな被写界深度アルゴリズム: 2D 画像を 3 秒で 3D に変換し、視点をスムーズかつ自然に変化させます

AIは魔法ではない：人工知能にできること、できないこと

中国語の音声の事前トレーニング済みモデルが見つかりませんか? Wav2vec 2.0 と HuBERT の中国語版が登場

AIと天気予報が出会うとどんな火花が散るのでしょうか？

エッジAIの台頭

パスワードバスター：機械学習

会話型 AI は FMCG 業界でどのように導入されていますか?

練習問題をやるのが苦痛すぎる場合はどうすればいいですか?このアルゴリズムベースは初心者向けにカスタマイズされており、アニメーションが付属しています

推薦する

8,500 万の仕事が失われる。労働者はどうやって仕事を維持できるのか?

アンドリュー・ングのパレートの法則: データの 80% + モデルの 20% = より優れた機械学習

マイクロソフトアジアリサーチは、知識蒸留を使用して小さなViTを改善するTinyMIMを提案

競争が激化する中、ドローン配達の時代はいつ来るのでしょうか？

ロボットがあなたの仕事を奪おうとしているのでしょうか?データはあなたが考えすぎている可能性を示唆している

アリババのナレッジグラフが初めて公開: 1日あたり数千万のブロックデータ、数十億の完全インテリジェント監査

なぜ私たちは、AI による顔の変形が「偽物」だと今でも思っているのでしょうか?

25倍のパフォーマンス向上: RustはCとC++に取って代わり、機械学習のPythonバックエンドとして好まれるようになると期待されています。

AIと自動化革命に備える10の方法

AGI（汎用人工知能）は数年のうちに実現されるでしょうか？ 3つのテクノロジー大手が判決を下す

ディープラーニングに基づく教師あり音声分離