ディープラーニングが普及し、音声認識に広く使用されるようになって以来、字幕の単語エラー率は劇的に低下しました。それでも、音声認識は人間のレベルには達しておらず、まだいくつかの不具合があります。これらを認識し、対処するための措置を講じることが、音声認識の進歩にとって重要です。これは、一部の人を認識できる ASR から、いつでも誰でも認識できる ASR に移行する唯一の方法です。 最近の Switchboard 音声認識ベンチマーク テストでは、単語エラー率が改善されました。 Switchboard セットは実際には 2000 年に収集されたもので、ランダムに選ばれた 2 人の英語ネイティブ スピーカーによる 40 件の電話会話で構成されています。 会話音声認識は「人間」レベルに到達したと言えますが、それは Switchboard においてのみです。その結果は、晴れた日に街中で 1 人だけがハンドルを握って自動運転車をテストしているようなものになります。この分野における最近の進歩は驚くべきものですが、「人間レベル」のパフォーマンスについて話すのは範囲が広すぎるため、まだ改善が必要な領域がいくつかあります。 アクセントと騒音 音声認識における最も顕著な欠陥の 1 つは、アクセントと背景ノイズへの対応です。最も直接的な理由は、トレーニング データのほとんどが、信号対雑音比の高いアメリカ英語で構成されていることです。 ただし、トレーニング データを増やすだけでは、この問題は解決されない可能性があります。現実の生活でも、方言やアクセントはたくさんあります。したがって、ラベル付けされたデータを使用してすべての状況に対処することは現実的ではありません。英語を母国語とする人だけを対象に、5,000 時間以上の音声を書き起こす高品質の音声認識装置を構築することは可能でしょうか? この文字起こしツールを Baidu の Deep Speech 2 システムと比較すると、アメリカ英語以外のアクセントの文字起こしではパフォーマンスがさらに悪くなることがわかりました。おそらく転写時のアメリカ人の偏見によるものでしょう。 走行中の車がバックグラウンドノイズにより 5 dB まで信号対雑音比が低くなることは珍しくありません。この環境では、人々はお互いの声を非常によく聞き取ることができます。一方、音声認識機能はノイズによって急速に劣化します。上の図では、人間のエラー率とモデルのエラー率の差がはっきりとわかります。低い信号対雑音比から高い信号対雑音比にかけて、この差は急激に増加します。 意味エラー 音声認識システムでは、単語のエラー率が実際の目標になることは通常なく、意味のエラー率が焦点となります。意味の正確さは他人の言葉の理解度に関係するからです。 意味エラーの例としては、誰かが「火曜日に会いましょう」と言ったのに、音声認識エンジンがそれを「今日会いましょう」と認識した場合などが挙げられます。これは意味上の誤りがない単語の誤りの例ですが、もちろんその逆も当てはまります。 エラー率を代理として使用する場合は注意が必要です。その理由を説明するために、最悪の例を挙げてみましょう。 5% の回答は、20 語のうち 1 語が抜けているのと同等になる可能性があります。したがって、文に 20 語しかない場合、この文のエラー率は 100% になる可能性があります。 モデルと人間を比較する場合、答えを単なる確定的な数値として見るのではなく、エラーの性質を調べることが重要です。経験則として、人間による書き起こしでは音声認識よりも意味上の誤りが少なくなります。 Microsoft の研究者は最近、人間による書き起こしと人間の音声認識システムが犯した間違いを比較したところ、モデルが「uh」を「uh huh」と混同していたという矛盾を発見した。これら 2 つの単語は意味がまったく異なります。モデルも人間も、同じ種類の間違いを多く犯します。 単一チャンネル、複数スピーカー 各話者が録音に個別のマイクを使用するため、交換台の会話タスクも簡単になります。同じオーディオ ストリーム内の複数のスピーカー間で重複はありません。一方、人間は、複数の話者が同時に話している会話でも、何が起こっているのかをかなりよく理解することができます。 優れた会話型音声認識システムは、誰が話しているかに基づいて音声をセグメント化できる必要があります (ダイアライゼーション)。また、重複したスピーカーを使用してオーディオを理解できる必要があります (ソース分離)。これは、各スピーカーにマイクを必要とせずに実行できるため、会話の音声はあらゆる場所で機能します。 ドメインの変更 アクセントと背景ノイズは、音声認識装置にとって重要な要素です。以下にいくつか例を挙げます。
ほとんどの人は、mp3 ファイルと通常の wav ファイルの違いに気付かないでしょう。音声認識装置も、人間レベルのパフォーマンスを主張する前に、これらの変動源を強力にサポートする必要があります。 コンテクスト 「switch board」のような単語のエラー率は実際には非常に高いため、友人と話しているときに 20 語のうち 1 語を誤解すると、コミュニケーションが困難になることがわかります。 その理由の 1 つは、評価が文脈に応じて行われることです。実生活では、私たちは文脈と組み合わせて他の多くの手がかりを使って、誰かが言っていることを理解します。しかし、音声認識機能はこれらを認識しません:
現在、Android の音声認識機能にはすでに連絡先リストが保存されているため、友達の名前を認識できます。マッピング製品の音声検索では、地理位置情報を使用して、閲覧したい興味のある場所を絞り込むことができます。このタイプの信号を使用すると、ASR システムの精度が確実に向上します。 展開する 新しいアルゴリズムを導入する場合、計算量を増やすアルゴリズムはレイテンシを増やすことが多いため、レイテンシとアルゴリズムの両方を考慮することができますが、ここでは簡単にするために、これらを別々に説明します。 レイテンシ: 転写が完了した後は、レイテンシが低くなるのが一般的であり、ユーザー エクスペリエンスに大きな影響を与える可能性があります。したがって、ASR システムでは数十ミリ秒以内の遅延要件は珍しくありません。これは極端に聞こえるかもしれませんが、多くの場合、一連の高価な計算の最初のステップであるため、慎重に取り組む必要があります。 将来の情報を音声認識に効果的に組み込むための適切な方法は未解決の問題であり、現在も議論されています。 計算: 談話を記録するために必要な計算能力は経済的な制約となります。音声認識装置の精度のあらゆる改善を考慮する必要があります。改善が経済的基準を満たさない場合、導入することはできません。 決して展開されなかった継続的改善の典型的な例は統合です。エラーが 1% または 2% 改善されると、計算量は 2 ~ 8 倍増加する可能性があり、最新の RNN 言語モデルは多くの場合このカテゴリに分類されます。 実際、大きな計算コストをかけて精度を向上させることは推奨されておらず、「最初は遅いが正確、その後速度を上げる」という動作モードがすでに存在しています。しかし、問題は、十分な速さで改善されない限り、使用できないままになるということです。 今後5年間 音声認識には、未解決かつ困難な問題がまだ数多く残っています。これらには以下が含まれます: 新しい分野、アクセント、遠距離分野に拡張され、信号対雑音比が低い 認識プロセスにより多くのコンテキストを組み込む ダイアライゼーションとソース分離 超低レイテンシと効率的な推論 今後 5 年間でこれらの分野で進歩を遂げることを期待しています。 |
<<: 現在のディープニューラルネットワークモデルの圧縮と加速方法の概要
>>: Analysys OLAP アルゴリズム コンペティションの結果が発表され、オープン ソース グループのダーク ホースがその腕前を披露しました。
[[337135]]この記事では、MySQL におけるキーワードの原則を比較的マクロな観点から見てい...
7月10日、DeepFakeは特定の人物の写真、動画、音声を生成できる一連のAIモデルの総称である...
ChatGPTに代表されるLLM(Large Language Model)に基づく生成AIアプリケ...
[[349063]] [51CTO.com 速訳] 機械学習技術を使って仮想通貨を追跡できるのか?...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
【51CTO.comオリジナル記事】 [[344118]]近年、ロボティック・プロセス・オートメーシ...
ディープ ニューラル ネットワーク モデルの複雑さが非常に高い場合、保有するデータの量、モデルを実行...
今日の若者は、「エモ」という言葉をキャッチフレーズとして使うことに慣れているが、本当の「うつ病」が何...
写真グラフ構造は、ツリー構造よりも複雑な非線形構造です。ツリー構造では、ノード間に分岐階層関係があり...
企業の人工知能に対する飽くなき需要により、計算集約型の AI アプリケーションを処理するために設計さ...
注意ベースのモデルの代替として、純粋な MLP アーキテクチャがますます注目を集めています。 NLP...