音声認識、マッチングアルゴリズム、モデルに関する簡単な説明

音声認識、マッチングアルゴリズム、モデルに関する簡単な説明

[[185868]]

スピーチの基本概念

スピーチは複雑な現象です。それがどのように生成され、どのように認識されるのか、本質的には私たちには全く分かりません。私たちの最も基本的な理解は、音声は単語で構成され、各単語は音素で構成されているということです。しかし、現実は私たちの理解とは全く異なります。スピーチは明確な区分のない動的なプロセスです。音声編集ソフトウェアを使用して音声録音を視聴することは、音声を理解するためのより効果的な方法です。以下は、オーディオ エディターで録音がどのように表示されるかを示した例です。

[[185869]]

現在の音声の記述はすべて、ある程度確率ベース(スペクトルベース?)です。これは、音声単位または単語の間に明確な境界がないことを意味します。音声認識技術は100%の精度を達成することはできません。ソフトウェア開発者が扱うシステムは一般的に決定論的であるため、この概念はソフトウェア開発者にとって多少意外なものです。さらに、音声技術の場合、言語に関連した多くの特有の問題が発生します。

スピーチの構成

この記事では、スピーチの構成を次のように理解します。

音声は連続したオーディオ ストリームであり、ほとんどが安定した状態と動的に変化する状態が混在して構成されます。

単語の音(波形)は、実際には音素だけでなく、音素のコンテキスト、話者、声のスタイルなど、多くの要因によって決まります。

共調音(前後の音の影響を受けて音が変化すること。発声メカニズムの観点から見ると、人間の発声器官の特性は、ある音が別の音に変わるときに徐々にしか変化できないため、後者の音のスペクトルは他の条件でのスペクトルと異なります)の存在により、音素の知覚が標準と異なるため、文脈に基づいて音素を区別する必要があります。音素を複数の音素単位に分割します。たとえば、数字の「3」では、音素の最初の部分はその前の音素と関連付けられ、中間部分は安定した部分であり、最後の部分は次の音素と関連付けられています。これが、音声認識に HMM モデルを使用する場合、音素の 3 状態 HMM モデルが選択される理由です。 (コンテキスト依存モデリング法では、モデリング時にこの影響を考慮するため、モデルは音声をより正確に記述できます。前の音の影響のみを考慮するものはBi-Phone、前後の音の影響を考慮するものはTri-Phoneと呼ばれます。)

場合によっては、音素は文脈の中で考慮され、三音節または多音節を形成することがあります。しかし、サブフォンとは異なり、波形で一致した場合、シングルフォンと同じ長さになります。それは単に名前が違うだけなので、私たちはそのようなポリフォンをセノンと呼ぶことを好みます。セノンのコンテキスト依存性は、単に左と右のコンテキストだけよりもずっと複雑です。これは、決定木やその他の方法で定義できる複雑な関数です。 (英語のコンテキスト依存モデリングでは、通常、音素をプリミティブとして使用します。一部の音素は後続の音素に同様の影響を与えるため、音素デコード状態をクラスタリングすることでモデルパラメータを共有できます。クラスタリングの結果はセノンと呼ばれます。決定木は、トライフォンとセノン間の効率的な対応を実現するために使用されます。前後の音のカテゴリ(母音/子音、無声音/有声音など)に関する一連の質問に答えることで、最終的にどのセノンをその HMM 状態に使用するかを決定します。分類および回帰木 CART モデルは、単語の音素への発音アノテーションに使用されます。)

音素は音節と呼ばれるサブ単語単位を形成します。音節は比較的安定した実体です。なぜなら、発話が速くなると音素は変化する傾向がありますが、音節は変化しないからです。音節はリズミカルなイントネーションの輪郭に関連しています。音節を生成するには、形態論に基づく方法と音声に基づく方法など、いくつかの方法があります。音節は語彙音声認識でよく使用されます。

単語はサブワード単位(音節)で構成します。単語は音素の組み合わせを制限するため、音声認識では単語が重要です。全部で 40 個の音素があり、各単語の平均音素数が 7 個の場合、単語数は 40^7 個になりますが、幸いなことに、高学歴の人でも 2 万語を超える単語を使用することはめったにないため、認識は可能です。

発話は、単語と一部の非言語音から構成されます。呼吸音、えー、咳などの非言語音をフィラーと呼びます。音声では、これらの音は一時停止によって区切られます。したがって、それらは文ではなく、意味的な概念です。

音声認識プロセス

音声認識の一般的な方法は、音声波形を記録し、その波形を沈黙によって複数の発話に分割し、各発話の意味を識別することです。この目標を達成するには、音声をすべての可能な単語の組み合わせと照合し、最も一致度の高い組み合わせを選択する必要があります。

マッチングには理解しておくべき重要な概念がいくつかあります。

特徴:

音声を記述するには多くのパラメータが必要なので、処理速度が非常に速くなります(また、多くの情報を処理する必要はなく、認識に役立つ情報だけを処理すればよいため)、次元を最適化して削減する必要があります。フレームを使用して音声波形をセグメント化し、各フレームは約 10 ミリ秒です。次に、各フレームからそのフレームの音声を表す 39 個の数値を抽出します。これらの 39 個の数値は、そのフレームの音声の特徴であり、特徴ベクトルによって表されます。特徴ベクトルの抽出方法は現在注目されている研究テーマですが、これらの抽出方法はすべてスペクトルから派生したものです。

モデル:

モデルはいくつかの数学的オブジェクトを記述するために使用されます。これらの数学的オブジェクトは、話し言葉のいくつかの共通特性を記述します。実際のアプリケーションでは、senone のオーディオ モデルは 3 状態ガウス混合モデルです。簡単に言えば、最も可能性の高い特徴ベクトルです。モデルに関しては、考慮すべきいくつかの質問があります。モデルは実際の状況をどの程度まで記述できますか? モデル自体の制限内でモデルのパフォーマンスを向上させることができますか? 適応型モデルは条件をどのように変更しますか?

マッチングアルゴリズム:

音声認識では、すべての特徴ベクトルとすべてのモデルを比較して照合する必要があり、これは非常に時間のかかる作業です。この点に関する最適化では、多くの場合、いくつかのトリックが使用されます。各ポイントをマッチングするときに、最も一致するバリアントを保持し、それを使用して次のフレームで最も一致するバリアントを生成します。 ?

音響モデル

音響モデルには、各セノンの音響特性が含まれており、これにはコンテキストに依存しない特性 (各音素の最大の特徴ベクトル) とコンテキストに依存する特性 (コンテキストに従って構築されたセノン) が含まれます。

音声辞書:

辞書には単語から音へのマッピングが含まれています。

辞書は、単語と音素の対応関係を記述する唯一の方法ではありません。機械学習アルゴリズムを使用して、いくつかの複雑な関数を学習し、マッピング関数を完成させることができます。

言語モデル言語モデル:

言語モデルは単語検索を制限するために使用されます。最後に認識された単語の後に続くことができる単語を定義します (マッチングは順次的なプロセスです)。これにより、一部の不可能な単語をマッチング プロセスから除外できます。ほとんどの言語モデルは、単語シーケンスの統計を含む n-gram モデルを使用します。有限状態モデルは、有限状態マシンを通じて音声シーケンスを定義します。時々重みが追加されます。認識精度を向上させるには、言語モデルが空間検索を適切に制限でき、つまり次の単語をより適切に予測できる必要があります。言語モデルは語彙に含まれる単語を制約するため、名前の認識という問題が発生します (名前は任意の数の単語で構成できるため)。この状況に対処するために、言語モデルはサブワードや音素などの小さなチャンクで構成することができます。ただし、この場合、認識精度は単語ベースの言語モデルよりも低くなります。

音声認識システムは、機能、モデル、検索アルゴリズムによって構成されます。異なる言語を認識する必要がある場合は、これら 3 つの部分を変更する必要があります。多くの言語では、音響モデル、辞書、さらには大語彙言語モデルがすでにダウンロード可能です。

使用されるその他の概念

格子は、認識のさまざまな結果を表す有向グラフです。一般的に言えば、最良の音声マッチング結果を得ることは困難です。したがって、Lattices は音声認識の中間結果を保存するのに適した形式です。

N ベスト リストはラティスに似ていますが、ラティスほど密ではありません (つまり、ラティスほど多くの結果を保持しません)。 (Nベスト検索とマルチパス検索:検索にさまざまな知識源を活用するために、通常はマルチパス検索が実行されます。最初のパスでは、低コストの知識源(音響モデル、言語モデル、音声辞書など)を使用して候補リストまたは単語候補グリッドを生成します。これに基づいて、高コストの知識源(4次または5次のNグラム、4次以上のコンテキスト関連モデルなど)を使用した2番目のパス検索が実行され、最適なパスが得られます。)

ワード混同ネットワークは、格子のエッジから取得されたノードの厳密に順序付けられたシーケンスです。

音声データベース - タスク データベースからの録音の一般的なセット。会話システムを開発している場合、データベースには複数のユーザーの会話の録音が含まれます。ディクテーションシステムには、読み上げの録音機能も含まれています。音声データベースは、デコード システム (つまり、音声認識システム) のトレーニング、調整、テストに使用されます。

テキスト データベース - 言語モデルのトレーニングを目的として収集されたテキスト。通常はサンプルテキストの形式で収集されます。しかし、収集プロセスにおける問題の 1 つは、PDF、Web ページ、スキャンなどの既成文書が誤って音声テキストとしてデータベースに格納されることです。したがって、データベースに取り込まれるタグとファイル ヘッダーを削除し、数字を音声形式に拡張し (たとえば、1 は英語では one に、中国語では yi に拡張されます)、略語を完全な単語に拡張する必要があります。

音声最適化

音声認識技術が発展するにつれて、最も複雑な課題は、検索(つまり、できるだけ多くの音声バリエーションを一致させると考えることができる音声デコード)をより正確かつ高速にする方法です。そして、モデルが完璧でない場合に、音声とモデルをどのように一致させるか。

一般的に、システムの正確性、つまり事前に設定した目標を達成したかどうかを確認するには、テスト データベースを通じてシステムを検証する必要があります。

システムのパフォーマンスは、次のパラメータによって特徴付けられます。

単語エラー率: N 語の長さの元のテキストと認識されたテキストがあります。 (単語列を認識する場合、単語の挿入、置換、削除のエラーは避けられません。)Iは挿入された単語の数、Dは削除された単語の数、Sは置換された単語の数を表します。単語エラー率は次のように定義されます:WER = (I + D + S) / N

単語エラー率は通常、パーセンテージで表されます。

正確さ。これはほとんどの点で単語エラー率に似ていますが、挿入された単語の数はカウントされません。次のように定義されます: 精度 = (N – D – S) / N

ほとんどのタスクでは、挿入が認識結果に与える影響も非常に重要であるため、精度は実際には不十分な指標です。しかし、一部のタスクでは、精度もデコーダーのパフォーマンスを評価するための適切なパラメーターとなります。

速度: オーディオ ファイルの長さが 2 時間で、デコードに 6 時間かかると仮定すると、計算された速度は 3xRT になります。 (3倍速)

ROC 曲線: 検出タスクでは、偽陽性と真陽性の 2 つの状況が発生する可能性があります。 ROC 曲線は検出性能を評価するために使用されます。 ROC 曲線は、偽陽性と陽性の比率を表します。さらに、ROC 曲線を使用すると、偽陽性率が最小でヒット率が最大 (100% に近くなる) となる最適なポイントを見つけることができます。

ここでは触れていませんが、多くの実用的なアプリケーションにとって重要な、認識パフォーマンスを測定する他の方法もあります。最初の仕事は、そのような評価システムを確立し、それを開発プロセスに体系的に適用することです。 2 番目のタスクは、システムのパフォーマンスをテストするためのテスト データベースを収集することです。

<<:  音声認識:将来の人間とコンピュータの相互作用の破壊と変化

>>:  再サンプリングからデータ合成まで: 機械学習における不均衡な分類問題にどのように対処するか?

ブログ    

推薦する

私の国はAIや5Gを含む多くの技術で米国を上回っており、米国が私たちを絞め殺すことはますます困難になっています。

世界大国として、中国と米国は多くの分野、特に科学技術分野で競争している。中国は科学技術分野で比較的目...

...

...

9つの主要テーマ!機械学習アルゴリズム理論に関する面接の質問の要約

[[342976]]機械学習は、強力な理論的側面と実践的側面を備えた技術分野です。機械学習関連の仕事...

4つの主要な応用分野が開拓され、外骨格ロボットのブルーオーシャンが出現している

現在、ロボット産業の急速な発展に伴い、ロボット製品システムはより完成度が高まり、その用途も多様化して...

ザッカーバーグの最新VRプロトタイプが登場。仮想と現実を混同させるようなものだ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

GoogleはAIチップに出産を学習させ、次世代のTPUはAI自身によって設計される

[[405016]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ディープラーニングの仕組み: 今日の AI を支えるニューラル ネットワークの内部を覗いてみよう

[[428985]] [51CTO.com クイック翻訳]今日の人工知能の繁栄は、人工ニューラルネッ...

AIがコンテンツマーケティングを進化させる方法

デジタル メディアはほぼすべての人の日常生活に浸透し、私たちのあらゆる活動に永続的な影響を及ぼしてい...

機械学習の実践者が直面する8つの大きな課題

機械学習 (ML) や人工知能 (AI) と聞くと、多くの人はロボットやターミネーターを想像します。...

産業用IoTにおける機械学習の応用

産業用IoTにおける機械学習の応用産業用 IoT (IIoT) に機械学習を適用すると、企業の予測分...

440億ドル!マスク氏がツイッター買収に成功 トランプ氏「アカウントが復活してもツイッターは使わない」

4月26日、海外メディアの報道によると、2週間後、マスク氏によるツイッター買収がようやく決着した。...