AI インテリジェント音声認識アルゴリズム パート 1

AI インテリジェント音声認識アルゴリズム パート 1

[[397592]]

1. 音源定位

1. 電子走査アレイ

システムが出力信号のパワーが最大となる点までスキャンすると、対応するビーム方向が音源の DOA 方向であると見なされ、音源の位置が特定されます。電子走査アレイ方式には一定の制限があり、単一の音源にのみ適用できます。アレイパターンの同じメインビーム内に複数の音源がある場合、それらを区別することはできません。

2. 超解像スペクトル推定

例えば、MUSIC アルゴリズムや ESPRIT アルゴリズムでは、共分散行列(相関行列)を固有値分解して空間スペクトルを構築します。方向スペクトルに関しては、スペクトルのピークに対応する方向が音源の方向になります。これは複数の音源がある状況に適しており、音源の解像度はアレイのサイズに依存せず、物理的な制限を打ち破り、超解像度分光ソリューションになります。

3. TDOA

TDOA は、音源が異なるマイクに次々に到達するまでの時間遅延差を推定し、時間遅延を通じて距離差を計算し、その距離差とマイクアレイの空間幾何学的位置を使用して音源の位置を決定します。これは、TDOA 推定と TDOA 位置決めの 2 つのステップに分かれています。

2. ビームフォーミング

1. CBF - 従来のビームフォーミング

CBF は最も単純な非適応型ビームフォーミングです。ビームは各マイクの出力を加重加算することで得られます。CBF では、各チャネルの重みは固定されています。その機能は、アレイ パターンのサイドローブ レベルを抑制して、サイドローブ領域の干渉とノイズを除去することです。

2. CBF + 適応フィルタ強化ビームフォーミング

CBF+適応フィルタは、Weinerフィルタリングと組み合わせて、音声強調の効果を高めます。ノイズの多い音声はWeinerフィルタリングによってフィルタリングされ、LMS基準に基づいて純粋な音声信号が得られます。フィルタ係数は継続的に更新および反復できるため、従来の CBF と比較して非定常ノイズをより効果的に除去できます。

3. ABF適応ビームフォーミング

ABF は CBF に基づいて、干渉とノイズに対して空間適応フィルタリングを実行します。 ABF では、異なるアルゴリズムを取得するために異なるフィルターが使用されます。つまり、異なるチャネルの振幅加重値は、いくつかの最適な基準に従って調整および最適化されます。

3. 音声強化

音声強調とは、音声信号がさまざまなノイズ(音声を含む)によって妨害されたり、かき消されたりする場合に、ノイズの多い音声信号から純粋な音声を抽出するプロセスを指します。

4. 残響抑制

マイクロフォンアレイを使用して残響を除去する主な方法はいくつかあります。

(1)ブラインド信号強調アプローチに基づいて、残響信号は通常の加法性ノイズ信号として扱われ、それに音声強調アルゴリズムが適用されます。

(2)ビームフォーミングに基づくアプローチ:複数のマイクで収集された信号を加重加算することにより、目的の信号の方向にピックアップビームを形成し、他の方向からの反射音を減衰させる。

(3)逆フィルタリング手法を用いて、マイクロホンアレイを通して室内の室内インパルス応答(RIR)を推定し、再構成フィルタを用いて残響を補正・除去する。

5. ノイズ抑制

音声認識では完全なノイズ除去は必要ありませんが、対照的に、通信システムではノイズを完全に除去する必要があります。ここで言う騒音とは、一般的には空調騒音などの環境騒音を指します。このタイプの騒音は通常、空間的な方向性を持たず、エネルギーもそれほど大きくありません。通常の会話を覆い隠すことはありませんが、会話の明瞭度や了解度に影響を与えます。この方法は、強いノイズ環境での処理には適していませんが、日常的なシナリオでの音声対話には十分です。

6. エコーキャンセル

エコーキャンセルは、マイクが音を収集した後、マイクが収集したサウンドデータからローカルスピーカーが再生した音を除去し、マイクによって記録される音はローカルユーザーが話している音声のみになるようにします。

<<:  AI インテリジェント音声認識アルゴリズム パート 2

>>:  3つのステップで声紋システムを構築する方法

推薦する

AI著作権問題プラットフォームが有料化、Googleは将来的にGoogle Cloud向けに開始予定の「免責保護」サービスを紹介

グーグルは10月16日、今月13日に自社の生成AI製品のユーザーが当局によって保護されると発表した。...

画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

最高裁判所は顔認識に関する新たな規制を発表:顔情報の収集には「個別の同意」が必要

[[414466]] 7月28日、最高人民法院は「顔認識技術を用いた個人情報処理に関する民事訴訟にお...

最先端技術の共有:脳の信号を音声に変換するAIアルゴリズムは、失語症の人が正常に話すことを助けることが期待されています

カリフォルニア大学サンフランシスコ校の神経科学者チームは、ネイチャー誌に最近発表した研究で、脳の活動...

Google翻訳では対応できない?ドイツ語ハードコア翻訳DeepL体験

[[321121]]インターネットを頻繁に利用する人のほとんどは、お気に入りの翻訳ツールを持っていま...

Nature: DeepMind の大規模モデルが 60 年前の数学的問題を突破、その解決法は人間の認識力を超える

Google DeepMind の最新の成果が再び Nature に掲載され、大規模なモデルを使用し...

ChatGPTが使用する機械学習技術

著者 |ブライト・リャオ「プログラマーから見たChatGPT」の記事では、開発者のChatGPTに対...

Objective-C 実装と主要なソートアルゴリズムのグラフィカルなデモンストレーション比較

[[176714]] Objective-C を使用していくつかの基本的なソート アルゴリズムを実装...

53 フレームが 900 フレームになります。 AIを使えば高価な高速カメラなしでスローモーションが作れる

[[424523]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

将来、ロボットがあなたの仕事を奪うでしょうか?慌てずに専門家の言うことに耳を傾けましょう

[[384941]]スペインの新聞「エル・エコノミスタ」は最近、ラモン・オリバー氏による「仕事の自動...

...

Titanium Technology CEO、Li Shuhao氏:ツールの輸出からブランドの輸出まで、Martechはどのような新たな機会に直面していますか?

2020年、国内の新たな消費が活況を呈する一方で、海外市場も急速な成長機会の新たな波を迎えています...

...