AI インテリジェント音声認識アルゴリズム パート 1

AI インテリジェント音声認識アルゴリズム パート 1

[[397592]]

1. 音源定位

1. 電子走査アレイ

システムが出力信号のパワーが最大となる点までスキャンすると、対応するビーム方向が音源の DOA 方向であると見なされ、音源の位置が特定されます。電子走査アレイ方式には一定の制限があり、単一の音源にのみ適用できます。アレイパターンの同じメインビーム内に複数の音源がある場合、それらを区別することはできません。

2. 超解像スペクトル推定

例えば、MUSIC アルゴリズムや ESPRIT アルゴリズムでは、共分散行列(相関行列)を固有値分解して空間スペクトルを構築します。方向スペクトルに関しては、スペクトルのピークに対応する方向が音源の方向になります。これは複数の音源がある状況に適しており、音源の解像度はアレイのサイズに依存せず、物理的な制限を打ち破り、超解像度分光ソリューションになります。

3. TDOA

TDOA は、音源が異なるマイクに次々に到達するまでの時間遅延差を推定し、時間遅延を通じて距離差を計算し、その距離差とマイクアレイの空間幾何学的位置を使用して音源の位置を決定します。これは、TDOA 推定と TDOA 位置決めの 2 つのステップに分かれています。

2. ビームフォーミング

1. CBF - 従来のビームフォーミング

CBF は最も単純な非適応型ビームフォーミングです。ビームは各マイクの出力を加重加算することで得られます。CBF では、各チャネルの重みは固定されています。その機能は、アレイ パターンのサイドローブ レベルを抑制して、サイドローブ領域の干渉とノイズを除去することです。

2. CBF + 適応フィルタ強化ビームフォーミング

CBF+適応フィルタは、Weinerフィルタリングと組み合わせて、音声強調の効果を高めます。ノイズの多い音声はWeinerフィルタリングによってフィルタリングされ、LMS基準に基づいて純粋な音声信号が得られます。フィルタ係数は継続的に更新および反復できるため、従来の CBF と比較して非定常ノイズをより効果的に除去できます。

3. ABF適応ビームフォーミング

ABF は CBF に基づいて、干渉とノイズに対して空間適応フィルタリングを実行します。 ABF では、異なるアルゴリズムを取得するために異なるフィルターが使用されます。つまり、異なるチャネルの振幅加重値は、いくつかの最適な基準に従って調整および最適化されます。

3. 音声強化

音声強調とは、音声信号がさまざまなノイズ(音声を含む)によって妨害されたり、かき消されたりする場合に、ノイズの多い音声信号から純粋な音声を抽出するプロセスを指します。

4. 残響抑制

マイクロフォンアレイを使用して残響を除去する主な方法はいくつかあります。

(1)ブラインド信号強調アプローチに基づいて、残響信号は通常の加法性ノイズ信号として扱われ、それに音声強調アルゴリズムが適用されます。

(2)ビームフォーミングに基づくアプローチ:複数のマイクで収集された信号を加重加算することにより、目的の信号の方向にピックアップビームを形成し、他の方向からの反射音を減衰させる。

(3)逆フィルタリング手法を用いて、マイクロホンアレイを通して室内の室内インパルス応答(RIR)を推定し、再構成フィルタを用いて残響を補正・除去する。

5. ノイズ抑制

音声認識では完全なノイズ除去は必要ありませんが、対照的に、通信システムではノイズを完全に除去する必要があります。ここで言う騒音とは、一般的には空調騒音などの環境騒音を指します。このタイプの騒音は通常、空間的な方向性を持たず、エネルギーもそれほど大きくありません。通常の会話を覆い隠すことはありませんが、会話の明瞭度や了解度に影響を与えます。この方法は、強いノイズ環境での処理には適していませんが、日常的なシナリオでの音声対話には十分です。

6. エコーキャンセル

エコーキャンセルは、マイクが音を収集した後、マイクが収集したサウンドデータからローカルスピーカーが再生した音を除去し、マイクによって記録される音はローカルユーザーが話している音声のみになるようにします。

<<:  AI インテリジェント音声認識アルゴリズム パート 2

>>:  3つのステップで声紋システムを構築する方法

ブログ    
ブログ    
ブログ    

推薦する

人工知能はマーケティング業界に破壊的な影響を及ぼすだろう

ビッグデータと人工知能の市場は現在、活況を呈しています。調査会社の最近の予測によると、これら2つの技...

百度CEOロビン・リー:AI時代のオープン性が技術の進歩を推進

8月19日、2017年ヤブリ中国起業家フォーラム夏季サミットが銀川で開催されました。百度の創業者で会...

オンラインクレジットは消費者保護において「難しい問題」でしょうか? AIアプリケーションは消費者の権利を保護する

何億人ものインターネットユーザーの一人として、クレジット取引を処理するためにオフラインの営業所に行く...

2021年にAIは暗号通貨分野に参入するでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

未来に向けて、自動運転のための初のマルチビュー予測+計画世界モデルが登場

最近、ワールドモデルという概念が大きな盛り上がりを見せており、自動運転の分野もただ黙って見ているわけ...

工場に産業用 IoT テクノロジーを導入する 5 つの理由

モノのインターネット(IoT)はどこにでもあります。実際、ここ数年、スマート製造、サプライ チェーン...

来年のビジネス インテリジェンスの見通しはどうでしょうか?

インテリジェント テクノロジーの使用が拡大するにつれて、ビジネス インテリジェンスの最新動向を常に把...

科学記事:強化学習後、ロボット学習のボトルネックをどう突破するのか?

[[340407]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

...

香港科技大学のタン・ピン氏のチームが3D生成における重要な問題を突破し、多頭モンスターの出現を防止

生成モデルは画像生成の分野で大きな成功を収めてきましたが、この技術を 3D 分野に拡張するには常に多...

...

...

Google:MLの発展を牽引する転移学習とは何でしょうか?丨NeurIPS 2020

機械学習の分野でよく使われる分類学習タスクでは、訓練された分類モデルの精度と高い信頼性を確保するため...