ディープラーニングに基づく教師あり音声分離

ディープラーニングに基づく教師あり音声分離

概要: 音声分離は、対象の音声を背景の干渉から分離するタスクです。従来、音声分離は信号処理の問題として扱われてきました。最近、音声分離を教師あり学習の問題として扱い、トレーニング データから音声、話者、背景ノイズの識別パターンを学習する新しい方法が登場しました。過去 10 年間に、多くの教師あり音声分離アルゴリズムが提案されてきました。特に、最近提案されたディープラーニングに基づく教師あり音声分離は多くの進歩を遂げ、分離タスクにおけるパフォーマンスが大幅に向上しました。本稿では、近年の深層学習に基づく教師あり音声分離の研究の概要を説明します。まず、音声分離の背景と教師あり分離の定式化について紹介します。次に、教師あり分離の 3 つの主要コンポーネントである、学習マシン、トレーニング目標、音響機能について説明します。この教師あり音声分離の概要では、分離アルゴリズムに焦点を当てます。音声強調 (音声と非音声の分離)、話者分離 (マルチトークの分離)、音声残響除去、マルチマイク技術などのモノラル方式について説明します。この論文では、一般化という重要な問題についても議論しています。本稿では、教師あり音声分離の技術開発プロセスを歴史的観点から説明します。さらに、ターゲットソースの構成など、概念的な事柄についても多くの議論が行われました。

1. はじめに

音声分離の目的は、対象の音声を背景の干渉から分離することです。音声分離は、補聴器、モバイル通信、堅牢な自動音声、話者認識など、幅広い用途を持つ信号処理における非常に基本的なタイプのタスクです。人間の聴覚システムは、ある人の声を他の人の声から簡単に区別することができます。カクテルパーティーのような音響環境でも、他の人の会話や周囲の雑音の中で、一人の人が話しているのを問題なく聞き取ることができるようです。そのため、音声分離問題はしばしば「カクテルパーティー問題」と呼ばれ、これはチェリーが1953年に発表した有名な論文[22]で作った造語である。

言語は人間にとって最も重要なコミュニケーション手段であり、音声を背景の干渉から切り離すことは非常に重要です。興味深いスピーチや的を絞った会話は、他のソースからの不要なノイズや表面反射による残響によって妨げられることがよくあります。人間は簡単に音声を区別できますが、この基本的なタスクにおいて人間の聴覚システムに匹敵する自動化システムを構築することは困難であることが判明しています。 1953年の著書[23]でチェリーは「カクテルパーティー問題を解決できる機械はまだ存在しない」と述べています。残念ながら、この記事で説明したような最近の進歩によりこの問題は解決され始めていますが、私たちの分野では彼の結論は60年以上も真実のままです。

音声分離は非常に重要であり、信号処理の分野で数十年にわたって研究されてきました。分離方式は、センサーやマイクの数に応じて、モノラル方式(単一マイク)とアレイ方式(複数マイク)に分けられます。モノラル分離に対する2つの従来のアプローチは、音声強調[95]と計算聴覚シーン分析(CASA)[140]である。音声強調法は、音声とノイズの全体データを分析し、ノイズの多い音声のノイズを推定した後、明瞭な音声を推定する[32][95]。最も単純で広く使用されている強調方法はスペクトル減算法[10]であり、推定されたノイズのパワースペクトルがノイズの多い音声から減算されます。背景ノイズを推定するために、音声強調技術では通常、背景ノイズが定常である、つまりそのスペクトル特性が時間の経過とともに変化しない、または少なくとも音声よりも安定していると想定します。 CASAは聴覚情景分析の知覚理論[12]に基づいており、ピッチや音頭などのグループ化の手がかりを利用します。例えば、タンデムアルゴリズムは、ピッチ推定とピッチベースのクラスタリングを交換することで音声分離を実行します[65]。

2 つ以上のマイクのアレイでは、音声を分離するさまざまな方法が使用されます。ビームフォーミング、または空間フィルタリングは、適切なアレイ構造を使用して、特定の方向から到着する信号を強化し、他の方向からの干渉を低減します[134][11][7][74]。最も単純な形式では、ビームフォーミングは、対象方向の複数のマイクからの信号を同じ位相で追加し、位相差に基づいて他の方向からの信号を減衰させる遅延加算技術です。ノイズ低減の量は、アレイの間隔、サイズ、構造によって異なり、通常はマイクの数とアレイの長さに応じて増加します。明らかに、ターゲット ソースと干渉ソースが同じ場所にあるか非常に近い場合、空間フィルターは適用できません。さらに、エコーのシナリオでは、ビームフォーミングの有効性が大幅に低下し、音源の方向が不明瞭になります。

最近提案されたアプローチでは、音声分離を教師あり学習の問題として扱います。教師あり音声分離の初期開発は、CASA [98][140][138]における時間周波数(TF)マスキングの概念に触発されました。 CASAの主な目的は、ターゲット信号が混合信号の時間周波数表現におけるTFユニットを制御するかどうかを示す理想的なバイナリマスク(IBM)[63]です。聴覚研究では、理想的なバイナリマスクは、騒音環境下での正常聴力(NH)と聴覚障害者(HI)の音声理解能力を大幅に改善できることが示されています[13][1][91][141]。 IBM を計算ターゲットとして使用すると、音声分離はバイナリ分類問題となり、これが教師あり学習の基本的な形式となります。この場合、IBM はトレーニングにおけるターゲット信号または目的関数として扱われます。このテストでは、学習マシンはIBMを推定することを目指しており、これは教師あり音声分離の最適なトレーニング目標でもあります(セクションIIIを参照)。

音声分離が分類問題となって以来、音声処理の分野ではデータ駆動型の方法が広く研究されてきました。過去10年間で、教師あり音声分離は、大規模なトレーニングデータを活用し、計算リソースを増やすことで、最先端のパフォーマンスにおいて大幅な改善を達成しました[17]。教師あり分離は、本論文の主題であるディープラーニングの発展から大きな恩恵を受けています。教師あり音声分離アルゴリズムは、学習マシン、トレーニング目標、音響特徴の 3 つの部分に大まかに分けられます。この記事では、まずこれら 3 つの部分を確認します。次に、モノラル方式やアレイベースのアルゴリズムなどの代表的なアルゴリズムを紹介します。本稿では、教師あり音声分離における特有の問題である一般化についても議論します。

混乱を避けるために、この記事で使用されているいくつかの関連用語を明確にする必要があります。音声分離または音声分離とは、対象の音声を背景干渉(非音声ノイズ、干渉音声、またはその両方、および室内の残響など)から分離するタスクを指します。さらに、「カクテルパーティー問題」は音声分離についても言及しています。音声強調またはノイズ除去とは、音声と非音声ノイズを分離することを指します。問題が複数の話者の音声分離である場合、「話者分離」という用語を使用します。

この論文は次のように構成されています。まず、教師あり音声分離の 3 つの主要な側面、つまり学習マシン、トレーニングの目的、および機能 (それぞれ第 2 章、第 3 章、第 4 章で紹介) について説明します。第 5 章ではモノラル分離アルゴリズムを紹介し、第 6 章ではアレイベースのアルゴリズムを紹介します。第7章は要約です。

図 1. -5 dB SNR の工場ノイズが混在した TIMIT オーディオ データに対してさまざまなトレーニング ターゲットを使用する例。

図 2. 異なるトレーニング目標を使用したトレーニング結果の比較。 (a) STOI。 (b)PESQ。クリアな音声が、信号対雑音比がそれぞれ -5dB、0dB、5dB の工場ノイズとミックスされました。この図の結果とデータは、http://web.cse.ohio-state.edu/pnl/DNN_toolbox/ の Matlab ツールボックスから入手できます。

図3. DNNによる特徴学習の図解。線形SVMを使用して学習した特徴のIBM値を推定する[147]。

図4.音声分離のための2段階DNNの図解[52]。

図5.音声強調のためのDNNベースのスペクトルマッピングアプローチの図解[161]。

図6. 教師なし学習用に構成されたオートエンコーダを備えた音声強調DNNアーキテクチャ[182]。 AE は、DNN からクリーンな音声を推定するための純度検出器として DNN の上に積み重ねられます。

図7.LSTMベースの音声分離システムの構造表現[16]。

図 8. フィードフォワード DNN と LSTM ベース RNN の STOI 改善。 (a) SNRが-5dBのトレーニング済みスピーカーの結果。 (b) SNRが-5dBの未訓練話者の結果。

図9.スペクトルマッピングに基づく音声残響低減のためのDNNの図解[45]。

図10.音声残響低減の残響時間応答のためのDNN構造の図解([156]より転載)。

図 11. DNN に基づく 2 つの話者分離方法の図解。

図12. 正常聴力者と聴覚障害者が、目的文を妨害文の混合物から分離して聞いたときの平均了解度スコアと標準偏差[151]。この図は、4 つの異なるターゲット対妨害因子比率の精度のパーセント結果を示しています。

図14.バイノーラル分離アルゴリズムのアーキテクチャの概略図[171]。

図15.モノラルマスク推定のためのMVDRビームフォーマ[34]。

<<:  人工知能がITサービス管理を変える3つの方法

>>:  一連のリリースによりマルチシナリオのインテリジェントサービスが生まれ、Deephi Technologyは本格的に商用化段階に突入

ブログ    

推薦する

ホワイトボードに描くだけでコードに変換されます。AI は UI デザイナーに取って代わるのでしょうか?

「新製品のホームページについてどう思いますか?」あなたは、UI、フロントエンド、マーケティング、運...

脳に埋め込まれたAIチップはてんかん発作を予測し、2時間で充電して1週間持続する

脳にAIチップを埋め込むことで、てんかん発作をいつでも予測し、制御できるようになります。これは、我が...

歩行者の軌道予測に効果的な方法と共通基本方法は何ですか?トップカンファレンスの論文を共有しましょう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

モノのインターネットにおける人工知能と機械学習の役割は何ですか?

人工知能 (AI) と機械学習 (ML) をモノのインターネット (IoT) システムに統合すること...

...

医療画像技術の応用におけるAIの4つのコアバリュー

[51CTO.com クイック翻訳] 今年の ECR カンファレンスには 25 社を超えるソフトウェ...

...

...

...

TensorFlow を使用して Android デバイスでディープラーニング推論を実装する方法

[[211369]]個人や企業にとって、ローカルデバイスでディープラーニング推論を実行することが望ま...

「AI+セキュリティ」はホームセキュリティの新たなトーンとなり、過小評価されることはない

家庭の安全に対する国民の意識が高まり、社会環境の動向が変化する現状において、家庭の安全は人々の日常的...

過度な「遊び」が子どもたちのプライバシーを侵害し、自尊心を傷つける恐れがあるとして、人工知能がキャンパスに導入される

最近、香港で株式公開を準備しているAI大手のMegvii Technologyが論争を巻き起こしてい...

AI モデルの「アウトソーシング」をやめましょう!新しい研究によると、機械学習モデルのセキュリティを弱める「バックドア」の一部は検出できないことが判明した。

悪意のある「バックドア」が埋め込まれたモデルが、何百万、何十億ものパラメータを持つモデルの中に、何者...

...