背景マルチデバイス、マルチパーソン、マルチノイズなどのさまざまな複雑なオーディオおよびビデオ通信シナリオに対処するために、ストリーミングメディア通信技術は徐々に人々の生活に欠かせない技術になってきました。ストリーミング オーディオ テクノロジー ソリューションは、より優れた主観的エクスペリエンスを実現し、ユーザーが明瞭かつ正確に聞き取れるようにするために、従来の機械学習と AI ベースの音声強化ソリューションを組み合わせ、ディープ ニューラル ネットワーク テクノロジー ソリューションを使用して、音声ノイズ低減、エコーキャンセル、干渉音声除去、オーディオのエンコードとデコードの領域でリアルタイム通信のオーディオ品質を確保します。 音声信号処理研究の分野におけるフラッグシップ国際会議であるInterspeechは、常に音響学の分野における最先端の研究方向を代表してきました。Interspeech 2023には、オーディオ信号の音声強化アルゴリズムに関連する多くの論文が含まれています。その中で、 Volcano Engineストリーミングオーディオチームは、音声強化、AIベースのエンコードとデコード、その他の研究トピックを含む合計4つの研究論文を会議に採択しました。 、エコーキャンセル、教師なし適応型音声強調など。 特筆すべきは、教師なし適応型音声強調の分野では、ByteDance と NPU の合同チームが今年の CHiME (Computational Hearing in Multisource Environments) チャレンジのサブタスク「会話型音声強調のための教師なしドメイン適応 (UDASE)」で優勝したことです (https://www.chimechallenge.org/current/task2/results)。 CHiMEチャレンジは、フランスのコンピュータサイエンスとオートメーション研究所、英国のシェフィールド大学、米国の三菱電機研究所などの著名な研究機関によって2011年に開始された重要な国際コンテストです。音声研究の分野における非常に困難な遠距離音声処理関連のタスクに焦点を当てており、今年で7回目の開催となります。これまでのCHiMEコンテストに参加したチームには、英国ケンブリッジ大学、米国カーネギーメロン大学、ジョンズホプキンス大学、日本のNTT、日立中央研究所など国際的に有名な大学や研究機関のほか、清華大学、中国科学院大学、中国科学院音響研究所、西北工業大学、iFLYTEKなど国内トップの大学や研究機関が含まれています。 この記事では、これら 4 つの論文によって解決されたコアシナリオの問題と技術的ソリューションを紹介し、音声拡張、AI エンコーダー ベース、エコー キャンセル、および教師なし適応型音声拡張の分野における Volcano Engine ストリーミング オーディオ チームの考えと実践を共有します。 学習可能なコムフィルタに基づく軽量音声倍音強調法論文アドレス: https://www.isca-speech.org/archive/interspeech_2023/le23_interspeech.html 背景遅延とコンピューティング リソースの制限により、リアルタイムのオーディオおよびビデオ通信シナリオでの音声強化では通常、フィルター バンクに基づく入力機能が使用されます。 Mel や ERB などのフィルター バンクを通じて、元のスペクトルはより低い次元のサブバンド領域に圧縮されます。サブバンド領域では、ディープラーニングベースの音声強調モデルの出力はサブバンドの音声ゲインであり、これはターゲット音声エネルギーの割合を表します。ただし、圧縮されたサブバンド領域で強化されたオーディオは、スペクトルの詳細が失われるためぼやけており、通常は高調波を強化するために後処理が必要になります。 RNNoise と PercepNet は、高調波を強化するためにコーム フィルターを使用しますが、基本周波数の推定、コーム フィルターのゲイン計算、およびモデルの分離のため、エンドツーエンドで最適化することはできません。DeepFilterNet は、高調波間ノイズを抑制するために時間周波数領域フィルターを使用しますが、音声の基本周波数情報を明示的に利用しません。上記の問題に対処するため、研究チームは学習可能なコムフィルタに基づく音声倍音強調法を提案しました。この方法は、基本周波数推定とコムフィルタリングを組み合わせたもので、コムフィルタのゲインをエンドツーエンドで最適化できます。実験では、この方法は既存の方法と同等の計算複雑さで、より優れた高調波強化を実現できることが示されています。 モデルフレームワーク基本周波数推定器 (F0 推定器)基本周波数推定の難しさを軽減し、リンク全体をエンドツーエンドで実行できるようにするために、推定対象の基本周波数範囲を N 個の離散基本周波数に離散化し、分類器を使用して推定します。無声フレームを表すために 1 つの次元が追加され、最終的なモデル出力は N+1 次元の確率になります。 CREPE と一致して、チームはトレーニング ターゲットとしてガウス平滑化機能を使用し、損失関数としてバイナリ クロス エントロピーを使用しました。 学習可能なコムフィルタ上記の離散基本周波数のそれぞれについて、チームは PercepNet に似た FIR フィルターをコム フィルタリングに使用しました。これは、変調されたパルス列として表すことができます。 トレーニング中は、2 次元畳み込み層 (Conv2D) を使用して、すべての離散ベースバンドのフィルタリング結果を同時に計算します。この 2 次元畳み込みの重みは、N+1 次元を持つ次の行列として表すことができ、各次元は上記のフィルターを使用して初期化されます。 各フレームの基本周波数に対応するフィルタリング結果は、ターゲット基本周波数の一意のホットラベルと 2 次元畳み込みの出力を乗算することによって得られます。 倍音強調されたオーディオは重み付けされ、元のオーディオに追加され、サブバンド ゲインで乗算されて最終出力が得られます。 推論中は、フレームごとに 1 つのベースバンド フィルタリング結果のみを計算する必要があるため、この方法では計算コストが低くなります。 モデル構造研究チームは、音声強調モデルのバックボーンとしてデュアルパス畳み込み再帰型ニューラルネットワーク (DPCRN) を使用し、基本周波数推定器を追加しました。エンコーダーとデコーダーは、深さ方向に分離可能な畳み込みを使用して対称構造を形成し、デコーダーにはサブバンドゲイン G と重み付け係数 R をそれぞれ出力する 2 つの並列ブランチがあります。基本周波数推定器の入力は、DPRNN モジュールの出力と線形スペクトルです。このモデルの計算コストは約 300 M MAC で、そのうちコムフィルタリングの計算コストは約 0.53 M MAC です。 モデルトレーニング実験では、VCTK-DEMAND および DNS4 Challenge データセットをトレーニングに使用し、音声強調と基本周波数推定の損失関数を使用してマルチタスク学習を実行します。 実験結果ストリーミング オーディオ チームは、提案された学習可能なコム フィルタリング モデルを、PercepNet のコム フィルタリングと DeepFilterNet のフィルタリング アルゴリズムを使用するモデル (それぞれ DPCRN-CF、DPCRN-PN、DPCRN-DF と呼ばれます) と比較しました。 VCTK テスト セットでは、この論文で提案された方法は既存の方法よりも優れていることが示されています。 同時に、チームは基本周波数の推定と学習可能なフィルタに関するアブレーション実験を実施しました。実験結果によると、エンドツーエンド学習は、信号処理ベースの基本周波数推定アルゴリズムとフィルタ重みを使用するよりも優れた結果を達成します。 Intra-BRNN と GB-RVQ に基づくエンドツーエンドのニューラル ネットワーク オーディオ エンコーダー論文アドレス: https://www.isca-speech.org/archive/pdfs/interspeech_2023/xu23_interspeech.pdf 背景近年、低ビットレートの音声コーディングタスクには多くのニューラルネットワークモデルが使用されています。しかし、一部のエンドツーエンドモデルではフレーム内の関連情報を十分に活用できず、導入された量子化器には大きな量子化誤差があり、エンコード後のオーディオ品質が低下します。エンドツーエンドのニューラル ネットワーク オーディオ エンコーダーの品質を向上させるために、ストリーミング オーディオ チームは、エンドツーエンドのニューラル音声コーデック、つまり CBRC (畳み込みおよび双方向リカレント ニューラル コーデック) を提案しました。 CBRC は、1D-CNN (1 次元畳み込み) と Intra-BRNN (フレーム内双方向再帰型ニューラル ネットワーク) のインターリーブ構造を使用して、フレーム内相関関係をより効果的に活用します。さらに、研究チームは CBRC でグループワイズおよびビームサーチ残差ベクトル量子化器 (GB-RVQ) を使用して量子化ノイズを削減しました。 CBRC は、追加のシステム遅延なしで 20 ミリ秒のフレーム長で 16 kHz オーディオをエンコードし、リアルタイム通信シナリオに適しています。実験結果によると、符号化率 3kbps の CBRC 符号化の音声品質は、符号化率 12kbps の Opus の音声品質よりも優れていることがわかりました。 モデルフレームワークCBRCの全体構造 エンコーダとデコーダのネットワーク構造エンコーダーは、カスケード接続された 4 つの CBRNBlocks を使用してオーディオ機能を抽出します。各 CBRNBlock は、機能抽出用の 3 つの ResidualUnits と、ダウンサンプリング レートを制御する 1 次元畳み込みで構成されます。エンコーダーで機能がダウンサンプリングされるたびに、機能チャネルの数は 2 倍になります。 ResidualUnit は、残差畳み込みモジュールと残差双方向再帰ネットワークで構成されており、畳み込み層は因果畳み込みを使用し、Intra-BRNN の双方向 GRU 構造は 20 ミリ秒フレーム内のオーディオ機能のみを処理します。デコーダー ネットワークはエンコーダーのミラー イメージであり、アップサンプリングに 1 次元転置畳み込みを使用します。 1D-CNN と Intra-BRNN のインターリーブ構造により、エンコーダーとデコーダーは追加の遅延を発生させることなく、20 ミリ秒のオーディオ フレーム内の相関関係を最大限に活用できます。 CBRNBlock構造 グループおよびビーム探索残差ベクトル量子化器 GB-RVQCBRC は残差ベクトル量子化器 (RVQ) を使用して、コーディング ネットワークの出力機能を指定されたビット レートに量子化および圧縮します。 RVQ は、複数のベクトル量子化器 (VQ) の層をカスケード接続することで特徴を圧縮します。VQ の各層は、前の VQ 層の量子化残差を量子化します。これにより、同じビット レートで単一の VQ 層のコードブック パラメータを大幅に削減できます。チームは、CBRC において、グループ単位の残差ベクトル量子化器 (Group-wise RVQ) とビーム探索残差ベクトル量子化器 (Beam-search RVQ) という 2 つの優れた量子化器構造を提案しました。
グループ単位の RVQ はエンコーダー出力をグループ化し、グループ化された RVQ を使用してグループ化された特徴を個別に量子化します。グループ化された量子化された出力は結合され、デコーダーに入力されます。グループ単位の RVQ は、グループ量子化によってコードブック パラメータと量子化器の計算の複雑さを軽減し、CBRC エンドツーエンドのトレーニングの難易度を軽減して、CBRC エンコードされたオーディオ品質を向上させます。 研究チームは、ビームサーチ RVQ をニューラル オーディオ エンコーダのエンドツーエンドのトレーニングに導入し、ビームサーチ アルゴリズムを使用して、RVQ で量子化パス エラーが最小となるコードブックの組み合わせを選択し、量子化器の量子化エラーを削減しました。オリジナルの RVQ アルゴリズムは、VQ 量子化の各層で出力として誤差が最小のコードブックを選択しますが、VQ 量子化の各層の最適なコードブックの組み合わせは、必ずしもグローバルに最適なコードブックの組み合わせではありません。研究チームはビームサーチRVQを使用し、最小量子化パス誤差の基準に基づいてVQの各レイヤーでk個の最良の量子化パスを保持し、より広い量子化検索空間でより優れたコードブックの組み合わせを選択し、量子化誤差を削減しました。
モデルトレーニング実験では、LibriTTS データセットの 16kHz 音声 245 時間を使用してトレーニングを行い、音声振幅にランダム ゲインを掛けてモデルに入力しました。トレーニング中の損失関数は、スペクトル再構築のためのマルチスケール損失、識別器の敵対的損失と特徴損失、VQ 量子化損失、および知覚損失で構成されます。 実験結果主観的スコアと客観的スコアCBRC コード化音声の品質を評価するために、10 個の多言語オーディオの比較セットが構築され、他のオーディオ コーデックと比較されました。計算の複雑さの影響を軽減するために、チームは軽量の CBRC-lite を設計しました。この CBRC-lite の計算の複雑さは Lyra-V2 よりもわずかに高くなっています。主観的な聴取比較の結果、3kbpsでのCBRCの音声品質は、12kbpsでのOpusや3.2kbpsでのLyra-V2の音声品質を上回っており、提案手法の有効性が示されています。 CBRC でエンコードされたオーディオ サンプルは、https://bytedance.feishu.cn/docx/OqtjdQNhZoAbNoxMuntcErcInmb で提供されています。
アブレーション実験研究チームは、Intra-BRNN、Group-wise RVQ、Beam-search RVQのアブレーション実験を設計しました。実験結果によると、エンコーダーとデコーダーの両方で Intra-BRNN を使用すると、音声品質が大幅に向上することが示されています。さらに、研究チームはRVQにおけるコードブックの使用頻度を数え、エントロピー復号を計算して、異なるネットワーク構造におけるコードブックの使用率を比較しました。完全な畳み込み構造と比較すると、Intra-BRNN を使用する CBRC では、潜在的な符号化ビット レートが 4.94kbps から 5.13kbps に増加します。同様に、CBRC でグループワイズ RVQ とビームサーチ RVQ を使用すると、符号化された音声の品質が大幅に向上します。また、ニューラル ネットワーク自体の計算の複雑さと比較すると、GB-RVQ によってもたらされる複雑さの増加はほとんど無視できるほどです。 サンプルサウンドオリジナルオーディオ arctic_a0023_16k 、ByteDanceテクノロジーチーム、5秒 es01_l_16k 、ByteDance技術チーム、10秒 CBRC 3kbps arctic_a0023_16k_CBRC_3kbps 、ByteDance技術チーム、5秒 es01_l_16k_CBRC_3kbps 、ByteDance技術チーム、10秒 CBRC ライト 3kbps arctic_a0023_16k_CBRC_lite_3kbps 、ByteDance技術チーム、5秒 es01_l_16k_CBRC_lite_3kbps 、ByteDance技術チーム、10秒 2段階プログレッシブニューラルネットワークに基づくエコーキャンセル法論文アドレス: https://www.isca-speech.org/archive/pdfs/interspeech_2023/chen23e_interspeech.pdf 背景ハンズフリー通信システムでは、音響エコーが煩わしい背景妨害となります。エコーは、遠端の信号がスピーカーから再生され、近端のマイクによって録音されたときに発生します。音響エコーキャンセル (AEC) は、マイクが拾った不要なエコーを抑制するように設計されています。現実の世界では、リアルタイム通信、スマート教室、車のハンズフリー システムなど、エコーキャンセルを必要とするアプリケーションが数多くあります。 最近、ディープラーニング (DL) 手法を使用したデータ駆動型 AEC モデルは、より堅牢で強力であることが示されています。これらの方法では、AEC を教師あり学習問題として定式化し、入力信号と近接ターゲット信号間のマッピング関数をディープ ニューラル ネットワーク (DNN) によって学習します。ただし、実際のエコー パスは非常に複雑であるため、DNN のモデリング機能に対する要求が高くなります。ネットワークのモデリング負荷を軽減するために、既存の DL ベースの AEC 方法のほとんどでは、プリリニア音響エコーキャンセル (LAEC) モジュールを採用して、エコーの線形成分のほとんどを抑制しています。ただし、LAEC モジュールには 2 つの欠点があります。1) 不適切な LAEC により近端音声に歪みが生じる可能性があること、2) LAEC 収束プロセスにより線形エコー抑制パフォーマンスが不安定になることです。 LAEC は自己最適化型であるため、LAEC の欠点により、後続のニューラル ネットワークに追加の学習負荷がかかります。 LAEC の影響を回避し、近端の音声品質を向上させるために、本稿では、エンドツーエンド DL に基づく新しい 2 段階処理モードを検討し、エコーキャンセルタスク用の粗段階と微細段階で構成される 2 段階カスケード ニューラル ネットワーク (TSPNN) を提案します。広範囲にわたる実験結果により、提案された 2 段階エコーキャンセル方式は、他の主流の方法よりも優れたパフォーマンスを実現できることが実証されています。 モデルフレームワーク下の図に示すように、TSPNN は主に、時間遅延補正モジュール (TDC)、粗粒度処理モジュール (粗段階)、および細粒度処理モジュール (細段階) の 3 つの部分で構成されています。 TDC は、入力された遠端参照信号 (ref) と近端マイク信号 (mic) を調整する役割を担っており、これは後続のモデル収束に役立ちます。粗い段階では、マイクからのエコーとノイズの大部分を除去し、後続の微調整段階でのモデル学習の負担を大幅に軽減します。同時に、粗段階では、音声アクティビティ検出 (VAD) タスクをマルチタスク学習に組み合わせて、モデルの近端音声の認識を強化し、近端音声へのダメージを軽減します。微調整ステージは、残留エコーとノイズをさらに除去し、隣接周波数情報を組み合わせて近端のターゲット信号をより適切に再構築する役割を担います。 各ステージのモデルを個別に最適化することで生じる次善のソリューションを回避するために、本論文では、粗ステージと微調整ステージを同時に最適化するカスケード最適化を採用し、粗ステージの制約を緩和して近端音声へのダメージを回避します。さらに、モデルが近端音声を知覚する能力を有することを可能にするために、本発明では、マルチタスク学習のためのVADタスクを導入し、損失関数にVAD損失を追加する。最終的な損失関数は次のようになります。 で これらは、それぞれ、目標近端信号複素スペクトル、粗段階および微調整段階で推定された近端信号複素スペクトルを表します。これらは、それぞれ、粗段階によって推定された近端音声アクティビティ状態、および近端音声アクティビティ検出ラベルを表します。 これは制御スカラーであり、主にトレーニングフェーズ中のさまざまな段階に注意を払う度合いを調整するために使用されます。本発明の限界 粗動ステージの制約を緩和し、粗動ステージによる近位端の損傷を効果的に回避します。 実験結果実験データVolcano Engineストリーミングオーディオチームが提案した2段階エコーキャンセルシステムも他の方法と比較されました。実験結果では、提案された方法が他の主流の方法よりも優れた結果を達成できることが示されました。 具体例
CHiME-7 教師なしドメイン適応音声拡張 (UDASE) チャレンジの優勝ソリューション論文アドレス: https://www.chimechallenge.org/current/task2/documents/Zhang_NB.pdf 背景:近年、ニューラルネットワークやデータ駆動型ディープラーニング技術の発展に伴い、音声強調技術の研究は徐々にディープラーニングベースの方法に移行し、ディープニューラルネットワークに基づく音声強調モデルがますます提案されるようになりました。ただし、これらのモデルのほとんどは教師あり学習に基づいており、トレーニングには大量のペアデータが必要です。しかし、実際のシナリオでは、ノイズの多いシーンでの音声と、それとペアになっている乱れのないクリーンな音声ラベルを同時に録音することは不可能です。通常は、データシミュレーションを使用してクリーンな音声とさまざまなノイズを別々に収集し、特定の信号対雑音比に従ってそれらをミックスして、ノイズのあるオーディオを取得します。これにより、トレーニング シナリオと実際のアプリケーション シナリオの間に不一致が生じ、実際のアプリケーションでモデルのパフォーマンスが低下します。 上記のドメイン不一致の問題をより適切に解決するために、実際のシナリオで大量のラベルなしデータを使用して、教師なしおよび自己教師ありの音声強化技術が提案されています。 CHiME チャレンジのトラック 2 は、ラベルなしデータを使用して、人工的に生成されたラベル付きデータでトレーニングされた音声強調モデルのパフォーマンス低下の問題を克服することを目指しています。これは、トレーニング データと実際のアプリケーション シナリオの不一致が原因です。研究の焦点は、ターゲット ドメイン内のラベルなしデータとセット外のラベル付きデータを利用して、ターゲット ドメインの強調結果を改善する方法にあります。 モデルフレームワーク構造:教師なし領域適応音声強調システムのフローチャート 上図に示すように、提案されたフレームワークは教師と生徒のネットワークです。まず、音声アクティビティ検出、UNA-GAN、シミュレートされた室内インパルス応答、動的ノイズ追加などの技術をドメイン内データに適用して、ターゲットドメインに最も近いラベル付きデータセットを生成し、ドメイン外のラベル付きデータセットで教師ノイズ除去ネットワーク Uformer+ を事前トレーニングします。次に、このフレームワークの助けを借りて、ドメイン内のラベルなしデータに基づいて学生ネットワークが更新されます。つまり、事前トレーニング済みの教師ネットワークを使用して、ノイズの多い周波数からクリーンな音声とノイズを疑似ラベルとして推定し、それらをシャッフルしてリミックスし、学生ネットワーク入力のトレーニング データとして使用します。疑似ラベルは、学生ネットワークのトレーニングを監督するために使用されます。事前トレーニング済みの MetricGAN 識別子を使用して、学生ネットワークによって生成されたクリーンな音声品質スコアを推定し、最高スコアで損失を計算して、学生ネットワークがより高品質のクリーンなオーディオを生成するようにガイドします。各トレーニングステップの後に、生徒ネットワークのパラメータが一定の重みを持つ教師ネットワークに更新され、より高品質の教師あり学習疑似ラベルが得られ、これが繰り返されます。 Ufomer+ネットワークUformer+ は、Uformer ネットワークに MetricGAN を追加することで改良されました。 Uformer は、Unet 構造に基づく複素実デュアルパスコンフォーマーネットワークです。振幅スペクトルブランチと複素スペクトルブランチの 2 つの並列ブランチがあります。ネットワーク構造を下図に示します。振幅ブランチは主なノイズ抑制機能を実行するために使用され、ほとんどのノイズを効果的に抑制できます。複素分岐は、スペクトルの詳細の損失と位相偏差を補正するための補助として使用されます。 MetricGANの主なアイデアは、ニューラルネットワークを使用して微分不可能な音声品質評価指標をシミュレートし、ネットワークトレーニングで使用して、トレーニング中および実際のアプリケーション中の一貫性のない評価指標によって発生するエラーを削減することです。ここでチームは、MetricGAN ネットワーク推定のターゲットとして知覚音声品質評価 (PESQ) を使用しました。 Uformerネットワーク構造図 RemixIT-G フレームワークRemixIT-G は、まずドメイン外のラベル付きデータで教師 Uformer+ モデルを事前トレーニングし、次に事前トレーニング済みの教師モデルを使用してドメイン内のノイズ周波数をデコードし、ノイズと音声を推定する教師生徒ネットワークです。次に、推定されたノイズと音声の順序が同じバッチ内でシャッフルされ、ノイズと音声はシャッフルされた順序でリミックスされ、学生ネットワークをトレーニングするための入力としてノイズの多い周波数スペクトルを形成します。教師ネットワークによって推定されたノイズと音声は疑似ラベルとして機能します。学生ネットワークは、リミックスされたノイズ周波数をデコードし、ノイズと音声を推定し、疑似ラベルを使用して損失を計算し、学生ネットワーク パラメータを更新します。学生ネットワークによって推定された音声は、事前トレーニング済みの MetricGAN 識別器に入力されて PESQ を予測し、PESQ の最大値を使用して損失が計算され、学生ネットワーク パラメータが更新されます。 すべてのトレーニングデータが1ラウンドの反復を完了すると、教師ネットワークのパラメータは次の式に従って更新されます。ここで、はK回目のトレーニングラウンドの教師ネットワークのパラメータです。 K 回目の学生ネットワークのパラメータです。つまり、生徒ネットワークのパラメータが一定の重みで教師ネットワークに追加されます。 データ拡張手法 UNA-GANUNA-GAN構造図 教師なしノイズ適応型データ拡張ネットワーク UNA-GAN は、生成的敵対ネットワークに基づくノイズ周波数生成モデルです。目的は、独立したノイズ データを取得できない場合に、ドメイン内のノイズの多い音声のみを使用して、クリーンな音声をドメイン内のノイズのあるノイズの多い音声に直接変換することです。ジェネレーターはクリーンな音声を入力し、シミュレートされたノイズの多いオーディオを出力します。識別器は、生成されたノイズ周波数または実際のドメイン内ノイズ周波数を入力して、入力オーディオが実際のシーンからのものか、シミュレーションによって生成されたものかを判断します。識別器は主に背景ノイズの分布に基づいて音源を区別し、その過程で人間の音声は無効な情報とみなされます。上記の敵対的トレーニング プロセスを実行することにより、ジェネレーターはドメイン内のノイズを入力のクリーンなオーディオに直接追加して、識別器を混乱させようとします。識別器は、ノイズの多いオーディオのソースを区別するために最善を尽くします。ジェネレーターが過剰なノイズを追加して入力オーディオ内の人間の音声を覆い隠してしまうのを防ぐために、対照学習が使用されます。生成されたノイズの多い音声と入力されたクリーンな音声の対応する位置で 256 個のブロックがサンプリングされます。同じ位置にあるブロックのペアは正の例とみなされ、異なる位置にあるブロックのペアは負の例とみなされます。正の例と負の例を使用してクロスエントロピー損失を計算します。 実験結果結果は、提案された Uformer+ がベースラインの Sudo rm-rf よりも優れたパフォーマンスを持ち、データ拡張方法 UNA-GAN もドメイン内でノイズの多い周波数を生成する能力を持っていることを示しています。ドメイン適応フレームワーク RemixIT ベースラインは SI-SDR では大幅な改善を達成しましたが、DNS-MOS ではパフォーマンスが低下しました。チームが提案した改良版RemixIT-Gは、両方の指標において効果的な改善を達成し、競合ブラインドテストセットで最高の主観的視聴覚MOSスコアを達成しました。最終的な聴力検査の結果は下の図に示されています。 要約と展望上記では、Volcano Engineストリーミングオーディオチームがディープラーニングに基づいて、特定話者のノイズ低減、AIエンコーダー、エコーキャンセル、教師なし適応型音声強調の分野で作成したいくつかのソリューションと効果を紹介しました。今後のシナリオでは、軽量で複雑度の低いモデルをさまざまな端末に展開して実行する方法や、マルチデバイス効果の堅牢性など、さまざまな方向で課題に直面しています。これらの課題も、ストリーミングオーディオチームの今後の研究の焦点となります。 |
>>: WOTカンファレンスは11月に深センで開催されます!テクノロジー界の「トップグループチャット」をお見逃しなく
今後 15 年間で、人工知能によって米国の雇用が 40% から 50% 減少すると私は予測しています...
シーメンスとマイクロソフトは、AI の業界横断的な応用を推進するために協力しました。両社は CES ...
2月28日、中国人工知能産業発展連盟「AIIAカップ」人工知能ツアー報告会において、中国航天科技集団...
[[219941]] AI と機械学習が、人材管理の問題解決に役立っているというのは、皮肉なことです...
プログラマー職の面接では、多くの場合、プログラミング面接プロセスを受ける必要があり、雇用主はこれを利...
MIT の研究者チームは、人工知能の分野を初心者にとってよりアクセスしやすいものにするとともに、専門...
なぜ良いチャットボットがないのでしょうか? これは私がかなり頻繁に、おそらく平均して週に 2 回は聞...
IT Homeは11月21日、Microsoft Azure AIインフラストラクチャがアップグレー...
4日間行方不明になっていた深海潜水艇「タイタン」は、予期せぬ壊滅的な爆発事故に見舞われた。乗組員5人...