最近、ByteDance Volcano Voice Teamの最新の音楽検索システムであるByteCover2がICASSP 2022に選ばれました。このシステムは、主に音楽情報検索(MIR)の分野で重要なタスクであるカバー曲識別(CSI)を目的としています。表現学習法を通じて、音楽のコア機能を抽出する機能を備えています。この機能は、さまざまな音楽の再解釈に対して堅牢であり、検索速度が8倍向上します。 Da-Tacos データセットで評価した結果、SoTA の精度は他のソリューションのパフォーマンスをはるかに上回りました。 ByteCover2: 効率的な楽曲カバー認識のための暗黙的な埋め込み次元削減 《BYTECOVER2: 効率的なカバー曲識別のための潜在的埋め込みの次元削減に向けて》 方法の詳細: カバー認識は、システムが音楽のメロディーの方向のモデリングに重点を置くように、音楽の一般的な変化に対して堅牢である必要があります。カバー曲認識システムを設計する場合、通常、音楽モードの変化、音楽構造の変化、音楽リズムの変化という 3 種類の音楽の変化が考慮されます。さらに、Douyinプラットフォームには毎日数千万の新規ユーザーが投稿しており、膨大なクエリ需要に迅速に対応し、認識システムの全体的なスループットを向上させ、同時に認識精度を確保することも、解決すべき緊急の問題です。また、特徴を設計する際に、他の特性を確保しながら特徴サイズを可能な限り縮小し、それによってストレージスペースを削減し、システムの複雑さとコストを削減することも、ByteDanceがカバー認識を社内で開発する際に直面する課題です。 ByteCover システムでは、チームは ResNet-IBN モデルとマルチタスク学習パラダイムを組み合わせて、オーディオ入力から堅牢で識別力のあるベクトル表現を抽出しました。効率最適化の問題に対処するために、PCA-FC モジュールが提案されています。実践では、このモジュールにより、ByteCover2 モデルのパフォーマンスが変わらないか、向上する一方で、ベクトル サイズを 8 分の 1 に圧縮できることが示されています。 Bytecover モデルの構造とトレーニング プロセス マルチタスク学習により音楽検索機能が向上: カバー認識の分野には通常、マルチ分類学習とメトリック学習という 2 つのトレーニング パラダイムがあります。前者は各トラックを独立したカテゴリとして扱い、特徴レイヤーの後に完全に接続されたレイヤーを追加し、クロスエントロピーなどの分類損失を通じてモデルをトレーニングします。トレーニング後、完全に接続されたレイヤーは削除され、特徴レイヤーの出力が曲の表現として使用されます。後者は、トリプレット損失などのメトリック学習損失を使用して、特徴レイヤー上で直接ネットワークをトレーニングします。 全体的に、2 つのトレーニング パラダイムにはそれぞれ長所と短所があります。実験を通じて、チームは、分類損失によって、同じ曲の異なるスタイルを検索するモデルの能力が向上することが多い一方で、慎重に設計されたメトリック学習損失によって、カバー ネットワークが類似したスタイルの異なる曲を区別する能力が向上することを発見しました。したがって、ByteCover はこれら 2 つの学習パラダイムを組み合わせ、BNNeck モジュールを導入することで 2 つの損失の互換性を向上させます。 ResNet ネットワークと IBN 正規化法 (ResNet & Instance-Batch Normalization): 音楽の特徴抽出プロセスを簡素化し、特徴抽出を高速化するために、チームは、同時期の他のカバー認識方法で一般的に使用されている cremaPCP やその他のより複雑な特徴の代わりに、CQT スペクトログラムをモデルの入力として使用しました。ただし、この設計では、入力特徴レベルでのオーディオ周波数シフトに対するモデルの堅牢性が当然損なわれます。 そのため、畳み込みニューラル ネットワークを選択して音楽表現抽出ネットワークを作成し、畳み込みネットワークの変換不変性を利用して、周波数シフトに対するモデルの不変性を実現することを期待しました。実験により、CQT スペクトル + 通常の ResNet の組み合わせが、効率とパフォーマンスの点で cremaPCP + CNN 設計を上回ることが示されました。 徹底的な研究の結果、チームはインスタンス バッチ正規化を導入し、ネットワーク潜在表現のレベルからスタイルに依存しない音楽の特徴をさらに学習しました。つまり、特徴マップ上の異なるチャネル間の平均分散などの統計は、入力の様式化された特徴に関連しています。 IN は、特徴マップのチャネル次元を正規化することで、隠された表現レベルで様式化された情報をある程度削除し、音色の変化に対するカバー認識モデルの堅牢性を向上させます。 特徴次元削減モジュール (PCA-FC): 測定を通じて、チームは、産業レベルのカバー システムで費やされる時間のほとんどが特徴検索段階に集中しており、この段階で消費される時間は基本的に音楽ライブラリのサイズと特徴ベクトルのサイズに直線的に関連していることを発見しました。音楽ライブラリ内の曲数はビジネスの成長とともに増え続けるため、特徴ベクトルのサイズを縮小することが、検索システムの全体的な時間消費を最適化する唯一の方法になります。同時に、カバー曲ベクトル特徴の次元削減に関する他の研究では、完全接続層を使用して高次元ベクトルを低次元の空間に投影することがよくあります。 実験結果によると、次元削減のために完全接続層を単純に使用すると、システムの検索能力が大幅に低下します。チームは、この現象は、サイズが小さいためにベクトルの表現能力が制限されるだけでなく、ランダムに初期化された完全接続層によって特徴の等方性が破壊されることからも発生すると考えています。データを視覚化すると、次元削減後に特徴が円錐空間に分布し、明らかな異方性を示していることがわかります。この特性は、コサイン距離をメトリックとして使用して検索するのには適していません。 そこで、研究チームは PCA を使用して特徴ベクトルの次元を削減し、PCA 変換行列で完全接続層を初期化し、この層を特徴抽出ネットワークに接続して共同でトレーニングし、モジュールを PCA-FC と呼びました。実験結果によると、PCA FC は次元削減モデルの検索性能を大幅に向上させ、検索性能を維持しながらベクトル サイズを 8 倍圧縮できることがわかりました。 結果は次のとおりです。Da-Tacos は、カバー曲の認識を評価するためのベンチマーク データセットとして使用されています。このデータセットで使用された 1536 次元の ByteCover2 モデルは、他のソリューションをはるかに上回る SoTA パフォーマンスを達成し、すべてのカテゴリで平均精度指数 (mAP) が 79.1% でした。一方、ByteCover シリーズ以外で最良の方法である Re-MOVE は、この指数で 52.5% しか達成しませんでした。さらに注目すべきは、128 次元の ByteCover2 モデルが 2048 次元の ByteCover1 および Re-MOVE 方法さえも上回ったことです。 比較結果 さらに、ByteCover1システムは2020年の国際オーディオ検索評価コンテスト(MIREX)にも参加し、カバー認識トラックにおける長年の最高記録を大幅に更新しました。mAP指標は84%に達し、これは同年のコンテストに参加した他のソリューションの14倍の性能です。 今回、ByteDance Volcano Voiceチームは、ByteCover2に加えて、インテリジェント音楽、オーディオ合成、オーディオ理解、スーパーブレインなど、複数の方向をカバーした複数の論文をICASSP 2022に収録しました。以下に簡単に紹介します。 スマートミュージック HTS-AT: サウンドの分類と検出のための階層タグ付けセマンティックオーディオトランスフォーマーモデル 《HTS-AT: 音声分類と検出のための階層型トークンセマンティックオーディオトランスフォーマー》 この記事では主に、新しいトランスフォーマーベースのサウンドイベント検出モデルである HTS-AT を紹介します。この構造は、オーディオタスクの特性に応じて、ディープトランスフォーマーネットワーク内のオーディオスペクトル情報のフロー効率を効果的に向上させ、モデルのサウンドイベントの識別能力を向上させ、出力特徴マップのサイズを縮小することでモデルの計算の複雑さとメモリ消費を大幅に削減します。さらに、HTS-AT ではトークン セマンティック モジュールも導入されており、トレーニング用の追加のラベル付きデータを必要とせずに、モデルがサウンド時間の開始点と終了点を予測できるようになります。 上記の技術を組み合わせることで、HTS-ATは標準データセットAudioSetでmAP指数0.471を達成しました。これは現時点でこのデータセットの最高レベルであり、そのパラメータと計算の複雑さは以前の最良の方法よりも低くなっています。さらに、サウンドイベントの位置特定タスクでは、HTS-ATは追加のラベル付きデータを必要とせず、教師あり位置特定モデルの性能レベルに達します。 HTS-ATモデルの構造 音楽認識シナリオでは、サウンドイベント検出モデルが音楽クリップを選択し、音楽検索システムに送信して、システム全体の効率と精度を向上させます。 S3T: 音楽分類のための Swin Transformer による自己教師あり事前トレーニング 《S3T: 音楽分類のためのSWIN Transformerによる自己教師あり事前学習》 この記事では、革新的な階層型トランスフォーマーベースの自己教師あり音楽事前トレーニング アルゴリズム S3T を提案します。 S3T は、大規模な音楽事前トレーニングと少量のラベル付きデータによる微調整を組み合わせたパラダイムを使用し、大量のラベルなし音楽データを最大限に活用し、時間領域と周波数領域で情報をマイニングすることで、強力な一般化を備えた普遍的な音楽表現を学習します。 S3T は、複数の下流タスクで良好な結果を達成しました。特に、ラベル付きデータの 10% のみを使用して微調整することで、ラベル付きデータ全体を使用してトレーニングされたモデルよりも優れたパフォーマンスを発揮し、手動によるデータ注釈付けのコストを大幅に削減できます。 S3Tモデルの構造とトレーニングプロセス 音楽の自己教師学習は、大量の音楽データを活用して、大量の手動ラベルなしで独自の表現を完全に探索することができ、汎用性が非常に高いです。この論文で提案されている音楽表現の自己教師学習は、音楽理解の基礎を築きます。 S3T は、音楽のタグ付けや音楽のフィンガープリントなどのシナリオに適用されています。微調整後、S3T はスタイル、言語、感情などで音楽をラベル付けできます。信頼性の高い音楽タグは、音楽推奨システムにさらに役立ち、さまざまな地域のユーザーに適切な音楽を正確にプッシュできるようにします。 オーディオ合成 服装スタイルの転送に基づくシーン認識型キャラクタービデオ生成 服装スタイル転送を用いたシナリオ認識型人物動画生成に向けて この方向性は、ビデオ内のキャラクターのパーソナライズされた服装や背景シーンを自由に選択するという問題を解決することに専念しています。イノベーションの面では、複数の分離されたエンコーダーがキャラクターのさまざまな属性(アイデンティティ、服装、姿勢)を学習するように設計されており、マルチレベルの情報が共有デコーダーを通じて統合されます。 画像タスクとは異なり、ビデオではフレーム間の変化を学習する必要があるため、安定性を大幅に向上させるためにフレーム内識別子が設計されています。具体的には、モデルによって生成された結果にマスクを適用することで、キャラクターを任意のシーンに切り替えることができます。公開データセット TEDXPeople で作業した結果、ビデオ内の衣服のパーソナライゼーションの複数の客観的指標がベースライン システム (CVPR2021) と比較して大幅に改善され、SOTA 結果 (SSIM +0.047、PSNR +4.6、FID (小さいほど良い) -0.4、FVD (小さいほど良い) -0.543) が達成されました。 シーンを考慮した衣服スタイル転送モデルフレームワーク デジタルヒューマンのマルチモーダルな性質によって生成されるシナリオとサービスでは、デジタルヒューマンアンカーのパーソナライズされた服装とシーンの自由な選択により、ユーザーに自律的で制御可能なパーソナライズ機能が提供され、デジタルヒューマンエコシステムの多様性が大幅に向上します。 オーディオの理解 きめ細かな文脈知識の選択に基づくエンドツーエンド(文脈的)音声認識改善方法 《きめ細かなコンテキスト知識の選択によるエンドツーエンドのコンテキスト音声認識の改善》 本研究では、Collaborative Decoding (ColDec) と呼ばれる音声認識カスタマイズ/パーソナライゼーション手法に基づいて、大規模なホットワード リストと干渉するホットワードが多数ある状況でこの手法の音声認識カスタマイズ パフォーマンスをさらに強化するための、きめ細かいコンテキスト知識選択メカニズムを提案しました。これまでの研究では、Collaborative Decoding と呼ばれるカスタマイズされた音声認識技術によって、カスタマイズされた認識性能が効果的に向上しました。 本論文では、大規模なホットワード リストと干渉するホットワードが多数ある状況でのパフォーマンス低下の問題を解決するために、きめ細かいコンテキスト知識選択メカニズムを提案し、カスタマイズされたシナリオでの協調デコード技術の機能をさらに強化します。公開データセット Librispeech では、提案手法により、基本的な CIF 音声認識モデルのテストクリーンな 2.12% WER に基づいて、WER がさらに約 5% 削減されました。内部の 16w-hour 産業グレード ASR データセットでトレーニングされた音声認識モデルに基づいて、提案手法により、実際の会議テスト セットで CER が最大約 16% 削減されました。 アプリケーションシナリオの観点から見ると、この方法はカスタマイズされた音声認識に使用できます。たとえば、インテリジェント音声アシスタントやオンラインビデオ会議などのアプリケーションシナリオでは、多くのコンテキスト関連のキーフレーズ、パーソナライズされた情報、ホットワードなどを認識することが困難です。さらに、モバイルインテリジェント音声アシスタントのアプリケーションシナリオでは、連絡先リスト内の連絡先の名前や頻繁に訪れる場所の位置情報などのパーソナライズされた情報、オンライン会議シナリオでは参加者の名前、会議のトピックに関連する専門用語など、これらのカスタマイズおよびパーソナライズされたテキストコンテンツの音声認識パフォーマンスをターゲットにして改善することは、実際のアプリケーションシナリオで非常に重要です。 非自己回帰トランスフォーマー自動音声認識のための最小単語誤りトレーニング 《非自発的変換器ベースのコードスイッチングASRのための最小単語誤り訓練》 この論文はByteDanceと南洋理工大学(NTU)が共同で完成させた。近年、非自己回帰トランスフォーマー (NAT) に基づく自動音声認識 (ASR) フレームワークは、「現在の出力が過去の出力に依存しない」ことや「推論速度が非常に速い」などの利点により、業界でますます評価されるようになっています。 この点において、チームはコードスイッチング音声認識タスク (CSSR) におけるパフォーマンスに大きな期待を寄せています。さらに、不完全な理解によれば、最小単語誤り率 (MWER) 基準を NAT モデルに適用した前例がないようです。そのため、この研究は、このギャップをある程度埋め、SEAME コードスイッチング データセットで検証されています。 この論文の貢献は、主に次の 2 つの側面にあります。1. コードスイッチングのシナリオで NAT モデルをトレーニングするための複数の CTC マスキング方法を提案します。2. MWER トレーニング基準に基づいて複数の N ベスト仮説生成方法を提案します。 調査結果と結論は次のとおりです。1. コンテキスト関連のシーン情報は、単一言語と複数言語の両方のシナリオで非常に重要ですが、NAT には履歴情報がありません。自己回帰トランスフォーマー (AT) と比較すると、NAT モデルは一貫性の低い結果を取得します。2. N ベスト仮説の生成方法によって厳しく制限されているため、NAT モデルでの N ベストベースの MWER トレーニングではわずかな改善しか達成されていないため、より豊富な N ベストを生成する方法についてはさらなる研究が必要です。 勾配マスクを使用したエンドツーエンドの音声認識のための疑似ラベルトレーニングの改善 《勾配マスクを用いたエンドツーエンド音声認識のための疑似ラベルトレーニングの改善》 疑似ラベル付けは、自己教師あり学習において常に最も重要な方法であり、最近では音声認識の分野で優れた結果を示しています。ただし、自己教師あり学習は疑似ラベルの品質に非常に敏感です。主な理由は、疑似ラベルのエラーやノイズがモデルトレーニングの不安定性につながり、最終的には非最適な状態に収束することが多く、特に RNNT などのエンドツーエンド モデルの場合に顕著です。 この点に関して、本論文では上記の問題に対処するための勾配マスク法を提案する。この方法では、トレーニング中にエンコーダー内の可視入力の対応する勾配を消去し、モデルが不可視部分から推論するように促し、破損したラベルへのモデルの過剰適合を効果的に削減します。 応用シナリオの面では、この方法は、破損したラベルへのモデルの過剰適合の問題に効果的に対処し、モデルトレーニングの効果を向上させることができます。たとえば、半教師あり自己学習では、ドメインの不一致などの理由により疑似ラベルの品質が低すぎたり、既知のデータの一部に対するアノテーションの品質が低すぎたりします。 ICASSP 2022 マルチパーティ会議トランスクリプション チャレンジ向け Volcano 音声システム 《ICASSP 2022 マルチチャンネル マルチパーティ ミーティング トランスクリプション チャレンジ向け VOLCSPEECH システム》 会議シナリオは、音声認識および話者ロギング技術の応用において、最も価値があり、かつ最も困難なシナリオの 1 つです。会議シナリオには、多様な話し方と複雑な音響条件が含まれており、音声の重複、話者の数が不明、遠距離信号、ノイズ、残響などの課題を考慮する必要があります。 ICASSP 2022 マルチチャンネル マルチパーティ会議トランスクリプション チャレンジ (M2MeT) では、8 チャンネル マイクの遠距離データと対応するヘッドフォン マイクによって収集された近距離データを含む、実際の中国語会議の録音データ 120 時間分が提供されます。 M2MeT チャレンジには、マルチスピーカー音声認識とスピーカーログの 2 つのトラックが含まれます。チームは、限定トレーニング データ サブトラックでそれぞれ 2 位と 4 位を獲得しました。 マルチスピーカー音声認識トラックでは、8チャンネルオーディオを入力してマルチスピーカー認識テキストを出力するニューラルネットワークフロントエンドモジュールと音声認識モジュールのエンドツーエンドの共同トレーニング方法を提案しました。さらに、豊富な8チャンネルデータシミュレーションが追加されました。テストセットでは、公式ベースラインと比較してCERが32.6%減少しました。 スピーカーログトラックでは、音源定位情報とフロントエンド信号処理技術を統合し、認識精度を向上させるスピーカーログ方式を提案しました。同時に、競技データにおけるスピーカーの重複問題に対応して、重複部分でのスピーカーの検出漏れを減らすために、マルチチャンネル融合アルゴリズムを提案しました。最後に、改良型DOVER-Lapアルゴリズムを使用して複数のシステムを融合しました。テストセットでのDER(スピーカーログエラー率)は、公式ベースラインと比較して53.7%減少しました。このテクノロジーは、会議室のマルチチャンネル マイク シナリオで使用して、話者情報を含む複数話者の音声転写結果を生成できます。 スーパーブレインディレクション 疎共有サブネットワークに基づく言語間音声表現学習 《スパース共有サブネットワークを用いた言語適応型クロスリンガル音声表現学習》 本研究では、スパース共有構造に基づく多言語音声表現学習法を提案する。つまり、モデルから複数のスパースサブネットワークを分割して、それぞれ異なる言語をモデル化し、言語適応型トレーニングを実現する。各言語のサブネットワークは、重要でないパラメータをトリミングすることで抽出される。 これを踏まえて、本論文では宝くじ仮説に基づく抽出方法と、一次テイラー展開に基づく別の高速抽出方法を検討します。下流の多言語音声認識タスクでは、提案された方法はベースライン XLSR モデルのエラー率を大幅に削減し、ゲーティング ネットワークやアダプタなどの他の適応型トレーニング方法を上回ることができます。 疎な共有構造に基づく多言語事前トレーニングプロセス 国際的な文脈では、さまざまな言語での字幕、レビュー、翻訳のニーズを満たすために、各言語の音声認識システムを構築する必要があります。多言語音声認識の目標は、単一のモデルを使用して複数の言語での音声認識をサポートすることです。これにより、導入と保守のコストが効果的に削減され、一部の低リソースのシナリオでの認識結果が向上するため、非常に意義深いものとなります。 |
サイバー犯罪は人工知能の時代に入り、ランサムウェアやAPTなどの高度な脅威は「サイバー犯罪技術革命」...
01データセットの準備使用されるデータセットは、30 次元の特徴と 569 個のサンプルを含む、sk...
生成 AI の時代が到来し、iPhone の時代が到来しました。 8月8日、NVIDIA CEOのジ...
C# 再帰アルゴリズムを理解するということは、単に使いやすいと感じるということではありません。C# ...
ビッグデータと人工知能はどれほどの力を持っているのでしょうか。ほとんどの人はまだそれを直感的に理解し...
今日のデジタル化が進む世界では、人工知能は私たちの日常生活に欠かせないものとなっています。特に、プロ...
サイバー防御能力は、より高度なサイバー攻撃能力の発展に追いつくのに苦労している。人工知能、特に最先端...
1. ヘルスケアAI によって混乱が生じる最も重要な業界の一つはヘルスケアです。人工知能と機械学習の...
マイクロソフトのレドモンド研究所の副社長であるデュメイス氏は、ディープラーニング技術が2017年にオ...