この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 曲や歌詞を書き、作風を変え、楽曲を作り続けるAIが再びアレンジャーに! 「Stay」のクリップをアップロードしてボタンを 1 つ押してください: 伴奏とボーカルは簡単に分離できます。 https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247594465&idx=3&sn=83a18be3019dbecd6040031618d112dc&chksm=e8d1c693dfa64f85e7db0f5157d533361da6c8b71a9ceacdfc29a28399bd6d0bade7a046014f&token=497180065&lang=zh_CN#rd ボーカルは開放感たっぷりに歌っているような透明感があり、BGMはそのままリミックスにも使えます! この驚くべき効果は、Reddit でも白熱した議論を巻き起こしました。 この研究の主担当は、ByteDanceの孔秋強氏です。彼は昨年、世界最大のクラシックピアノデータセットであるGiantMIDI-Pianoのリリースも主導しました。 それで、今日彼が連れてきたAIミュージシャンはどんな人だったのでしょうか? 見てみましょう。 深層残差ネットワークに基づく音源分離これは位相推定を含む音楽ソース分離 (MSS) システムです。 まず、振幅と位相を切り離して、複素理想比マスク (cIRM) を推定します。 次に、より柔軟なマグニチュード推定を実現するために、境界付きマスク推定と直接マグニチュード予測を組み合わせます。 最後に、MSS システムに143層の深層残差ネットワーク (Deep Residual UNets) が導入され、残差エンコード ブロック (REB) と残差デコード ブロック (RDB) を使用してその深度が増加します。 残差ネットワークの表現力を向上させるために、残差符号化ブロックと残差畳み込みブロックの間に中間畳み込みブロック (ICB) も導入されています。 各残差符号化ブロックは 4 つの残差畳み込みブロック (RCB) で構成され、各残差畳み込みブロックはカーネル サイズが 3×3 の 2 つの畳み込み層で構成されます。 各残差デコード ブロックは、8 つの畳み込み層と 1 つの逆畳み込み層で構成されます。 実験結果次に、このシステムをMUSDB18データセットで実験します。 MUSDB18 のトレーニング/検証セットには、独立したボーカル、伴奏、ベース、ドラム、その他の楽器を含む、それぞれ 100/50 の完全なステレオ トラックが含まれています。 トレーニング中、上記のシステムは並列混合オーディオ データ拡張に使用され、同じソースからの 2 つの 3 秒クリップがランダムに混合され、新しい 3 秒クリップとしてトレーニングされます。 信号歪み率 (SDR) を基準として使用すると、ResUNetDecouple システムは、ボーカル、ベース、その他、伴奏の分離において従来の方法よりも大幅に優れていることがわかります。 アブレーション実験では、143 層の残差ネットワークのパフォーマンスによって、境界マスク推定と直接振幅予測を組み合わせることで、音源分離システムのパフォーマンスを実際に向上できることも確認されました。 著者についてこの研究論文の著者は、華南理工大学で学士号と修士号を取得し、英国サリー大学で電子情報工学の博士号を取得した孔秋強氏です。 彼は2019年にByteDanceの音声、オーディオ、音楽インテリジェンス研究グループに加わり、主にオーディオ信号処理やサウンドイベント検出などの分野の研究を担当しています。 紙: 試してみてください: オープンソースアドレス: 参考リンク: |
>>: 韓信は本当に数学の達人なのでしょうか?古代中国の数学にヒントを得たコンピュータ暗号化アルゴリズム
ビッグデータとは、さまざまな種類のデータから貴重な情報を迅速に取得する能力を指します。これを理解する...
顔認証と指紋認証は、携帯電話のロックを解除する主な 2 つの方法です。私たちは、日常の仕事でも公共の...
「この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より転載を許可さ...
2021 年には、より強力なコンピューティング能力、データ、モデルの助けを借りて、機械学習と自然言語...
[51CTO.com クイック翻訳] 新しいテクノロジーの導入により、私たちの職場は変化しています。...
市場でのスマートハードウェアの人気が徐々に高まり、また、伝染病の予防と制御によってスマートハードウェ...
[[197940]]要点:将来のシステム障害を監視し、事前にメンテナンスをスケジュールするための予測...
人工知能は今のところ目新しいものではありません。結局のところ、人工知能は私たちの生活のあらゆるところ...
企業は、業務に AI を実装するさまざまな方法を分析し、理解する必要があります。 人工知能(AI)は...
Google I/O カンファレンスは予定通り開催されます。北京時間5月12日午前1時、Googl...
COVID-19の流行が世界中の人々の生命と日常生活を脅かし続けている中、人々はこの病気の予防と治療...
ディープラーニング技術の成熟に伴い、AIは最先端技術から徐々に普及しつつあります。最先端のテクノロジ...