Dr. ByteのAIは大活躍、ワンクリックでボーカルと伴奏を完璧に分離

Dr. ByteのAIは大活躍、ワンクリックでボーカルと伴奏を完璧に分離

[[424966]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

曲や歌詞を書き、作風を変え、楽曲を作り続けるAIが再びアレンジャーに!

「Stay」のクリップをアップロードしてボタンを 1 つ押してください:

伴奏とボーカルは簡単に分離できます。

https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247594465&idx=3&sn=83a18be3019dbecd6040031618d112dc&chksm=e8d1c693dfa64f85e7db0f5157d533361da6c8b71a9ceacdfc29a28399bd6d0bade7a046014f&token=497180065&lang=zh_CN#rd

ボーカルは開放感たっぷりに歌っているような透明感があり、BGMはそのままリミックスにも使えます!

[[424967]]

この驚くべき効果は、Reddit でも白熱した議論を巻き起こしました。

この研究の主担当は、ByteDanceの孔秋強氏です。彼は昨年、世界最大のクラシックピアノデータセットであるGiantMIDI-Pianoのリリースも主導しました。

それで、今日彼が連れてきたAIミュージシャンはどんな人だったのでしょうか?

見てみましょう。

深層残差ネットワークに基づく音源分離

これは位相推定を含む音楽ソース分離 (MSS) システムです。

まず、振幅と位相を切り離して、複素理想比マスク (cIRM) を推定します。

次に、より柔軟なマグニチュード推定を実現するために、境界付きマスク推定と直接マグニチュード予測を組み合わせます。

最後に、MSS システムに143層の深層残差ネットワーク (Deep Residual UNets) が導入され、残差エンコード ブロック (REB) と残差デコード ブロック (RDB) を使用してその深度が増加します。

残差ネットワークの表現力を向上させるために、残差符号化ブロックと残差畳み込みブロックの間に中間畳み込みブロック (ICB) も導入されています。

各残差符号化ブロックは 4 つの残差畳み込みブロック (RCB) で構成され、各残差畳み込みブロックはカーネル サイズが 3×3 の 2 つの畳み込み層で構成されます。

各残差デコード ブロックは、8 つの畳み込み層と 1 つの逆畳み込み層で構成されます。

実験結果

次に、このシステムをMUSDB18データセットで実験します。

MUSDB18 のトレーニング/検証セットには、独立したボーカル、伴奏、ベース、ドラム、その他の楽器を含む、それぞれ 100/50 の完全なステレオ トラックが含まれています。

トレーニング中、上記のシステムは並列混合オーディオ データ拡張に使用され、同じソースからの 2 つの 3 秒クリップがランダムに混合され、新しい 3 秒クリップとしてトレーニングされます。

信号歪み率 (SDR) を基準として使用すると、ResUNetDecouple システムは、ボーカル、ベース、その他、伴奏の分離において従来の方法よりも大幅に優れていることがわかります。

アブレーション実験では、143 層の残差ネットワークのパフォーマンスによって、境界マスク推定と直接振幅予測を組み合わせることで、音源分離システムのパフォーマンスを実際に向上できることも確認されました。

著者について

この研究論文の著者は、華南理工大学で学士号と修士号を取得し、英国サリー大学で電子情報工学の博士号を取得した孔秋強氏です。

彼は2019年にByteDanceの音声、オーディオ、音楽インテリジェンス研究グループに加わり、主にオーディオ信号処理やサウンドイベント検出などの分野の研究を担当しています。

[[424968]]

紙:
https://arxiv.org/abs/2109.05418

試してみてください:
https://huggingface.co/spaces/akhaliq/Music_Source_Separation

オープンソースアドレス:
https://github.com/bytedance/music_source_separation

参考リンク:
https://www.reddit.com/r/MachineLearning/comments/pqpl7m/r_decoupling_magnitude_and_phase_estimation_with/

<<:  認知と論理的思考の観点から自然言語理解を議論する

>>:  韓信は本当に数学の達人なのでしょうか?古代中国の数学にヒントを得たコンピュータ暗号化アルゴリズム

ブログ    
ブログ    

推薦する

機械学習モデルを .NET 環境にデプロイするにはどうすればよいでしょうか?

データ中心のエンジニアにとって、Python と R はデータセンターで最も人気のあるプログラミング...

最初のソフトウェア特許取得者は93歳で亡くなった。彼はソフトウェアの知的財産権保護を獲得した。

世界初のソフトウェア特許を保有していた人物が亡くなった。彼の名前はマーティン・アルビン・ゲッツで、「...

中国語と英語で最大のAIモデルの世界記録が樹立され、大規模モデル競争の新たなステージが到来

[[429193]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線ス...

1 つの記事で UAV 通信リンク システムを理解する

UAVとは無人航空機の略称で、無線遠隔操縦装置と独自のプログラム制御装置によって操縦される無人航空機...

DeepMindは、あらゆる武器を持つロボットを簡単に倒すことができる視覚ベースの強化学習モデルを提案している。

人間は模倣が得意です。私たちや他の動物は、行動を観察し、それが環境の状態に与える影響を理解し、同じよ...

...

Google Brain の公開: アルゴリズムのエラー修正と AI バイアスの解決に重点を置く

テンセントテクノロジーニュース、1月29日、海外メディアの報道によると、グーグルCEOサンダー・ピチ...

AIコアとは何ですか?これら2つの機能はオンラインです

DeepMindとカリフォルニア州サンフランシスコの人工知能研究所は、マルチプレイヤーリアルタイム戦...

分析とAIがIoTの成長を牽引

「未来の工場には、男性と犬の2人の従業員しかいないでしょう。男性は犬に餌を与え、犬は男性を監視して機...

...

赤ちゃんのように学習するディープマインド社の新モデルは、28時間で物理世界のルールを学習します

Deepmind は、直感的な物理学を学習できるモデルを構築し、モデルがなぜこの能力を実現するのか...

ドイツ企業の47%は、人工知能の最大の利点は生産効率の向上であると考えている。

ドイツ連邦政府は2018年に「ドイツ人工知能開発戦略」を発表し、人工知能分野におけるドイツの研究開発...

AIの使用後、機械は人間の皮膚に匹敵する触覚を持つ丨科学サブジャーナル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

SQL Server 2008 の 9 つのデータ マイニング アルゴリズム

1. 決定木アルゴリズム決定木は判断木とも呼ばれ、バイナリ ツリーやマルチ ブランチ ツリーに似たツ...