この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 音楽ソースの分離とは、テクノロジーを使用して曲をボーカル、ベース、ドラムなどの構成要素に分解することです。これは、周囲の雑音や部屋いっぱいの人々の雑談から 1 つの会話を区別できる人間の脳の働きに似ています。 オリジナルのスタジオのマルチトラック録音があれば、ミックスを調整して 1 つのトラックを分離するだけで、簡単に実行できます。しかし、すべての楽器と音声が単一のステレオ録音にミックスダウンされた通常の MP3 オーディオ ファイルから始める場合、最も洗練されたソフトウェア プログラムであっても、正確に 1 つの部分を選択するのは困難です。 Facebook AI の研究者たちは、まさにそれを驚くほど正確に実行できるシステムを開発した。 作成者は、パリにあるFacebookの人工知能研究所の科学者、アレクサンドル・デフォッセ氏です。 「Deep extractor of music resources」の略称である「Demucs」と呼ばれるデフォッセ氏のシステムは、音波の複雑なパターンを検出し、各楽器や声の波形パターンを高度に理解し、人工知能を使ってそれらを巧みに分離することで機能します。 デフォッセ氏は、デムックスのような技術はミュージシャンが複雑なギターのリフを学ぶのに役立つだけでなく、将来的にはAIアシスタントが騒がしい部屋で音声コマンドを聞き取りやすくなるかもしれないと語る。 デフォッセ氏は、写真内のさまざまな物体を正確に区別できるようになったのと同じくらい、音源の構成要素を識別できる AI システムを開発することが目標だと語る。 「オーディオ分野ではまだ同じレベルに達していない」と彼は語った。 音波を分解するより良い方法 音源分離は長い間科学者を魅了してきました。 1953年、イギリスの認知科学者コリン・チェリーは、混雑した騒々しい部屋で会話に集中する人間の能力を説明するために「カクテルパーティー効果」という用語を作り出した。 エンジニアたちは最初、ステレオ録音の左右のチャンネルを調整したり、イコライザー設定を微調整して特定の周波数を増幅またはカットしたりすることで、曲のボーカルやギターを分離しようとしました。 スペクトログラムベースの AI システムは、ピアノやバイオリンのメロディーなど、単一の周波数で鳴る、または共鳴する楽器の音を分離するのに比較的効果的です。 これらのメロディーは、スペクトログラム上では明瞭で連続した水平線として表示されます。しかし、ドラムやベースのヒットなど、残留ノイズを生み出す打楽器の音を分離するのは非常に難しい作業です。ドラムのビートは単一のリアルタイムの総合的なイベントのように感じられますが、実際にはさまざまな部分で構成されています。ドラムの場合、高周波数範囲をカバーする最初の衝撃と、それに続く低周波数範囲でのピッチフリーの減衰で構成されます。デフォッセ氏によると、平均的なスネアドラムは「周波数の点でばらつきがある」という。 音波を時間と周波数の組み合わせとしてのみ表すスペクトログラムでは、このようなニュアンスを捉えることはできません。その結果、ドラムビートやベーススラップの音を、1 つのすっきりとしたシームレスなサウンドではなく、いくつかの個別の垂直ラインに処理します。このため、スペクトログラムで分離されたドラムとベースのトラックは、曖昧に聞こえることが多いのです。 失われたものを再構築できるほど賢いシステム AI ベースの波形モデルは、曲を時間と周波数の厳格な構造に当てはめようとしないため、これらの問題を回避します。デフォッセ氏は、波形モデルは、視覚世界を高度に理解するためにコンピューターにデジタル画像のパターンを認識させることを目的とした人工知能研究の分野であるコンピュータービジョンと同様に機能すると説明した。 コンピューター ビジョンでは、ニューラル ネットワークを使用して、画像の角やエッジを見つけるのと同じように基本的なパターンを検出し、より高レベルまたはより複雑なパターンを推測します。 「波形モデルも非常に似た仕組みで機能します」とデフォッセ氏は言う。彼は、波形モデルが曲の主要な周波数(ボーカル、ベース、ドラム、ギター)に適応するのに数秒かかり、各要素ごとに個別の波形を生成する仕組みを説明しました。次に、より高スケールの構造を推定して、ニュアンスを高め、各波形を細かく彫刻し始めます。 デフォッセ氏は、このシステムは地震を検知して記録する地震計にも例えられると語った。地震が発生すると、地震計の土台は動きますが、そこから吊り下げられた重りは動かないため、重りに取り付けられたペンで地面の動きを記録する波形を描くことができます。 AI モデルは、同時に発生する複数の異なる地震を検出し、それぞれの地震の規模と強度に関する詳細を推測することができます。同様に、Defosse のシステムは、事前に決められたスペクトログラム構造に従って曲を分割するのではなく、曲そのものを分析して分離します。 デフォッセ氏は、システムの構築には一連の複雑な技術的課題を克服する必要があったと説明した。 彼はまず、音楽ソースの分離用に開発された初期の AI 波形モデルである Wave-U-Net (https://github.com/f90/Wave-U-Net) の基礎となるアーキテクチャを使用しました。しかし、スペクトログラム モデルが Wave-U-Net よりも優れていたため、彼にはやるべき作業がたくさんありました。彼は線形ユニットを追加することで、波形ネットワーク内のパターンを分析するアルゴリズムのパラメータを微調整しました。デフォッセ氏はまた、ネットワークが画像のような単一のデータポイントだけでなく、音楽やビデオのようなデータのシーケンス全体を処理できるようにする構造である、長期短期記憶も追加しました。 Defosse は Wave-U-Net の速度とメモリ使用量も改善しました。 これらの変更により、Demucs は、ある音が別の音を圧倒する問題の処理方法など、いくつかの重要な点で Wave-U-Net を上回るパフォーマンスを発揮することができました。 「飛行機が離陸すると、エンジンの騒音で人の声がかき消されてしまうことを想像してみてください」とデフォッセ氏は語った。 以前の波形モデルでは、元のオーディオ ソース ファイルの一部を削除するだけでこの問題に対処していましたが、失われた素材の大部分を再構築することはできませんでした。デフォスは、デムックス デコーダーの機能を強化し、「デムックスは、ミックスで失われたと思われるオーディオを再現できる」ようにしました。つまり、彼のモデルは、どのようなサウンドが存在するべきかを理解し、大きなシンバルの音で失われる可能性のある柔らかいピアノの音を再合成できるということです。 この再構築と分離の機能により、Demucs は他の波形モデルよりも優位になります。デフォッセ氏は、デムックスはすでに最高の波形技術に匹敵し、最先端の分光計技術を「はるかに上回っている」と述べた。 ブラインド リスニング テストでは、38 人の参加者が 50 個のテスト トラックから 8 秒間をランダムに選択し、3 つのモデル (Demucs、Leading Waveform、Spectrogram テクノロジー) に分類しました。リスナーは、品質とバックグラウンドノイズや歪みなどのアーティファクトがない点において、Demucs を最高と評価しました。 Demucs はすでに AI 愛好家の関心を集めており、技術に精通した読者は GitHub (https://github.com/facebookresearch/demucs) から Demucs コードをダウンロードできます。このコードは MusDB データセットを使用して音楽ソースを分離します。 Demucs が進化するにつれ、人々が自宅で音楽を作成するために使用するデジタルオーディオワークステーションに音響の信頼性がもたらされるだろうとデフォッセ氏は説明した。これらのワークステーションは、特定の時代やスタイルを想起させる合成楽器を提供しますが、多くの場合、元のハードウェアに大幅なデジタル変更を加える必要があります。 音楽ソース分離技術によって、1950 年代のロックソングで真空管アンプを通して演奏されるビンテージの中空ボディ エレキギターのサウンドを完璧に再現できるとしたらどうなるでしょうか。 Demucs は、音楽愛好家やミュージシャンをこの能力に一歩近づけます。 出典: https://tech.fb.com/one-track-minds-using-ai-for-music-source-separation/ |
<<: 見逃しているかもしれない 3 つの重要な AI トレンド
>>: 1つのモデルが12種類のAI詐欺を打ち破り、あらゆる種類のGANとディープフェイクを打ち破り、オープンソース化
AI がリーダーシップ能力を強化できるとしたらどうでしょうか? チームをより深く理解し、チームのニー...
IoT および AI ベースのデバイスは、私たちの中毒的な習慣をきめ細かなレベルで監視できるため、ユ...
普遍的なグラフモデルはありますか?分子構造に基づいて毒性を予測するだけでなく、ソーシャル ネットワー...
現在、AI は追加のトレーニングを必要とせずに、任意の言語でコーディングできます。 [[334827...
GAN を使用して作品を制作することは新しいことではないようです。 2019年、NVIDIAはGT...
9月21日、ByteDanceは「TikTokに関する特定の虚偽の噂についての声明」を発表した。バイ...
現在では、カメラ機能はスマートフォンの標準機能となり、スマートフォンの大きなセールスポイントとなって...
この記事では、データ サイエンス プロジェクトが失敗する最も一般的な理由をまとめ、落とし穴を回避する...
Syntiantが最近実施したユーザー調査によると、COVID-19パンデミックの影響により、アメリ...
11月28日、北京国家会議センターでFlink Forward Asia 2019が開催されました。...
今回の流行期間中、病院や最前線の防疫現場では、体温測定ロボット、消毒ロボット、検査ロボット、咽頭ぬぐ...