Metaはギターロックとエレクトロニックミュージック向けの新しいオーディオ生成モデルMAGNeTをオープンソース化しました。これは自己回帰モデルよりも7倍高速です。

Metaはギターロックとエレクトロニックミュージック向けの新しいオーディオ生成モデルMAGNeTをオープンソース化しました。これは自己回帰モデルよりも7倍高速です。

AIGC のテキストからオーディオ (または音楽) を生成するトラックにおいて、Meta は最近新たな研究成果を達成し、それをオープンソース化しました。

数日前、Meta FAIR チーム、Kyutai、およびヘブライ大学は、論文「単一の非自己回帰トランスフォーマーを使用したマスクされたオーディオ生成」の中で、複数のオーディオ トークン ストリームで直接実行できるマスクされた生成シーケンスをモデル化する手法である MAGNeT を紹介しました。以前の研究との最大の違いは、MAGNeT が単一ステージの非自己回帰トランスフォーマーを使用してオーディオを生成することです。

  • 論文アドレス: https://arxiv.org/pdf/2401.04577.pdf
  • GitHub アドレス: https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

具体的には、トレーニング中に研究者はマスク スケジューラから取得されるマスク トークンの範囲を予測し、モデル推論フェーズでは、出力シーケンスがいくつかのデコード手順を通じて徐々に構築されます。生成されたオーディオの品質をさらに向上させるために、彼らは、外部の事前トレーニング済みモデルを活用して MAGNET からの予測を再スコアリングしてランク付けし、その後のデコード手順で使用するという新しい再スコアリング方法を提案しました。

さらに、研究者らは、自己回帰モデルと非自己回帰モデルを組み合わせた MAGNET のハイブリッド バージョンを調査し、最初の数秒を自己回帰方式で生成しながら、残りのシーケンスを並行してデコードしました。

生成結果から判断すると、MAGNET はテキストから音声への変換およびテキストから音楽への変換タスクで非常に優れた結果を達成しており、品質は SOTA 自己回帰ベースライン モデルに匹敵し、速度は 7 倍です。

生成された音楽効果を聞くことができます。

MAGNeT法の概要

下の図 1 は、条件付き意味表現に基づいて EnCodec から取得した複数の個別のオーディオ トークン ストリームで動作する、オーディオ生成用の非自己回帰マスク言語モデルである MAGNeT の概略図を示しています。モデリング戦略に関しては、研究者らは、マスキング戦略、制限されたコンテキスト、サンプリングメカニズム、モデルの再スコアリングなど、いくつかの側面でコアモデリングの変更を加えました。

まずマスキング戦略に注目し、研究者らは 20 ミリ秒から 200 ミリ秒までのさまざまなスパンの長さを評価し、60 ミリ秒のスパンの長さが全体的なパフォーマンスを最も良くすることを発見しました。彼らはスケジューラからマスキング率γ(i)をサンプリングし、それに応じてマスキングの平均スパンを計算しました。さらに、計算効率の観点から、研究者らは重複しないスパンも使用しました。

次は境界付けられたコンテキストです。研究者らは EnCodec を使用し、それに応じてコードブックのコンテキストを制限しました。具体的には、オーディオ エンコーダーは、複数層の畳み込みネットワークと最終的な LSTM ブロックで構成されます。 EnCodec 受容野の分析結果によると、畳み込みネットワークの受容野は約 160 ミリ秒であるのに対し、LSTM ブロックの有効受容野は約 180 ミリ秒です。研究者らは、時間シフトされたインパルス関数を使用し、シーケンスの中間エンコードベクトルの振幅を測定することで、モデルの受容野を経験的に評価しました。

下の図3にその過程を示します。LSTMは理論上は無限のメモリを持ちますが、実際の観測では限界があります。

最後に、分類器ガイダンスなしのサンプリングとアニーリングを含むモーダル推論があります。サンプリングは、以下の式(3)に示すように、均一サンプリングを使用して、前のマスクスパンのセットからスパンを選択する。実際には、i 番目の反復でのモデルの信頼性をスコアリング関数として使用して、すべての可能なスパンをランク付けし、それに応じてマスクされる可能性が最も低いスパンを選択します。

トークン予測については、研究者は分類器のガイダンスなしでそれを完了することを選択しました。トレーニング中は、条件付きおよび無条件でモデルを最適化し、推論中は、条件付き確率と無条件確率の線形結合として取得された分布からサンプリングします。

実験と結果

実験段階では、研究者らはテキストから音楽への生成とテキストからオーディオへの生成のタスクで MAGNeT を評価しました。彼らは、Copet et al. (2023) とまったく同じ音楽生成トレーニングデータと、Kreuk et al. (2022a) とまったく同じオーディオ生成トレーニングデータを使用しました。

以下の表 4 は、MAGNeT と、MusicGen、MusicLM、AudioLDM2 などの他のベースライン メソッドをトレーニングするために使用されたトレーニング セットの詳細を示しています。

以下の表 1 は、MusicCaps 評価データセットを使用したテキストから音楽への生成タスクにおける MAGNeT と他のベースライン手法の比較結果を示しています。 MAGNeT は自己回帰モデリング アプローチを使用して MusicGen と同等のパフォーマンスを発揮しますが、生成速度 (レイテンシ) とデコードの両方ではるかに高速であることがわかります。

下の図 2a は、自己回帰ベースライン モデル (赤い曲線) と比較して、並列デコードにより、バッチ サイズが小さい場合に非自己回帰モデル (青い破線) のパフォーマンスが特に優れていることを示しています。生成された 1 つのサンプルのレイテンシは 600 ミリ秒と低く、自己回帰ベースライン モデルの 1/10 です。 MAGNeT は、低遅延の前処理を必要とするインタラクティブ アプリケーションに大きな可能性を秘めていると予測できます。さらに、バッチ サイズが 64 に達するまで、非自己回帰モデルはベースライン モデルよりも高速です。

以下の表 2 は、スパンの長さと制限されたコンテキストに関するアブレーション実験を示しています。研究者らは、ドメイン内テスト セットを使用した場合の、さまざまなスパンの長さと時間的に制約されたコンテキストの有無に対する MAGNeT の FAD (Fréchet Audio Distance) スコアを報告しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<:  70億のオープンソース数学モデルがGPT-4に勝利、中国チーム

>>:  オープンソースの小規模モデルに基づく、GPT-4 を上回る 3 つのエージェント

ブログ    
ブログ    

推薦する

[NCTSサミットレビュー] Rong360 Ai Hui: AIモデルテストの秘密を探る

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...

...

自動運転車を壁に衝突させ、他人の顔を使って代金を支払う:最新のAIの抜け穴が私たちの目を覚まさせる

かつて専門家が懸念していたAIアルゴリズムの抜け穴は起こり得るし、予想もしなかった抜け穴さえも起こり...

パフォーマンスを犠牲にすることなく、メモリ使用量を90%削減。FacebookがQuant-Noiseモデル圧縮方式を提案

数百メガバイトのサイズのニューラル ネットワークの場合、モデル圧縮によりメモリ使用量、通信帯域幅、計...

陳作寧院士:人工知能モデルとアルゴリズムの7つの発展傾向

新しいものに直面したとき、あなたはそれに適応しますか、学びますか、拒否しますか、それとも無視しますか...

...

Googleはプライバシーポリシーを更新し、インターネット上の公開情報をAIモデルのトレーニングに利用することを許可した。

検索エンジン大手のGoogleは7月4日、プライバシーポリシーを更新し、インターネット上の公開情報を...

...

推論速度は22.3倍に向上。北京航空航天大学とバイトダンスはバイナリキーワード認識モデルを提案した。

近年、FSMN に代表される音声キーワードスポッティング (KWS) モデルは、さまざまなエッジ シ...

...

...

GPT-4はMITの学位を取得できない、MITの研究チームは「不正行為」と反応したが、ネットユーザーはそれを信じない

数日前、「大規模言語モデルを使用した MIT 数学および EECS カリキュラムの調査」と題された論...

論文執筆に必ず使うべき 12 のニューラル ネットワーク可視化ツール

この記事では、ニューラルネットワークの描画をより美しくする 12 個のツールを紹介します。 1. 描...

...