Metaはギターロックとエレクトロニックミュージック向けの新しいオーディオ生成モデルMAGNeTをオープンソース化しました。これは自己回帰モデルよりも7倍高速です。

AIGC のテキストからオーディオ (または音楽) を生成するトラックにおいて、Meta は最近新たな研究成果を達成し、それをオープンソース化しました。

数日前、Meta FAIR チーム、Kyutai、およびヘブライ大学は、論文「単一の非自己回帰トランスフォーマーを使用したマスクされたオーディオ生成」の中で、複数のオーディオトークンストリームで直接実行できるマスクされた生成シーケンスをモデル化する手法である MAGNeT を紹介しました。以前の研究との最大の違いは、MAGNeT が単一ステージの非自己回帰トランスフォーマーを使用してオーディオを生成することです。

論文アドレス: https://arxiv.org/pdf/2401.04577.pdf
GitHub アドレス: https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

具体的には、トレーニング中に研究者はマスクスケジューラから取得されるマスクトークンの範囲を予測し、モデル推論フェーズでは、出力シーケンスがいくつかのデコード手順を通じて徐々に構築されます。生成されたオーディオの品質をさらに向上させるために、彼らは、外部の事前トレーニング済みモデルを活用して MAGNET からの予測を再スコアリングしてランク付けし、その後のデコード手順で使用するという新しい再スコアリング方法を提案しました。

さらに、研究者らは、自己回帰モデルと非自己回帰モデルを組み合わせた MAGNET のハイブリッドバージョンを調査し、最初の数秒を自己回帰方式で生成しながら、残りのシーケンスを並行してデコードしました。

生成結果から判断すると、MAGNET はテキストから音声への変換およびテキストから音楽への変換タスクで非常に優れた結果を達成しており、品質は SOTA 自己回帰ベースラインモデルに匹敵し、速度は 7 倍です。

生成された音楽効果を聞くことができます。

MAGNeT法の概要

下の図 1 は、条件付き意味表現に基づいて EnCodec から取得した複数の個別のオーディオトークンストリームで動作する、オーディオ生成用の非自己回帰マスク言語モデルである MAGNeT の概略図を示しています。モデリング戦略に関しては、研究者らは、マスキング戦略、制限されたコンテキスト、サンプリングメカニズム、モデルの再スコアリングなど、いくつかの側面でコアモデリングの変更を加えました。

まずマスキング戦略に注目し、研究者らは 20 ミリ秒から 200 ミリ秒までのさまざまなスパンの長さを評価し、60 ミリ秒のスパンの長さが全体的なパフォーマンスを最も良くすることを発見しました。彼らはスケジューラからマスキング率γ(i)をサンプリングし、それに応じてマスキングの平均スパンを計算しました。さらに、計算効率の観点から、研究者らは重複しないスパンも使用しました。

次は境界付けられたコンテキストです。研究者らは EnCodec を使用し、それに応じてコードブックのコンテキストを制限しました。具体的には、オーディオエンコーダーは、複数層の畳み込みネットワークと最終的な LSTM ブロックで構成されます。 EnCodec 受容野の分析結果によると、畳み込みネットワークの受容野は約 160 ミリ秒であるのに対し、LSTM ブロックの有効受容野は約 180 ミリ秒です。研究者らは、時間シフトされたインパルス関数を使用し、シーケンスの中間エンコードベクトルの振幅を測定することで、モデルの受容野を経験的に評価しました。

下の図3にその過程を示します。LSTMは理論上は無限のメモリを持ちますが、実際の観測では限界があります。

最後に、分類器ガイダンスなしのサンプリングとアニーリングを含むモーダル推論があります。サンプリングは、以下の式（３）に示すように、均一サンプリングを使用して、前のマスクスパンのセットからスパンを選択する。実際には、i 番目の反復でのモデルの信頼性をスコアリング関数として使用して、すべての可能なスパンをランク付けし、それに応じてマスクされる可能性が最も低いスパンを選択します。

トークン予測については、研究者は分類器のガイダンスなしでそれを完了することを選択しました。トレーニング中は、条件付きおよび無条件でモデルを最適化し、推論中は、条件付き確率と無条件確率の線形結合として取得された分布からサンプリングします。

実験と結果

実験段階では、研究者らはテキストから音楽への生成とテキストからオーディオへの生成のタスクで MAGNeT を評価しました。彼らは、Copet et al. (2023) とまったく同じ音楽生成トレーニングデータと、Kreuk et al. (2022a) とまったく同じオーディオ生成トレーニングデータを使用しました。

以下の表 4 は、MAGNeT と、MusicGen、MusicLM、AudioLDM2 などの他のベースラインメソッドをトレーニングするために使用されたトレーニングセットの詳細を示しています。

以下の表 1 は、MusicCaps 評価データセットを使用したテキストから音楽への生成タスクにおける MAGNeT と他のベースライン手法の比較結果を示しています。 MAGNeT は自己回帰モデリングアプローチを使用して MusicGen と同等のパフォーマンスを発揮しますが、生成速度 (レイテンシ) とデコードの両方ではるかに高速であることがわかります。

下の図 2a は、自己回帰ベースラインモデル (赤い曲線) と比較して、並列デコードにより、バッチサイズが小さい場合に非自己回帰モデル (青い破線) のパフォーマンスが特に優れていることを示しています。生成された 1 つのサンプルのレイテンシは 600 ミリ秒と低く、自己回帰ベースラインモデルの 1/10 です。 MAGNeT は、低遅延の前処理を必要とするインタラクティブアプリケーションに大きな可能性を秘めていると予測できます。さらに、バッチサイズが 64 に達するまで、非自己回帰モデルはベースラインモデルよりも高速です。

以下の表 2 は、スパンの長さと制限されたコンテキストに関するアブレーション実験を示しています。研究者らは、ドメイン内テストセットを使用した場合の、さまざまなスパンの長さと時間的に制約されたコンテキストの有無に対する MAGNeT の FAD (Fréchet Audio Distance) スコアを報告しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<: 70億のオープンソース数学モデルがGPT-4に勝利、中国チーム

>>: オープンソースの小規模モデルに基づく、GPT-4 を上回る 3 つのエージェント