AIGC のテキストからオーディオ (または音楽) を生成するトラックにおいて、Meta は最近新たな研究成果を達成し、それをオープンソース化しました。 数日前、Meta FAIR チーム、Kyutai、およびヘブライ大学は、論文「単一の非自己回帰トランスフォーマーを使用したマスクされたオーディオ生成」の中で、複数のオーディオ トークン ストリームで直接実行できるマスクされた生成シーケンスをモデル化する手法である MAGNeT を紹介しました。以前の研究との最大の違いは、MAGNeT が単一ステージの非自己回帰トランスフォーマーを使用してオーディオを生成することです。
具体的には、トレーニング中に研究者はマスク スケジューラから取得されるマスク トークンの範囲を予測し、モデル推論フェーズでは、出力シーケンスがいくつかのデコード手順を通じて徐々に構築されます。生成されたオーディオの品質をさらに向上させるために、彼らは、外部の事前トレーニング済みモデルを活用して MAGNET からの予測を再スコアリングしてランク付けし、その後のデコード手順で使用するという新しい再スコアリング方法を提案しました。 さらに、研究者らは、自己回帰モデルと非自己回帰モデルを組み合わせた MAGNET のハイブリッド バージョンを調査し、最初の数秒を自己回帰方式で生成しながら、残りのシーケンスを並行してデコードしました。 生成結果から判断すると、MAGNET はテキストから音声への変換およびテキストから音楽への変換タスクで非常に優れた結果を達成しており、品質は SOTA 自己回帰ベースライン モデルに匹敵し、速度は 7 倍です。 生成された音楽効果を聞くことができます。 MAGNeT法の概要下の図 1 は、条件付き意味表現に基づいて EnCodec から取得した複数の個別のオーディオ トークン ストリームで動作する、オーディオ生成用の非自己回帰マスク言語モデルである MAGNeT の概略図を示しています。モデリング戦略に関しては、研究者らは、マスキング戦略、制限されたコンテキスト、サンプリングメカニズム、モデルの再スコアリングなど、いくつかの側面でコアモデリングの変更を加えました。 まずマスキング戦略に注目し、研究者らは 20 ミリ秒から 200 ミリ秒までのさまざまなスパンの長さを評価し、60 ミリ秒のスパンの長さが全体的なパフォーマンスを最も良くすることを発見しました。彼らはスケジューラからマスキング率γ(i)をサンプリングし、それに応じてマスキングの平均スパンを計算しました。さらに、計算効率の観点から、研究者らは重複しないスパンも使用しました。 次は境界付けられたコンテキストです。研究者らは EnCodec を使用し、それに応じてコードブックのコンテキストを制限しました。具体的には、オーディオ エンコーダーは、複数層の畳み込みネットワークと最終的な LSTM ブロックで構成されます。 EnCodec 受容野の分析結果によると、畳み込みネットワークの受容野は約 160 ミリ秒であるのに対し、LSTM ブロックの有効受容野は約 180 ミリ秒です。研究者らは、時間シフトされたインパルス関数を使用し、シーケンスの中間エンコードベクトルの振幅を測定することで、モデルの受容野を経験的に評価しました。 下の図3にその過程を示します。LSTMは理論上は無限のメモリを持ちますが、実際の観測では限界があります。 最後に、分類器ガイダンスなしのサンプリングとアニーリングを含むモーダル推論があります。サンプリングは、以下の式(3)に示すように、均一サンプリングを使用して、前のマスクスパンのセットからスパンを選択する。実際には、i 番目の反復でのモデルの信頼性をスコアリング関数として使用して、すべての可能なスパンをランク付けし、それに応じてマスクされる可能性が最も低いスパンを選択します。 トークン予測については、研究者は分類器のガイダンスなしでそれを完了することを選択しました。トレーニング中は、条件付きおよび無条件でモデルを最適化し、推論中は、条件付き確率と無条件確率の線形結合として取得された分布からサンプリングします。 実験と結果実験段階では、研究者らはテキストから音楽への生成とテキストからオーディオへの生成のタスクで MAGNeT を評価しました。彼らは、Copet et al. (2023) とまったく同じ音楽生成トレーニングデータと、Kreuk et al. (2022a) とまったく同じオーディオ生成トレーニングデータを使用しました。 以下の表 4 は、MAGNeT と、MusicGen、MusicLM、AudioLDM2 などの他のベースライン メソッドをトレーニングするために使用されたトレーニング セットの詳細を示しています。 以下の表 1 は、MusicCaps 評価データセットを使用したテキストから音楽への生成タスクにおける MAGNeT と他のベースライン手法の比較結果を示しています。 MAGNeT は自己回帰モデリング アプローチを使用して MusicGen と同等のパフォーマンスを発揮しますが、生成速度 (レイテンシ) とデコードの両方ではるかに高速であることがわかります。 下の図 2a は、自己回帰ベースライン モデル (赤い曲線) と比較して、並列デコードにより、バッチ サイズが小さい場合に非自己回帰モデル (青い破線) のパフォーマンスが特に優れていることを示しています。生成された 1 つのサンプルのレイテンシは 600 ミリ秒と低く、自己回帰ベースライン モデルの 1/10 です。 MAGNeT は、低遅延の前処理を必要とするインタラクティブ アプリケーションに大きな可能性を秘めていると予測できます。さらに、バッチ サイズが 64 に達するまで、非自己回帰モデルはベースライン モデルよりも高速です。 以下の表 2 は、スパンの長さと制限されたコンテキストに関するアブレーション実験を示しています。研究者らは、ドメイン内テスト セットを使用した場合の、さまざまなスパンの長さと時間的に制約されたコンテキストの有無に対する MAGNeT の FAD (Fréchet Audio Distance) スコアを報告しています。 より詳しい技術的な詳細と実験結果については、原著論文を参照してください。 |
<<: 70億のオープンソース数学モデルがGPT-4に勝利、中国チーム
>>: オープンソースの小規模モデルに基づく、GPT-4 を上回る 3 つのエージェント
[[260878]] 「当社は、個人データへのアクセスを必要としないマルチパーティデータコンピューテ...
[[324462]]アリ姉の紹介:近年、データコンピューティング能力と機械知能アルゴリズムの台頭によ...
[[206158]]ビジネス インテリジェンス (BI) という用語は、1865 年にリチャード ミ...
ChatGPTなどのツールのリリース後、生成型人工知能(GenAI)が人工知能技術における注目の的...
10月18日、マイクロソフトは健全で調和のとれたコミュニティ環境を作り、写真やテキスト内の偏見、憎悪...
大規模言語モデル (LLM) は最近、コード レベルでのさまざまなダウンストリーム タスクで優れたパ...
1. リレーショナルデータはSQLから分離される最新のエッジ コンピューティング、IoT、GenAI...
[[185648]]原著者 | ペル・ハラルド・ボルゲン編集:魏子民、頼暁娟、張立軍 「初心者にとっ...
世界の建設業界の現状人口ボーナスの消滅により、中国の建設業界は人件費への大きな圧力に直面しているほか...
[[417461]]人間の顔を使って面白いビデオを生成するにはどうすればいいでしょうか? [[417...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...