最近、Meta は Llama シリーズのモデルやすべてを分割する SAM モデルなど、複数の AI モデルをリリースし、オープンソース化しました。これらのモデルはオープンソース コミュニティにおける研究の進歩を推進してきました。現在、Meta はさまざまなオーディオを生成できる PyTorch ライブラリである AudioCraft をオープンソース化し、その技術的な詳細を公開しました。
https://audiocraft.metademolab.com/?utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_cnotallow=card AudioCraft は、ユーザーが入力したテキストに基づいて、高品質で忠実度の高いオーディオを生成します。まずは生成されたエフェクトを聞いてみましょう。 AudioCraft は、「風が吹くと口笛が吹く」というテキストプロンプトを入力するなど、実際の音を生成できます。 音声1 、同期、5秒 また、メロディックな音楽を生成することもできます。たとえば、テキストプロンプトを入力すると、「キャッチーなメロディ、トロピカルなパーカッション、アップビートなリズムのポップダンストラック。ビーチにぴったり」 ボイス2 、マシンハート、30秒 特定の楽器を選択して、特定の音楽を生成することもできます。たとえば、「アースカラー、環境に配慮、ウクレレを取り入れた、ハーモニー、さわやか、気楽、オーガニックな楽器、穏やかなグルーヴ」というテキストプロンプトを入力します。 ボイス3 、マシンハート、30秒 オーディオクラフトについてテキストや画像と比較すると、高忠実度のオーディオを生成するには複雑な信号とパターンをモデル化する必要があるため、オーディオの生成はより困難です。 さまざまなオーディオを高品質で生成するために、AudioCraft には MusicGen、AudioGen、EnCodec の 3 つのモデルが含まれています。このうち、MusicGen は Meta の著作権保護された音楽データを使用してトレーニングされ、ユーザーが入力したテキストに基づいて音楽を生成します。AudioGen は公開されている効果音データを使用してトレーニングされ、ユーザーが入力したテキストに基づいてオーディオを生成します。EnCodec はオーディオを圧縮し、元の信号を忠実度の高い方法で再構築して、生成された音楽が高品質であることを保証します。 生のオーディオ信号からオーディオを生成するには、非常に長いシーケンスをモデリングする必要があります。たとえば、44.1 kHz でサンプリングされた数分間の音楽は、数百万のタイムステップで構成されます。対照的に、Llama や Llama 2 などのテキストベースの生成モデルは、テキストをサブワードに処理し、サンプルごとに数千の時間ステップしか必要としません。 MusicGen は、音楽生成向けにカスタマイズされたオーディオ生成モデルです。音楽トラックはアンビエントサウンドよりも複雑であり、新しい音楽作品を作成する際には、長期的な構造にわたって一貫したサンプルを生成することが非常に重要です。 MusicGen は、約 400,000 件の録音とテキストの説明、メタデータに基づいてトレーニングされ、合計 20,000 時間分の音楽が収録されました。 AudioGen モデルは、犬の鳴き声、車のクラクション、足音などの環境音や効果音を生成できます。 AudioGen モデル アーキテクチャ。 EnCodec ニューラル オーディオ コーデックは、元の信号から個別のオーディオ トークンを学習します。これは、音楽サンプルに新しい固定された「語彙」を提供することに相当します。その後、研究チームは、これらの個別のオーディオ トークンに対して自己回帰言語モデルをトレーニングし、EnCodec のデコーダーを使用してトークンをオーディオ空間に戻すときに、新しいトークン、サウンド、および音楽を生成しました。 一般的に、AudioCraft はオーディオ生成モデルの全体的な設計を簡素化します。 MusicGen と AudioGen はどちらも単一の自己回帰言語モデルで構成され、圧縮された個別の音楽表現 (トークン) のストリームに対して動作します。 AudioCraft を使用すると、ユーザーは、事前トレーニング済みのテキスト エンコーダーを使用したテキストからオーディオへの生成など、さまざまな種類の条件付きモデルを使用して生成を制御できます。 |
>>: NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。
上司から、利用可能なさまざまな測定値に基づいて製品に欠陥があるかどうかを予測するモデルを作成するよう...
人工知能と聞いて真っ先に思い浮かぶのは、手を自由にすることですが、絶対的に正しいものはありません。手...
室温超伝導を再現する実験は、完全に爆発的な成長期に突入しました!今朝午前1時過ぎ、東南大学の物理学教...
K-means クラスタリング アルゴリズム 中国語名は「K-means クラスタリング アルゴリズ...
ゼブラテクノロジーズグレーターチャイナのテクニカルディレクター、チェン・ニン氏近年の人工知能(AI)...
[Lieyun.com (WeChat ID: )] 9月14日レポート(小白訳)ソフトウェアは世界...
ビッグデータダイジェスト制作著者: カレブ氷は地球の盾とも言え、余分な熱を宇宙に反射して地球の地層と...
インターネットの発展により、人々は膨大な量の情報と製品の選択肢に直面しており、パーソナライズされた推...
欧州連合の人工知能法(AI法)は、政策立案者が画期的な規制のルールをうまく策定したことで、法律化に向...
マイクロソフト(アジア)インターネットエンジニアリングアカデミーは、新世代の音声インタラクション技術...
人工知能は歴史的に、やや相反する2つの陣営の間を揺れ動いてきました。一方では、ノーム・チョムスキー、...
最近、アリババAIは常識QA分野の権威あるデータセットであるCommonsenseQAで新たな世界記...