Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

Meta がテキストを音声に変換するオープンソースライブラリ AudioCraft をリリース

最近、Meta は Llama シリーズのモデルやすべてを分割する SAM モデルなど、複数の AI モデルをリリースし、オープンソース化しました。これらのモデルはオープンソース コミュニティにおける研究の進歩を推進してきました。現在、Meta はさまざまなオーディオを生成できる PyTorch ライブラリである AudioCraft をオープンソース化し、その技術的な詳細を公開しました。


  • コードアドレス: https://github.com/facebookresearch/audiocraft
  • プロジェクトのホームページ:

https://audiocraft.metademolab.com/?utm_source=twitter&utm_medium=organic_social&utm_campaign=audiocraft&utm_cnotallow=card

AudioCraft は、ユーザーが入力したテキストに基づいて、高品質で忠実度の高いオーディオを生成します。まずは生成されたエフェクトを聞いてみましょう。

AudioCraft は、「風が吹くと口笛が吹く」というテキストプロンプトを入力するなど、実際の音を生成できます。

音声1 、同期、5秒

また、メロディックな音楽を生成することもできます。たとえば、テキストプロンプトを入力すると、「キャッチーなメロディ、トロピカルなパーカッション、アップビートなリズムのポップダンストラック。ビーチにぴったり」

ボイス2 、マシンハート、30秒

特定の楽器を選択して、特定の音楽を生成することもできます。たとえば、「アースカラー、環境に配慮、ウクレレを取り入れた、ハーモニー、さわやか、気楽、オーガニックな楽器、穏やかなグルーヴ」というテキストプロンプトを入力します。

ボイス3 、マシンハート、30秒

オーディオクラフトについて

テキストや画像と比較すると、高忠実度のオーディオを生成するには複雑な信号とパターンをモデル化する必要があるため、オーディオの生成はより困難です。

さまざまなオーディオを高品質で生成するために、AudioCraft には MusicGen、AudioGen、EnCodec の 3 つのモデルが含まれています。このうち、MusicGen は Meta の著作権保護された音楽データを使用してトレーニングされ、ユーザーが入力したテキストに基づいて音楽を生成します。AudioGen は公開されている効果音データを使用してトレーニングされ、ユーザーが入力したテキストに基づいてオーディオを生成します。EnCodec はオーディオを圧縮し、元の信号を忠実度の高い方法で再構築して、生成された音楽が高品質であることを保証します。

生のオーディオ信号からオーディオを生成するには、非常に長いシーケンスをモデリングする必要があります。たとえば、44.1 kHz でサンプリングされた数分間の音楽は、数百万のタイムステップで構成されます。対照的に、Llama や Llama 2 などのテキストベースの生成モデルは、テキストをサブワードに処理し、サンプルごとに数千の時間ステップしか必要としません。

MusicGen は、音楽生成向けにカスタマイズされたオーディオ生成モデルです。音楽トラックはアンビエントサウンドよりも複雑であり、新しい音楽作品を作成する際には、長期的な構造にわたって一貫したサンプルを生成することが非常に重要です。 MusicGen は、約 400,000 件の録音とテキストの説明、メタデータに基づいてトレーニングされ、合計 20,000 時間分の音楽が収録されました。

AudioGen モデルは、犬の鳴き声、車のクラクション、足音などの環境音や効果音を生成できます。

AudioGen モデル アーキテクチャ。

EnCodec ニューラル オーディオ コーデックは、元の信号から個別のオーディオ トークンを学習します。これは、音楽サンプルに新しい固定された「語彙」を提供することに相当します。その後、研究チームは、これらの個別のオーディオ トークンに対して自己回帰言語モデルをトレーニングし、EnCodec のデコーダーを使用してトークンをオーディオ空間に戻すときに、新しいトークン、サウンド、および音楽を生成しました。

一般的に、AudioCraft はオーディオ生成モデルの全体的な設計を簡素化します。 MusicGen と AudioGen はどちらも単一の自己回帰言語モデルで構成され、圧縮された個別の音楽表現 (トークン) のストリームに対して動作します。 AudioCraft を使用すると、ユーザーは、事前トレーニング済みのテキスト エンコーダーを使用したテキストからオーディオへの生成など、さまざまな種類の条件付きモデルを使用して生成を制御できます。

<<: 

>>:  NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。

ブログ    

推薦する

GPT-4 の推論はより人間的です!中国科学院は「思考コミュニケーション」を提唱、類推思考はCoT、プラグアンドプレイよりも優れている

今日では、GPT-4 や PaLM などの巨大なニューラル ネットワーク モデルが登場し、驚くべき少...

反論: AIに急いで取り組むべきではない5つの理由

[51CTO.com クイック翻訳] 今日、人工知能はもはやSFの中の漠然とした概念ではなく、私たち...

韓国メディア:中国の技術発展は速すぎて米国を脅かしており、米国から制裁を受けるだろう

[[216638]]韓国メディアは、中国の囲碁棋士である柯潔氏が2018年春にテンセントが開発した人...

ビジネスアナリストにとってAIが意味するもの

[[275322]]今日では、人工知能はもはや流行語ではなく、多くの環境ビジネスアナリストやその他の...

年次レビュー:2020 年の 5 つの注目すべきテクノロジー トレンド、時代のトレンドに遅れずについていく

世界の歴史は発明の歴史でもあります。火薬の発明は世界地図を変え、電灯の発明は夜を変え、車の発明は空間...

...

...

人工知能は 5 大製造業にどのような変化をもたらすのでしょうか? AIプロジェクトを成功に導く5つのステップ

今日、デジタル変革はビジネス存続の基盤となっています。自動化された工場から人工知能 (AI) 品質管...

フォーブス:人工知能が解決できる15の社会的課題

人工知能の応用範囲は非常に広いです。製造業から保険業まで、さまざまな業界がビジネスの改善に人工知能の...

素晴らしいクラスタリングアルゴリズムがサイエンス誌に掲載されました

著者 (Alex Rodriguez、Alessandro Laio) は、さまざまな形状のクラスタ...

...

マイクロソフトCEOナデラ氏との対談:AIは雇用を奪うよりも多くを創出する

マイクロソフトのCEOに就任して以来、サティア・ナデラ氏はマイクロソフトを改革した英雄とみなされてき...

GPT時代の学習アルゴリズム、線形モデルを実装するPytorchフレームワーク

今日は線形回帰モデルの実装を続けます。ただし、今回はすべての関数を自分で実装するのではなく、Pyto...

...

データサイエンティストもAIに置き換えられる可能性がある

AI が人間の活動に取って代わるかどうかについての議論が激化するにつれ、データ サイエンティストは ...