MetaはオープンソースのAIツールAudioCraftをリリースしました。これにより、ユーザーはテキストプロンプトを通じて音楽やオーディオを作成できます。

MetaはオープンソースのAIツールAudioCraftをリリースしました。これにより、ユーザーはテキストプロンプトを通じて音楽やオーディオを作成できます。

  8月3日(東部時間8月2日)、Metaは、ユーザーがテキストプロンプトを通じて音楽やオーディオを作成できるようにする生成AIツールAudioCraftをオープンソース化しました。

写真3

Meta の公式紹介によると、AudioCraft には 3 つのコア コンポーネントが含まれています。

  • MusicGen: Meta が所有または特別にライセンスした音楽を使用してトレーニングし、テキストプロンプトに基づいて音楽を生成します。
  • AudioGen:トレーニング用のパブリック サウンド効果を使用してオーディオを生成したり、既存のオーディオを拡張したりします。また、環境音 (犬の鳴き声、車のクラクション、木製の床の足音など) も生成できます。
  • EnCodec (改良版):アーティファクトの少ない高品質の音楽を生成したり、オーディオ ファイルをロスレスで圧縮したりできる、ニューラル ネットワーク ベースのオーディオ圧縮デコーダーです。

MusicGen と AudioGen の動作を示すフローチャート

ツールがオープンソース化された後、研究者や実務者は独自のデータセットを使用してモデルをトレーニングできるようになります。同社によると、AudioCraftシリーズのモデルは、高品質のオーディオを安定して長期間生成でき、使いやすく、ミュージシャンやサウンドデザイナーに「インスピレーションを与え」、迅速なブレインストーミングを助け、「新しい方法で作業を繰り返す」ことができるという。

IT Homeの以前の報道によると、Metaは今年6月に、Googleが2017年に発表したTransformerモデルをベースにしたAI言語モデルMusicGenをオープンソース化した。モデル名が示すように、MusicGen は主に音楽生成に使用されます。テキストと既存のメロディーを完全な音楽に変換できます。

AudioCraftプロジェクトアドレス:ここをクリック

<<: 

>>:  スペイン・ラ・リーガ:AIと機械学習でファン体験の変革に取り組む

推薦する

ドローンのインターネット: IoT がさまざまな業界のユースケースをサポートする方法

ドローンは長い間、高価な軍事用途に関連付けられてきましたが、現在では商業分野でも使用されることが増え...

ビッグデータとAIの連携

人工知能と機械学習は、組織がビッグデータからより優れたビジネス洞察を得るのにどのように役立つのでしょ...

ザッカーバーグの最新VRプロトタイプが登場。仮想と現実を混同させるようなものだ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

汎用人工知能(AGI)の分野で達成すべき4つの大きなマイルストーン

GPT と GAN で多くの進歩があったにもかかわらず、AGI は解決が難しい問題のままです。本質的...

流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

全国的な「オンライン授業」が始まって1か月、湖北省以外の省では新型コロナウイルスの新規感染者もそれほ...

機械学習に関して新人エンジニアが犯しがちな6つの間違い

[[206602]]デフォルトの損失関数は当然使用される始めたばかりのときは、損失関数として平均二乗...

機械学習プロジェクトにおけるデータの前処理とデータ ラングリング

要点一般的な機械学習/ディープラーニング プロジェクトでは、データ準備が分析パイプライン全体の 60...

...

データセキュリティを保護しながらAIタスクを加速

MIT の研究者は、ディープ ニューラル ネットワーク アクセラレータの最適な設計を効率的に特定し、...

サイバーセキュリティにおける人工知能の長所と短所

今日では、かつてないほど多くのデータが生成されています。データ分析ツールの発達により、あらゆる分野の...

サイバーセキュリティの専門家が知っておくべきAI用語

人工知能の急速な発展により、私たちは第四次産業革命の真っ只中にいます。このデジタル時代において、サイ...

IoT、分析、AI – デジタル化の勝利のトリオ

デジタル化が進む世界では、すべてがスピードと個々の顧客ニーズの特定と対応を中心に展開されます。サービ...

音声インターフェース:私たちはインタラクションの次の時代の瀬戸際にいる

[[185877]]コンピュータ処理、音声認識、モバイル通信、クラウドコンピューティング、ニューラル...