Facebook の MusicGen を使用してテキストを音楽に変換する方法

Facebook の MusicGen を使用してテキストを音楽に変換する方法

翻訳者 |ブガッティ

レビュー | Chonglou

MusicGen を使用すると、誰でもテキスト キューだけを使用してオリジナルの音楽を生成できますこのガイドでは、このクリエイティブなAIモデルを使用して音楽ワークフローを改善する方法について説明します

新しい曲を書くとき、創作上の壁にぶつかることはありますか?あるいは、新しいメロディーやハーモニーを考え出すのを手伝ってくれるAIアシスタントが欲しいです? FacebookMusicGenモデルにより、音楽の創造性と実験が迅速かつ簡単に実現します

見てみましょう:

  • MusicGenはテキストから音楽を生成するツールです
  • Replicate の API 経由でMusicGen を使用するための手順説明
  • AIModels.fyiを使用して同様の音楽作曲モデルを見つけます

MusicGen が、ミュージシャン、作曲家、そしてユニークで完成した音楽を作りたいと考えているすべての人にとって、新しい創造の可能性をどのように解き放つをご覧ください

テキストプロンプトでオリジナルの音楽を生成する

MusicGen を使用すると、雰囲気、ジャンル、楽器などをテキストで記述するだけで、音楽のアイデアを思いつくことができますテキストから音楽を生成するため創造的な方法いくつか紹介します

  • 創造的なブロックを克服する-行き詰まったらテキストの説明に基づいて新しいメロディーや合唱のアイデアを考え出します。
  • 実験と反復-テキストプロンプトを微調整することで、簡単にバリエーションを試すことができます
  • 新しいジャンルを探索しあまり馴染みのないスタイルで独自の音楽を作りましょう
  • バックグラウンド ミュージックの作成-ビデオポッドキャストゲームなどカスタム バックグラウンドミュージックを作成します
  • メロディーのリミックス-既存のメロディーを使用してモデルをトレーニングし、異なるメロディーを生成します

MusicGen は.mp3または.wav形式選択して、最長 8 秒の制作グレードのクリップを提供しますサンプルはインスピレーションの素材として使用したり作品に直接追加したりできます

MusicGen モデルの紹介

MusicGenは2023年FacebookのAI研究チームによって作成されました。これは、ライセンスされた音楽データトレーニングされた自己回帰Transformerモデルです

このモデルは、ベース、ドラム、ハーモニーなどさまざまな音楽要素を表す4 つの並列メロディ ストリームを生成できますこの構造により、幅広いジャンルやスタイルにわたって音楽的に一貫性のある作品を生み出すことができます

MusicGen はさまざまなサイズモデルをいくつか提供しています Replicate で使用される基本モデルはテキストからオーディオへの生成最適化されMelodyですメロディックサスティン最適化された、より大きなモデルもあります

モデル アーキテクチャの詳細については、Facebook Research の論文とプロジェクトの GitHub ページをご覧ください。

モデルの限界

すべてのAIモデルと同様に、MusicGen にもいくつかの制限があります

  • MusicGen の出力は、提供されたキューとメロディーによって影響を受けます。創造的なインプットは、生成される作品の品質と独自性大きな影響を与える可能性があります
  • モデルのトレーニング データは、その音楽スタイルと出力に影響を与えます。あらゆる音楽ジャンルやスタイルを完璧に再現できるとは限りません
  • MusicGen で生成された音楽は望ましい完成度レベルに達するために後処理が必要になる場合があります

これらの制限を理解することで、自分の期待(またはクライアントの期待) を妥当な範囲保ちながら、MusicGen を最大限に活用できるようになります

MusicGen の入力と出力を理解する

入力

  • model_version :生成するモデルのバージョンを選択します(例: 「 melody 」、「 large 」、「 encode-decode 」)
  • プロンプト:生成したい音楽の説明を入力します。
  • input_audio :オーディオファイルを提供することで、生成される音楽に影響を与えます
  • 継続時間:生成されるオーディオの継続時間を指定します
  • 継続:生成された音楽が入力オーディオのメロディーを継続するかどうかを選択します
  • top_k、top_p、 temperatureなどのパラメータを使用すると、出力を微調整できます。

出力

出力モードは、生成されたオーディオ ファイルを指す URI を表す文字列です

MusicGenモデルの使用に関するステップバイステップガイド

このセクションでは、MusicGen モデルを効果的に使用して音楽作品を生成する方法について詳しく説明しますステップには、特定のコード スニペット、何が起こっているかについての説明が付属しています

ステップ1 : Node.jsクライアントソフトウェアをインストールする

まず、 Replicate用のNode.js クライアントソフトウェアをインストールする必要があります。このクライアントソフトウェアを使用すると、Replicate API対話し MusicGen モデルを実行できるようになります

npm install replicate

このコマンドは、「replicate」と呼ばれる必要な Node.jsパッケージをインストールします

ステップ2 : APIトークンを設定する

Replicate APIにアクセスする前に、API トークンを環境変数として設定する必要があります。このトークンは API へのリクエストを認証します。

export REPLICATE_API_TOKEN=your_api_token

your_api_token を実際のReplicate A PI トークン交換します

ステップ3 :モデルを実行し音楽を生成する

ここで MusicGen モデルを実行して、指定された入力に基づいて音楽を生成してみましょう。 API リクエストを行うには、 Node.js クライアントソフトウェアを使用します。

 import Replicate from "replicate"; // Create a Replicate client instance const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); // Define input parameters for the model const modelVersion = "melody"; const prompt = "Expressive piano melody"; const duration = 10; // Duration of the generated audio in seconds // Run the MusicGen model const output = await replicate.run( "facebookresearch/musicgen:7a76a8258b23fae65c5a22debb8841d1d7e816b75c2f24218cd2bd8573787906", { input: { model_version: modelVersion, prompt: prompt, duration: duration, // Other input parameters here }, } ); console.log("Generated audio URI:", output);

このコードスニペットでは:

  • インストールされた Node.js パッケージからReplicateクラスをインポートします
  • API トークンを使用して、 Replicateクライアントソフトウェアインスタンスを作成しました
  • 音楽作成のためのモデルバージョン、プロンプト、および期間を定義します
  • replication.run() メソッドを使用して、指定された入力MusicGenモデルを実行します
  • 生成されたオーディオ URI はコンソールに記録されます。

ステップ4 :生成されたオーディオ閲覧する

モデルを実行すると、生成された楽曲指すオーディオ URIが返されます。この URI を使用して、生成されたオーディオにアクセスし、参照することができます。

それでおしまいこの時点で、MusicGen モデルを使用して入力に基づいて楽曲を作成することができました。

結論は

おめでとう MusicGen モデルを使用した音楽作曲のステップバイステップガイドを完了しましたこれらの手順に従え AI力を活用してユニークで創造的な音楽作品を生成できます。 AI 駆動型音楽の世界を探求し続ける際には、さまざまな入力とパラメータを試して、幅広い音楽の可能性を探ってみてください。ご質問がある場合やさらにサポートが必要な場合は、お気軽にお問い合わせいただくかこのガイドに記載されているリソースを参照してくださいAIで音楽作りを楽しんでください!

原題: Facebook の MusicGen でテキストを音楽に変える方法、著者: Mike Young

<<: 

>>:  九張雲吉DataCanvasマルチモーダル大規模モデルプラットフォームの実践と思考

ブログ    

推薦する

Java プログラミング スキル - データ構造とアルゴリズム「プレフィックス、インフィックス、サフィックス」

[[387421]]接頭辞表現(ポーランド語表記)プレフィックス式はポーランド式とも呼ばれます。プ...

1 つのニューロンには 5 ~ 8 層のニューラル ネットワークがあります。ディープラーニングの計算の複雑さは生物学によって克服されています。

人工知能の開発にはまだまだ長い道のりが残っているようです。エルサレムのヘブライ大学の研究者らは、単一...

...

...

人工知能教育の現状と動向

人工知能への熱狂が世界を席巻している。国は人工知能の分野で戦略的な配置を開始しており、人工知能の人材...

自動運転のためのニューラルネットワークとディープラーニング

先進運転支援システム (ADAS) は、道路の安全性と旅行体験に対するドライバーと乗客のより高い要求...

AIによって人間が失業しないのはなぜでしょうか?

人工知能が20年間進歩したにもかかわらず、オフィスワークのほとんどは単純な頭脳労働で構成されているよ...

2024年の産業用ロボットの開発動向

産業用ロボットは、さまざまな産業用タスクを自動的に実行できる一種の機器として、製造、組み立て、梱包、...

MLOpsの助けにより、AIは開発の黄金期を迎えることになる

12月21日、デロイトコンサルティングが最近発表したレポートでは、企業が一貫した機械学習運用(MLO...

508件のAI防疫事例のデータ分析:各地域でのAI防疫パフォーマンス

新型コロナウイルス肺炎の流行が始まって以来、人工知能技術は、流行の監視と分析、人員と物資の管理、医療...

...

...

...

...

Huang が H100 を「ブースト」: NVIDIA が大規模モデル アクセラレーション パッケージを発表、Llama2 推論速度が 2 倍に

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...