このAIはレディー・ガガ風にベートーベンの音楽を演奏することができ、ネットユーザーは楽しんで遊んでいる。

編集者注: OpenAI は数日前に突然 Twitch でライブ放送を開始しました。これまで、OpenAI によるすべての DOTA2 ライブ放送はここで行われていましたが、今回のコンテンツはビデオゲームではなく、ライブ AI によって作曲された曲になりました。 OpenAIのCTO、グレッグ・ブロックマン氏は冗談めかしてこう語った。「6か月前には、ライブ放送チャンネルのカテゴリをDOTA2から音楽とパフォーマンスに変更することになるとは想像もできなかった。」

ライブ放送の主役は、OpenAIが新たに開発した作曲AI「MuseNet」で、さまざまなスタイルと最大4分間の長さの音楽を作成できます。スタイルは、さまざまな作曲家（バッハ、ベートーベン、オスカー・ピーターソン、フランク・シナトラ、ボン・ジョヴィ）に応じて変更でき、さまざまなスタイルの変更（ジャズ、アルベニス、映画のサウンドトラック、カントリー、インドのボリウッド、ディズニー）が可能で、音楽には10種類の楽器を使用できます。「MuseNet」は、OpenAIが以前に開発したテキスト生成モデルGPT-2に似た大規模Transformerモデルを採用しており、長シーケンスモデリング機能を強化するために、Leifeng.com AI Technology Reviewで最近導入されたスパースアテンション技術も採用している。 OpenAI は、GPT-2 を使用して人間の標準に近い短いテキストを生成した後、長いシーケンスのモデリングの専門家になりました。

結局のところ、音楽を学ぶことは難しい作業です。楽器が異なれば音色も異なり、音楽のスタイルが異なればそれぞれに微細構造が異なります。そのため、OpenAI のアプローチは、元のオーディオ波形を学習するのではなく、モデルに MIDI (音符、制御パラメータなどで構成されるデジタルオーディオ信号で、MIDI プレーヤーで再生可能) を学習させて予測させるというものです。同時に、OpenAI はモデルがデータパラメータを簡素化できるように、作曲家や楽器に対応するトークンも設計しました。

スパーストランスフォーマーの再計算と最適化されたコアの助けを借りて、MuseNet は 24 個のアテンションヘッドを備えた 72 層のネットワークとして設計され、4096 要素の長さのコンテンツに対して完全なアテンション操作を実行できます。十分に長いシーケンスを処理できるため、曲の長期的な構造を記憶し、段落の繰り返しと変化を完了することができます。

モデルが音楽のメインコンテンツの構造をより適切に制御できるようにするために、OpenAI はモデル用にさまざまな埋め込みを設計しました。通常の位置埋め込みに加えて、各サンプルで経過した時間を追跡する埋め込みをモデルに学習させます。こうすることで、同時に鳴るすべての音符に同じ時間の埋め込みが行われます。また、コード内の各音符に埋め込みを追加しました (これは相対的な注意に似ており、モデルが 4 番目の音符を生成する必要がある場合、3 番目の音符を参照として提供し、モデルの学習を容易にします)。最後に、研究者たちは 2 つの異なる構造的埋め込みを追加しました。これらを組み合わせることで、ある楽曲がより大きな楽曲のどこに当てはまるかをモデルに伝えます。最初の埋め込みでは、大きな楽曲を 128 の部分に分割し、2 番目の埋め込みでは 127 から 0 までカウントダウンして、終わりまでの距離を示します。

モデルの効果は驚くべきものでした。当日のTwitchライブ放送で披露されたさまざまなスタイルの曲が非常に認識しやすく、自然なサウンドだっただけでなく、OpenAIが紹介ブログで示した混合生成結果（有名な曲の1小節を先頭として、モデルに他のスタイルを続けさせると、モデルは4つの結果を生成します）や、好奇心旺盛なネットユーザーがOpenAIが提供する実験ツールを使用して生成した音楽は、誰もが非常に感銘を受けました。 MuseNet の公式紹介ページにアクセスして、マッシュアップツールを試し、生成された音楽を聴くことをお勧めします。

レディー・ガガにインスパイアされたベートーヴェンの『エリーゼのために』の続編。OpenAI の技術ブログより

アデルの「Some One Like You」のショパン風続編、OpenAI Technology Blogより

[[264179]]
4月25日にTwtichで行われたこの曲のライブビデオ。OpenAIのスタッフはこれまでこの曲を聴いたことがなかった。OpenAIの技術ブログより

OpenAI は、埋め込まれた学習結果に基づいて、さまざまな作曲家間の類似関係グラフも作成しました。これも私たちの日常の認知と非常に一致しています。

OpenAI の研究者の見解では、音楽生成タスクの難しさはテキストと画像の中間であり、テキストと同様に柔軟なシーケンス構造を持っています (たとえば、画像では最初の N 要素を固定的に参照できますが、テキストと音楽ではこの数の大きさは固定されていません)。彼らはトレーニングデータセットを収集し、さまざまなトレーニング手法を試しました。

この研究は本当に興味深く、生き生きしています。OpenAI はまた、誰もが活動に参加し、議論し、フィードバックを与え、この研究の次の目標の選択に協力してくれることを期待しています。参加期間は5月12日までですので、openai.com/blog/musenet/ にアクセスして、ぜひ遊んで聴いてみてください！

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<: 中国でドローン配送用の商用「操縦免許」が発行されるまでにどれくらいの時間がかかるのでしょうか？

>>: 呉俊：人工知能は今後20年間で大きな発展を遂げないかもしれません。