このAIはレディー・ガガ風にベートーベンの音楽を演奏することができ、ネットユーザーは楽しんで遊んでいる。

このAIはレディー・ガガ風にベートーベンの音楽を演奏することができ、ネットユーザーは楽しんで遊んでいる。

編集者注: OpenAI は数日前に突然 Twitch でライブ放送を開始しました。これまで、OpenAI によるすべての DOTA2 ライブ放送はここで行われていましたが、今回のコンテンツはビデオ ゲームではなく、ライブ AI によって作曲された曲になりました。 OpenAIのCTO、グレッグ・ブロックマン氏は冗談めかしてこう語った。「6か月前には、ライブ放送チャンネルのカテゴリをDOTA2から音楽とパフォーマンスに変更することになるとは想像もできなかった。」

ライブ放送の主役は、OpenAIが新たに開発した作曲AI「MuseNet」で、さまざまなスタイルと最大4分間の長さの音楽を作成できます。スタイルは、さまざまな作曲家(バッハ、ベートーベン、オスカー・ピーターソン、フランク・シナトラ、ボン・ジョヴィ)に応じて変更でき、さまざまなスタイルの変更(ジャズ、アルベニス、映画のサウンドトラック、カントリー、インドのボリウッド、ディズニー)が可能で、音楽には10種類の楽器を使用できます。 「MuseNet」は、OpenAIが以前に開発したテキスト生成モデルGPT-2に似た大規模Transformerモデルを採用しており、長シーケンスモデリング機能を強化するために、Leifeng.com AI Technology Reviewで最近導入されたスパースアテンション技術も採用している。 OpenAI は、GPT-2 を使用して人間の標準に近い短いテキストを生成した後、長いシーケンスのモデリングの専門家になりました。

結局のところ、音楽を学ぶことは難しい作業です。楽器が異なれば音色も異なり、音楽のスタイルが異なればそれぞれに微細構造が異なります。そのため、OpenAI のアプローチは、元のオーディオ波形を学習するのではなく、モデルに MIDI (音符、制御パラメータなどで構成されるデジタルオーディオ信号で、MIDI プレーヤーで再生可能) を学習させて予測させるというものです。同時に、OpenAI はモデルがデータパラメータを簡素化できるように、作曲家や楽器に対応するトークンも設計しました。

スパース トランスフォーマーの再計算と最適化されたコアの助けを借りて、MuseNet は 24 個のアテンション ヘッドを備えた 72 層のネットワークとして設計され、4096 要素の長さのコンテンツに対して完全なアテンション操作を実行できます。十分に長いシーケンスを処理できるため、曲の長期的な構造を記憶し、段落の繰り返しと変化を完了することができます。

モデルが音楽のメインコンテンツの構造をより適切に制御できるようにするために、OpenAI はモデル用にさまざまな埋め込みを設計しました。通常の位置埋め込みに加えて、各サンプルで経過した時間を追跡する埋め込みをモデルに学習させます。こうすることで、同時に鳴るすべての音符に同じ時間の埋め込みが行われます。また、コード内の各音符に埋め込みを追加しました (これは相対的な注意に似ており、モデルが 4 番目の音符を生成する必要がある場合、3 番目の音符を参照として提供し、モデルの学習を容易にします)。最後に、研究者たちは 2 つの異なる構造的埋め込みを追加しました。これらを組み合わせることで、ある楽曲がより大きな楽曲のどこに当てはまるかをモデルに伝えます。最初の埋め込みでは、大きな楽曲を 128 の部分に分割し、2 番目の埋め込みでは 127 から 0 までカウントダウンして、終わりまでの距離を示します。

モデルの効果は驚くべきものでした。当日のTwitchライブ放送で披露されたさまざまなスタイルの曲が非常に認識しやすく、自然なサウンドだっただけでなく、OpenAIが紹介ブログで示した混合生成結果(有名な曲の1小節を先頭として、モデルに他のスタイルを続けさせると、モデルは4つの結果を生成します)や、好奇心旺盛なネットユーザーがOpenAIが提供する実験ツールを使用して生成した音楽は、誰もが非常に感銘を受けました。 MuseNet の公式紹介ページにアクセスして、マッシュアップ ツールを試し、生成された音楽を聴くことをお勧めします。


レディー・ガガにインスパイアされたベートーヴェンの『エリーゼのために』の続編。OpenAI の技術ブログより


アデルの「Some One Like You」のショパン風続編、OpenAI Technology Blogより

[[264179]]
4月25日にTwtichで行われたこの曲のライブビデオ。OpenAIのスタッフはこれまでこの曲を聴いたことがなかった。OpenAIの技術ブログより

OpenAI は、埋め込まれた学習結果に基づいて、さまざまな作曲家間の類似関係グラフも作成しました。これも私たちの日常の認知と非常に一致しています。

OpenAI の研究者の見解では、音楽生成タスクの難しさはテキストと画像の中間であり、テキストと同様に柔軟なシーケンス構造を持っています (たとえば、画像では最初の N 要素を固定的に参照できますが、テキストと音楽ではこの数の大きさは固定されていません)。彼らはトレーニング データセットを収集し、さまざまなトレーニング手法を試しました。

この研究は本当に興味深く、生き生きしています。OpenAI はまた、誰もが活動に参加し、議論し、フィードバックを与え、この研究の次の目標の選択に協力してくれることを期待しています。参加期間は5月12日までですので、openai.com/blog/musenet/ にアクセスして、ぜひ遊んで聴いてみてください!

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  中国でドローン配送用の商用「操縦免許」が発行されるまでにどれくらいの時間がかかるのでしょうか?

>>:  呉俊:人工知能は今後20年間で大きな発展を遂げないかもしれません。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

GoogleのオープンソースAIは92%の精度で音を区別できる

[[249335]] VentureBeatによると、Googleの人工知能研究部門は音声認識におい...

2020年中国人工知能産業調査レポート

2020年は異例の年でした。新型コロナウイルス感染症のパンデミックは多くの経済生活のリズムを乱し、人...

...

機械学習の問題を解決する一般的な方法があります!これを読んでください

平均的なデータ サイエンティストは毎日大量のデータを処理します。データのクリーニング、処理、機械学習...

人工知能ブームの背景にある産業チェーンのレイアウト分析

「新世代人工知能発展計画」の発表に伴い、国務院は我が国の人工知能発展計画を全体的に展開し始めました。...

...

...

4つの業界は人工知能がもたらす混乱に注意を払う必要がある

2020 年には、AI と機械学習のテクノロジーが新興産業に継続的な影響を与え、企業だけでなく消費者...

Nvidia の新しいブラック テクノロジーが「Minecraft」のモザイクをリアルな大ヒット作に変える

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ドキュメントの分類が複雑すぎますか? MITとIBMは協力してこの問題を解決した

[[286340]] 【画像出典:venturebeat オーナー:venturebeat 】この記...

AIシステムが初めて真の自律プログラミングを実現:遺伝的アルゴリズムを使用して初心者プログラマーを上回る

編集者注:この記事は、WeChatのパブリックアカウント「New Intelligence」(ID:...

BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

クラウドで必要な 5 つの機械学習スキル

機械学習と AI は IT サービスにさらに深く浸透し、ソフトウェア エンジニアが開発したアプリケー...

ズークス、従業員がテスラの企業秘密を盗んだことを認める

[[322566]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

待望のAI実装はどこで行き詰まっているのでしょうか?

AIはこれまで3つの発展の波を経験してきました。最初の2つの波は当時の技術環境やその他の理由により...