編集者注: OpenAI は数日前に突然 Twitch でライブ放送を開始しました。これまで、OpenAI によるすべての DOTA2 ライブ放送はここで行われていましたが、今回のコンテンツはビデオ ゲームではなく、ライブ AI によって作曲された曲になりました。 OpenAIのCTO、グレッグ・ブロックマン氏は冗談めかしてこう語った。「6か月前には、ライブ放送チャンネルのカテゴリをDOTA2から音楽とパフォーマンスに変更することになるとは想像もできなかった。」 ライブ放送の主役は、OpenAIが新たに開発した作曲AI「MuseNet」で、さまざまなスタイルと最大4分間の長さの音楽を作成できます。スタイルは、さまざまな作曲家(バッハ、ベートーベン、オスカー・ピーターソン、フランク・シナトラ、ボン・ジョヴィ)に応じて変更でき、さまざまなスタイルの変更(ジャズ、アルベニス、映画のサウンドトラック、カントリー、インドのボリウッド、ディズニー)が可能で、音楽には10種類の楽器を使用できます。 「MuseNet」は、OpenAIが以前に開発したテキスト生成モデルGPT-2に似た大規模Transformerモデルを採用しており、長シーケンスモデリング機能を強化するために、Leifeng.com AI Technology Reviewで最近導入されたスパースアテンション技術も採用している。 OpenAI は、GPT-2 を使用して人間の標準に近い短いテキストを生成した後、長いシーケンスのモデリングの専門家になりました。 結局のところ、音楽を学ぶことは難しい作業です。楽器が異なれば音色も異なり、音楽のスタイルが異なればそれぞれに微細構造が異なります。そのため、OpenAI のアプローチは、元のオーディオ波形を学習するのではなく、モデルに MIDI (音符、制御パラメータなどで構成されるデジタルオーディオ信号で、MIDI プレーヤーで再生可能) を学習させて予測させるというものです。同時に、OpenAI はモデルがデータパラメータを簡素化できるように、作曲家や楽器に対応するトークンも設計しました。 スパース トランスフォーマーの再計算と最適化されたコアの助けを借りて、MuseNet は 24 個のアテンション ヘッドを備えた 72 層のネットワークとして設計され、4096 要素の長さのコンテンツに対して完全なアテンション操作を実行できます。十分に長いシーケンスを処理できるため、曲の長期的な構造を記憶し、段落の繰り返しと変化を完了することができます。 モデルが音楽のメインコンテンツの構造をより適切に制御できるようにするために、OpenAI はモデル用にさまざまな埋め込みを設計しました。通常の位置埋め込みに加えて、各サンプルで経過した時間を追跡する埋め込みをモデルに学習させます。こうすることで、同時に鳴るすべての音符に同じ時間の埋め込みが行われます。また、コード内の各音符に埋め込みを追加しました (これは相対的な注意に似ており、モデルが 4 番目の音符を生成する必要がある場合、3 番目の音符を参照として提供し、モデルの学習を容易にします)。最後に、研究者たちは 2 つの異なる構造的埋め込みを追加しました。これらを組み合わせることで、ある楽曲がより大きな楽曲のどこに当てはまるかをモデルに伝えます。最初の埋め込みでは、大きな楽曲を 128 の部分に分割し、2 番目の埋め込みでは 127 から 0 までカウントダウンして、終わりまでの距離を示します。 モデルの効果は驚くべきものでした。当日のTwitchライブ放送で披露されたさまざまなスタイルの曲が非常に認識しやすく、自然なサウンドだっただけでなく、OpenAIが紹介ブログで示した混合生成結果(有名な曲の1小節を先頭として、モデルに他のスタイルを続けさせると、モデルは4つの結果を生成します)や、好奇心旺盛なネットユーザーがOpenAIが提供する実験ツールを使用して生成した音楽は、誰もが非常に感銘を受けました。 MuseNet の公式紹介ページにアクセスして、マッシュアップ ツールを試し、生成された音楽を聴くことをお勧めします。
OpenAI は、埋め込まれた学習結果に基づいて、さまざまな作曲家間の類似関係グラフも作成しました。これも私たちの日常の認知と非常に一致しています。 OpenAI の研究者の見解では、音楽生成タスクの難しさはテキストと画像の中間であり、テキストと同様に柔軟なシーケンス構造を持っています (たとえば、画像では最初の N 要素を固定的に参照できますが、テキストと音楽ではこの数の大きさは固定されていません)。彼らはトレーニング データセットを収集し、さまざまなトレーニング手法を試しました。 この研究は本当に興味深く、生き生きしています。OpenAI はまた、誰もが活動に参加し、議論し、フィードバックを与え、この研究の次の目標の選択に協力してくれることを期待しています。参加期間は5月12日までですので、openai.com/blog/musenet/ にアクセスして、ぜひ遊んで聴いてみてください! この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 |
<<: 中国でドローン配送用の商用「操縦免許」が発行されるまでにどれくらいの時間がかかるのでしょうか?
>>: 呉俊:人工知能は今後20年間で大きな発展を遂げないかもしれません。
現在、世界経済の回復は依然として緩やかです。国際通貨基金(IMF)が最近発表した世界経済見通しレポー...
この記事の主な内容:序文DBSCAN クラスタリング アルゴリズムパラメータ選択DBSCANアルゴリ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
最近、インターネット採用プラットフォームBOSS Zhipinは「2018年第4四半期人材誘致レポー...
あまりに多くのことを知ると、誰かがあなたを困らせたくなるでしょう。ドラマに出演するときも、会社を立ち...
昨年上半期、メディアはかつてアンドリュー・ン氏が妻のために百度を去ったという話題を熱く議論していた。...
[[428679]] Tesla、Google、Microsoft、Facebook などのテクノ...
中国人工知能産業発展連盟メディアプロジェクトグループの設立会議が2018年1月25日に北京で開催され...
人工知能の分野は継続的に進歩しており、自然言語処理、自然言語生成、コンピュータービジョンなどのサブフ...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
GPT-4 の視覚機能がテスト用に完全にリリースされる前に、オープンソースのライバルが華々しくデビ...
インターネットの発展により、人々は膨大な量の情報と製品の選択肢に直面しており、パーソナライズされた推...