ByteDance は、10,000 曲以上のピアノ曲と 1,000 時間以上の音楽を収録した世界最大のピアノ MIDI データ セットを保有しています。

ByteDance は、10,000 曲以上のピアノ曲と 1,000 時間以上の音楽を収録した世界最大のピアノ MIDI データ セットを保有しています。

最近、ByteDance は世界最大のクラシックピアノデータセットである GiantMIDI-Piano をリリースしました。これには、2,784 人の作曲家による 10,854 作品の MIDI ファイルが含まれており、総演奏時間は 1,237 時間です。このデータセットの構築を完了するために、研究者らは高精度のピアノ転写システムを開発し、オープンソース化しました。

ピアノの転写は、ピアノの録音を音楽記譜法(MIDI 形式など)に変換する作業です。人工知能の分野では、ピアノの転写は音楽分野の音声認識タスクに類似しています。しかし、コンピュータ音楽の分野では、大規模なピアノ MIDI データセットが長い間不足していました。

最近、ByteDanceは世界最大のクラシックピアノデータセットであるGiantMIDI-Pianoをリリースしました[1]。データ規模に関して言えば、データセット内のさまざまなトラックの合計継続時間は、Google の MAESTRO データセットの 14 倍です。

論文アドレス: https://arxiv.org/abs/2010.07061

プロジェクトアドレス: https://github.com/bytedance/GiantMIDI-Piano

ByteDanceの研究科学者は次のように語った。「GiantMIDI-Pianoは、すべてのクラシックピアノ作品をMIDI形式に書き起こし、世界に公開します。この動きは、音楽技術とコンピュータ音楽学の発展を促進することを目的としています。」

GiantMIDI-Piano の用途には、音楽情報の検索、自動作曲、インテリジェントな音楽作成、計算音楽学などが含まれますが、これらに限定されません。次の図は、GiantMIDI-Piano における上位 100 人の作曲家のトラック数の分布を示しています。

GiantMIDI-Pianoは、ピアノ転写技術を使用して、コンピューターを介してオーディオファイルをMIDIファイルに自動的に変換することを特徴としており、この技術を使用して大規模なMIDIデータセットの転写も行っています。

研究者らはまず、公開されている国際音楽デジタル図書館IMSLPから1万8067人の作曲家による14万3701作品のタイトル情報を入手し、YouTubeを通じて6万724本の音声を検索した。その後、研究者らは音声畳み込みニューラルネットワーク(CNN)に基づくピアノソロ検出アルゴリズムを設計し、2,786人の作曲家による10,854曲のピアノ作品を選別した。最終的に、研究者らは高解像度のピアノ転写システム(高精度のオンセットとオフセット時間の回帰によるペダル付き高解像度ピアノ転写)[2]を開発し、オープンソース化しました。このシステムはすべてのオーディオをMIDIファイルに転写し、GiantMIDI-Pianoデータベースを構築しました。

データセットの特性

GiantMIDI-Piano データセットには次の特性があります。

2,784 人の作曲家による 10,854 作品の MIDI ファイルが含まれています。

34,504,873 件のノートを含みます。

すべてのトラックは異なり、MIDI ファイルの合計時間の長さは 1,237 時間です。

音声は高精度の文字起こしシステムによって文字起こしされます。転写された MIDI ファイルには、音符の開始時間、速度、ペダルの情報が含まれます。

GiantMIDI-Piano の転写の相対エラー率は 0.094 で、Maestro ピアノ データセットの転写の F1 値は 96.72% です。

すべてのMIDIファイルは統一されたフォーマットを持っており、ファイル名の形式は「姓_名_トラック名_youtubeID.mid」となります。

作曲家の国籍と生年に関する情報が含まれています。

データセットのサイズは 193 Mb です。

CC BY 4.0に基づいて使用されます。

ピアノ楽譜

ピアノの楽譜転写は非常に難しい作業です。その理由の 1 つは、ピアノが多声楽器であることです。ピアノの鍵盤が複数同時に押される場合があり、異なる音の組み合わせは数万通りあります。この課題に対処するために、ByteDanceは高精度のピアノ楽譜転写システムをリリースしました[2]。

論文アドレス: https://arxiv.org/abs/2010.01815

プロジェクトアドレス: https://github.com/bytedance/piano_transcription

スペクトル転送システムの機能は次のとおりです。

任意の数のパート、任意の複雑さ、さらにはダブルピアノや複数のピアノのピアノオーディオを MIDI ファイルに変換できます。

従来のアルゴリズムの認識精度 32 ミリ秒の限界を打ち破り、任意の時間精度で音符検出を実現します。

各音符に対して 128 レベルのベロシティ認識が実装されています。

ピアノの音符とピアノペダルの認識も含まれます。

MAESTRO 評価データセットで F1 値 96.72% を達成し、Google システムの 94.80% を上回りました。

事前トレーニング済みモデルのコードは、Apache 2.0 プロトコルに基づくオープンソースです。

ピアノでは、鍵盤のトリガー(オンセット)、リフト(オフセット)、押下状態(フレーム)、速度(ベロシティ)がピアノの音色を決める重要な要素です。 ByteDance の研究者は、トリガーを予測し、絶対時間を上げることでピアノの楽譜を転写する方法を提案しました。トレーニング中、ネットワークのトレーニングラベルは0または1のバイナリ値ではなく、絶対時間に関連する連続値g(△)になり、任意の精度でピアノの転写を実現します。

トレーニングされたラベルは、トリガーとリフトオフのオフセットをミリ秒単位で表すことができます。

研究者たちは、ディープニューラルネットワークに基づいたスペクトル変換モデルを構築した。オーディオ波形は、まず入力特徴として log mel スペクトログラムに変換されます。畳み込み再帰型ニューラル ネットワークは、トリガー、リフト、プレスの状態と力をそれぞれ予測するための音響モデルとして使用されます。各音響モデルには、高レベルの抽象的な特徴を抽出するための 8 つの畳み込み層と、オーディオの長期的な依存関係を学習するための 2 つの双方向再帰型ニューラル ネットワーク層 (GRU) が含まれています。各音響モデルの出力は 0 から 1 までの連続値です。

モデルがトレーニングされた後、推論段階で、研究者は絶対的なトリガーとリフトの時間を計算するアルゴリズムを提案しました。これにより、任意の時間精度でノートのトリガーとリフトを予測できます。

転送結果

00:00/00:00倍速

次の図は、ラン・ランが演奏する「Dream of Love」の抜粋のオーディオ対数メル スペクトログラム、音符転写結果、ペダル転写結果を示しています。

さらに、研究者たちはヤマハ・ディスクラビアと呼ばれる自動ピアノを使用してMIDIトランスクリプションを再生し、偉大なピアニストによる歴史的な演奏を再現しました。業界関係者は、この取り組みは間違いなく刺激的であり、ByteDanceはこの技術をポストパンデミック時代のオンライン音楽ライブストリーミングやインテリジェント音楽制作に応用する可能性があると分析した。

例を参照してください:

自動ピアノが李雲迪の「鐘」を再現: https://www.bilibili.com/video/BV1JD4y1d7Pn

グールドの 1981 年のゴールドベルク変奏曲を自動ピアノで再現: https://www.bilibili.com/video/BV1M541177x4

<<:  スマート物流は進化し、AIは「独自のスキル」を発揮し続ける

>>:  自動運転車を壁に衝突させ、他人の顔を使って代金を支払う:最新のAIの抜け穴が私たちの目を覚まさせる

ブログ    
ブログ    
ブログ    

推薦する

ファーウェイと百度はAI技術で提携している。人工知能の分野で優位に立つことを目指しているのだろうか?

テクノロジー界ではもう一つ大きな出来事が起きている。中国で最も人気のある携帯電話ブランドであるHua...

...

ディープラーニングにおけるバッチ正規化の落とし穴

[[191744]]バッチ正規化は、ディープラーニングにおいて最近登場した効果的な手法です。その有効...

ロボットもこのように遊べるのでしょうか?自分の目で確認したら、これが私の欲しいロボットだ!

「タイムレイダース」を覚えていますか? 1つは1999年、もう1つは2018年のもので、わずか19年...

...

NeRFは線画に基づいてリアルな3D顔を生成し、詳細とスタイルを自由に変更できる。この論文はSIGGRAPHに提出されている。

非常にリアルで正確に制御可能な 3 次元の顔のモデリングは、デジタル ヒューマン構築における重要な課...

人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

AlphaGoがイ・セドルに勝利したことで世界は人工知能に再び親しむようになったが、アップグレード...

馬化騰氏は「人工知能の4つの主要な発展傾向が今後10年間で世界を変えるだろう」と述べた。

今後10年間で世界を変える人工知能の4つの主要な発展トレンドの分析61歳のビル・ゲイツ氏は大学卒業生...

蘇寧電子商取引プラットフォームにおけるAI技術+短編動画の応用

[51CTO.comより引用] 2018年5月18日〜19日、51CTO主催のグローバルソフトウェア...

Microsoft Azure AI テキスト読み上げサービスのアップグレード: 新しい男性の声とより多くの言語サポート

8月9日、Microsoft Azureは企業向けにクラウドベースのサービスと機能を多数提供開始しま...

機械学習の7つの大罪

機械学習実験の信頼性を損なう7つのよくある間違い[[328516]]機械学習は私たちの世界を変える素...

人間の世界チャンピオン3人を破り、ネイチャー誌の表紙に登場! AIドローンエクストリームレースが自動運転の新時代を切り開く

チェスや事務作業、ゲームなどの知的活動において人間が AI に圧倒されていることはもはやニュースでは...

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

機械学習は、車内外のセンサーからのデータを融合して、運転者の状態を評価し、運転シナリオを分類するため...

北京市、企業のコンピューティングパワー使用コストを削減するためのAIコンピューティングバウチャー実施計画を発表

10月11日、北京市経済情報化局は「人工知能コンピューティングパワーバウチャー実施計画(2023~2...

...