この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 一度曲を聴けば楽譜がわかってすぐに演奏できるほか、ピアノ、バイオリン、ギターなど「18種類の楽器」をマスターすることもできます。 これは人間の音楽マスターではなく、 Googleが発表した「マルチタスク・マルチトラック」の音符転送モデルMT3です。 まず、マルチタスクとマルチオーディオトラックとは何かを説明する必要があります。 通常、1 つの楽曲は複数の楽器で演奏され、各楽曲はトラックであり、マルチタスクは異なるトラックのスコアを同時に復元することです。 Google は ICLR 2022 に論文を提出しました。 マルチトラックスコアを復元する自動音楽転写 (AMT) は、自動音声認識 (ASR) よりもはるかに困難です。自動音声認識では、詳細なピッチとタイミング情報を保持しながら、複数の楽器を同時に転写する必要があるためです。 マルチトラックの自動音楽転写データセットはさらに「低リソース」です。既存のオープンソースの音楽転写データセットには、通常、1 ~ 数百時間のオーディオしか含まれておらず、数千時間または数万時間のオーディオを簡単に含めることができる音声データセットの市場と比較すると、非常に小さいです。 これまでの音楽転写は、主に各タスクのさまざまな楽器に合わせて調整されたタスク固有のアーキテクチャに重点を置いていました。 したがって、低リソースの NLP タスクからの転移学習に着想を得て、著者らは、一般的な Transformer モデルがマルチタスク AMT を実行し、低リソースの機器のパフォーマンスを大幅に向上できることを実証しています。 著者らは、単一の共通 Transformer アーキテクチャである T5 と、約 6,000 万個のパラメータを含む T5「小型」モデルを使用しています。 このモデルは、エンコーダーとデコーダーで一連の標準的な Transformer 自己注意「ブロック」を使用します。出力トークンのシーケンスを生成するために、モデルは貪欲な自己回帰デコードを使用します。つまり、入力シーケンスを受け取り、最も高い確率で予測される次の出力トークンをシーケンスに追加し、最後までプロセスを繰り返します。 MT3 はメルスペクトログラムを入力として使用します。出力については、著者らは MIDI 仕様にヒントを得た「MIDI ライク」と呼ばれるトークン語彙を構築しました。 生成されたスコアは、オープンソース ソフトウェア FluidSynth を使用してオーディオにレンダリングされました。 さらに、さまざまな音楽データセットの不均衡や異なるアーキテクチャの問題を解決する必要があります。 著者らが定義したユニバーサル出力トークンを使用すると、多言語翻訳モデルを複数の言語で同時にトレーニングできるのと同様に、複数のデータセットの混合でモデルを同時にトレーニングすることもできます。 このアプローチは、モデルの設計とトレーニングを簡素化するだけでなく、モデルで使用できるトレーニング データの量と多様性も増加させます。 実績MT3 は、すべての指標とすべてのデータ セットにわたって一貫してベースラインを上回ります。 トレーニング中にデータセットを混合すると、特に GuitarSet、MusicNet、URMP などの「リソースの少ない」データセットの場合、単一のデータセットのトレーニングよりもパフォーマンスが大幅に向上します。 最近、Google チームも MT3 のソースコードを公開し、Hugging Face で試用デモをリリースしました。 ただし、オーディオの変換には GPU リソースが必要なので、Hugging Face では Colab 上で Jupyter Notebook を実行することをお勧めします。 論文の宛先: ソースコード: デモアドレス: |
<<: チップ設計の極めて高いハードルがAIによって「打ち破られる」
>>: 中国の 700 万人のプログラマーが足りない場合はどうすればいいでしょうか?北京大学のソフトウェア自動化の専門家、謝涛氏に聞いた。
この熱光起電力セルは、太陽電池パネルに似ており、白熱熱源から高エネルギー光子を受動的に捕捉し、電気に...
ロボットを食べるというのはあまり魅力的に聞こえないかもしれないが、近い将来、食べられる機械があなたの...
GPT-4V は視覚エラーマップに挑戦し、その結果は「衝撃的」でした。 「どちらの側が明るいですか」...
編集者注: ビジネス旅行者にとって、ついに朗報が届きました。人工知能がついに旅行業界に浸透し、パーソ...
6月16日のニュース: 人工知能技術の急速な進歩に伴い、その潜在的な危険性についての議論がますます白...
清華大学、北京大学、上海交通大学、テンセント、ファーウェイ、JD.com、バイトダンス、そして今最も...
先月26日、GoogleはarXivに「電子健康記録のためのスケーラブルで正確なディープラーニング」...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
コンピューター ビジョンは、ほぼすべての産業分野で進歩を加速させています。 コンピューター ビジョン...
Java アルゴリズム プログラムに関する質問:同社には筆記試験問題が 1 つだけあり、10 分以内...