MITとワトソン研究所のチームが、ジェスチャーを見るだけで音楽を完璧に再現する最新のAIを発表

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

楽器を演奏できる人は、人生において周囲に光輪を持っているようなものです。

しかし、楽器を習うのは本当に難しく、始めたものの途中でやめてしまうという悪循環に陥ってしまう人も多いのです。

しかし、楽器が演奏できないと、本当に良い音楽を演奏できないのでしょうか?

最近、マサチューセッツ工科大学（MIT）とMIT-IBMワトソンAIラボが共同で、演奏ジェスチャーに基づいて音楽の元のサウンドを完璧に復元できるAIモデル「Foley Music」を開発しました。

また、楽器の違いも区別しません。バイオリン、ピアノ、ウクレレ、ギター、すべて許容されます。

楽器を手に取れば、それはプロのコンサートです！異なる音色がお好みの場合は、音楽スタイルを A、F、または G に編集することもできます。

「Foley Music: ビデオから音楽を生成する方法を学ぶ」というタイトルのこの技術論文は、ECCV 2020 に掲載されました。

次に、AIモデルがどのように音楽を復元するかを見てみましょう。

複数の楽器を演奏できるフォーリーミュージック

ダンスのための音楽を作曲するには、身体の動きとダンスのスタイルを理解する必要があるのと同様に、楽器奏者のための音楽を作曲するには、彼らの身振り、動き、使用する楽器を理解する必要があります。

演奏ビデオを与えると、AI は対象オブジェクトのボディキーポイント、演奏されている楽器やサウンドを自動的にロックします。

本文の要点：AI システムの視覚認識モデルによって完成されます。体の姿勢とジェスチャーという 2 つの指標を通じてフィードバックを提供します。一般的に、体は 25 個の 2D ポイントを抽出でき、指は 21 個の 2D ポイントを持ち上げることができます。

楽器音の抽出:オーディオ表現モデルが使用されます。このモジュールでは、研究者は楽器デジタルインターフェース (MIDI) のオーディオ表現形式を提案しました。これは、Foley Music を他のモデルと区別する重要な点です。

研究者によると、6秒間のパフォーマンスビデオでは通常約500個のMIDIイベントが生成され、これを標準的な音楽シンセサイザーに簡単にインポートして音楽波形を生成できるという。

情報の抽出と処理が完了すると、ビジュアルオーディオモデルはすべての情報を統合して変換し、最終的な一致する音楽を生成します。

まず、その完全なアーキテクチャ図を見てみましょう。これは主に、ビジュアルエンコーディング、MIDI デコード、MIDI 波形出力の 3 つの部分で構成されています。

ビジュアルエンコーディング:ビジュアル情報をエンコードし、コンバーターの MIDI デコーダーに渡します。ビデオフレームから主要な座標点を抽出し、GCN (Graph-CNN) を使用して、時間の経過に伴って変化する人体のダイナミクスの潜在的な表現をキャプチャします。

MIDI デコーダー:グラフトランスフォーマーを使用して、人間の姿勢の特徴と MIDI イベント間の相関関係をモデル化します。トランスフォーマーは、エンコーダーとデコーダーをベースとした自己回帰生成モデルであり、主に機械翻訳に使用されます。ここでは、人体の特性に基づいて MIDI イベントのシーケンスを正確に予測できます。

MIDI 出力:標準のオーディオシンセサイザーを使用して、MIDI イベントを最終波形に変換します。

実験結果

研究者らは、Foley Music が他の既存のモデルよりもはるかに優れていることを確認しました。比較実験では、3 つのデータセットを使用して Foley Music をトレーニングし、他の 3 つの GAN ベースの SampleRNN モデルと WaveNet モデルとの比較評価のために 9 つの楽器を選択しました。

そのうちデータセットはAtinPiano、MUSIC、URMPで、11以上のカテゴリーにわたる約1,000本の高品質な音楽演奏ビデオをカバーしています。楽器はオルガン、ベース、ファゴット、チェロ、ギター、ピアノ、チューバ、ウクレレ、バイオリンで、動画の長さは6秒です。定量的な評価結果は次のとおりです。

Foley Music モデルのベース楽器演奏の予測性能は最大 72% に達したのに対し、他のモデルでは最大値がわずか 8% であったことがわかります。

さらに、次の 4 つの指標からも結果が顕著です。

正確性: 生成された曲がビデオコンテンツにどの程度関連しているか。
ノイズ: 音楽のノイズは最小限です。
同期性: 曲はビデオの内容と最も同期しています。

黄色は Foley Music モデルで、さまざまな指標で他のモデルをはるかに上回っています。最高の精度、ノイズ、同期はすべて 0.6 を超えていますが、その他の最高のものは 0.4 未満であり、これは 9 つの楽器すべてに当てはまります。

さらに、研究者らは、MIDI イベントが他のベースラインシステムと比較して、音質、意味的整合、および時間同期の改善に役立つことを発見しました。

説明する

GAN モデル: 人間の特徴を入力として受け取り、その姿勢特徴によって生成されたスペクトルが真か偽かを識別して決定します。繰り返しトレーニングした後、スペクトルは逆フーリエ変換によってオーディオ波形に変換されます。
SampleRNN: 無条件のエンドツーエンドのニューラルオーディオ生成モデルです。WaveNet と比較すると、構造がシンプルで、サンプルレベルでより高速に音声を生成します。
WaveNet: Google Deepmind がリリースした音声生成モデルで、テキスト読み上げと音声生成に優れたパフォーマンスを発揮します。

このモデルのもう一つの利点は、そのスケーラビリティです。 MIDI 表現は完全に解釈可能かつ透過的であるため、予測された MIDI シーケンスを編集して、A\G\F のキーでさまざまなスタイルの音楽を生成できます。波形またはスペクトログラムがオーディオ表現のモデルとして使用されている場合、この機能は使用できません。

最後に、研究者らは論文の中で、この研究により、人間のキーポイントとMIDI表現を通じて視覚信号と音楽信号の間に良好な相関関係が確立され、音楽スタイルのスケーラビリティが実現されたと述べています。これにより、ビデオと音楽のつながりに関する現在の研究にとって、より優れた研究経路が提供されます。

以下はYouTube動画です。一緒にAI音楽を体験してみましょう！

https://www.youtube.com/watch?v=bo5UzyDB80E

<<: 人工知能の時代において、「次世代」の教育はどこから始めるべきでしょうか？

>>: ロボット犬をDIYするにはどれくらいの費用がかかりますか？価格は900ドルと安く、スタンフォード大学が開発し、コードはオープンソースです