MITとワトソン研究所のチームが、ジェスチャーを見るだけで音楽を完璧に再現する最新のAIを発表

MITとワトソン研究所のチームが、ジェスチャーを見るだけで音楽を完璧に再現する最新のAIを発表

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

楽器を演奏できる人は、人生において周囲に光輪を持っているようなものです。

しかし、楽器を習うのは本当に難しく、始めたものの途中でやめてしまうという悪循環に陥ってしまう人も多いのです。

しかし、楽器が演奏できないと、本当に良い音楽を演奏できないのでしょうか?

最近、マサチューセッツ工科大学(MIT)とMIT-IBMワトソンAIラボが共同で、演奏ジェスチャーに基づいて音楽の元のサウンドを完璧に復元できるAIモデル「Foley Music」を開発しました。

また、楽器の違いも区別しません。バイオリン、ピアノ、ウクレレ、ギター、すべて許容されます。

楽器を手に取れば、それはプロのコンサートです!異なる音色がお好みの場合は、音楽スタイルを A、F、または G に編集することもできます。

「Foley Music: ビデオから音楽を生成する方法を学ぶ」というタイトルのこの技術論文は、ECCV 2020 に掲載されました。

次に、AIモデルがどのように音楽を復元するかを見てみましょう。

複数の楽器を演奏できるフォーリーミュージック

ダンスのための音楽を作曲するには、身体の動きとダンスのスタイルを理解する必要があるのと同様に、楽器奏者のための音楽を作曲するには、彼らの身振り、動き、使用する楽器を理解する必要があります。

演奏ビデオを与えると、AI は対象オブジェクトのボディ キーポイント、演奏されている楽器やサウンドを自動的にロックします。

本文の要点:AI システムの視覚認識モデルによって完成されます。体の姿勢とジェスチャーという 2 つの指標を通じてフィードバックを提供します。一般的に、体は 25 個の 2D ポイントを抽出でき、指は 21 個の 2D ポイントを持ち上げることができます。

楽器音の抽出:オーディオ表現モデルが使用されます。このモジュールでは、研究者は楽器デジタルインターフェース (MIDI) のオーディオ表現形式を提案しました。これは、Foley Music を他のモデルと区別する重要な点です。

研究者によると、6秒間のパフォーマンスビデオでは通常約500個のMIDIイベントが生成され、これを標準的な音楽シンセサイザーに簡単にインポートして音楽波形を生成できるという。

情報の抽出と処理が完了すると、ビジュアルオーディオモデルはすべての情報を統合して変換し、最終的な一致する音楽を生成します。

まず、その完全なアーキテクチャ図を見てみましょう。これは主に、ビジュアル エンコーディング、MIDI デコード、MIDI 波形出力の 3 つの部分で構成されています。

ビジュアル エンコーディング:ビジュアル情報をエンコードし、コンバーターの MIDI デコーダーに渡します。ビデオフレームから主要な座標点を抽出し、GCN (Graph-CNN) を使用して、時間の経過に伴って変化する人体のダイナミクスの潜在的な表現をキャプチャします。

MIDI デコーダー:グラフ トランスフォーマーを使用して、人間の姿勢の特徴と MIDI イベント間の相関関係をモデル化します。トランスフォーマーは、エンコーダーとデコーダーをベースとした自己回帰生成モデルであり、主に機械翻訳に使用されます。ここでは、人体の特性に基づいて MIDI イベントのシーケンスを正確に予測できます。

MIDI 出力:標準のオーディオ シンセサイザーを使用して、MIDI イベントを最終波形に変換します。

実験結果

研究者らは、Foley Music が他の既存のモデルよりもはるかに優れていることを確認しました。比較実験では、3 つのデータ セットを使用して Foley Music をトレーニングし、他の 3 つの GAN ベースの SampleRNN モデルと WaveNet モデルとの比較評価のために 9 つの楽器を選択しました。

そのうちデータセットはAtinPiano、MUSIC、URMPで、11以上のカテゴリーにわたる約1,000本の高品質な音楽演奏ビデオをカバーしています。楽器はオルガン、ベース、ファゴット、チェロ、ギター、ピアノ、チューバ、ウクレレ、バイオリンで、動画の長さは6秒です。定量的な評価結果は次のとおりです。

Foley Music モデルのベース楽器演奏の予測性能は最大 72% に達したのに対し、他のモデルでは最大値がわずか 8% であったことがわかります。

さらに、次の 4 つの指標からも結果が顕著です。

正確性: 生成された曲がビデオ コンテンツにどの程度関連しているか。

ノイズ: 音楽のノイズは最小限です。

同期性: 曲はビデオの内容と最も同期しています。

黄色は Foley Music モデルで、さまざまな指標で他のモデルをはるかに上回っています。最高の精度、ノイズ、同期はすべて 0.6 を超えていますが、その他の最高のものは 0.4 未満であり、これは 9 つの楽器すべてに当てはまります。

さらに、研究者らは、MIDI イベントが他のベースライン システムと比較して、音質、意味的整合、および時間同期の改善に役立つことを発見しました。

説明する

  • GAN モデル: 人間の特徴を入力として受け取り、その姿勢特徴によって生成されたスペクトルが真か偽かを識別して決定します。繰り返しトレーニングした後、スペクトルは逆フーリエ変換によってオーディオ波形に変換されます。

  • SampleRNN: 無条件のエンドツーエンドのニューラルオーディオ生成モデルです。WaveNet と比較すると、構造がシンプルで、サンプルレベルでより高速に音声を生成します。

  • WaveNet: Google Deepmind がリリースした音声生成モデルで、テキスト読み上げと音声生成に優れたパフォーマンスを発揮します。

このモデルのもう一つの利点は、そのスケーラビリティです。 MIDI 表現は完全に解釈可能かつ透過的であるため、予測された MIDI シーケンスを編集して、A\G\F のキーでさまざまなスタイルの音楽を生成できます。 波形またはスペクトログラムがオーディオ表現のモデルとして使用されている場合、この機能は使用できません。

最後に、研究者らは論文の中で、この研究により、人間のキーポイントとMIDI表現を通じて視覚信号と音楽信号の間に良好な相関関係が確立され、音楽スタイルのスケーラビリティが実現されたと述べています。これにより、ビデオと音楽のつながりに関する現在の研究にとって、より優れた研究経路が提供されます。

以下はYouTube動画です。一緒にAI音楽を体験してみましょう!

https://www.youtube.com/watch?v=bo5UzyDB80E

<<:  人工知能の時代において、「次世代」の教育はどこから始めるべきでしょうか?

>>:  ロボット犬をDIYするにはどれくらいの費用がかかりますか?価格は900ドルと安く、スタンフォード大学が開発し、コードはオープンソースです

ブログ    
ブログ    
ブログ    

推薦する

カリフォルニア工科大学、プロペラアームを使って滑空する二足歩行ロボットを開発

LEONARDO は、カリフォルニア工科大学の航空宇宙ロボット工学および制御研究所の言語の天才たちの...

スマートシティGPT?ジェネレーティブAIがスマートシティにどのように役立つか

生成AIとは何ですか?生成 AI は、データを分析し、パターンと傾向を識別し、都市計画と管理に関する...

アルゴリズム図: 2 つのスタックを持つキューを実装するにはどうすればよいでしょうか?

[[348375]]この記事はWeChatの公開アカウント「Java Chinese Commun...

...

2017年中国・米国データサイエンス比較レポート:Pythonが年間平均給与11万ドルで1位

[[208216]] ***ニュースによると、Kaggleは最近、機械学習とデータサイエンスに関する...

脳も学習を強化しています! 「価値判断」は脳によって効率的にコード化され、ニューロンに公開される

[[437266]]私たち一人ひとりは、人生において、「今夜何を食べるか」「明日はどこに遊びに行くか...

...

...

ChatGPTが見知らぬ人の自撮り写真を流出!モデルによって個人データが盗まれたのですか?ネットユーザーはパニックに

最近、ChatGPTの返信に見知らぬ男性の写真が現れるという事件が多くのネットユーザーに衝撃を与えま...

敵対的 AI とは何ですか?なぜそれが重要なのでしょうか?

[[250514]] [51CTO.com クイック翻訳] 人工知能 (AI) は、政府、企業、国...

2022年に注目すべき6つのAIトレンド

AIは急速に私たちの日常生活に入り込んできており、近い将来、AIと人間の境界線を見分けることが難しく...

...

ゼロから学ぶPythonによるディープラーニング!

人工知能は現在、飛躍的に成長しています。たとえば、自動運転車は時速数百万マイルで走行し、IBM Wa...

機械学習チューナー: 機械学習を再調整する方法とタイミング

[[329534]]古代ギリシャの哲学者ヘラクレイトスはこう言いました。「唯一不変なものは変化である...

2020年代に人工知能が教育を変える6つの方法

自動駐車システム、モバイル決済、ソーシャル メディア フィード、あるいは私たちが毎日触れる無数のテク...