人民大学高陵人工知能学院はAIに音楽を聴くことを教え、9,288本のビデオデータセットも公開した。

人民大学高陵人工知能学院はAIに音楽を聴くことを教え、9,288本のビデオデータセットも公開した。

AIが自らコンサートを楽しめることをご存知ですか?さらに、演奏シーンでは各楽器の演奏状況もAIが把握できるんです。これってすごいですよね。人間にとって、素晴らしいコンサートを鑑賞することはとても楽しいことですが、機械にとって、美しいメロディーと情熱的な演奏映像を組み合わせて鑑賞体験を高めることは非常に難しいことです。

最近、中国人民大学高陵人工知能学院のGeWu研究室は、この問題に対処するための新しいフレームワークを提案しました。これにより、AIは人間のように楽器の演奏を視聴し、与えられた視聴覚問題に対してクロスモーダルな時空間推論を行うことができます。

この成果はCVPR2022に採択され、口頭発表として採択され、関連するデータセットとコードはオープンソース化されました。

  • 論文アドレス: https://gewu-lab.github.io/MUSIC-AVQA/static/files/MUSIC-AVQA.pdf
  • プロジェクトアドレス: https://gewu-lab.github.io/MUSIC-AVQA/

この興味深い作品を一緒に見てみましょう!

1. はじめに

私たちは日常生活の中で視覚情報と聴覚情報に囲まれており、これら 2 種類の情報を組み合わせて使用​​することで、シーンの認識と理解が向上します。コンサートに行ったとき、楽器の動きを観察しながら音楽のメロディーを聞くと、演奏をより楽しむことができると想像してみてください。これに触発されて、機械がマルチモーダル情報、特に視覚や音声などの自然モダリティを統合して、人間に匹敵するシーン認識および理解能力を実現できるようにする方法は、興味深く価値のあるトピックです。したがって、この研究では、ビデオ内のさまざまな視覚オブジェクト、音、およびそれらの関連性に関する質問に答えることを目的としたオーディオビジュアル質問応答 (AVQA) タスクに焦点を当てています。明らかに、正しい答えを出すには、視聴覚シーンの包括的なマルチモーダル理解と時空間推論が必要です。

近年、研究者は音響オブジェクトの知覚、オーディオシーンの分析、オーディオビジュアルシーンの解析、コンテンツの説明において大きな進歩を遂げてきました。これらの方法は視覚的なオブジェクトと音を関連付けることができますが、そのほとんどは、複雑なオーディオビジュアルシーンにおけるクロスモーダル推論機能がまだ限られています。対照的に、人間はマルチモーダルシーンのコンテキストコンテンツと時間情報を最大限に活用して、オーディオビジュアルの質問応答タスクなどの複雑なシーン推論タスクを解決することができます。既存の視覚的質問応答 (VQA) および音声質問応答 (AQA) 手法は、多くの場合、単一のモダリティにのみ焦点を当てているため、実際のオーディオビジュアル シナリオで複雑な推論タスクを適切に実行できません。

以下のクラリネットデュエットシーンに示されているように、「どのクラリネットが最初に鳴るか?」という質問に答えるには、まずオーディオビジュアルシーンで鳴るクラリネットを見つけ、タイミングの次元でどのクラリネットが最初に鳴るかに注目する必要があります。この質問に正しく答えるには、効果的なオーディオビジュアルシーン理解と時空間推論が基本的に必要です。

図1. AVQAタスクの質問の例

上記の例の場合、視覚モダリティに基づく VQA モデルのみを考慮すると、質問に含まれる音の情報を処理することが困難になります。逆に、音モダリティに基づく AQA モデルのみを考慮すると、質問に含まれる空間位置情報を処理することも困難になります。しかし、聴覚と視覚の両方の情報を使用することで、シーンを簡単に理解し、上記の質問に正しく答えることができることがわかります。

2. データセット

オーディオビジュアルシーン理解と時空間推論の問題をより深く探求するために、本研究では、質問応答タスクに焦点を当てた大規模なオーディオビジュアルデータセット(空間-時間音楽AVQA、MUSIC-AVQA)を構築しました。高品質のデータセットは、オーディオビジュアルの質問応答タスクの研究にとって非常に価値があることがわかっています。したがって、楽器演奏は典型的なオーディオビジュアルのマルチモーダルシーンであり、豊富なオーディオビジュアルコンポーネントとそれらの相互作用で構成されていることを考慮すると、オーディオビジュアルシーンの理解と推論タスクを調査するのに非常に適しています。そこで本研究では、YouTubeからユーザーがアップロードした多数の楽器演奏動画を収集した。構築したデータセットの動画には、ソロ、デュエット、アンサンブルなど、さまざまな演奏形式が含まれていた。具体的には、この研究では合計 22 種類の楽器 (ギター、ピアノ、二胡、スオナなど) を選択し、9 つの質問テンプレートを設計し、サウンド、ビジョン、オーディオビジュアルの 3 つの異なるモーダルシーン タイプをカバーしました。

表1 MUCIS-AVQAデータセットと他のQAデータセットの多次元比較

表1に示すように、本研究で公開されたMUSIC-AVQAデータセットには、次の利点があります。1) MUSIC-AVQAデータセットは、音声質問、視覚質問、オーディオビジュアル質問の多数の質問と回答のペアをカバーしており、他の質問応答データセットよりも包括的で豊富です。ほとんどの質問応答タスクデータセット(ActivityNet-QA、TVQA など)には視覚的な質問のみが含まれているため、オーディオビジュアル関連の研究を調査することが困難です。既存の AVQA データセット (AVSD、Pano-AVQA など) もオーディオとビジュアルの質問と回答のペアを提供していますが、回答に空間的な推論のみを必要とする比較的単純な質問 (存在や場所) に重点を置いています。 2) MUSIC-AVQAデータセットは、豊富なオーディオビジュアルコンポーネントを備えた楽器演奏シーンで構成されており、オーディオビジュアルインタラクションシーンの理解と推論をよりよく研究するのに役立ち、シーン内のノイズの問題をある程度回避できます。ほとんどの公開された質問応答データセット (ActivityNet-QA、AVSD など) のサウンド情報は、通常、視覚的な情報と一致せず、大きなノイズ (バックグラウンド ミュージックなど) を生成するため、異なるモダリティ間の関連性を調べることが困難になります。さらに、TVQA データセットには視覚と音声のモダリティが含まれていますが、その音声は人間の音声で構成されており、質問と回答のペアを構築するプロセスでは対応する字幕情報のみが使用されます。これは、真のオーディオとビジュアルの相関シナリオではありません。

最終的なデータセットには 9,288 本のビデオが含まれており、22 種類の楽器が含まれ、合計再生時間は 150 時間を超えます。さらに、クラウドソーシングの形で 45,867 の質問と回答のペアが生成され、平均して 1 つのビデオあたり約 5 つの質問と回答のペアが生成されました。これらの質問と回答のペアは、異なるモダリティの 9 種類の質問と 33 の異なる質問テンプレートをカバーしていました。豊富で多様かつ複雑なデータセットは、AVQA タスクの研究にとって大きな価値と意義を持っています。

図2 MUSIC-AVQAデータセットの多次元統計解析

3. モデル手法

上記の AVQA タスクを解決するために、本研究では、空間的および時間的知覚の観点から、動的な視聴覚シーンにおける時空間的な質問応答モデルを提案しました (下図を参照)。

  • まず、音の位置とその視覚的ソースは、視聴覚様式間の空間的関連性を反映し、複雑なシーンを特定の視聴覚関連性に分解するのに役立ちます。そこで本研究では、この異感覚関連性をシミュレートするために、注意メカニズムに基づいた音源定位のための空間モジュールを提案した。
  • 第二に、オーディオビジュアルシーンは時間の経過とともに動的に変化するため、問題に密接に関連する重要なタイムスタンプをキャプチャして強調表示することが重要です。したがって、本研究では、質問の特徴をクエリとして使用し、重要な時間セグメントに焦点を当てて、質問を考慮したオーディオとビジュアルの埋め込みを効果的にエンコードする時間基準モジュールを提案します。
  • 最後に、上記の空間認識型および時間認識型のオーディオビジュアル機能を融合して、質問と回答の共同表現を取得し、ビデオ関連の質問に対する回答を予測します。

図3. 動的なオーディオビジュアルシーンのための空間的・時間的質問応答モデル

4. 実験結果

表 2 に示すように、オーディオおよびビジュアル モダリティ情報の導入により、モデルのパフォーマンスが向上します。さらに、オーディオとビジュアルのモダリティを組み合わせると、AV+Q モデルのパフォーマンスが A+Q モデルや V+Q モデルよりもはるかに優れていることがはっきりとわかります。これは、多感覚知覚が質問応答タスクのパフォーマンスの向上に役立つことを示しています。また、オーディオビジュアル空間関連モジュールと時間関連モジュールによってモデルのパフォーマンスが大幅に向上し、シーンをよりよく理解できることもわかります。

表2 異なるモダリティのアブレーション実験

表 3 は、MUSIC-AVQA データセットに対する最近のいくつかの QA 手法の結果を示しています。結果は、まず、すべての AVQA 方法が VQA、AQA、および VideoQA 方法よりも優れていることを示しており、これはマルチモーダル知覚が AVQA タスクにメリットをもたらす可能性があることを示しています。第二に、この研究で使用された方法は、ほとんどのオーディオビジュアル問題、特に空間的および時間的推論(時間や位置の特定など)を必要とする問題において、大きな進歩を遂げました。

表3 他のQA方法との比較

提案されたモデルの有効性と解釈可能性をさらに説明するために、本研究ではいくつかの視覚化表示を実施しました。ヒートマップは音源の位置を示し、ヒートマップの下の表は時系列での注目スコアを示します。視覚化結果から、提案されたモデルがマルチモーダルなオーディオビジュアルシナリオにおいて優れた理解力と推論力を備えていることは明らかです。

図4 可視化結果

5. 概要

全体として、この論文では、ビデオ内のさまざまな視覚オブジェクト、サウンド、およびそれらの関連性に関する質問に答える方法を検討し、それによって動的で複雑なオーディオビジュアルシーンについてのきめ細かい理解と推論を可能にします。著者チームは、異なるオーディオビジュアル モダリティと複数の質問タイプの 45,867 の質問と回答のペアを含む大規模な MUSIC-AVQA データセットを構築し、AVQA 問題をうまく解決するためのシンプルで効率的なオーディオビジュアル時空間モデルを提案しました。この研究では、提案された MUSIC-AVQA データセットが、視聴覚シーンのきめ細かな理解と時空間推論を評価するためのベンチマーク プラットフォームになると考えています。また、この研究は視聴覚推論の探求の始まりであり、この分野で良いスタートを切ったと考えています。この研究が、より多くの研究者に刺激を与え、私たちと一緒にこの分野を探求してくれることを願っています。

チームは主に人民大学AI学院出身者です

この研究は中国人民大学高陵人工知能学院が主導し、米国ロチェスター大学と共同で完了しました。責任著者はGeWu研究室のHu Di助教授で、主な内容はGeWu研究室の博士課程学生Li Guangyaoが主導しました。

GeWu研究室の現在の具体的な研究方向は、主にマルチモーダルシーン理解、マルチモーダル学習メカニズム、クロスモーダルインタラクションと生成などです。過去6か月間、研究室の学生はTPAMI(人工知能分野で最もインパクトファクターの高いジャーナル、IF=17.861)や複数のCVPR(すべて口頭発表)など、多くの高品質の論文を発表しました。

PS: 研究者は、一般的に使用されているマルチモーダル モデルには、特定のシナリオにおける別の支配的なモダリティによって引き起こされる、最適ではないユニモーダル表現があることを発見しました。この目的のために、研究者らは、学習目標に対する異なるモダリティの貢献の違いを監視することで各モダリティの最適化を適応的に調整し、最適化の不均衡を軽減する OGM-GE 法を設計しました。この研究はCVPR2022でも口頭発表として採択されており、具体的な内容については今後のリリースで説明される予定です。

また、葛武研究室では、上記の研究方向に興味のある学生(学部生、修士課程、博士課程、訪問学生)の参加を歓迎しています。詳細は研究室募集案内(https://zhuanlan.zhihu.com/p/496452639)をご覧ください。

<<:  失礼ながら、モデルはプロンプトが何を言っているのか理解できない可能性があります。

>>:  インテリジェントオートメーションが現代の職場に与える影響

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ICLRは深層生成モデルに関する大きな議論を開催し、ウェリングとAAAIの百万ドル賞受賞者が来場する。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

C++ kmp アルゴリズム テンプレート コード解釈

C++ プログラミング言語でのテンプレートの適用は、比較的複雑な適用技術です。今日は、C++ kmp...

調査によると、AIはデータ文化に大きな影響を与えている

2023年はGenAIの年ですが、GenAI(生成型人工知能)の採用率は期待に応えていません。ほとん...

...

異常検出のためのいくつかのグラフ分割アルゴリズム

セキュリティ分野では、アカウント取引の異常や異なるイベント間の相関関係など、さまざまなシナリオで「グ...

...

GPT-2を使ってGPT-4を監督し、AIが人類を滅ぼすのを防ぐ?OpenAI Ilya Super Alignmentチームの最初の論文が発表される

たった今、OpenAI のチーフサイエンティスト Ilya が率いるスーパーアライメントチームが設立...

自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド

シーケンスモデルにおけるHMM(隠れマルコフモデル)を習得した後は、別のシーケンスモデルであるCRF...

コンテンツ管理と AI – ContentOps の未来

人工知能 (AI) は、退屈な日常的な作業を一つずつこなして世界を席巻しています。 AI を使用して...

中国の大学はいかにして「新世代の人工知能」をリードできるのか?

教育省は最近、「高等教育機関における人工知能イノベーションのための行動計画」を発行しました。計画によ...

ILO: 生成型AIは大量失業を引き起こす可能性は低いが、雇用を創出するだろう

国連機関である国際労働機関は最近、ChatGPTのような生成AIが人間の間で大規模な失業を引き起こす...

...

私たちは人工知能をどれほど深く誤解しているのか

[[320546]]人工知能技術には良い影響と悪い影響の両方があり、人類に利益をもたらす一方で、さま...

LSTM の父は Llama 2 に中傷されて激怒しました。メタは32年前にアイデアトレーニングモデルを盗用し、ルカンに責任を求めた。

LSTM の父はまた機嫌が悪いです!何が起こっているのか?今日、ユルゲン・シュミットフーバー氏はソ...