1 文でビデオ クリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

1 文でビデオ クリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

たった 1 文の説明で、長いビデオ内の対応するクリップを見つけることができます。

たとえば、人が階段を降りながら水を飲んでいる場合、新しい方法では、ビデオ画像と足音を照合することで、対応する開始タイムスタンプと終了タイムスタンプをすぐに見つけることができます。

意味的に難しい単語「笑う」でも正確に見つけることができます。

この方法は、 Adaptive Dual-Branch Promotion Network (ADPN) と呼ばれ、清華大学の研究チームによって提案されました。

具体的には、ADPN は、クエリ テキストに基づいてビデオから関連するセグメントを見つける、 Temporal Sentence Grounding (TSG)と呼ばれる視覚言語クロスモーダル タスクを完了するために使用されます。

ADPN の特徴は、ビデオ内の視覚的および音声的モダリティの一貫性補完性を効率的に活用して、ビデオ セグメントのローカリゼーション パフォーマンスを向上できることです。

PMI-LOC や UMT などのオーディオを使用する他の TSG 作業と比較して、ADPN メソッドはオーディオ モダリティからより大幅なパフォーマンスの向上を実現し、複数のテストで新しい SOTA 結果を達成しました。

この作業は ACM Multimedia 2023 に受け入れられ、完全にオープンソースになりました。

ADPN とは何かを見てみましょう。

1文ポジショニングビデオクリップ

Temporal Sentence Grounding (TSG)は、重要な視覚言語クロスモーダルタスクです。

その目的は、自然言語クエリに基づいて、未編集のビデオ内の意味的に一致するセグメントの開始タイムスタンプと終了タイムスタンプを見つけることであり、そのためには、強力な時間的クロスモーダル推論機能を備えた方法が必要です。

しかし、既存の TSG 手法のほとんどは、RGB、オプティカルフロー深度などのビデオ内の視覚情報のみを考慮し、ビデオに自然に伴うオーディオ情報は無視しています。

下の図に示すように、オーディオ情報には豊富なセマンティクスが含まれていることが多く、視覚情報と一貫性があり、補完的です。これらの特性は TSG タスクに役立ちます。

△図1

(a) 一貫性: ビデオ映像と足音は、クエリの「階段を降りる」というセマンティクスと一貫して一致しています。(b) 相補性: ビデオ映像内の特定の動作を特定して、クエリの「笑う」というセマンティクスを特定することは困難ですが、笑いの出現は強力な相補的ポジショニングの手がかりを提供します。

そのため、研究者は、視覚と音声の両方のモダリティからより適切に位置特定手がかりを捉えることを目指して、音声強化テンポラル・センテンス・グラウンディング(ATSG)タスクに関する徹底的な研究を行ってきました。しかし、音声モダリティの導入には、次のような課題も伴います。

  • オーディオとビジュアルのモダリティの一貫性と補完性はクエリ テキストに関連付けられているため、オーディオとビジュアルの一貫性と補完性をキャプチャするには、テキスト、ビジュアル、オーディオの 3 つのモダリティの相互作用をモデル化する必要があります。
  • 音声と視覚の間には、情報密度やノイズ強度が異なるなど、大きなモダリティの違いがあり、それが視聴覚学習のパフォーマンスに影響を与えます。

上記の課題に対処するために、研究者らは新しい ATSG 方式「適応型デュアルブランチプロンプトネットワーク」(ADPN)を提案しました。

この方法は、デュアルブランチモデル構造設計を通じて、オーディオとビジョン間の一貫性と補完性を適応的にモデル化し、カリキュラム学習ベースのノイズ除去最適化戦略を使用してオーディオモードノイズの干渉をさらに排除し、ビデオ検索におけるオーディオ信号の重要性を明らかにします。

ADPN の全体構造を下図に示します。

△ 図2: 適応型デュアルブランチプロモーションネットワーク(ADPN)の全体図

主に次の 3 つのデザインが含まれます。

1. デュアルブランチネットワーク構造設計

オーディオノイズはより顕著であり、オーディオには通常TSGタスクに対する冗長な情報が多く含まれていることを考慮すると、オーディオと視覚のモダリティの学習プロセスに異なる重要性を与える必要があります。したがって、この論文では、マルチモーダル学習にオーディオと視覚を使用しながら視覚情報を強化するデュアルブランチネットワーク構造につ​​いて説明します。

具体的には、図2(a)に示すように、ADPNは視覚情報のみを使用するブランチ(視覚ブランチ)と視覚情報と音声情報の両方を使用するブランチ(ジョイントブランチ)を同時にトレーニングします。

2 つのブランチは類似した構造を持ち、ジョイント ブランチではテキスト ガイド クルー マイニング ユニット(TGCM)を追加して、テキスト、ビジュアル、オーディオ モダリティの相互作用をモデル化します。トレーニング プロセス中、2 つのブランチは同時にパラメーターを更新し、結合ブランチの結果は推論フェーズでのモデル予測結果として使用されます。

2. テキストガイド付き手がかりマイナー(TGCM)

オーディオとビジュアルのモダリティの一貫性と補完性が特定のテキストクエリに条件付けられていることを考慮して、研究者は、テキスト、ビジュアル、オーディオの 3 つのモダリティ間の相互作用をモデル化する TGCM ユニットを設計しました。

図2(b)を参照すると、TGCMは「抽出」と「伝播」の2つのステップに分かれています。

まず、テキストをクエリ条件として使用し、視覚と聴覚モダリティから関連情報を抽出して統合します。次に、視覚と聴覚モダリティをクエリ条件として使用し、統合された情報をアテンションを通じて視覚と聴覚モダリティに伝播します。最後に、FFNを使用して特徴融合を実行します。

3. コース学習最適化戦略

研究者らは、音声にノイズが含まれており、それがマルチモーダル学習の効果に影響を与えることを観察しました。そのため、ノイズの強度をサンプルの難易度の基準として使用し、最適化プロセスのノイズを除去するためにカリキュラム学習 (CL)を導入しました (図 2(c) を参照)。

彼らは、2 つのブランチの予測出力の差に基づいてサンプルの難易度を評価しました。難しすぎるサンプルは、オーディオにノイズが多すぎて TSG タスクに適していないことを示している可能性が高いと考えたためです。そのため、サンプルの難易度の評価スコアに基づいてトレーニング プロセスの損失関数の項に再重み付けを行い、オーディオ ノイズによって生じた悪い勾配を排除することを目指しました。

(残りのモデル構造とトレーニングの詳細については、元の論文を参照してください。)

新しいSOTAの複数のテスト

研究者らは、TSGタスクのベンチマークデータセットであるCharades-STAとActivityNet Captionsで実験的評価を実施しました。ベースライン手法との比較は表1に示されています。

ADPN メソッドは SOTA パフォーマンスを達成できます。特に、オーディオ、PMI-LOC、UMT を使用した他の TSG 作業と比較して、ADPN メソッドはオーディオ モダリティからより大幅なパフォーマンスの向上を実現しており、これはオーディオ モダリティを使用した TSG の促進における ADPN メソッドの優位性を示しています。

△表1: Charades-STAとActivityNet Captionsの実験結果

研究者らはさらに、表 2 に示すように、アブレーション実験を通じて ADPN のさまざまな設計ユニットの有効性を実証しました。

△ 表2: Charades-STAでのアブレーション実験

研究者らは、いくつかのサンプルの予測結果を選択して視覚化し、TGCM の「抽出」ステップにおける「テキストから視覚へ」(T→V) と「テキストから音声へ」(T→A) の注目度分布をプロットしました (図 3 を参照)。

オーディオモダリティの導入により予測結果が改善されることがわかります。 「人はそれを笑う」のケースでは、T→Aの注目度重み分布がGround Truthに近いことがわかり、T→Vの注目度重み分布によるモデル予測のミスリードが修正されます。

△ 図3:ケース表示

要約すると、オーディオ強化ビデオセグメントローカリゼーション(ATSG)問題を解決するための新しい適応型デュアルブランチブースティングネットワーク(ADPN)を提案します。

彼らは、視覚ブランチと視聴覚ブランチを共同でトレーニングし、音声と視覚のモダリティ間の情報の違いに対処するための 2 ブランチ モデル構造を設計しました。

彼らはまた、テキストセマンティクスをガイドとして使用してテキストとオーディオとビジュアルの相互作用をモデル化するためのテキストガイド手がかりマイニングユニット(TGCM)を提案しました。

最後に、研究者らは、オーディオノイズをさらに除去し、ノイズ強度の尺度としてサンプルの難易度を自己認識的に評価し、最適化プロセスを適応的に調整するためのカリキュラム学習ベースの最適化戦略を設計しました。

彼らはまず、オーディオ モダリティのパフォーマンス向上効果をさらに高めるために、ATSG のオーディオの特性について詳細な調査を実施しました。

将来的には、この分野でのさらなる研究を促進するために、ATSG のより適切な評価ベンチマークを構築したいと考えています。

論文リンク: https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
リポジトリリンク: https://github.com/hlchen23/ADPN-MM

<<:  引退した中国人女性のAIによるイラストがWeiboで話題に! 「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

>>: 

ブログ    
ブログ    

推薦する

人工知能の将来の動向

人工知能 (AI) が普及し、人生を変えるような意思決定に組み込まれるようになるにつれて、透明性の必...

人工知能はますますあらゆる分野に浸透しつつある

近年、人工知能技術は急速に発展し、ますます多くの分野でその急速な発展の勢いと大きな可能性を発揮してい...

データ サイエンティストまたは AI エンジニアになるために独学するにはどうすればよいでしょうか?これらの9つのポイントを克服する必要があります

誰もが教室でデータサイエンス、人工知能、機械学習を学ぶ時間があるわけではありませんし、誰もがこれらの...

人工知能に関するTEDトークトップ10

この一連の講演では、人工知能 (AI) と機械学習に関する興味深い議論やセッションを「全体像」の観点...

...

...

機械学習を使用してデータクレンジングを自動化する方法

調査会社ガートナーが最近発表した調査レポートによると、40%の企業がデータ品質の低さのためにビジネス...

マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

新興技術のデジタル時代において、大規模言語モデル (LLM) は、人間社会と文化の多くの側面に革命を...

...

2020年の人工知能の概要と2021年のトレンド

過去2年間、中国は世界の継続的なイノベーションの最前線に立ってきました。2020年の疫病は、人工知能...

ロボット工学の未来:人間とロボットのコラボレーション

IoT テクノロジー、ロボット、人間が相互運用されると、高度なロボット機能が実現され、新しいアプリケ...

...

3行のコードで損失なく40%高速化、You YangチームのAIトレーニングアクセラレータがICLR口頭発表論文に選出

プルーニングを使用すると、AI トレーニングを高速化し、ロスレス操作を実現できます。わずか 3 行の...

AIプロジェクトが失敗する6つの理由

人工知能が人間の生活と市場に与える影響は計り知れません。世界経済統計によると、人工知能は2030年ま...

人工知能システム:無制限の核融合反応を現実のものに

近年、研究者らはトカマクの停止や損傷の原因となる核分裂反応を研究している。核分裂反応を予測・制御でき...