1 文でビデオ クリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

1 文でビデオ クリップを正確に見つけます。清華大学の新しい手法がSOTAを達成 | オープンソース

たった 1 文の説明で、長いビデオ内の対応するクリップを見つけることができます。

たとえば、人が階段を降りながら水を飲んでいる場合、新しい方法では、ビデオ画像と足音を照合することで、対応する開始タイムスタンプと終了タイムスタンプをすぐに見つけることができます。

意味的に難しい単語「笑う」でも正確に見つけることができます。

この方法は、 Adaptive Dual-Branch Promotion Network (ADPN) と呼ばれ、清華大学の研究チームによって提案されました。

具体的には、ADPN は、クエリ テキストに基づいてビデオから関連するセグメントを見つける、 Temporal Sentence Grounding (TSG)と呼ばれる視覚言語クロスモーダル タスクを完了するために使用されます。

ADPN の特徴は、ビデオ内の視覚的および音声的モダリティの一貫性補完性を効率的に活用して、ビデオ セグメントのローカリゼーション パフォーマンスを向上できることです。

PMI-LOC や UMT などのオーディオを使用する他の TSG 作業と比較して、ADPN メソッドはオーディオ モダリティからより大幅なパフォーマンスの向上を実現し、複数のテストで新しい SOTA 結果を達成しました。

この作業は ACM Multimedia 2023 に受け入れられ、完全にオープンソースになりました。

ADPN とは何かを見てみましょう。

1文ポジショニングビデオクリップ

Temporal Sentence Grounding (TSG)は、重要な視覚言語クロスモーダルタスクです。

その目的は、自然言語クエリに基づいて、未編集のビデオ内の意味的に一致するセグメントの開始タイムスタンプと終了タイムスタンプを見つけることであり、そのためには、強力な時間的クロスモーダル推論機能を備えた方法が必要です。

しかし、既存の TSG 手法のほとんどは、RGB、オプティカルフロー深度などのビデオ内の視覚情報のみを考慮し、ビデオに自然に伴うオーディオ情報は無視しています。

下の図に示すように、オーディオ情報には豊富なセマンティクスが含まれていることが多く、視覚情報と一貫性があり、補完的です。これらの特性は TSG タスクに役立ちます。

△図1

(a) 一貫性: ビデオ映像と足音は、クエリの「階段を降りる」というセマンティクスと一貫して一致しています。(b) 相補性: ビデオ映像内の特定の動作を特定して、クエリの「笑う」というセマンティクスを特定することは困難ですが、笑いの出現は強力な相補的ポジショニングの手がかりを提供します。

そのため、研究者は、視覚と音声の両方のモダリティからより適切に位置特定手がかりを捉えることを目指して、音声強化テンポラル・センテンス・グラウンディング(ATSG)タスクに関する徹底的な研究を行ってきました。しかし、音声モダリティの導入には、次のような課題も伴います。

  • オーディオとビジュアルのモダリティの一貫性と補完性はクエリ テキストに関連付けられているため、オーディオとビジュアルの一貫性と補完性をキャプチャするには、テキスト、ビジュアル、オーディオの 3 つのモダリティの相互作用をモデル化する必要があります。
  • 音声と視覚の間には、情報密度やノイズ強度が異なるなど、大きなモダリティの違いがあり、それが視聴覚学習のパフォーマンスに影響を与えます。

上記の課題に対処するために、研究者らは新しい ATSG 方式「適応型デュアルブランチプロンプトネットワーク」(ADPN)を提案しました。

この方法は、デュアルブランチモデル構造設計を通じて、オーディオとビジョン間の一貫性と補完性を適応的にモデル化し、カリキュラム学習ベースのノイズ除去最適化戦略を使用してオーディオモードノイズの干渉をさらに排除し、ビデオ検索におけるオーディオ信号の重要性を明らかにします。

ADPN の全体構造を下図に示します。

△ 図2: 適応型デュアルブランチプロモーションネットワーク(ADPN)の全体図

主に次の 3 つのデザインが含まれます。

1. デュアルブランチネットワーク構造設計

オーディオノイズはより顕著であり、オーディオには通常TSGタスクに対する冗長な情報が多く含まれていることを考慮すると、オーディオと視覚のモダリティの学習プロセスに異なる重要性を与える必要があります。したがって、この論文では、マルチモーダル学習にオーディオと視覚を使用しながら視覚情報を強化するデュアルブランチネットワーク構造につ​​いて説明します。

具体的には、図2(a)に示すように、ADPNは視覚情報のみを使用するブランチ(視覚ブランチ)と視覚情報と音声情報の両方を使用するブランチ(ジョイントブランチ)を同時にトレーニングします。

2 つのブランチは類似した構造を持ち、ジョイント ブランチではテキスト ガイド クルー マイニング ユニット(TGCM)を追加して、テキスト、ビジュアル、オーディオ モダリティの相互作用をモデル化します。トレーニング プロセス中、2 つのブランチは同時にパラメーターを更新し、結合ブランチの結果は推論フェーズでのモデル予測結果として使用されます。

2. テキストガイド付き手がかりマイナー(TGCM)

オーディオとビジュアルのモダリティの一貫性と補完性が特定のテキストクエリに条件付けられていることを考慮して、研究者は、テキスト、ビジュアル、オーディオの 3 つのモダリティ間の相互作用をモデル化する TGCM ユニットを設計しました。

図2(b)を参照すると、TGCMは「抽出」と「伝播」の2つのステップに分かれています。

まず、テキストをクエリ条件として使用し、視覚と聴覚モダリティから関連情報を抽出して統合します。次に、視覚と聴覚モダリティをクエリ条件として使用し、統合された情報をアテンションを通じて視覚と聴覚モダリティに伝播します。最後に、FFNを使用して特徴融合を実行します。

3. コース学習最適化戦略

研究者らは、音声にノイズが含まれており、それがマルチモーダル学習の効果に影響を与えることを観察しました。そのため、ノイズの強度をサンプルの難易度の基準として使用し、最適化プロセスのノイズを除去するためにカリキュラム学習 (CL)を導入しました (図 2(c) を参照)。

彼らは、2 つのブランチの予測出力の差に基づいてサンプルの難易度を評価しました。難しすぎるサンプルは、オーディオにノイズが多すぎて TSG タスクに適していないことを示している可能性が高いと考えたためです。そのため、サンプルの難易度の評価スコアに基づいてトレーニング プロセスの損失関数の項に再重み付けを行い、オーディオ ノイズによって生じた悪い勾配を排除することを目指しました。

(残りのモデル構造とトレーニングの詳細については、元の論文を参照してください。)

新しいSOTAの複数のテスト

研究者らは、TSGタスクのベンチマークデータセットであるCharades-STAとActivityNet Captionsで実験的評価を実施しました。ベースライン手法との比較は表1に示されています。

ADPN メソッドは SOTA パフォーマンスを達成できます。特に、オーディオ、PMI-LOC、UMT を使用した他の TSG 作業と比較して、ADPN メソッドはオーディオ モダリティからより大幅なパフォーマンスの向上を実現しており、これはオーディオ モダリティを使用した TSG の促進における ADPN メソッドの優位性を示しています。

△表1: Charades-STAとActivityNet Captionsの実験結果

研究者らはさらに、表 2 に示すように、アブレーション実験を通じて ADPN のさまざまな設計ユニットの有効性を実証しました。

△ 表2: Charades-STAでのアブレーション実験

研究者らは、いくつかのサンプルの予測結果を選択して視覚化し、TGCM の「抽出」ステップにおける「テキストから視覚へ」(T→V) と「テキストから音声へ」(T→A) の注目度分布をプロットしました (図 3 を参照)。

オーディオモダリティの導入により予測結果が改善されることがわかります。 「人はそれを笑う」のケースでは、T→Aの注目度重み分布がGround Truthに近いことがわかり、T→Vの注目度重み分布によるモデル予測のミスリードが修正されます。

△ 図3:ケース表示

要約すると、オーディオ強化ビデオセグメントローカリゼーション(ATSG)問題を解決するための新しい適応型デュアルブランチブースティングネットワーク(ADPN)を提案します。

彼らは、視覚ブランチと視聴覚ブランチを共同でトレーニングし、音声と視覚のモダリティ間の情報の違いに対処するための 2 ブランチ モデル構造を設計しました。

彼らはまた、テキストセマンティクスをガイドとして使用してテキストとオーディオとビジュアルの相互作用をモデル化するためのテキストガイド手がかりマイニングユニット(TGCM)を提案しました。

最後に、研究者らは、オーディオノイズをさらに除去し、ノイズ強度の尺度としてサンプルの難易度を自己認識的に評価し、最適化プロセスを適応的に調整するためのカリキュラム学習ベースの最適化戦略を設計しました。

彼らはまず、オーディオ モダリティのパフォーマンス向上効果をさらに高めるために、ATSG のオーディオの特性について詳細な調査を実施しました。

将来的には、この分野でのさらなる研究を促進するために、ATSG のより適切な評価ベンチマークを構築したいと考えています。

論文リンク: https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
リポジトリリンク: https://github.com/hlchen23/ADPN-MM

<<:  引退した中国人女性のAIによるイラストがWeiboで話題に! 「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

小度が「画期的な」新製品を百度世界2020で初公開、CCTVと提携してスマートライフの全貌を披露

「小都小都」、「私はここにいます」 - 数百万の家族と小都の間の日常会話のシーンがCCTVニュースス...

あなたのリモート従業員は本当に彼自身でしょうか? FBI、ディープフェイクを悪用する求職者を明らかに

ディープフェイクの世界では、真実と虚偽を区別することが難しい場合があります。 AIアルゴリズム「ディ...

ガートナー 2019 人工知能成熟サイクルのトレンド

このガートナーのハイプサイクルは、AIが企業に及ぼすさまざまな影響を強調しています。ガートナーの 2...

データ駆動型パーソナライゼーションの時代: AI と ML がデータの読み取りと理解の方法をどのように変えているのか

今日のビジネスはデータとデータに基づく理解によって支配されています。データをどのように理解し、それを...

トヨタ・リサーチ・インスティテュート、AIを活用した自動車設計ツールを発表

トヨタ・リサーチ・インスティテュートは、この新しい革新的な生成AIツールにより、デザイナーは効率的か...

...

「新世代人工知能倫理規定」が発表:人工知能のライフサイクル全体に統合し、データプライバシーのセキュリティとアルゴリズムの倫理に重点を置く

9月26日、国家新世代人工知能ガバナンス専門委員会は「新世代人工知能倫理規範」(以下、「規範」という...

AI = ニューラルネットワーク?これら 8 つのテクニックはそうではありません!

[[226709]]ビッグデータ概要翻訳者:Fu Yiyang、Ding Hui、Aileen A...

XML暗号化アルゴリズムが解読され、W3C標準が改訂される

シカゴで開催された ACM コンピュータおよび通信セキュリティ会議で、2 人のドイツ人研究者が、ワー...

MorphNetは、ニューラルネットワークをより高速、小型、効率的にするモデル最適化技術です。

特定のタスクを実行するためにニューラル ネットワークを調整したいですか?この問題は想像したほど単純で...

GoogleのReCaptchaシステムが破られ、機械音声認証の精度は85%に達した

米国のメリーランド大学の研究者4人が、GoogleのキャプチャシステムReCaptchaを解読できる...

テクスチャコントラスト検出を使用してAI生成画像を検出する

この記事では、AI によって生成された画像を検出するためのディープラーニング モデルを開発する方法に...

PyTorch はどのようにしてデータ並列トレーニングを高速化するのでしょうか?分散型チートが明らかに

[[333298]]現在、チップのパフォーマンスの向上は限られているため、分散トレーニングは超大規模...

不動産会社のデジタル変革は差し迫っています。これらの AI イノベーションは試してみる価値があるかもしれません。

不動産会社のデジタル変革は差し迫っています。試してみるべき革新的な方法をいくつかご紹介します。今日の...