クロスモーダルメタトランスファーに基づく、Meituと大連理工大学の参照ビデオオブジェクトセグメンテーション方法は、1つのステージのみを必要とする。

クロスモーダルメタトランスファーに基づく、Meituと大連理工大学の参照ビデオオブジェクトセグメンテーション方法は、1つのステージのみを必要とする。

導入

参照ビデオ オブジェクト セグメンテーション (RVOS) は、参照テキストに基づいてビデオ シーケンスで参照されるオブジェクトをセグメント化することを目的とした新しいタスクです。半教師ありビデオオブジェクトセグメンテーションと比較すると、RVOS はピクセルレベルの参照マスクではなく抽象的な言語記述のみに依存しているため、人間とコンピューターの相互作用にとってより便利なオプションを提供し、幅広い注目を集めています。

論文リンク: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

この研究の主な目的は、既存の RVOS ミッションが直面している 2 つの大きな課題に対処することです。

  • 2 つのモダリティ間のスケールの一貫性を維持し、テキストによって提供される有用な機能参照を画像機能に完全に統合できるように、モダリティ間でテキスト情報と画像情報を統合する方法。
  • 既存の方法の 2 段階戦略 (つまり、最初に画像レベルでフレームごとに大まかな結果を取得し、その結果を参照として使用し、強化された時間情報の構造的改良を通じて最終的な予測を取得する) を放棄し、RVOS タスク全体を 1 段階のフレームワークに統合する方法。

この点に関して、本研究では、クロスモーダルメタ転送のためのエンドツーエンドのRVOSフレームワークであるYOFOを提案しました。その主な貢献と革新は次のとおりです。

  • 1 段階の推論のみで、参照テキスト情報を使用して、ビデオ ターゲットのセグメンテーション結果を直接取得できます。2 つの主流データセットである Ref-DAVIS2017 と Ref-Youtube-VOS で得られた結果は、現在のすべての 2 段階の方法を超えています。
  • 時間情報を強化し、ターゲットに重点を置いた特徴学習を実現するために、メタ転送モジュールが提案されています。
  • 言語と画像の有用な特徴を完全に統合できる、マルチスケールのクロスモーダル特徴マイニング モジュールが提案されています。

実装戦略

YOFO フレームワークの主なプロセスは次のとおりです。入力画像とテキストは、まずそれぞれ画像エンコーダーと言語エンコーダーを介して抽出され、次にマルチスケール クロスモーダル特徴マイニング モジュールで融合されます。融合されたバイモーダル特徴は、言語特徴の冗長情報を排除するためのメモリバンクを含むメタ転送モジュールで簡素化されます。同時に、タイミング情報は保存され、時間的相関が強化されます。最後に、デコーダーを通じてセグメンテーション結果が得られます。

図 1: YOFO フレームワークの主なプロセス。

マルチスケール クロスモーダル特徴マイニング モジュール: このモジュールは、異なるスケールの 2 つのモーダル特徴を徐々に融合することで、画像特徴によって伝えられるスケール情報と言語特徴の間の一貫性を維持できます。さらに重要なことは、融合プロセス中に言語情報がマルチスケール画像情報によって薄められたり、埋もれたりしないことを保証することです。

図 2: マルチスケール クロスモーダル特徴マイニング モジュール。

メタ転送モジュール: 学習学習戦略が採用されており、プロセスは次のマッピング関数として簡単に記述できます。伝達関数は畳み込みであり、その畳み込みカーネル パラメータは次のとおりです。

最適化プロセスは、次の目的関数として表現できます。

このうち、M は履歴情報を保存できるメモリ バンクを表し、W は特徴内の異なる位置に異なる注意を向けることができる異なる位置の重みを表し、Y はメモリ バンクに保存されている各ビデオ フレームのバイモーダル特徴を表します。この最適化プロセスにより、メタ転送関数はバイモーダル特徴を可能な限り再構築できるようになり、同時にフレームワーク全体をエンドツーエンドでトレーニングすることも可能になります。

トレーニングとテスト: トレーニングで使用される損失関数は lovasz 損失です。トレーニング セットは、2 つのビデオ データセット Ref-DAVIS2017 と Ref-Youtube-VOS です。静的データセット Ref-COCO は、ランダム アフィン変換を実行してビデオ データを補助トレーニングとしてシミュレートするために使用されます。メタ転送プロセスはトレーニングと予測の両方で実行され、ネットワーク全体は 1080ti で 10FPS で実行されます。

実験結果

この研究で使用された方法は、2 つの主流の RVOS データセット (Ref-DAVIS2017 と Ref-Youtube-VOS) で優れた結果を達成しました。定量的指標といくつかの視覚化効果図は次のとおりです。

図 3: 2 つの主流データセットにおける定量的指標。

図 4: VOS データセットの視覚化結果。

図 5: YOFO のその他の視覚化効果。

この研究では、一連のアブレーション実験を使用して、特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性も示しています。

図 6: 特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性。

さらに、この研究では、MT モジュールの有無によるデコーダー出力の特徴を視覚化しており、MT モジュールが言語で記述されたコンテンツを正しくキャプチャし、干渉ノイズを除去できることが明確にわかります。

図 7: MT モジュール使用前後のデコーダー出力機能の比較。研究チームについて

この論文は、Meitu Imaging Research Institute (MT Lab) の研究者と大連理工大学の Lu Huchuan 氏のチームによって共同で提案されました。 Meitu Imaging Research Institute (MT Lab) は、Meitu Inc. のチームであり、コンピューター ビジョン、機械学習、拡張現実、クラウド コンピューティングの分野でアルゴリズムの研究、エンジニアリング開発、製品実装に取り​​組んでいます。Meitu の既存および将来の製品にコア アルゴリズムのサポートを提供し、最先端技術を通じて Meitu 製品の開発を促進しています。「Meitu Technology Center」として知られる MT Lab は、CVPR、ICCV、ECCV などのトップクラスの国際コンピューター ビジョン カンファレンスに参加し、10 回以上の優勝と準優勝を獲得しています。

<<:  ジェフ・ディーン氏は自身の研究に対する批判に答える。「我々は新しいSOTAを取得しようとしているわけではなく、コスト計算は間違っている」

>>:  人間の知能と人工知能:どちらが優れているのでしょうか?

ブログ    

推薦する

AIOps の実装を公開! 3 人の WOT エキスパートが AIOps を実現する方法をご覧ください

[51CTO.comよりオリジナル記事] 6月21日、WOT2019グローバル人工知能技術サミットが...

カーネルCF: 推薦システムのための最適リコール戦略

著者 | 王昊レビュー | Chonglouレコメンデーションシステムは誕生以来、特にインターネット...

...

清華大学:過去10年間の人工知能の発展の概要:中国は急速な進歩を遂げ、その特許は世界の70%を占める

1. 急速な発展の10年1. 論文の発表状況<br /> 人工知能は過去10年間で急速に...

アルゴリズムの知識を学ばずに Java 開発を学ぶことは可能ですか?

まず、Java開発の分野でさらに進歩したい場合、または付加価値の高い仕事に就きたい場合は、Java開...

マルチモーダル生体認証の利点を分析した記事、急いでコード化しましょう!

今日の情報化時代において、個人の身元を正確に識別し、情報セキュリティを保護する方法は、あらゆる分野の...

ルカン氏の論文は「盗作」と非難されたのか? LSTMの父は怒りの投稿を投稿しました:私をコピーした人はオリジナルにもマークを付けてください

チューリング賞を受賞したヤン・ルカンは、AI分野の三大巨頭の一人です。当然ながら、彼が発表した論文は...

自動運転のベテラン、UberのためにGoogleの機密文書14,000件を盗んだとして訴えられる

[[275279]]アンソニー・レヴァンドウスキーはシリコンバレーのスターエンジニアです。自動運転技...

AIと機械学習がSaaS業界にどのような変化をもたらすか

GlobalDots の CTO である Yair Green 氏が、人工知能と機械学習がサービスと...

今後5年間の産業AIの8つの主要な発展トレンド

ChatGPT と生成型人工知能 (AI) が世間の注目を集めるようになり、突如として世界で最も議論...

...

Jarvis はビッグデータ分析の将来にどのように貢献するのでしょうか?

[[187947]] 2017 年の最初の 1 ~ 2 か月間、2017 年のテクノロジー トレン...

救世主か、それとも公敵か? 人工知能の現在と未来を説明する記事

囲碁チャンピオンのイ・セドルを破ったロボット「アルファ碁」から、卓球ができるKUKAロボット、遠隔手...

LLM にとってベクター データベースが重要なのはなぜですか?

翻訳者 |ブガッティレビュー | Chonglou Twitter 、 LinkedIn 、またはニ...

...