導入参照ビデオ オブジェクト セグメンテーション (RVOS) は、参照テキストに基づいてビデオ シーケンスで参照されるオブジェクトをセグメント化することを目的とした新しいタスクです。半教師ありビデオオブジェクトセグメンテーションと比較すると、RVOS はピクセルレベルの参照マスクではなく抽象的な言語記述のみに依存しているため、人間とコンピューターの相互作用にとってより便利なオプションを提供し、幅広い注目を集めています。 論文リンク: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf この研究の主な目的は、既存の RVOS ミッションが直面している 2 つの大きな課題に対処することです。
この点に関して、本研究では、クロスモーダルメタ転送のためのエンドツーエンドのRVOSフレームワークであるYOFOを提案しました。その主な貢献と革新は次のとおりです。
実装戦略YOFO フレームワークの主なプロセスは次のとおりです。入力画像とテキストは、まずそれぞれ画像エンコーダーと言語エンコーダーを介して抽出され、次にマルチスケール クロスモーダル特徴マイニング モジュールで融合されます。融合されたバイモーダル特徴は、言語特徴の冗長情報を排除するためのメモリバンクを含むメタ転送モジュールで簡素化されます。同時に、タイミング情報は保存され、時間的相関が強化されます。最後に、デコーダーを通じてセグメンテーション結果が得られます。 図 1: YOFO フレームワークの主なプロセス。 マルチスケール クロスモーダル特徴マイニング モジュール: このモジュールは、異なるスケールの 2 つのモーダル特徴を徐々に融合することで、画像特徴によって伝えられるスケール情報と言語特徴の間の一貫性を維持できます。さらに重要なことは、融合プロセス中に言語情報がマルチスケール画像情報によって薄められたり、埋もれたりしないことを保証することです。 図 2: マルチスケール クロスモーダル特徴マイニング モジュール。 メタ転送モジュール: 学習学習戦略が採用されており、プロセスは次のマッピング関数として簡単に記述できます。伝達関数は畳み込みであり、その畳み込みカーネル パラメータは次のとおりです。 最適化プロセスは、次の目的関数として表現できます。 このうち、M は履歴情報を保存できるメモリ バンクを表し、W は特徴内の異なる位置に異なる注意を向けることができる異なる位置の重みを表し、Y はメモリ バンクに保存されている各ビデオ フレームのバイモーダル特徴を表します。この最適化プロセスにより、メタ転送関数はバイモーダル特徴を可能な限り再構築できるようになり、同時にフレームワーク全体をエンドツーエンドでトレーニングすることも可能になります。 トレーニングとテスト: トレーニングで使用される損失関数は lovasz 損失です。トレーニング セットは、2 つのビデオ データセット Ref-DAVIS2017 と Ref-Youtube-VOS です。静的データセット Ref-COCO は、ランダム アフィン変換を実行してビデオ データを補助トレーニングとしてシミュレートするために使用されます。メタ転送プロセスはトレーニングと予測の両方で実行され、ネットワーク全体は 1080ti で 10FPS で実行されます。 実験結果この研究で使用された方法は、2 つの主流の RVOS データセット (Ref-DAVIS2017 と Ref-Youtube-VOS) で優れた結果を達成しました。定量的指標といくつかの視覚化効果図は次のとおりです。 図 3: 2 つの主流データセットにおける定量的指標。 図 4: VOS データセットの視覚化結果。 図 5: YOFO のその他の視覚化効果。 この研究では、一連のアブレーション実験を使用して、特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性も示しています。 図 6: 特徴マイニング モジュール (FM) とメタ転送モジュール (MT) の有効性。 さらに、この研究では、MT モジュールの有無によるデコーダー出力の特徴を視覚化しており、MT モジュールが言語で記述されたコンテンツを正しくキャプチャし、干渉ノイズを除去できることが明確にわかります。 図 7: MT モジュール使用前後のデコーダー出力機能の比較。研究チームについて この論文は、Meitu Imaging Research Institute (MT Lab) の研究者と大連理工大学の Lu Huchuan 氏のチームによって共同で提案されました。 Meitu Imaging Research Institute (MT Lab) は、Meitu Inc. のチームであり、コンピューター ビジョン、機械学習、拡張現実、クラウド コンピューティングの分野でアルゴリズムの研究、エンジニアリング開発、製品実装に取り組んでいます。Meitu の既存および将来の製品にコア アルゴリズムのサポートを提供し、最先端技術を通じて Meitu 製品の開発を促進しています。「Meitu Technology Center」として知られる MT Lab は、CVPR、ICCV、ECCV などのトップクラスの国際コンピューター ビジョン カンファレンスに参加し、10 回以上の優勝と準優勝を獲得しています。 |
<<: ジェフ・ディーン氏は自身の研究に対する批判に答える。「我々は新しいSOTAを取得しようとしているわけではなく、コスト計算は間違っている」
>>: 人間の知能と人工知能:どちらが優れているのでしょうか?
今日、人工知能技術は急速に発展し続けており、画像認識、音声認識、意味理解など多くの特定の分野で人間の...
中国科学技術協会、中国科学院、中国工程院、浙江省人民政府、杭州市人民政府、浙江省人工知能開発専門委員...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[326308]]概要いわゆる LRU (Least Recently Used) アルゴリズムの...
[[394332]]機械学習のさまざまな使用例について聞いたことがあるかもしれません。たとえば、カン...
今日、MetaとIBMが主導し、50を超えるテクノロジー企業、大学、機関が共同でAIアライアンスを設...
社会的支援ロボットは、自閉症スペクトラム障害(ASD)の子供たちが適切な行動とコミュニケーションを促...
AI プログラマーの平均給与は約 10 万ドルから 15 万ドルですが、大金を稼ぐには AI エン...
パデュー大学のデジタルツインラボの最新の成果として、研究者らは、大規模言語モデル (LLM) を使用...
ウルトラマンニウフルが「追い出される」のは初めてではないでしょうか? ? !予想外にも、OpenAI...
[[416282]]画像ソース: https://pixabay.com/images/id-390...
人工知能は物流業界の変革において重要な役割を果たしていることが証明されています。グローバル化が加速す...