ビデオセグメンテーションタスクは、画像セグメンテーションタスクの拡張版です。ビデオ内のすべてのターゲットを同時にセグメント化し、検出し、追跡することを目的としています。これは、画像セグメンテーションよりも難しい基本的なタスクです。 ビデオフレームを 1 つずつ処理する画像セグメンテーションアルゴリズムと比較して、ビデオセグメンテーションアルゴリズムは、時間的に安定した正確なセグメンテーション結果を提供し、個々のターゲットを追跡して、ビデオ内のインスタンスレベルの理解と編集機能を実現します。ビデオセグメンテーションは、ビデオ編集、ショートビデオの基本ツール、自動運転、監視、セキュリティなどの下流タスクで重要な役割を果たします。 ビデオ編集(ターゲット消去)[a] ビデオ編集(ビデオ背景変更)[b] 自動運転(車両と歩行者のセグメンテーションと追跡)近年、トランスフォーマー[1]はCVの様々な分野で広く利用されています。 DETR[2]はTransformerをベースにした古典的な研究の一つであり、画像オブジェクト検出や画像インスタンスセグメンテーションの分野で大きな可能性を示しています。 ROI ベースのインスタンス表現方法と比較して、DETR が採用したクエリ ベースのインスタンス表現方法は、より強力な表現能力と柔軟性を示します。画像物体検出の分野における進歩に触発されて、VisTR[9]は初めてTransformerをVIS分野に適用し、大幅な性能向上を示しました。その後、VIS分野ではTransformerベースの方法が主流になりました。 現在、ビデオセグメンテーションの分野における方法は、オンライン方式とオフライン方式に分けられます。オンライン方式では、現在のフレームの結果を予測する際に、現在のフレームと履歴フレームを入力として使用します。主に、自動運転におけるリアルタイム認識など、リアルタイム処理が必要なシナリオで使用されます。オフライン方式では、現在のフレームの結果を予測する際に、ビデオ内の任意のフレームを入力として使用できます。主に、ビデオ編集などのオフライン処理が求められるシナリオで使用されます。 既存のSOTAオンライン手法(MinVIS [3]、IDOL [4]など)は、最初に画像セグメンテーションを実行し、次にフレームごとにインスタンスを関連付けるという技術的なルートに従います。この技術的アプローチでは、他のフレームの情報に基づいて現在のフレームのセグメンテーション結果が最適化されないため、ビデオ情報の有効な活用が欠けています。 既存のSOTAオフライン手法(SeqFormer [5]、Mask2Former-VIS [6]、VITA [7]、IFC [8]など)は、密結合ネットワークを使用してビデオセグメンテーションタスクをエンドツーエンドで処理します。この技術的なルートは理論的にはビデオ情報をより効果的に活用できますが、長いビデオや複雑なシーンではパフォーマンスが不十分です。次のビデオ フレームに示すように、ビデオ内に類似したターゲットが多数存在し、それらが互いに遮蔽されて位置が入れ替わる場合、Mask2Former-VIS のターゲット追跡結果が乱れ、セグメンテーションの精度も影響を受けます。 Mask2Former-VISは位置変更の場面でトラッキングエラーを起こしやすい(IDは拡大してご覧ください) オフライン方式ではオンライン方式よりも多くの情報を利用できるため、理論的にはパフォーマンスが向上するはずです。しかし、そうではありません。複雑なシナリオでは、既存のオフライン方式のパフォーマンスはオンライン方式よりも大幅に低くなります。これは、既存のオフライン方式におけるインスタンス表現の設定によるものだと考えています。既存のオフライン メソッドでは、単一の学習可能なクエリを使用してビデオ内のインスタンスを表します。この学習可能なクエリは、場所とサイズの事前情報として表示できます。ただし、実際のシナリオでは、インスタンスの外観と空間位置が大幅に変化する可能性があるため、位置とサイズの事前条件のみに基づいてすべてのフレームからインスタンスの正しい特徴を検出することは困難です。 上記のビデオデモに示されているように、クエリ番号 3 によって学習された以前の位置情報 (赤いマスクで覆われている) はビデオの右側にありますが、ビデオの最初の部分でマークされた象は、ビデオの終わりまでにビデオの左側に移動しています。 では、ビデオ情報を最大限に活用してオフライン方式の理論的な可能性を実現するにはどうすればよいでしょうか?この疑問に答えるために、武漢大学とKuaishou Y-techの研究者が共同で新しいビデオインスタンスセグメンテーションアルゴリズムDVISを開発しました。この研究論文はICCV2023に採択されました。
DVISは、OVIS、YouTube-VIS、VIPSegなどのデータセットでSOTAパフォーマンスを達成しました。2023年2月以降、OVISデータセットで優位に立っており、CVPR 2023のPVUWチャレンジやICCV2023のLSVOSチャレンジなど、多くのコンテストで優勝しています。 具体的には、DVIS には次の特徴があります。
エフェクト表示本論文以前は、VIS 分野の SOTA 方式 MinVIS は、主にターゲット追跡 ID が簡単に混乱し、セグメンテーション マスクが壊れるという理由で、複雑なビデオではパフォーマンスが悪かった。本論文で提案された DVIS は、複雑で長いビデオ内のターゲットを追跡し、安定してセグメント化することができます。 MinVIS と DVIS の比較は、以下のビデオに示されています。 さらに、DVIS は、ターゲットがフレームの小さな部分を占める場合でも、優れたパフォーマンスを発揮します。 方法の紹介ビデオ全体のインスタンスの表現を直接モデル化することは難しいため、最初に単一フレーム内のインスタンスをモデル化し、次にフレームごとにインスタンスを関連付けてすべてのフレーム内の同じインスタンスの表現を取得し、最後にインスタンスの時間情報を活用することは可能ですか。間違いなく、フレームごとの相関関係は、すべてのビデオ フレームにわたって同じインスタンスを直接相関関係にするよりもはるかに簡単です。時間的に適切に調整されたインスタンス機能があれば、これらの機能を効果的に活用することも簡単です。 VIS タスクは、画像のセグメンテーション、オブジェクトの関連付け、および時間的な洗練という 3 つのサブステップに分解されます。したがって、これら 3 つのサブステップを処理するために、セグメンター、トラッカー、およびリファイナーという 3 つのネットワーク モジュールを設計します。画像セグメンテーションは、ターゲットを 1 つのフレームに分割し、ターゲットの表現を取得することです。オブジェクトの関連付けは、隣接するフレームのオブジェクト表現を関連付けて、リファイナーに適切に調整された初期値を提供することです。時間的改良とは、整列されたオブジェクトの時間情報に基づいて、オブジェクトのセグメンテーションと追跡の結果を最適化することです。 DVIS のアーキテクチャが決定された後、画像セグメンテーション、オブジェクトの関連付け、時系列の改良という 3 つのサブステップに対して、適切なセグメンター、トラッカー、リファイナー ネットワークを設計する必要があります。画像セグメンテーションのサブステップでは、オブジェクト表現を抽出するためのセグメンターとしてSOTA汎用画像セグメンテーションネットワークMask2Formerを使用しました。オブジェクト関連付けのサブステップでは、トラッキングを参照ノイズ除去/再構成タスクとしてモデル化し、堅牢なターゲット関連付けのための参照トラッカーを設計しました。時間的改良のサブステップでは、1D畳み込みとSelf Attentionに基づくTemporal Refinerを実装し、オブジェクトの時間情報を効果的に活用しました。 1. 参照トラッカー DVIS は、隣接フレームのオブジェクトを関連付けるタスクを、前のフレームのオブジェクト クエリに基づいて現在のフレームに対応するオブジェクト クエリを再構築するタスクとしてモデル化します。つまり、前のフレームのオブジェクト クエリを参照クエリとして与え、セグメンターによって出力された現在のフレームのオブジェクト クエリから情報を集約し、最終的に現在のフレームの参照クエリに対応するインスタンスのマスクとカテゴリを出力します。 Refering Tracker は Refering Cross Attention を通じて上記のプロセスを学習します。 Cross Attention を参照すると、参照クエリを最大限に活用して情報の集約を導き、参照クエリと現在の情報の混在を防ぎます。これは、標準的な Cross Attention を少し変更することで得られます。 2. 時間リファイナー Refering Tracker が基本的に時間次元で調整されたターゲット クエリを出力した後は、標準的な操作 (1D 畳み込みや Self Attention など) を通じて時間的特徴を効果的に活用することが容易になります。私たちが設計した Temporal Refiner も非常にシンプルで、1D 畳み込みと Self Attention によって時間的特徴を集約します。 Temporal Refiner は、オブジェクトの時間的特性に基づいてセグメンテーションと追跡の結果を最適化します。 DVIS の設計は非常に柔軟であることは特筆に値します。Referring Tracker を任意のクエリベースの画像セグメンテーションに重ねて、オンライン ビデオのセグメンテーションを実現できます。Temporal Refiner を任意のオンライン ビデオ セグメンテーションに重ねて、より強力なセグメンテーション パフォーマンスを実現することもできます。 実験結果OVIS データセットに対する Refering Tracker と Temporal Refiner の効果に関するアブレーション実験を実施しました。トラッカーの主な機能は、特に中程度に遮蔽されたオブジェクトと重度に遮蔽されたオブジェクトに対して、より堅牢なターゲット関連付けを実現することです (下の表に示すように、中程度に遮蔽されたオブジェクトと重度に遮蔽されたオブジェクトに対してそれぞれ 5.2 AP と 4.3 AP のパフォーマンス向上をもたらします)。 Refiner の主な機能は、時間情報を最大限に活用することです。結果から、時間情報の効果的な使用により、Temporal Refiner は、軽度、中度、重度の遮蔽のあるオブジェクトのパフォーマンスを大幅に向上させたことがわかります (下の表に示すように、軽度、中度、重度の遮蔽ターゲットに対してそれぞれ 2.4 AP、1.8 AP、5.1 AP のパフォーマンス向上をもたらします)。 さらに、Referring Tracker と Temporal Refiner はオブジェクト クエリのみを処理するため、計算コストが非常に低く、計算量の合計は Segmenter の 5% 未満になります (下の表を参照)。 DVIS は、OVIS、YouTube-VIS (2019、2021)、VIPSeg などのデータセットで SOTA を達成しています。 結論は本稿では、VIS タスクをセグメンテーション、トラッキング、リファインメントの 3 つのサブタスクに分離するフレームワークである DVIS を提案します。私たちの貢献は 3 つあります。1) VIS タスクに分解戦略を導入し、DVIS フレームワークを提案します。2) フレーム間の関連性を参照ノイズ除去としてモデル化することで、追跡の堅牢性を高める Referring Tracker を提案します。3) これまでの研究の欠点を補い、ビデオ全体の情報を使用してセグメンテーション結果を改良する Temporal Refiner を提案します。結果は、DVIS がすべての VIS データセットで SOTA パフォーマンスを達成することを示しています。 DVIS の設計は、VIS 分野における既存の方法の欠点を反映したものですが、ビデオ インスタンスのセグメンテーションの分野に限定されません。DVIS は、VIS、VPS、VSS で変更なしで SOTA パフォーマンスを実現できるため、DVIS の汎用性と高い可能性を証明しています。 DVIS が強力かつ基本的なベンチマークとなり、私たちの解明された洞察がオンラインおよびオフライン VIS の分野における将来の研究に刺激を与えることを願っています。 今後の技術開発の観点から、画像や動画などさまざまなモダリティの基礎視覚認識技術の探求を継続し、モデルの普遍性、オープンカテゴリなどの観点から基礎視覚認識技術の境界をさらに広げていきます。 |
>>: ChatGPT Enterprise Editionが登場: 史上最強のバージョン、無制限の使用と32kコンテキストを備えた2倍のGPT-4
[[416629]]セサミストリートには「One of These Things Is Not Li...
ワシントン(AP通信) — 米国とその同盟国は、国防総省の人工知能部門が立ち上げた新しいフォーラムを...
Nvidia の GPU が世界を席巻しています。テクノロジー企業は、Nvidia のスーパーコンピ...
ニューラル ネットワークは機械学習におけるモデルの一種です。ニューラル ネットワークは、機械学習の分...
1987 年のノーベル経済学賞受賞者であるボブ・ソローは、「生産性統計を除けば、コンピュータ時代は...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
かつて Computer World 誌は、「プログラミングは 1960 年までに消滅する」という記...
新しい言語を学ぶことは間違いなく挑戦です。特に 18 歳以上の人にとっては、これまで触れたことのない...
[[433811]]みなさんこんにちは。私は Python の専門家です。驚きましたか?先週、この...
Amazon の Echo および Echo Dot スマート スピーカーの成功により、音声コマンド...
一般的に、AIGC とは、人間が作成したコンテンツに非常によく似た画像、音楽、テキストなどのコンテン...