「Split Everything」のビデオ版はこちらです。数回クリックするだけで、動いている人物や物体が丸で囲まれます。

写真

ビデオセグメンテーションは多くのシナリオで広く使用されています。映画の視覚効果を高めたり、自動運転でシーンを理解したり、ビデオ会議で仮想背景を作成したりするには、ビデオセグメンテーションが必要です。最近、ディープラーニングベースのビデオセグメンテーションは良好な結果を達成していますが、コンピュータービジョンにおいてはまだ難しいトピックです。

半教師ありビデオオブジェクトセグメンテーション (VOS) とビデオインスタンスセグメンテーション (VIS) に関して言えば、現在の主流の方法は、未知のデータを扱う場合には平凡なパフォーマンスしか発揮せず、サンプルがゼロの場合はさらに「説明が困難」になります。ゼロショットのケースとは、これらのモデルがトレーニングされていないビデオのドメインに転送され、これらのビデオにトレーニングセット外のオブジェクトが含まれているケースを指します。パフォーマンスが平凡な理由は、微調整のための特定のビデオセグメンテーションデータがなければ、これらのモデルがさまざまなシナリオで一貫したパフォーマンスを維持することが難しいためです。

この課題を克服するには、画像セグメンテーションの分野で成功したモデルをビデオセグメンテーションタスクに適用する必要があります。これが、Segment Anything Model (SAM) につながります。

SAM は、1,100 万枚の画像と 10 億を超えるマスクを含む大規模な SA-1B データセットでトレーニングされた、画像セグメンテーション用の強力な基本モデルです。徹底的なトレーニングにより、SAM は驚異的なゼロショット一般化能力を獲得しました。 SAM は、注釈なしであらゆる画像内のあらゆるオブジェクトをセグメント化できるため、業界で大きな反響を呼び、コンピュータービジョンの分野では GPT とも呼ばれています。

SAM はゼロショット画像セグメンテーションにおいて優れた能力を発揮していますが、ビデオセグメンテーションタスクには「当然」適していません。

最近、研究者たちは SAM をビデオセグメンテーションに適用する作業を開始しました。これらの方法は分布内データでのパフォーマンスの大部分を回復しますが、ゼロショットの場合、SAM の元のパフォーマンスを維持することはできません。 SegGPT などの SAM を使用しない他の方法では、視覚的なプロンプトを使用して一部のセグメンテーションの問題を正常に解決できますが、ビデオの最初のフレームのマスク注釈が必要です。この問題は、ゼロショットビデオセグメンテーションにおける重要な難題です。研究者が、目に見えないシーンに簡単に一般化でき、さまざまなビデオ領域にわたって一貫して高品質のセグメンテーションを提供できる方法を開発しようとすると、この課題はさらに困難になります。

現在、一部の研究者は SAM-PT (Segment Anything Meets Point Tracking) を提案しており、これは「障害」を排除するための新しいアイデアを提供する可能性があります。

写真

論文アドレス: https://arxiv.org/pdf/2307.01197.pdf
GitHub アドレス: https://github.com/SysCV/sam-pt

図 1 に示すように、SAM-PT はビデオセグメンテーションのためにスパースポイントトラッキングと SAM を組み合わせた最初の方法です。オブジェクト中心の高密度特徴マッチングやマスク伝播を使用する場合とは異なり、これはポイント駆動型のアプローチです。ビデオに埋め込まれた豊富なローカル構造情報を活用してポイントを追跡します。したがって、最初のフレームでスパースポイントを使用してターゲットオブジェクトに注釈を付けるだけでよく、未知のオブジェクトに対する一般化能力が向上し、これは UVO ベンチマークで実証されています。このアプローチは、SAM の本来の柔軟性を維持しながら、ビデオセグメンテーションの機能を効果的に拡張するのにも役立ちます。

写真

SAM-PT は、PIPS などの最先端のポイントトラッカーを使用して、スパースポイントの軌跡を予測し、SAM を誘導して、ビデオセグメンテーションの汎用性を活用します。研究者らは、マスクラベルから K-Medoids クラスターセンターを使用してトラッカーを初期化することが、キュー付き SAM と最も互換性のある戦略であることを発見しました。正のポイントと負のポイントの両方を追跡することで、対象オブジェクトを背景から明確に分離できます。

出力マスクをさらに最適化するために、研究者らは 2 種類のポイントを統合する複数のマスクデコードチャネルを提案しました。さらに、時間の経過とともに追跡精度を向上させるポイント再初期化戦略を設計しました。このアプローチは、信頼できないポイントや遮蔽されたポイントを破棄し、後続のフレームで表示されるオブジェクトの一部または部分（オブジェクトが回転する場合など）のポイントを追加するというものです。

特に、私たちの実験結果では、SAM-PT がいくつかのビデオセグメンテーションベンチマークにおいて既存のゼロショットメソッドと同等か、それを上回るパフォーマンスを発揮することが示されています。トレーニング中、SAM-PT はビデオセグメンテーションデータを必要としないため、この方法の堅牢性と適応性が実証されています。 SAM-PT は、特にゼロショットのシナリオにおいて、ビデオセグメンテーションタスクの進行を促進する可能性があります。

SAM-PT法の概要

SAM は画像セグメンテーションにおいて優れた機能を発揮しますが、ビデオセグメンテーションタスクの処理には固有の制限があります。私たちが提案する「Segment Anything Meets Point Tracking」（SAM-PT）方式は、SAM をビデオ領域に効果的に拡張し、ビデオセグメンテーションデータをトレーニングする必要なく、ビデオセグメンテーションを強力にサポートします。

図 2 に示すように、SAM-PT は主に次の 4 つのステップで構成されます。

1) 最初のフレームのクエリポイントを選択します。

2) ポイントトラッカーを使用して、これらのポイントをすべてのビデオフレームに伝播します。

3) SAM を使用して伝播ポイントに基づいてフレームごとにセグメンテーションマスクを生成します。

4) 予測されたマスクからクエリポイントを抽出してプロセスを再初期化します。

写真

クエリポイントを選択します。プロセスの最初のステップは、最初のビデオフレームでクエリポイントを定義することです。これらのクエリポイントは、ターゲットオブジェクト (正のポイント) を表すか、背景および非ターゲットオブジェクト (負のポイント) を指定します。クエリポイントは、ユーザーが手動で対話的に提供することも、グラウンドトゥルースマスクから導出することもできます。

図 3 に示すように、ユーザーは幾何学的位置や特徴の違いを考慮して、さまざまなポイントサンプリング手法を使用して、グラウンドトゥルースマスクからクエリポイントを取得できます。これらのサンプリング手法には、ランダムサンプリング、K-Medoids サンプリング、Shi-Tomasi サンプリング、ハイブリッドサンプリングが含まれます。

写真

ポイントトラッキング。クエリポイントから開始して、堅牢なポイントトラッカーを使用してビデオ内のすべてのフレームにポイントを伝播し、ポイントの軌跡とオクルージョンスコアを算出します。

最先端のポイントトラッカー PIPS がポイントの伝播に採用されています。これは、PIPS がオブジェクトの遮蔽や再現などの長期的な追跡の課題に対して適切な堅牢性を示しているためです。実験では、連鎖オプティカルフロー伝播や最初のフレーム対応などの方法よりもこれが効果的であることも示されています。

セグメンテーション。予測された軌道では、遮蔽されていないポイントが、ビデオ全体におけるターゲットオブジェクトの位置を示す指標として機能します。この時点で、遮蔽されていないポイントを使用して SAM をプロンプトし、その固有の一般化機能を使用してフレームごとのセグメンテーションマスク予測を出力することができます (図 4 を参照)。

写真

ポイントトラッキングが再初期化されました。 h = 8 フレームの予測期間に達すると、ユーザーは予測マスクを使用してクエリポイントを再初期化することを選択し、そのバリアントを SAM-PT-reinit として指定できます。この地平線に到達すると、h 個の予測マスクが存在し、新しいポイントは最後に予測されたマスクを使用してサンプリングされます。この段階では、以前のポイントはすべて破棄され、新しいサンプルポイントに置き換えられます。

上記の方法によれば、以下のようにビデオをスムーズに分割することができます。

その他のデモを見る:

SAM-PTとターゲット中心マスク伝播の比較

SAM-PT は、スパースポイントトラッキングとキュー SAM を組み合わせたもので、表 1 に示すように、高密度オブジェクトマスクの伝播に依存する従来のビデオセグメンテーション方法とは異なります。

SAM-PT は、トレーニング中にビデオセグメンテーションデータを使用しない方法と同等かそれ以上のパフォーマンスを実現します。ただし、これらの方法と、XMem や DeAOT など、同じドメインのビデオセグメンテーショントレーニングデータを利用する方法との間には、依然としてパフォーマンスのギャップが存在します。

要約すると、SAM-PT は、スパースポイント伝播を導入し、それをキュー画像セグメンテーションベースモデルと組み合わせてゼロショットビデオオブジェクトセグメンテーションを行う最初の方法です。これは新たな視点を提供し、ビデオオブジェクトのセグメンテーションの研究に新たな次元を追加します。

写真

実験結果

動画オブジェクトのセグメンテーションについては、研究チームは DAVIS 2016、DAVIS 2017、YouTube-VOS 2018、MOSE 2023 という 4 つの VOS データセットで手法を評価しました。

ビデオインスタンスのセグメンテーションについては、UVO v1.0 データセットの densevideo タスクでこの手法を評価しました。

彼らはまた、画像インスタンスセグメンテーションにおける標準的な評価指標を使用して提案手法を評価しており、これはビデオインスタンスセグメンテーションにも適用できます。これらのメトリックには、IoU に基づく平均精度 (AP) と平均再現率 (AR) が含まれます。

ビデオオブジェクトのセグメンテーションの結果

表 3 に示すように、DAVIS 2017 データセットでは、提案された方法は、ビデオオブジェクトセグメンテーションデータでトレーニングされていない他の方法よりも優れています。

写真

SAM-PT は YouTube-VOS 2018 および MOSE 2023 データセットでも PerSAM-F を上回り、表 4 および 5 に示すように平均スコア 67.0 および 41.0 を達成しました。ただし、異なるマスクトレーニングデータでは、SAM-PT は両方のデータセットで SegGPT と比較してパフォーマンスが低下します。

写真

定性分析。 DAVIS 2017 での SAM-PT と SAM-PTreinit の成功したビデオセグメンテーションの視覚化結果をそれぞれ図 7a と図 7b に示します。特に、図 8 は、未知の Web ビデオ (アニメ風のテレビアニメシリーズ「アバター: 伝説の少年アン」のクリップ) でのビデオセグメンテーションが成功したことを示し、提案された方法のゼロショット機能を実証しています。

制限と課題。 SAM-TP のゼロショット性能は競争力がありますが、まだいくつかの制限があります。これらの制限は主に、ポイントトラッカーがオクルージョン、小さなオブジェクト、モーションブラー、および再識別を処理する能力に焦点を当てています。これらの側面では、ポイントトラッカーのエラーは将来のビデオフレームに伝播します。

図 7c は DAVIS 2017 からのこれらの問題の例を示しており、図 9 は『アバター伝説の少年アン』のクリップからの他の例を示しています。

写真

ビデオインスタンスのセグメンテーションの結果

SAM-PT はビデオセグメンテーションデータでトレーニングされていないにもかかわらず、同じマスク提案では TAM よりも大幅に優れたパフォーマンスを発揮します。 TAM は SAM と XMem を組み合わせた並列手法であり、XMem は BL30K で事前トレーニングされ、DAVIS と YouTube-VOS でトレーニングされますが、UVO ではトレーニングされません。

一方、SAM-PT は SAM と PIPS のポイントトラッキング手法を組み合わせたものですが、どちらもビデオセグメンテーションタスクではトレーニングされていません。

詳細については原論文を参照してください。

<<: ChatGPTはオンラインモードを緊急にシャットダウンし、有料のウェブページに無料でアクセスできることが一度明らかになった。

>>: