SAM によるゼロショットビデオオブジェクトセグメンテーション! HKUSTと他の研究チームは、教師ありSOTAに匹敵するパフォーマンスを持つ初の「スパースポイント伝播」手法SAM-PTをオープンソース化しました。

ビデオセグメンテーションは、自動運転、ロボット工学、ビデオ編集などのアプリケーションシナリオの基本的なテクノロジーですが、現在の方法では、ゼロショット学習設定や未知のサンプルを予測する場合にパフォーマンスが安定しないという問題があります。

今年 4 月、Meta AI は非常に強力な画像セグメンテーション基本モデル Segment Anything Model (SAM) をオープンソース化しました。1,100 万枚の画像でトレーニングされた SAM は、非常に強力な一般化パフォーマンスを備えており、さまざまな下流アプリケーションに適用できます。

ただし、SAM は画像セグメンテーション分野全体を支配しているものの、ビデオセグメンテーションタスクには適していません。

写真

最近、ETH チューリッヒ、香港科技大学、スイス連邦工科大学ローザンヌ校の研究者らが SAM-PT モデルをリリースしました。このモデルは、堅牢でスパースなポイント選択と伝播技術を使用してマスクを生成し、SAM のゼロショット機能を動的なビデオ追跡およびセグメンテーションタスクに拡張し、複数のビデオオブジェクトセグメンテーションデータセットベンチマーク DAVIS、YouTube-VOS、MOSE で安定した強力なゼロショットパフォーマンスを実現しました。

論文リンク: https://arxiv.org/pdf/2307.01197.pdf

コードリンク: https://github.com/SysCV/sampt

従来のオブジェクト中心のマスク伝播戦略と比較して、SAM-PT はポイント伝播を革新的に使用して、オブジェクトの意味に依存しないローカル構造情報を活用します。また、ゼロショットのオープンワールド未確認ビデオオブジェクト (UVO) ベンチマークでの直接評価を通じて、ポイントベースの追跡の利点を強調し、SAM の柔軟性を維持するのに役立ちます。

モデルのパフォーマンスをさらに向上させるために、研究者らは K-Medoids クラスタリングを使用してポイントを初期化し、正のポイントと負のポイントを同時に追跡して、ターゲットオブジェクトを明確に区別しました。また、複数のマスクデコードを使用してマスクを改善し、ポイントの再初期化戦略を設計して追跡精度を向上させました。

SAM-PT

背景知識SAM

ビジュアルベースモデル SAM は、プロンプト可能なセグメンテーションタスク、つまり「プロンプト」が与えられた場合にゼロショットおよび少数ショットの画像セグメンテーションタスクを実行するために使用できます。

SAM のトレーニングデータは SA-1B で、1,100 万枚の画像と 10 億以上のマスクが含まれており、これは既存のセグメンテーションデータセットの 400 倍の大きさです。また、この大規模データにより、SAM は新しいデータに対して非常に強力なゼロサンプル一般化パフォーマンスを発揮できます。

写真

SAM の実験結果は、単一の前景ポイントから高品質のマスクを生成する能力を実証し、ヒントエンジニアリングを使用したゼロショット設定で、エッジ検出、オブジェクト提案生成、インスタンス分割タスクなどを含むさまざまな下流タスクへの強力な一般化機能を示しています。

SAM は、画像エンコーダー、柔軟なヒントエンコーダー、高速マスクデコーダーの 3 つの主要部分で構成されています。

画像エンコーダーは Vision Transformer (ViT) のバックボーンであり、高解像度の 1024×1024 画像を処理し、64×64 空間サイズの画像埋め込みを生成します。

ヒントエンコーダーは、ポイント、ボックス、テキストなどのスパースヒント、またはマスクなどの密なヒントを入力として受け取り、これらのヒントを c 次元のトークンに変換します。

軽量マスクデコーダーは、画像とキューの埋め込みを統合してセグメンテーションマスクをリアルタイムで予測し、SAM が最小限の計算オーバーヘッドでさまざまなキューに適応できるようにします。

SAM-PT

SAM は画像セグメンテーションでは優れたパフォーマンスを発揮しますが、ビデオセグメンテーションタスクの処理には固有の制限があります。

この論文で提案されている Segment Anything Meets Point Tracking (SAM-PT) 方式は、SAM をビデオに効果的に拡張し、強力なビデオセグメンテーションパフォーマンスを提供し、ビデオセグメンテーションデータのトレーニングを必要としません。

写真

SAM-PT は主に 4 つのステップで構成されます。最初のフレームのクエリポイントを選択する、ポイントトラッカーを使用して選択したクエリポイントをすべてのビデオフレームに伝播する、SAM を使用して伝播されたポイントに基づいて各フレームのセグメンテーションマスクを生成する、予測されたマスクからクエリポイントをサンプリングして再初期化する、です。

1. クエリポイントの選択

クエリポイントは、ターゲットオブジェクト (正のポイント) を表すことも、背景や非ターゲットオブジェクト (負のポイント) を指定することもできます。ユーザーは、クエリポイントを手動で対話的に提供することも、実際の注釈マスクから取得することもできます。

たとえば、半教師ありビデオオブジェクトセグメンテーションタスクでは、オブジェクトが出現する最初のフレームに対して注釈付きマスクが準備されます。

写真

研究者は、幾何学的な位置や特徴の相違を考慮して、グラウンドトゥルース注釈付きマスクからクエリポイントを取得するために、さまざまなポイントサンプリング手法を使用しました。

サンプリング手法には次のものがあります。

ランダムサンプリングは、グラウンドトゥルースマスクからクエリポイントをランダムに選択する直感的なアプローチです。

K-Medoids サンプリングは、K-Medoids クラスタリングのクラスターセンターをクエリポイントとして取得し、オブジェクトのさまざまな部分を適切にカバーし、ノイズや外れ値に対する堅牢性を確保します。

Shi-Tomasi サンプリングでは、マスクの下の画像から ShiTomasi コーナーポイントが抽出され、優れた追跡機能であることが示されています。

上記の技術を組み合わせたハイブリッドアプローチであるハイブリッドサンプリングでは、さまざまな技術の独自の利点を組み合わせることができます。

各方法にはモデルのパフォーマンスに影響するさまざまな特性がありますが、アブレーション研究では、K-Medoids サンプリングが最良の結果をもたらし、さまざまなオブジェクトを完全にカバーできることが示されており、次に Shi-Tomasi サンプリング方法が続きます。

2. ポイントトラッキング

クエリポイントを使用して初期化した後、堅牢なポイントトラッカーを使用してビデオのすべてのフレームにポイントを伝播し、ポイントの軌跡とオクルージョンスコアを生成します。

研究者らは、最も先進的なポイントトラッカー PIPS を使用してポイントを伝播しました。これは、PIPS が長いシーケンスの追跡 (オブジェクトの遮蔽や再出現など) などの困難なシナリオに対してより堅牢であり、実験結果からも、連鎖オプティカルフロー伝播や最初のフレームの対応などの方法よりも効果的であることが示されているためです。

3. セグメンテーション

予測されたトラック内の遮蔽されていないポイントは、ビデオ全体のターゲットオブジェクトのインジケーターとして機能し、SAM にキューイングして、その固有の一般化機能を活用してフレームごとのセグメンテーションマスク予測を出力するために使用できます。

ビデオセグメンテーションデータでトレーニングまたは微調整する必要がある従来の追跡方法とは異なり、私たちの方法はゼロショットビデオセグメンテーションタスクで優れたパフォーマンスを発揮します。

写真

研究者らは、SAM を 2 回呼び出すことで正の点と負の点を組み合わせました。まず、SAM に正の点を指示して、オブジェクトの初期位置を定義しました。次に、SAM に正の点と負の点の両方と以前のマスク予測を指示しました。負の点は、オブジェクトと背景のより微妙な区別を提供し、誤ったセグメンテーション領域を排除するのに役立ちました。

最後に、2 番目の SAM プロンプトを繰り返してマスク最適化の反復回数を変更し、SAM を使用してぼかしマスクをより正確なマスクに調整します。アブレーション実験から、この手順によりビデオオブジェクトのセグメンテーションのパフォーマンスが大幅に向上することがわかります。

4. ポイントトラッキングの再初期化

予測期間内に h=8 フレームが存在する場合、予測マスクを使用してクエリポイントを再初期化することを選択できます。このバリアントを SAM-PT-reinit と呼びます。8 に達する前に、最後に予測されたマスクを使用して新しいポイントがサンプリングされます。

この段階では、以前のポイントはすべて破棄され、新しくサンプリングされたポイントに置き換えられます。

ビデオ内のすべてのフレームが処理されるまで、手順 1 ～ 4 が新しいポイントに対して繰り返されます。再初期化プロセスには、信頼性の低いポイントや遮蔽されたポイントを破棄し、ビデオの後半で表示されるオブジェクト分割用のポイントを組み込むことで、追跡精度を向上させる効果があります。

実験セクション

ビデオオブジェクトのセグメンテーション

実験結果から、SAM メソッドは、DAVIS 2017 データセット上のビデオオブジェクトでトレーニングされていない他のメソッドよりも優れていることがわかりました。

写真

J&F指標の平均スコアは76.6ポイントで、PerSAM-Fより4.7ポイント高く、SegGPT一般モデルより1パーセントポイント高くなっています。実験は8回繰り返され、平均と標準偏差が表に記載されています。

SAM-PT メソッドは、YouTube-VOS 2018 および MOSE 2023 データセットでも PerSAM-F を上回り、それぞれ平均スコア 67.0 と 41.0 を達成しました。ただし、異なるマスクトレーニングデータでは、SAM-PT はこれら 2 つのデータセットで SegGPT よりもパフォーマンスが低くなりました。

写真

SAM-PT のゼロショット学習パフォーマンスは競争力がありますが、主にポイントトラッカーのオクルージョン、小さなオブジェクト、モーションブラー、再識別の処理における制限により、エラーが将来のビデオフレームに伝播する可能性があるため、一定の制限が依然として存在します。

写真

<<: 教育におけるAIの役割: AIが学習方法をどのように変えるか

>>: