SAM によるゼロショット ビデオ オブジェクト セグメンテーション! HKUSTと他の研究チームは、教師ありSOTAに匹敵するパフォーマンスを持つ初の「スパースポイント伝播」手法SAM-PTをオープンソース化しました。

SAM によるゼロショット ビデオ オブジェクト セグメンテーション! HKUSTと他の研究チームは、教師ありSOTAに匹敵するパフォーマンスを持つ初の「スパースポイント伝播」手法SAM-PTをオープンソース化しました。

ビデオセグメンテーションは、自動運転、ロボット工学、ビデオ編集などのアプリケーションシナリオの基本的なテクノロジーですが、現在の方法では、ゼロショット学習設定や未知のサンプルを予測する場合にパフォーマンスが安定しないという問題があります。

今年 4 月、Meta AI は非常に強力な画像セグメンテーション基本モデル Segment Anything Model (SAM) をオープンソース化しました。1,100 万枚の画像でトレーニングされた SAM は、非常に強力な一般化パフォーマンスを備えており、さまざまな下流アプリケーションに適用できます。

ただし、SAM は画像セグメンテーション分野全体を支配しているものの、ビデオセグメンテーションタスクには適していません。

写真

最近、ETH チューリッヒ、香港科技大学、スイス連邦工科大学ローザンヌ校の研究者らが SAM-PT モデルをリリースしました。このモデルは、堅牢でスパースなポイント選択と伝播技術を使用してマスクを生成し、SAM のゼロショット機能を動的なビデオ追跡およびセグメンテーション タスクに拡張し、複数のビデオ オブジェクト セグメンテーション データセット ベンチマーク DAVIS、YouTube-VOS、MOSE で安定した強力なゼロショット パフォーマンスを実現しました。

論文リンク: https://arxiv.org/pdf/2307.01197.pdf

コードリンク: https://github.com/SysCV/sampt

従来のオブジェクト中心のマスク伝播戦略と比較して、SAM-PT はポイント伝播を革新的に使用して、オブジェクトの意味に依存しないローカル構造情報を活用します。また、ゼロショットのオープンワールド未確認ビデオ オブジェクト (UVO) ベンチマークでの直接評価を通じて、ポイントベースの追跡の利点を強調し、SAM の柔軟性を維持するのに役立ちます。

モデルのパフォーマンスをさらに向上させるために、研究者らは K-Medoids クラスタリングを使用してポイントを初期化し、正のポイントと負のポイントを同時に追跡して、ターゲット オブジェクトを明確に区別しました。また、複数のマスク デコードを使用してマスクを改善し、ポイントの再初期化戦略を設計して追跡精度を向上させました。

SAM-PT

背景知識SAM

ビジュアル ベース モデル SAM は、プロンプト可能なセグメンテーション タスク、つまり「プロンプト」が与えられた場合にゼロ ショットおよび少数ショットの画像セグメンテーション タスクを実行するために使用できます。

SAM のトレーニング データは SA-1B で、1,100 万枚の画像と 10 億以上のマスクが含まれており、これは既存のセグメンテーション データセットの 400 倍の大きさです。また、この大規模データにより、SAM は新しいデータに対して非常に強力なゼロ サンプル一般化パフォーマンスを発揮できます。

写真

SAM の実験結果は、単一の前景ポイントから高品質のマスクを生成する能力を実証し、ヒント エンジニアリングを使用したゼロ ショット設定で、エッジ検出、オブジェクト提案生成、インスタンス分割タスクなどを含むさまざまな下流タスクへの強力な一般化機能を示しています。

SAM は、画像エンコーダー、柔軟なヒント エンコーダー、高速マスク デコーダーの 3 つの主要部分で構成されています。

画像エンコーダーは Vision Transformer (ViT) のバックボーンであり、高解像度の 1024×1024 画像を処理し、64×64 空間サイズの画像埋め込みを生成します。

ヒント エンコーダーは、ポイント、ボックス、テキストなどのスパース ヒント、またはマスクなどの密なヒントを入力として受け取り、これらのヒントを c 次元のトークンに変換します。

軽量マスク デコーダーは、画像とキューの埋め込みを統合してセグメンテーション マスクをリアルタイムで予測し、SAM が最小限の計算オーバーヘッドでさまざまなキューに適応できるようにします。

SAM-PT

SAM は画像セグメンテーションでは優れたパフォーマンスを発揮しますが、ビデオセグメンテーションタスクの処理には固有の制限があります。

この論文で提案されている Segment Anything Meets Point Tracking (SAM-PT) 方式は、SAM をビデオに効果的に拡張し、強力なビデオ セグメンテーション パフォーマンスを提供し、ビデオ セグメンテーション データのトレーニングを必要としません。

写真

SAM-PT は主に 4 つのステップで構成されます。最初のフレームのクエリ ポイントを選択する、ポイント トラッカーを使用して選択したクエリ ポイントをすべてのビデオ フレームに伝播する、SAM を使用して伝播されたポイントに基づいて各フレームのセグメンテーション マスクを生成する、予測されたマスクからクエリ ポイントをサンプリングして再初期化する、です。

1. クエリポイントの選択

クエリ ポイントは、ターゲット オブジェクト (正のポイント) を表すことも、背景や非ターゲット オブジェクト (負のポイント) を指定することもできます。ユーザーは、クエリ ポイントを手動で対話的に提供することも、実際の注釈マスクから取得することもできます。

たとえば、半教師ありビデオ オブジェクト セグメンテーション タスクでは、オブジェクトが出現する最初のフレームに対して注釈付きマスクが準備されます。

写真

研究者は、幾何学的な位置や特徴の相違を考慮して、グラウンドトゥルース注釈付きマスクからクエリポイントを取得するために、さまざまなポイントサンプリング手法を使用しました。

サンプリング手法には次のものがあります。

ランダム サンプリングは、グラウンド トゥルース マスクからクエリ ポイントをランダムに選択する直感的なアプローチです。

K-Medoids サンプリングは、K-Medoids クラスタリングのクラスター センターをクエリ ポイントとして取得し、オブジェクトのさまざまな部分を適切にカバーし、ノイズや外れ値に対する堅牢性を確保します。

Shi-Tomasi サンプリングでは、マスクの下の画像から ShiTomasi コーナー ポイントが抽出され、優れた追跡機能であることが示されています。

上記の技術を組み合わせたハイブリッドアプローチであるハイブリッドサンプリングでは、さまざまな技術の独自の利点を組み合わせることができます。

各方法にはモデルのパフォーマンスに影響するさまざまな特性がありますが、アブレーション研究では、K-Medoids サンプリングが最良の結果をもたらし、さまざまなオブジェクトを完全にカバーできることが示されており、次に Shi-Tomasi サンプリング方法が続きます。

2. ポイントトラッキング

クエリ ポイントを使用して初期化した後、堅牢なポイント トラッカーを使用してビデオのすべてのフレームにポイントを伝播し、ポイントの軌跡とオクルージョン スコアを生成します。

研究者らは、最も先進的なポイント トラッカー PIPS を使用してポイントを伝播しました。これは、PIPS が長いシーケンスの追跡 (オブジェクトの遮蔽や再出現など) などの困難なシナリオに対してより堅牢であり、実験結果からも、連鎖オプティカル フロー伝播や最初のフレームの対応などの方法よりも効果的であることが示されているためです。

3. セグメンテーション

予測されたトラック内の遮蔽されていないポイントは、ビデオ全体のターゲット オブジェクトのインジケーターとして機能し、SAM にキューイングして、その固有の一般化機能を活用してフレームごとのセグメンテーション マスク予測を出力するために使用できます。

ビデオセグメンテーションデータでトレーニングまたは微調整する必要がある従来の追跡方法とは異なり、私たちの方法はゼロショットビデオセグメンテーションタスクで優れたパフォーマンスを発揮します。

写真

研究者らは、SAM を 2 回呼び出すことで正の点と負の点を組み合わせました。まず、SAM に正の点を指示して、オブジェクトの初期位置を定義しました。次に、SAM に正の点と負の点の両方と以前のマスク予測を指示しました。負の点は、オブジェクトと背景のより微妙な区別を提供し、誤ったセグメンテーション領域を排除するのに役立ちました。

最後に、2 番目の SAM プロンプトを繰り返してマスク最適化の反復回数を変更し、SAM を使用してぼかしマスクをより正確なマスクに調整します。アブレーション実験から、この手順によりビデオ オブジェクトのセグメンテーションのパフォーマンスが大幅に向上することがわかります。

4. ポイントトラッキングの再初期化

予測期間内に h=8 フレームが存在する場合、予測マスクを使用してクエリ ポイントを再初期化することを選択できます。このバリアントを SAM-PT-reinit と呼びます。8 に達する前に、最後に予測されたマスクを使用して新しいポイントがサンプリングされます。

この段階では、以前のポイントはすべて破棄され、新しくサンプリングされたポイントに置き換えられます。

ビデオ内のすべてのフレームが処理されるまで、手順 1 ~ 4 が新しいポイントに対して繰り返されます。再初期化プロセスには、信頼性の低いポイントや遮蔽されたポイントを破棄し、ビデオの後半で表示されるオブジェクト分割用のポイントを組み込むことで、追跡精度を向上させる効果があります。

実験セクション

ビデオオブジェクトのセグメンテーション

実験結果から、SAM メソッドは、DAVIS 2017 データセット上のビデオ オブジェクトでトレーニングされていない他のメソッドよりも優れていることがわかりました。

写真

J&F指標の平均スコアは76.6ポイントで、PerSAM-Fより4.7ポイント高く、SegGPT一般モデルより1パーセントポイント高くなっています。実験は8回繰り返され、平均と標準偏差が表に記載されています。

SAM-PT メソッドは、YouTube-VOS 2018 および MOSE 2023 データセットでも PerSAM-F を上回り、それぞれ平均スコア 67.0 と 41.0 を達成しました。ただし、異なるマスク トレーニング データでは、SAM-PT はこれら 2 つのデータセットで SegGPT よりもパフォーマンスが低くなりました。

写真

SAM-PT のゼロショット学習パフォーマンスは競争力がありますが、主にポイント トラッカーのオクルージョン、小さなオブジェクト、モーション ブラー、再識別の処理における制限により、エラーが将来のビデオ フレームに伝播する可能性があるため、一定の制限が依然として存在します。

写真

<<:  教育におけるAIの役割: AIが学習方法をどのように変えるか

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

人工知能(AI)時代に誰もが身につけるべき9つのソフトスキル

今日の人工知能、ビッグデータ、自動化の時代では、技術的なスキルとデータリテラシーが非常に重要です。し...

マイクロソフトは、兆パラメータのAIモデルのトレーニングに必要なGPUを4,000から800に削減しました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

知っておくべき 8 つのニューラル ネットワーク アーキテクチャ

ニューラル ネットワークは機械学習におけるモデルの一種です。ニューラル ネットワークは、機械学習の分...

GPT-4Vはキーボードとマウスを使ってインターネットを閲覧することを学習し、人間は投稿したりゲームをしたりしているのを観察した。

ついに、GPT-4V がコンピューターを自動的に操作することを学習する日が来ました。マウスとキーボー...

ゴリラもMinecraftをプレイできるようになり、動画を一度見るだけで新しいスキルが手に入る

GPT-4にMinecraftの遊び方を教えた後、人間はゴリラにもこのゲームの遊び方を教えました。写...

IBMのAI技術は高齢者の孤独を予測するのに役立つ

研究者たちは人工知能を使って、サンディエゴ郡の地元の高齢者住宅コミュニティの住民の孤独感を正確に予測...

大規模モデルにおける幻覚軽減技術の包括的調査

大規模言語モデル (LLM) は、多数のパラメーターとデータを備えたディープ ニューラル ネットワー...

...

...

...

インテリジェントオートメーションが現代の職場に与える影響

インテリジェントオートメーションは現代の職場をさまざまな形で変えていますCOVID-19パンデミック...

海外メディア:ロボットは人間の生活を変え、雇用や結婚のパターンに影響を与える

[[442070]]レファレンス・ニュース・ネットワークは12月26日、ドイツのフランクフルター・ア...