SAM によるゼロショット ビデオ オブジェクト セグメンテーション! HKUSTと他の研究チームは、教師ありSOTAに匹敵するパフォーマンスを持つ初の「スパースポイント伝播」手法SAM-PTをオープンソース化しました。

SAM によるゼロショット ビデオ オブジェクト セグメンテーション! HKUSTと他の研究チームは、教師ありSOTAに匹敵するパフォーマンスを持つ初の「スパースポイント伝播」手法SAM-PTをオープンソース化しました。

ビデオセグメンテーションは、自動運転、ロボット工学、ビデオ編集などのアプリケーションシナリオの基本的なテクノロジーですが、現在の方法では、ゼロショット学習設定や未知のサンプルを予測する場合にパフォーマンスが安定しないという問題があります。

今年 4 月、Meta AI は非常に強力な画像セグメンテーション基本モデル Segment Anything Model (SAM) をオープンソース化しました。1,100 万枚の画像でトレーニングされた SAM は、非常に強力な一般化パフォーマンスを備えており、さまざまな下流アプリケーションに適用できます。

ただし、SAM は画像セグメンテーション分野全体を支配しているものの、ビデオセグメンテーションタスクには適していません。

写真

最近、ETH チューリッヒ、香港科技大学、スイス連邦工科大学ローザンヌ校の研究者らが SAM-PT モデルをリリースしました。このモデルは、堅牢でスパースなポイント選択と伝播技術を使用してマスクを生成し、SAM のゼロショット機能を動的なビデオ追跡およびセグメンテーション タスクに拡張し、複数のビデオ オブジェクト セグメンテーション データセット ベンチマーク DAVIS、YouTube-VOS、MOSE で安定した強力なゼロショット パフォーマンスを実現しました。

論文リンク: https://arxiv.org/pdf/2307.01197.pdf

コードリンク: https://github.com/SysCV/sampt

従来のオブジェクト中心のマスク伝播戦略と比較して、SAM-PT はポイント伝播を革新的に使用して、オブジェクトの意味に依存しないローカル構造情報を活用します。また、ゼロショットのオープンワールド未確認ビデオ オブジェクト (UVO) ベンチマークでの直接評価を通じて、ポイントベースの追跡の利点を強調し、SAM の柔軟性を維持するのに役立ちます。

モデルのパフォーマンスをさらに向上させるために、研究者らは K-Medoids クラスタリングを使用してポイントを初期化し、正のポイントと負のポイントを同時に追跡して、ターゲット オブジェクトを明確に区別しました。また、複数のマスク デコードを使用してマスクを改善し、ポイントの再初期化戦略を設計して追跡精度を向上させました。

SAM-PT

背景知識SAM

ビジュアル ベース モデル SAM は、プロンプト可能なセグメンテーション タスク、つまり「プロンプト」が与えられた場合にゼロ ショットおよび少数ショットの画像セグメンテーション タスクを実行するために使用できます。

SAM のトレーニング データは SA-1B で、1,100 万枚の画像と 10 億以上のマスクが含まれており、これは既存のセグメンテーション データセットの 400 倍の大きさです。また、この大規模データにより、SAM は新しいデータに対して非常に強力なゼロ サンプル一般化パフォーマンスを発揮できます。

写真

SAM の実験結果は、単一の前景ポイントから高品質のマスクを生成する能力を実証し、ヒント エンジニアリングを使用したゼロ ショット設定で、エッジ検出、オブジェクト提案生成、インスタンス分割タスクなどを含むさまざまな下流タスクへの強力な一般化機能を示しています。

SAM は、画像エンコーダー、柔軟なヒント エンコーダー、高速マスク デコーダーの 3 つの主要部分で構成されています。

画像エンコーダーは Vision Transformer (ViT) のバックボーンであり、高解像度の 1024×1024 画像を処理し、64×64 空間サイズの画像埋め込みを生成します。

ヒント エンコーダーは、ポイント、ボックス、テキストなどのスパース ヒント、またはマスクなどの密なヒントを入力として受け取り、これらのヒントを c 次元のトークンに変換します。

軽量マスク デコーダーは、画像とキューの埋め込みを統合してセグメンテーション マスクをリアルタイムで予測し、SAM が最小限の計算オーバーヘッドでさまざまなキューに適応できるようにします。

SAM-PT

SAM は画像セグメンテーションでは優れたパフォーマンスを発揮しますが、ビデオセグメンテーションタスクの処理には固有の制限があります。

この論文で提案されている Segment Anything Meets Point Tracking (SAM-PT) 方式は、SAM をビデオに効果的に拡張し、強力なビデオ セグメンテーション パフォーマンスを提供し、ビデオ セグメンテーション データのトレーニングを必要としません。

写真

SAM-PT は主に 4 つのステップで構成されます。最初のフレームのクエリ ポイントを選択する、ポイント トラッカーを使用して選択したクエリ ポイントをすべてのビデオ フレームに伝播する、SAM を使用して伝播されたポイントに基づいて各フレームのセグメンテーション マスクを生成する、予測されたマスクからクエリ ポイントをサンプリングして再初期化する、です。

1. クエリポイントの選択

クエリ ポイントは、ターゲット オブジェクト (正のポイント) を表すことも、背景や非ターゲット オブジェクト (負のポイント) を指定することもできます。ユーザーは、クエリ ポイントを手動で対話的に提供することも、実際の注釈マスクから取得することもできます。

たとえば、半教師ありビデオ オブジェクト セグメンテーション タスクでは、オブジェクトが出現する最初のフレームに対して注釈付きマスクが準備されます。

写真

研究者は、幾何学的な位置や特徴の相違を考慮して、グラウンドトゥルース注釈付きマスクからクエリポイントを取得するために、さまざまなポイントサンプリング手法を使用しました。

サンプリング手法には次のものがあります。

ランダム サンプリングは、グラウンド トゥルース マスクからクエリ ポイントをランダムに選択する直感的なアプローチです。

K-Medoids サンプリングは、K-Medoids クラスタリングのクラスター センターをクエリ ポイントとして取得し、オブジェクトのさまざまな部分を適切にカバーし、ノイズや外れ値に対する堅牢性を確保します。

Shi-Tomasi サンプリングでは、マスクの下の画像から ShiTomasi コーナー ポイントが抽出され、優れた追跡機能であることが示されています。

上記の技術を組み合わせたハイブリッドアプローチであるハイブリッドサンプリングでは、さまざまな技術の独自の利点を組み合わせることができます。

各方法にはモデルのパフォーマンスに影響するさまざまな特性がありますが、アブレーション研究では、K-Medoids サンプリングが最良の結果をもたらし、さまざまなオブジェクトを完全にカバーできることが示されており、次に Shi-Tomasi サンプリング方法が続きます。

2. ポイントトラッキング

クエリ ポイントを使用して初期化した後、堅牢なポイント トラッカーを使用してビデオのすべてのフレームにポイントを伝播し、ポイントの軌跡とオクルージョン スコアを生成します。

研究者らは、最も先進的なポイント トラッカー PIPS を使用してポイントを伝播しました。これは、PIPS が長いシーケンスの追跡 (オブジェクトの遮蔽や再出現など) などの困難なシナリオに対してより堅牢であり、実験結果からも、連鎖オプティカル フロー伝播や最初のフレームの対応などの方法よりも効果的であることが示されているためです。

3. セグメンテーション

予測されたトラック内の遮蔽されていないポイントは、ビデオ全体のターゲット オブジェクトのインジケーターとして機能し、SAM にキューイングして、その固有の一般化機能を活用してフレームごとのセグメンテーション マスク予測を出力するために使用できます。

ビデオセグメンテーションデータでトレーニングまたは微調整する必要がある従来の追跡方法とは異なり、私たちの方法はゼロショットビデオセグメンテーションタスクで優れたパフォーマンスを発揮します。

写真

研究者らは、SAM を 2 回呼び出すことで正の点と負の点を組み合わせました。まず、SAM に正の点を指示して、オブジェクトの初期位置を定義しました。次に、SAM に正の点と負の点の両方と以前のマスク予測を指示しました。負の点は、オブジェクトと背景のより微妙な区別を提供し、誤ったセグメンテーション領域を排除するのに役立ちました。

最後に、2 番目の SAM プロンプトを繰り返してマスク最適化の反復回数を変更し、SAM を使用してぼかしマスクをより正確なマスクに調整します。アブレーション実験から、この手順によりビデオ オブジェクトのセグメンテーションのパフォーマンスが大幅に向上することがわかります。

4. ポイントトラッキングの再初期化

予測期間内に h=8 フレームが存在する場合、予測マスクを使用してクエリ ポイントを再初期化することを選択できます。このバリアントを SAM-PT-reinit と呼びます。8 に達する前に、最後に予測されたマスクを使用して新しいポイントがサンプリングされます。

この段階では、以前のポイントはすべて破棄され、新しくサンプリングされたポイントに置き換えられます。

ビデオ内のすべてのフレームが処理されるまで、手順 1 ~ 4 が新しいポイントに対して繰り返されます。再初期化プロセスには、信頼性の低いポイントや遮蔽されたポイントを破棄し、ビデオの後半で表示されるオブジェクト分割用のポイントを組み込むことで、追跡精度を向上させる効果があります。

実験セクション

ビデオオブジェクトのセグメンテーション

実験結果から、SAM メソッドは、DAVIS 2017 データセット上のビデオ オブジェクトでトレーニングされていない他のメソッドよりも優れていることがわかりました。

写真

J&F指標の平均スコアは76.6ポイントで、PerSAM-Fより4.7ポイント高く、SegGPT一般モデルより1パーセントポイント高くなっています。実験は8回繰り返され、平均と標準偏差が表に記載されています。

SAM-PT メソッドは、YouTube-VOS 2018 および MOSE 2023 データセットでも PerSAM-F を上回り、それぞれ平均スコア 67.0 と 41.0 を達成しました。ただし、異なるマスク トレーニング データでは、SAM-PT はこれら 2 つのデータセットで SegGPT よりもパフォーマンスが低くなりました。

写真

SAM-PT のゼロショット学習パフォーマンスは競争力がありますが、主にポイント トラッカーのオクルージョン、小さなオブジェクト、モーション ブラー、再識別の処理における制限により、エラーが将来のビデオ フレームに伝播する可能性があるため、一定の制限が依然として存在します。

写真

<<:  教育におけるAIの役割: AIが学習方法をどのように変えるか

>>: 

ブログ    
ブログ    
ブログ    

推薦する

機械学習論文を再現する際に注意すべき5つの問題

私が初めて機械学習に興味を持ったとき、論文を読んだり、それを実装したりすることに多くの時間を費やしま...

NeRF を放棄し始めていますか?ガウススプラッティングが自動運転のシナリオで人気があるのはなぜですか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

OpenAI CEO サム・アルトマン: AI革命が到来、新たなシステムが必要

サム・アルトマンのブログ記事全文は次のとおりです。 OpenAI での私の仕事は、ほとんどの人が認識...

Baidu AIは素晴らしいキャンパスライフに新たなタッチを加え、新学期をより技術的に

幼少期、小学校、中学校、高校、大学に至るまで、キャンパスライフはほとんどの人にとって欠かせないもので...

人工知能シンギュラリティと人類の未来

「シンギュラリティ」は、人工知能(AI)の将来展望とその社会的影響を説明する重要な概念です。 AIの...

人工知能はクラウド セキュリティ サービスをどのように変えるのでしょうか?

この記事では、AI がクラウド セキュリティ サービスをどのように変えているのか、そしてそれが企業に...

2024年のテクノロジートレンド: AI、5G、IoT、ブロックチェーンの影響

2024 年が始まると、多くのテクノロジートレンドが形成され始めます。今年は、セキュリティとガバナン...

MIT の FrameDiff ツールがリリースされ、AI を使用してタンパク質構造を設計し、医療開発の促進に役立てられるようになりました。

7月13日、 MITの研究者らは、医薬品開発の加速と遺伝子治療の改善を目的として、生成型人工知能を...

...

2022年にテクノロジー業界を変えるAIユニコーン企業トップ10

現在、人工知能は独立に向けて動き始めています。世界中の企業はこの学際的な分野に適応し、ほぼすべてのビ...

...

プログラマーという職業は10年以内にAIによって消滅するのでしょうか?

これは非常に興味深い質問です。プログラマーという職業はAIによって消滅することはないと思いますが、プ...

AIとIoTが公共交通機関をよりスマートかつ安全に

スマート デバイスを通じてモビリティを向上させる人工知能 (AI) ソリューションは、買い物習慣から...

中関村科学技術の張傑氏との対話:大規模モデルを実装するには従うべき「テクニック」がある

ゲスト | 張潔インタビュー | 張小南編集者 | 徐潔成制作:51CTO テクノロジースタック(W...

...