写真 ビデオセグメンテーションは多くのシナリオで広く使用されています。映画の視覚効果を高めたり、自動運転でシーンを理解したり、ビデオ会議で仮想背景を作成したりするには、ビデオセグメンテーションが必要です。最近、ディープラーニングベースのビデオセグメンテーションは良好な結果を達成していますが、コンピュータービジョンにおいてはまだ難しいトピックです。 半教師ありビデオ オブジェクト セグメンテーション (VOS) とビデオ インスタンス セグメンテーション (VIS) に関して言えば、現在の主流の方法は、未知のデータを扱う場合には平凡なパフォーマンスしか発揮せず、サンプルがゼロの場合はさらに「説明が困難」になります。ゼロショットのケースとは、これらのモデルがトレーニングされていないビデオのドメインに転送され、これらのビデオにトレーニング セット外のオブジェクトが含まれているケースを指します。パフォーマンスが平凡な理由は、微調整のための特定のビデオセグメンテーションデータがなければ、これらのモデルがさまざまなシナリオで一貫したパフォーマンスを維持することが難しいためです。 この課題を克服するには、画像セグメンテーションの分野で成功したモデルをビデオセグメンテーションタスクに適用する必要があります。これが、Segment Anything Model (SAM) につながります。 SAM は、1,100 万枚の画像と 10 億を超えるマスクを含む大規模な SA-1B データセットでトレーニングされた、画像セグメンテーション用の強力な基本モデルです。徹底的なトレーニングにより、SAM は驚異的なゼロショット一般化能力を獲得しました。 SAM は、注釈なしであらゆる画像内のあらゆるオブジェクトをセグメント化できるため、業界で大きな反響を呼び、コンピューター ビジョンの分野では GPT とも呼ばれています。 SAM はゼロショット画像セグメンテーションにおいて優れた能力を発揮していますが、ビデオセグメンテーションタスクには「当然」適していません。 最近、研究者たちは SAM をビデオセグメンテーションに適用する作業を開始しました。これらの方法は分布内データでのパフォーマンスの大部分を回復しますが、ゼロショットの場合、SAM の元のパフォーマンスを維持することはできません。 SegGPT などの SAM を使用しない他の方法では、視覚的なプロンプトを使用して一部のセグメンテーションの問題を正常に解決できますが、ビデオの最初のフレームのマスク注釈が必要です。この問題は、ゼロショット ビデオ セグメンテーションにおける重要な難題です。研究者が、目に見えないシーンに簡単に一般化でき、さまざまなビデオ領域にわたって一貫して高品質のセグメンテーションを提供できる方法を開発しようとすると、この課題はさらに困難になります。 現在、一部の研究者は SAM-PT (Segment Anything Meets Point Tracking) を提案しており、これは「障害」を排除するための新しいアイデアを提供する可能性があります。 写真
図 1 に示すように、SAM-PT はビデオ セグメンテーションのためにスパース ポイント トラッキングと SAM を組み合わせた最初の方法です。オブジェクト中心の高密度特徴マッチングやマスク伝播を使用する場合とは異なり、これはポイント駆動型のアプローチです。ビデオに埋め込まれた豊富なローカル構造情報を活用してポイントを追跡します。したがって、最初のフレームでスパース ポイントを使用してターゲット オブジェクトに注釈を付けるだけでよく、未知のオブジェクトに対する一般化能力が向上し、これは UVO ベンチマークで実証されています。このアプローチは、SAM の本来の柔軟性を維持しながら、ビデオ セグメンテーションの機能を効果的に拡張するのにも役立ちます。 写真 SAM-PT は、PIPS などの最先端のポイント トラッカーを使用して、スパース ポイントの軌跡を予測し、SAM を誘導して、ビデオ セグメンテーションの汎用性を活用します。研究者らは、マスクラベルから K-Medoids クラスターセンターを使用してトラッカーを初期化することが、キュー付き SAM と最も互換性のある戦略であることを発見しました。正のポイントと負のポイントの両方を追跡することで、対象オブジェクトを背景から明確に分離できます。 出力マスクをさらに最適化するために、研究者らは 2 種類のポイントを統合する複数のマスク デコード チャネルを提案しました。さらに、時間の経過とともに追跡精度を向上させるポイント再初期化戦略を設計しました。このアプローチは、信頼できないポイントや遮蔽されたポイントを破棄し、後続のフレームで表示されるオブジェクトの一部または部分(オブジェクトが回転する場合など)のポイントを追加するというものです。 特に、私たちの実験結果では、SAM-PT がいくつかのビデオ セグメンテーション ベンチマークにおいて既存のゼロ ショット メソッドと同等か、それを上回るパフォーマンスを発揮することが示されています。トレーニング中、SAM-PT はビデオセグメンテーションデータを必要としないため、この方法の堅牢性と適応性が実証されています。 SAM-PT は、特にゼロショットのシナリオにおいて、ビデオセグメンテーションタスクの進行を促進する可能性があります。 SAM-PT法の概要SAM は画像セグメンテーションにおいて優れた機能を発揮しますが、ビデオセグメンテーションタスクの処理には固有の制限があります。私たちが提案する「Segment Anything Meets Point Tracking」(SAM-PT)方式は、SAM をビデオ領域に効果的に拡張し、ビデオ セグメンテーション データをトレーニングする必要なく、ビデオ セグメンテーションを強力にサポートします。 図 2 に示すように、SAM-PT は主に次の 4 つのステップで構成されます。 1) 最初のフレームのクエリポイントを選択します。 2) ポイント トラッカーを使用して、これらのポイントをすべてのビデオ フレームに伝播します。 3) SAM を使用して伝播ポイントに基づいてフレームごとにセグメンテーション マスクを生成します。 4) 予測されたマスクからクエリ ポイントを抽出してプロセスを再初期化します。 写真 クエリ ポイントを選択します。プロセスの最初のステップは、最初のビデオ フレームでクエリ ポイントを定義することです。これらのクエリ ポイントは、ターゲット オブジェクト (正のポイント) を表すか、背景および非ターゲット オブジェクト (負のポイント) を指定します。クエリ ポイントは、ユーザーが手動で対話的に提供することも、グラウンド トゥルース マスクから導出することもできます。 図 3 に示すように、ユーザーは幾何学的位置や特徴の違いを考慮して、さまざまなポイント サンプリング手法を使用して、グラウンド トゥルース マスクからクエリ ポイントを取得できます。これらのサンプリング手法には、ランダム サンプリング、K-Medoids サンプリング、Shi-Tomasi サンプリング、ハイブリッド サンプリングが含まれます。 写真 ポイントトラッキング。クエリ ポイントから開始して、堅牢なポイント トラッカーを使用してビデオ内のすべてのフレームにポイントを伝播し、ポイントの軌跡とオクルージョン スコアを算出します。 最先端のポイント トラッカー PIPS がポイントの伝播に採用されています。これは、PIPS がオブジェクトの遮蔽や再現などの長期的な追跡の課題に対して適切な堅牢性を示しているためです。実験では、連鎖オプティカルフロー伝播や最初のフレーム対応などの方法よりもこれが効果的であることも示されています。 セグメンテーション。予測された軌道では、遮蔽されていないポイントが、ビデオ全体におけるターゲット オブジェクトの位置を示す指標として機能します。この時点で、遮蔽されていないポイントを使用して SAM をプロンプトし、その固有の一般化機能を使用してフレームごとのセグメンテーション マスク予測を出力することができます (図 4 を参照)。 写真 ポイントトラッキングが再初期化されました。 h = 8 フレームの予測期間に達すると、ユーザーは予測マスクを使用してクエリ ポイントを再初期化することを選択し、そのバリアントを SAM-PT-reinit として指定できます。この地平線に到達すると、h 個の予測マスクが存在し、新しいポイントは最後に予測されたマスクを使用してサンプリングされます。この段階では、以前のポイントはすべて破棄され、新しいサンプル ポイントに置き換えられます。 上記の方法によれば、以下のようにビデオをスムーズに分割することができます。 その他のデモを見る: SAM-PTとターゲット中心マスク伝播の比較SAM-PT は、スパース ポイント トラッキングとキュー SAM を組み合わせたもので、表 1 に示すように、高密度オブジェクト マスクの伝播に依存する従来のビデオ セグメンテーション方法とは異なります。 SAM-PT は、トレーニング中にビデオ セグメンテーション データを使用しない方法と同等かそれ以上のパフォーマンスを実現します。ただし、これらの方法と、XMem や DeAOT など、同じドメインのビデオセグメンテーショントレーニングデータを利用する方法との間には、依然としてパフォーマンスのギャップが存在します。 要約すると、SAM-PT は、スパース ポイント伝播を導入し、それをキュー画像セグメンテーション ベース モデルと組み合わせてゼロ ショット ビデオ オブジェクト セグメンテーションを行う最初の方法です。これは新たな視点を提供し、ビデオ オブジェクトのセグメンテーションの研究に新たな次元を追加します。 写真 実験結果動画オブジェクトのセグメンテーションについては、研究チームは DAVIS 2016、DAVIS 2017、YouTube-VOS 2018、MOSE 2023 という 4 つの VOS データセットで手法を評価しました。 ビデオインスタンスのセグメンテーションについては、UVO v1.0 データセットの densevideo タスクでこの手法を評価しました。 彼らはまた、画像インスタンスセグメンテーションにおける標準的な評価指標を使用して提案手法を評価しており、これはビデオインスタンスセグメンテーションにも適用できます。これらのメトリックには、IoU に基づく平均精度 (AP) と平均再現率 (AR) が含まれます。 ビデオオブジェクトのセグメンテーションの結果 表 3 に示すように、DAVIS 2017 データセットでは、提案された方法は、ビデオ オブジェクト セグメンテーション データでトレーニングされていない他の方法よりも優れています。 写真 SAM-PT は YouTube-VOS 2018 および MOSE 2023 データセットでも PerSAM-F を上回り、表 4 および 5 に示すように平均スコア 67.0 および 41.0 を達成しました。ただし、異なるマスク トレーニング データでは、SAM-PT は両方のデータセットで SegGPT と比較してパフォーマンスが低下します。 写真 定性分析。 DAVIS 2017 での SAM-PT と SAM-PTreinit の成功したビデオセグメンテーションの視覚化結果をそれぞれ図 7a と図 7b に示します。特に、図 8 は、未知の Web ビデオ (アニメ風のテレビ アニメ シリーズ「アバター: 伝説の少年アン」のクリップ) でのビデオ セグメンテーションが成功したことを示し、提案された方法のゼロ ショット機能を実証しています。 制限と課題。 SAM-TP のゼロショット性能は競争力がありますが、まだいくつかの制限があります。これらの制限は主に、ポイント トラッカーがオクルージョン、小さなオブジェクト、モーション ブラー、および再識別を処理する能力に焦点を当てています。これらの側面では、ポイント トラッカーのエラーは将来のビデオ フレームに伝播します。 図 7c は DAVIS 2017 からのこれらの問題の例を示しており、図 9 は『アバター 伝説の少年アン』のクリップからの他の例を示しています。 写真 ビデオインスタンスのセグメンテーションの結果 SAM-PT はビデオ セグメンテーション データでトレーニングされていないにもかかわらず、同じマスク提案では TAM よりも大幅に優れたパフォーマンスを発揮します。 TAM は SAM と XMem を組み合わせた並列手法であり、XMem は BL30K で事前トレーニングされ、DAVIS と YouTube-VOS でトレーニングされますが、UVO ではトレーニングされません。 一方、SAM-PT は SAM と PIPS のポイント トラッキング手法を組み合わせたものですが、どちらもビデオ セグメンテーション タスクではトレーニングされていません。 詳細については原論文を参照してください。 |
<<: ChatGPTはオンラインモードを緊急にシャットダウンし、有料のウェブページに無料でアクセスできることが一度明らかになった。
AI画像検出器が再び攻撃を受けました!最近、中東紛争の写真が大量にインターネット上に公開され、極限状...
大規模言語モデル (LLM) が強力であることは議論の余地のない事実ですが、それでも単純な間違いを犯...
[[407769]]ヘルスケア業界における人工知能の活用AI技術が進歩するにつれて、その応用も拡大し...
AI はあらゆるところに存在し、その可能性は計り知れません。しかし、諺にあるように、大いなる力には大...
「敵対的事例」は古くからある問題です。画像内の数ピクセルを変更するなど、通常のデータにわずかな外乱...
人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活...
[[424491]]近年、人工知能ブームの影響を受けて、生体認証技術は急速に進歩し、市場の発展も好調...
2018年、ACM(米国計算機協会)は、コンピュータディープラーニング分野への貢献を称え、ヨシュア...
人工知能 (AI) は、マーケティングと広告のダイナミックな環境において変革をもたらす力として登場し...
データを機械学習モデルに渡すときには、データを正規化する必要があることはわかっています。データの正規...