分裂の統一へ！ OMG-Seg: すべてのセグメンテーションタスクに対応する 1 つのモデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な考え

画像セグメンテーションは、単一タスクのセグメンテーションから、セマンティックセグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーションの 3 つのセグメンテーションタスクの統合へと進化しました。大規模モデルとマルチモーダルの開発により、テキストと画像の統合が実現し、エンドツーエンドのクロスモーダルが可能になりました。CV/NLP 分野では、より高度で包括的なタスクの追求がコンセンサスとなっているようです。非常に神秘的に聞こえますが、この記事の統合セグメンテーションの場合、このアプローチも理解しやすいです。本質的には、Mask2former に基づいて SAM プロンプトを追加してプロンプト駆動型およびインタラクティブなセグメンテーションをサポートし、CLIP エンコーダーを追加してオープンドメインをサポートします。クエリに ID を追加すると、画像とビデオの両方のセグメンテーションがサポートされます。

PS: Mask2former は依然として非常に強力なベースラインであると言わざるを得ません。現在の SOTA 統合セグメンテーションモデル Oneformer は、このベースに基づいて改良されています。この記事のスーパー統合ソリューションも、このベースに基づいてアップグレードされています。

論文の主なアイデア

本稿では、さまざまなセグメンテーションタスクを統合し、画像セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションとそれらのビデオ対応物、オープン語彙設定、キュー駆動型インタラクティブセグメンテーション（SAMなど）、ビデオオブジェクトセグメンテーションなど、すべてのセグメンテーションタスクを効率的かつ効果的に処理するのに十分なモデルであるOMG-Segを提案します。私たちの知る限り、これはこれらすべてのタスクを満足のいくパフォーマンスで処理できる最初のモデルです。この論文では、12 種類を超えるさまざまなセグメンテーションタスクをサポートし、さまざまなタスクとデータセットにわたる計算とパラメーターのオーバーヘッドを大幅に削減できる、タスク固有のクエリと出力を備えた Transformer ベースのエンコーダー/デコーダーアーキテクチャである OMG-Seg について説明します。共同トレーニング中のタスク間の影響と相関関係を厳密に評価します。コードとモデルは https://github.com/lxtGH/OMG-Seg で入手できます。

主な貢献

すべてのセグメンテーションタスクに対応する単一モデル、OMG-Seg を紹介します。

構造的には:

従来のモデルでは通常、複数のタスク固有のブランチを持つ共有ビジョンバックボーンが使用されていましたが、OMG-Seg では共有エンコーダー/デコーダーアーキテクチャが採用されています。
すべてのタスクの出力を統一されたクエリ表現に統合します。クエリは、マスクラベル/画像またはマスク/一意の ID/視覚的なキューを表すことができます。次に、すべてのタイプのクエリとその機能を処理するために共有デコーダーが採用されます。この設定により、一般的なセグメンテーションのトレーニングと推論の統合が促進され、タスク間での広範なパラメータの共有が可能になります。

効果：

OMG-Seg は、組み合わせた画像とビデオのデータセットを共同でトレーニングすることにより、さまざまなデータセットをカバーする最大 10 個の異なるセグメンテーションタスクを処理できます。 OMG-Seg は、COCO、ADE20k、VIPSeg、Youtube-VIS-2019、Youtube-VIS-2021、DAVIS-1 など、画像、ビデオ、オープンボキャブラリー、インタラクションセグメンテーションの 4 つの設定で 8 つの異なるデータセットに対して有望な結果を達成した最初の製品です。

方法設計:

OMG-Seg は、タスク固有のカスタマイズを減らし、パラメータの共有を最大限にすることでさまざまなセグメンテーションタスクをサポートする単一の多用途モデルであり、すべてのセグメンテーションタスクに対応できる万能モデルとなっています。目標は、各タスクで最先端の結果を追求することではなく、タスク間で広範な知識共有を可能にしながら、広く一般化できるセグメンテーションモデルのモデリング能力を高めることです。

統一されたタスク表現（サポートされているタスクを確認してください~~）

画像セグメンテーション 入力画像が与えられた場合、画像セグメンテーションの目的は、バイナリマスクのクラスラベルを表し、マスクの数、空間サイズを表すマスクのセットを出力することです。クラスラベルとマスクの範囲に応じて、セマンティックセグメンテーション (SS)、インスタンスセグメンテーション (IS)、パノプティックセグメンテーション (PS) の 3 つの異なるセグメンテーションタスクの結果を報告します。 PS は SS と IS を統合したもので、可算な物カテゴリと不可算な物カテゴリが含まれます。これら 3 つのタスクでは、各マスクがセマンティックラベルに対応するマスク分類アーキテクチャを採用します。

ビデオセグメンテーション ビデオクリップ入力が与えられ、ここでフレーム数を表す、ビデオセグメンテーションの目的はマスクチューブを取得することである。、ここではチューブマスクの数です。チューブマスクのカテゴリラベルを表し、各チューブマスクのインスタンス ID を表します。各チューブマスクは、数えられる物または数えられないもののカテゴリに分類でき、物カテゴリにも一意の ID が割り当てられます。スタッフマスクの場合、トラッキングはデフォルトでゼロになります。タスクに stuff カテゴリのみが含まれ、すべての thing カテゴリに ID がない場合、VPS はビデオセマンティックセグメンテーション (VSS) になります。重複に物カテゴリのみが含まれ、すべてのスタッフカテゴリが無視される場合、VPS はビデオインスタンスセグメンテーション (VIS) になります。ビデオオブジェクトセグメンテーション (VOS) の目的は、分類せずに最初のフレームのマスクを追跡することです。画像セグメンテーションにヒントを得て、チューブマスク分類アーキテクチャも採用し、時間的次元に沿って短いチューブをトレーニングしてリンクします。 VOS では、VPS や VIS と同様に、カテゴリに依存しないチューブマスクトレーニングを採用しています。オブジェクトセグメンテーション (VOS) の目的は、分類せずに最初のフレームのマスクを追跡することです。この論文では、画像セグメンテーションにヒントを得て、チューブマスク分類アーキテクチャも採用し、時間的次元に沿って短いチューブをトレーニングしてリンクします。 VOS では、VPS や VIS と同様に、カテゴリに依存しないチューブマスクトレーニングを採用しています。

インタラクティブなセグメンテーション 画像を同時に使用したSAMフレームワークでのインタラクティブなセグメンテーション視覚的な手がかり（例：点とボックス）を入力として、対応するバイナリ画像マスクを出力する、で視覚的な手がかりの数です。各視覚的な手がかりはターゲットクエリにエンコードされ、それが自然にデコーダーへの入力になります。私たちの実験では、共有デコーダーを使用して、さまざまなタスククエリをすべて処理します。

オープン語彙とマルチデータセットセグメンテーション タスクの定式化は、以前の画像およびビデオのセグメンテーションと同じです。ただし、この設定は固定ラベルスペースを超えます。特に、さまざまなデータセットでのオープンセット認識が必要です。同時に、マルチデータセットのセグメンテーションでは、異なるデータセットの下でより多くの概念をセグメント化するモデルが必要です。一般的な方法として、分類の競合を回避し、同時にオープンセット認識を実現するために、CLIP テキスト埋め込みをマスク分類器として採用します。したがって、学習した分類器ではなく、視覚的なクエリ機能とカテゴリ埋め込みの間の距離を測定します。

すべては調査中だ 前述のように、さまざまな設定をすべて組み合わせることで、同じクエリベースのマスク分類フレームワークを使用して、すべての出力セグメンテーションエンティティを表すことができます。特に、1つのオブジェクトクエリは1つのマスクに対応する。、ラベルおよびID 。さまざまなタスク設定に応じて、そして形式と範囲が異なります。しかし、そして形式と範囲は似ています。したがって、これらすべてのタスクを共有のエンコーダーとデコーダーのフレームワークに組み込み、すべてのセグメンテーションタスクに対して 1 つのモデルを共同でトレーニングするのが自然です。

OMG-Seg アーキテクチャ (その仕組み~~)

OMG-Seg は、Mask2Former のアーキテクチャ設計に従います。図に示すように、バックボーンネットワーク、ピクセルデコーダー、マスクデコーダーが含まれています。違いは、凍結されたバックボーンの設計、マージされたターゲットクエリ (ターゲットクエリと視覚的なキューを含む)、共有されたマルチタスクデコーダーなど、いくつかの側面にあります。タスク設定に応じて、デコーダーは対応するマスクとラベルを出力します。

VLMエンコーダを固定バックボーンとして使用する オープン語彙認識を実現するために、バックボーン部分では、特徴抽出器として凍結されたCLIPビジョンモデルを採用しています。この記事では、OpenCLIP の ConvNeXt アーキテクチャを使用します。画像/ビデオ入力が与えられると、VLMエンコーダは複数のスケールで凍結された特徴を抽出します。、さらに処理するため。

機能アダプタとしてのピクセルデコーダ ピクセルデコーダーは Mask2Former と同じで、複数段の変形可能なアテンションレイヤーで構成されています。機能がフリーズします同じチャネル寸法を持つ融合フィーチャに変換、でフィーチャのレイヤーインデックスです。最高解像度の機能です。

結合されたターゲットクエリ 上記で分析したように、各ターゲットクエリはマスク出力を表します。ただし、機能的な観点から見ると、画像、ビデオ、インタラクティブモードはそれぞれ異なる属性を表します。画像の場合、オブジェクトクエリはオブジェクトレベルの位置特定と認識に重点を置いています。ビデオの場合、オブジェクトクエリには、異なるフレーム間での同じオブジェクトなど、時間的な一貫性が含まれる場合があります。インタラクティブなセグメンテーションの場合、ターゲットクエリは特定の領域を検索するように強制されます。画像およびビデオ入力の場合、画像マスクまたは追跡されたチューブマスクを表すためにオブジェクトクエリを採用します。どちらもセマンティックタグを必要とするためです。この論文では、これらをセマンティッククエリと呼んでいます。インタラクティブモードでは、SAM のアプローチに従って、キューエンコーダーを採用し、さまざまな視覚的なキューをターゲットクエリと同じ形状のクエリにエンコードします。この記事ではこれをロケーションクエリと呼びます。したがって、この論文ではトランスフォーマーデコーダーと同じインターフェースを共有できます。

共有マルチタスクデコーダー その主な動作は、マージされたターゲットクエリを受信するクロスアテンションである。そして）および画像/ビデオ機能、そして精製されたターゲットクエリを出力します。最終的なマスクは、クエリと高解像度の特徴を改良することによって得られる。のドット積。画像セマンティックレベルタスクについては、この論文ではMask2Formerと同じプロセスを採用しています。具体的には、マルチスケール機能の使用マスク付き交差注意を実施する[18]。クエリであり、キーと値です。次に、洗練されたクエリにマルチヘッドセルフアテンション (MHSA) レイヤーが適用されます。

ビデオタスクでは、同じクロスアテンション設計を採用します。唯一の違いはピラミッド機能です時間の次元に沿った 3D 位置埋め込みと連結されます。これは、以前の研究でのデフォルト設定です。組み合わせたビデオ機能と洗練されたクエリを使用して、チューブマスクを予測します。

インタラクティブなセグメンテーションでは、同じ交差注意設計を実行します。ただし、インタラクティブなセグメンテーションでは入力視覚キュー領域のみが考慮されるため、MHSA レイヤーでのマスククエリ間の相互作用を回避するために自己注意をスキップします。精製されたターゲットクエリを取得した後、予測 FFN を通過します。予測 FFN には通常、ReLU アクティベーションレイヤーと線形投影レイヤーを含む 3 層パーセプトロンが含まれます。すべてのクエリは、マスク分類損失とマスク予測損失の両方によって監視されます。デコード処理は、各特徴ピラミッドに対して 3 つのステージでカスケード方式で実行されます。

トレーニングと推論（複数のデータセットと複数のタスクを一緒にトレーニングする方法）

画像と動画の結合データセットの共同トレーニング 私たちの目標は、最初に画像データセットで事前トレーニングするのではなく、すべてのセグメンテーションタスクを 1 回だけ共同でトレーニングすることです。すべてのトレーニングターゲットは、3 つの異なるケースのエンティティラベルとマスクです。エンティティは、オブジェクト、その他の項目、カテゴリに依存しないマスク、およびそれらに対応するラベルになります。同じID チューブマスクを形成するインスタンスマスク。トレーニング中、予測されたエンティティマスクとグラウンドトゥルースエンティティマスクの間にハンガリアンマッチングを適用して、ターゲットクエリをビデオ/画像エンティティに割り当て、予測されたマスクと分類を監視します。データセット間での分類の競合を回避するために、分類器は CLIP テキスト埋め込みに置き換えられます。最終的な損失関数は次のように表される。。ここ、マスク分類のクロスエントロピー（CE）損失である。そしてこれらはそれぞれ、セグメンテーションのマスククロスエントロピー (CE) 損失とダイス損失です。

一般的な推論 画像のセグメンテーションでは、Mask2Former と同じ推論プロセスに従います。たとえば、PS の場合、ソートされたスコアに従ってオブジェクトとその他の項目をマージします。スコアは CLIP テキスト埋め込みによって生成されます。この論文では、VIS と VPS の両方のビデオセグメンテーションタスクでインスタンス ID を生成するために、以前の研究に従い、追加の追跡コンポーネントを導入する代わりにクエリマッチングを使用します。 VOS タスクでは、最初のフレームと残りのフレーム間のマスクマッチングを採用します。インタラクティブなセグメンテーションタスクでは、オリジナルの SAM に従って、ボックスとポイントのヒントを提供することでバイナリマスクを取得します。オープン語彙セグメンテーションタスクでは、固定された CLIP エンコーダーがあるため、マスクプーリングスコアと学習したスコアをオープン語彙埋め込みとマージします。

タスクを組み合わせてより多くのアプリケーションを取得する 私たちのモデルはさまざまなセグメンテーションタスクを実行できるため、インタラクティブ、オープンボキャブラリ、および画像/ビデオのセグメンテーションタスクを組み合わせることで、いくつかの新しいアプリケーションを実現できます。たとえば、インタラクションとビデオのセグメンテーションを組み合わせて、柔軟なキュー駆動型のビデオオブジェクトのセグメンテーションを実現できます。あるいは、インタラクティブなセグメンテーションとオープン語彙設定を組み合わせて、オープン語彙のインタラクティブなセグメンテーションを実現することもできます。

実験結果:

データセットと評価指標 従来の設定とは異なり、本論文の目的は、可能な限り複数のデータセットでの共同トレーニングを検討することです。この論文では、COCO panoptic、COCO-SAM、VIPSeg、Youtube-VIS-2019 (YT-VIS19) をトレーニングデータセットとして使用します。この論文には、クローズドセットテストに加えて、トレーニング中に注釈が使用されなかった Youtube-VIS-2021、ADE-20k、および DAVIS-2017 データセットを使用したオープン語彙 (OV) 推論も含まれています。 COCO-SAM は、グラウンドトゥルースの境界ボックスとマスクの中心点を視覚的な手がかりとして使用して作成されます。注釈は COCO パノプティックマスクを介して取得されます。さらに、OMG-Seg のマルチデータセット共同トレーニングの有効性を検証するために、表 3 にマルチデータセット設定も含めます。表 2 に加えて、この論文では、共同トレーニング用の ADE-20k や YT-VIS21 などのデータセットをさらに追加しています。この論文では、PQ、マスク mAP、VPQ、チューブ mAP、J&F、mIoU など、各データセットに対応する評価指標を使用しています。

実験の詳細 私たちのモデルと他のすべてのベースラインを MMDetection に実装します。この記事では、32 個の A100 GPU を備えた分散トレーニングフレームワークを使用します。各ミニバッチには、各 GPU に 1 つの画像があります。データ拡張では、以前の研究と同様に大規模なジッタリングを採用して、強力なベースラインを構築します。各テーブルのすべてのモデルに対して、同じトレーニング手順を使用します。 OpenCLIP を使用してバックボーンネットワークを初期化し、学習した分類器を対応するテキスト埋め込みに置き換えます。画像入力の場合、2 つの画像とそのマスクを 1 つに連結して疑似ビデオとして扱われます。この論文では、各データセットのトレーニングサンプルのバランスをとるために、異なるサンプリングレートを採用しています。この論文では、参考までに、凍結およびトレーニングされたバックボーンネットワークの結果を報告します。

主な結果

虽然在COCO图像分割基准上表现略有下降，但在VIPSeg数据集上取得了接近最先进水平的结果；开放词汇视频分割领域效果也不错。

基于K-Net和Mask2Former进行了多数据集联合训练。联合共同训练通常可以提高大多数视频分割数据集的性能，从而实现了大幅度的模型参数减少（从1326M减少到221M）。这种改进在三个VPS和VIS数据集中是一致的，无论是否冻结了骨干网络。

結論は：

この論文では、画像、ビデオ、オープン語彙、インタラクティブなセグメンテーションのための初の共同トレーニングフレームワークを紹介します。私たちのソリューションである OMG-Seg は、統一されたクエリ表現と共有デコーダーを使用してさまざまなタスクを処理する、新しくシンプルなフレームワークです。初めて、10 種類の異なるタスクでタスク固有のモデルに匹敵するパフォーマンスを発揮できる単一のセグメンテーションモデルをトレーニングすることが可能になりました。このアプローチにより、パラメータのサイズが大幅に削減され、さまざまなアプリケーションのモデル設計における専門的なエンジニアリングの必要性が軽減されます。私たちの効率的で多用途なフレームワークは、マルチタスクおよびマルチデータセットのセグメンテーションのための堅牢なベースラインとして機能することが期待されています。

オリジナルリンク: https://mp.weixin.qq.com/s/Hz2gDOy5POxU_bFyJCxUDw

<<: 1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

>>: マルチユーザーデータ取得: LangChain 技術ガイドとケーススタディ