分裂の統一へ! OMG-Seg: すべてのセグメンテーションタスクに対応する 1 つのモデル

分裂の統一へ! OMG-Seg: すべてのセグメンテーションタスクに対応する 1 つのモデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な考え

画像セグメンテーションは、単一タスクのセグメンテーションから、セマンティックセグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーションの 3 つのセグメンテーションタスクの統合へと進化しました。大規模モデルとマルチモーダルの開発により、テキストと画像の統合が実現し、エンドツーエンドのクロスモーダルが可能になりました。CV/NLP 分野では、より高度で包括的なタスクの追求がコンセンサスとなっているようです。非常に神秘的に聞こえますが、この記事の統合セグメンテーションの場合、このアプローチも理解しやすいです。本質的には、Mask2former に基づいて SAM プロンプトを追加してプロンプト駆動型およびインタラクティブなセグメンテーションをサポートし、CLIP エンコーダーを追加してオープンドメインをサポートします。クエリに ID を追加すると、画像とビデオの両方のセグメンテーションがサポートされます。

PS: Mask2former は依然として非常に強力なベースラインであると言わざるを得ません。現在の SOTA 統合セグメンテーション モデル Oneformer は、このベースに基づいて改良されています。この記事のスーパー統合ソリューションも、このベースに基づいてアップグレードされています。

論文の主なアイデア

本稿では、さまざまなセグメンテーションタスクを統合し、画像セマンティックセグメンテーション、インスタンスセグメンテーション、パノプティックセグメンテーションとそれらのビデオ対応物、オープン語彙設定、キュー駆動型インタラクティブセグメンテーション(SAMなど)、ビデオオブジェクトセグメンテーションなど、すべてのセグメンテーションタスクを効率的かつ効果的に処理するのに十分なモデルであるOMG-Segを提案します。私たちの知る限り、これはこれらすべてのタスクを満足のいくパフォーマンスで処理できる最初のモデルです。この論文では、12 種類を超えるさまざまなセグメンテーション タスクをサポートし、さまざまなタスクとデータセットにわたる計算とパラメーターのオーバーヘッドを大幅に削減できる、タスク固有のクエリと出力を備えた Transformer ベースのエンコーダー/デコーダー アーキテクチャである OMG-Seg について説明します。共同トレーニング中のタスク間の影響と相関関係を厳密に評価します。コードとモデルは https://github.com/lxtGH/OMG-Seg で入手できます。

主な貢献

すべてのセグメンテーション タスクに対応する単一モデル、OMG-Seg を紹介します。

構造的には:

  • 従来のモデルでは通常、複数のタスク固有のブランチを持つ共有ビジョン バックボーンが使用されていましたが、OMG-Seg では共有エンコーダー/デコーダー アーキテクチャが採用されています。
  • すべてのタスクの出力を統一されたクエリ表現に統合します。クエリは、マスク ラベル/画像またはマスク/一意の ID/視覚的なキューを表すことができます。次に、すべてのタイプのクエリとその機能を処理するために共有デコーダーが採用されます。この設定により、一般的なセグメンテーションのトレーニングと推論の統合が促進され、タスク間での広範なパラメータの共有が可能になります。

効果:

  • OMG-Seg は、組み合わせた画像とビデオのデータセットを共同でトレーニングすることにより、さまざまなデータセットをカバーする最大 10 個の異なるセグメンテーション タスクを処理できます。 OMG-Seg は、COCO、ADE20k、VIPSeg、Youtube-VIS-2019、Youtube-VIS-2021、DAVIS-1 など、画像、ビデオ、オープン ボキャブラリー、インタラクション セグメンテーションの 4 つの設定で 8 つの異なるデータセットに対して有望な結果を達成した最初の製品です。

関連研究:

一般的な画像/ビデオのセグメンテーション ビジュアルトランスフォーマーの登場により、一般的なセグメンテーションの分野にイノベーションの波が起こりました。最近の研究では、エンドツーエンドのアンサンブル予測方法に基づくマスク分類アーキテクチャが開発されており、画像およびビデオのセグメンテーションタスクで優れたパフォーマンスを達成し、特殊なモデルを上回っています。これらの進歩にもかかわらず、既存の方法のほとんどは、依然として、さまざまなセグメンテーション タスクとデータセットごとに異なるモデルに依存しています。最近では、パラメータ共有の利点を得るために、さまざまなデータセットやタスクにわたって単一のモデルをトレーニングする傾向があります。たとえば、OneFormer は 3 つの画像セグメンテーション タスクを 1 つのモデルに統合しますが、UNINEXT はインスタンス レベルのタスクの統合に重点を置いています。同様に、TarVIS[23]はオブジェクトの手がかりを使用してさまざまなビデオセグメンテーションタスクを組み合わせます。しかし、これらの既存の研究のいずれも、包括的なセグメンテーション モデルを構築するために、画像、ビデオ、およびキュー駆動型データの共同トレーニングを徹底的に調査していません。私たちの研究は、こうした分野をまたいだ共同トレーニングの可能性を広げる、この方向への最初の試みです。

Visual Basic モデル ビジュアルグラウンディングモデルの分野における最近の研究では、さまざまな学習パラダイムをカバーする多様な最適化手法が実証されています。これらには、視覚のみの事前トレーニング戦略、視覚と言語の共同事前トレーニング方法、視覚的な手がかりを組み込んだマルチモーダル フレームワークが含まれます。注目すべき例は SAM です。これは、普遍的なセグメンテーションを実現するための広範なトレーニングの一般化とスケーラビリティを実証しました。これを基に、Semantic-SAM はセマンティック ラベルを追加し、細分化のレベルを上げることで SAM モデルを強化します。しかし、その優れたパフォーマンスにもかかわらず、これらのビジョンベースのモデルは通常、ビデオセグメンテーションタスクではパフォーマンスが低く、最高のパフォーマンスを達成するには、より動的なシナリオでさらに最適化する必要があります。

オープンワードセグメンテーション この視覚セグメンテーション研究の目的は、限られた視覚概念の集合を超えて、新しいオブジェクトを識別し、セグメント化することです。多くの研究では、視覚言語モデル (VLM) によって提供される転送可能な表現を活用して、トレーニング中に領域とテキスト表現間の整合を調査してきました。推論フェーズでは、検出器は VLM から派生したテキスト埋め込みを使用して新しいカテゴリを認識できます。私たちのモデルはこの考え方に従って、オープンな語彙セグメンテーションを実現します。具体的には、凍結された VLM を特徴抽出器と分類器の両方として使用します。この戦略により、オープン語彙設定でのシームレスな移行が可能になります。

統合モデリング  Transformer アーキテクチャの適応性により、異なるモダリティ間で基本モジュールを共有できるようになります。この汎用性により、一般的な Transformer フレームワークを使用してさまざまなドメインに取り組むためのいくつかの研究イニシアチブが生まれました。一般的な視覚分野における取り組みは、主に視覚領域におけるさまざまなタスクの統合に重点を置いていることは注目に値します。たとえば、Pix2Seq シリーズは、自己回帰ラベル予測を通じてタスクの統一を実現します。同様に、Unified-IO は、さまざまな入力と出力を個別のラベル付きシーケンスに変換するシーケンス間パイプラインを実装します。さらに、最近の進歩により、さまざまな視覚タスクを組み合わせる手段として、文脈における学習が研究されてきました。これらの方法は主に、ドメイン間でタスクを統合することを目的としています。ただし、統合セグメンテーション モデルと特定の目的のために構築されたモデル間のパフォーマンス ギャップは未解決の問題のままです。

方法設計:

OMG-Seg は、タスク固有のカスタマイズを減らし、パラメータの共有を最大限にすることでさまざまなセグメンテーション タスクをサポートする単一の多用途モデルであり、すべてのセグメンテーション タスクに対応できる万能モデルとなっています。目標は、各タスクで最先端の結果を追求することではなく、タスク間で広範な知識共有を可能にしながら、広く一般化できるセグメンテーション モデルのモデリング能力を高めることです。

統一されたタスク表現(サポートされているタスクを確認してください~~)

画像セグメンテーション 入力画像が与えられた場合、画像セグメンテーションの目的は、バイナリマスクのクラスラベルを表し、マスクの数、空間サイズを表すマスクのセットを出力することです。クラス ラベルとマスクの範囲に応じて、セマンティック セグメンテーション (SS)、インスタンス セグメンテーション (IS)、パノプティック セグメンテーション (PS) の 3 つの異なるセグメンテーション タスクの結果を報告します。 PS は SS と IS を統合したもので、可算な物カテゴリと不可算な物カテゴリが含まれます。これら 3 つのタスクでは、各マスクがセマンティック ラベルに対応するマスク分類アーキテクチャを採用します。

ビデオセグメンテーション ビデオクリップ入力が与えられ、ここでフレーム数を表す、ビデオセグメンテーションの目的はマスクチューブを取得することである。   、ここではチューブマスクの数です。チューブマスクのカテゴリラベルを表し、各チューブマスクのインスタンス ID を表します。各チューブ マスクは、数えられる物または数えられないもののカテゴリに分類でき、物カテゴリにも一意の ID が割り当てられます。スタッフマスクの場合、トラッキングはデフォルトでゼロになります。タスクに stuff カテゴリのみが含まれ、すべての thing カテゴリに ID がない場合、VPS はビデオ セマンティック セグメンテーション (VSS) になります。重複に物カテゴリのみが含まれ、すべてのスタッフカテゴリが無視される場合、VPS はビデオインスタンスセグメンテーション (VIS) になります。ビデオ オブジェクト セグメンテーション (VOS) の目的は、分類せずに最初のフレームのマスクを追跡することです。画像セグメンテーションにヒントを得て、チューブマスク分類アーキテクチャも採用し、時間的次元に沿って短いチューブをトレーニングしてリンクします。 VOS では、VPS や VIS と同様に、カテゴリに依存しないチューブマスクトレーニングを採用しています。オブジェクトセグメンテーション (VOS) の目的は、分類せずに最初のフレームのマスクを追跡することです。この論文では、画像セグメンテーションにヒントを得て、チューブマスク分類アーキテクチャも採用し、時間的次元に沿って短いチューブをトレーニングしてリンクします。 VOS では、VPS や VIS と同様に、カテゴリに依存しないチューブマスク トレーニングを採用しています。

インタラクティブなセグメンテーション 画像を同時に使用したSAMフレームワークでのインタラクティブなセグメンテーション  視覚的な手がかり  (例:点とボックス)を入力として、対応するバイナリ画像マスクを出力する  、で  視覚的な手がかりの数です。各視覚的な手がかりはターゲット クエリにエンコードされ、それが自然にデコーダーへの入力になります。私たちの実験では、共有デコーダーを使用して、さまざまなタスククエリをすべて処理します。

オープン語彙とマルチデータセットセグメンテーション タスクの定式化は、以前の画像およびビデオのセグメンテーションと同じです。ただし、この設定は固定ラベルスペースを超えます。特に、さまざまなデータセットでのオープンセット認識が必要です。同時に、マルチデータセットのセグメンテーションでは、異なるデータセットの下でより多くの概念をセグメント化するモデルが必要です。一般的な方法として、分類の競合を回避し、同時にオープンセット認識を実現するために、CLIP テキスト埋め込みをマスク分類器として採用します。したがって、学習した分類器ではなく、視覚的なクエリ機能とカテゴリ埋め込みの間の距離を測定します。

すべては調査中だ 前述のように、さまざまな設定をすべて組み合わせることで、同じクエリベースのマスク分類フレームワークを使用して、すべての出力セグメンテーション エンティティを表すことができます。特に、1つのオブジェクトクエリは1つのマスクに対応する。   、ラベル  およびID   。さまざまなタスク設定に応じて、  そして  形式と範囲が異なります。しかし、  そして  形式と範囲は似ています。したがって、これらすべてのタスクを共有のエンコーダーとデコーダーのフレームワークに組み込み、すべてのセグメンテーション タスクに対して 1 つのモデルを共同でトレーニングするのが自然です。

OMG-Seg アーキテクチャ (その仕組み~~)

OMG-Seg は、Mask2Former のアーキテクチャ設計に従います。図に示すように、バックボーン ネットワーク、ピクセル デコーダー、マスク デコーダーが含まれています。違いは、凍結されたバックボーンの設計、マージされたターゲット クエリ (ターゲット クエリと視覚的なキューを含む)、共有されたマルチタスク デコーダーなど、いくつかの側面にあります。タスク設定に応じて、デコーダーは対応するマスクとラベルを出力します。

VLMエンコーダを固定バックボーンとして使用する オープン語彙認識を実現するために、バックボーン部分では、特徴抽出器として凍結されたCLIPビジョンモデルを採用しています。この記事では、OpenCLIP の ConvNeXt アーキテクチャを使用します。画像/ビデオ入力が与えられると、VLMエンコーダは複数のスケールで凍結された特徴を抽出します。   、さらに処理するため。

機能アダプタとしてのピクセルデコーダ ピクセル デコーダーは Mask2Former と同じで、複数段の変形可能なアテンション レイヤーで構成されています。機能がフリーズします  同じチャネル寸法を持つ融合フィーチャに変換  、で  フィーチャのレイヤーインデックスです。  最高解像度の機能です。

結合されたターゲットクエリ 上記で分析したように、各ターゲット クエリはマスク出力を表します。ただし、機能的な観点から見ると、画像、ビデオ、インタラクティブ モードはそれぞれ異なる属性を表します。画像の場合、オブジェクト クエリはオブジェクト レベルの位置特定と認識に重点を置いています。ビデオの場合、オブジェクト クエリには、異なるフレーム間での同じオブジェクトなど、時間的な一貫性が含まれる場合があります。インタラクティブなセグメンテーションの場合、ターゲット クエリは特定の領域を検索するように強制されます。画像およびビデオ入力の場合、画像マスクまたは追跡されたチューブマスクを表すためにオブジェクトクエリを採用します。どちらもセマンティックタグを必要とするためです。この論文では、これらをセマンティッククエリと呼んでいます。インタラクティブ モードでは、SAM のアプローチに従って、キュー エンコーダーを採用し、さまざまな視覚的なキューをターゲット クエリと同じ形状のクエリにエンコードします。この記事ではこれをロケーションクエリと呼びます。したがって、この論文ではトランスフォーマーデコーダーと同じインターフェースを共有できます。

共有マルチタスクデコーダー その主な動作は、マージされたターゲットクエリを受信するクロスアテンションである。   そして  )および画像/ビデオ機能  、そして精製されたターゲットクエリを出力します。最終的なマスクは、クエリと高解像度の特徴を改良することによって得られる。   のドット積。画像セマンティックレベルタスクについては、この論文ではMask2Formerと同じプロセスを採用しています。具体的には、  マルチスケール機能の使用  マスク付き交差注意を実施する[18]。  クエリであり、   キーと値です。次に、洗練されたクエリにマルチヘッドセルフアテンション (MHSA) レイヤーが適用されます。

ビデオタスクでは、同じクロスアテンション設計を採用します。唯一の違いはピラミッド機能です  時間の次元に沿った 3D 位置埋め込みと連結されます。これは、以前の研究でのデフォルト設定です。組み合わせたビデオ機能と洗練されたクエリを使用して、チューブマスクを予測します。

インタラクティブなセグメンテーションでは、同じ交差注意設計を実行します。ただし、インタラクティブなセグメンテーションでは入力視覚キュー領域のみが考慮されるため、MHSA レイヤーでのマスク クエリ間の相互作用を回避するために自己注意をスキップします。精製されたターゲット クエリを取得した後、予測 FFN を通過します。予測 FFN には通常、ReLU アクティベーション レイヤーと線形投影レイヤーを含む 3 層パーセプトロンが含まれます。すべてのクエリは、マスク分類損失とマスク予測損失の両方によって監視されます。デコード処理は、各特徴ピラミッドに対して 3 つのステージでカスケード方式で実行されます。

トレーニングと推論(複数のデータセットと複数のタスクを一緒にトレーニングする方法)

画像と動画の結合データセットの共同トレーニング 私たちの目標は、最初に画像データセットで事前トレーニングするのではなく、すべてのセグメンテーションタスクを 1 回だけ共同でトレーニングすることです。すべてのトレーニング ターゲットは、3 つの異なるケースのエンティティ ラベルとマスクです。エンティティは、オブジェクト、その他の項目、カテゴリに依存しないマスク、およびそれらに対応するラベルになります。同じID   チューブマスクを形成するインスタンスマスク。トレーニング中、予測されたエンティティ マスクとグラウンド トゥルース エンティティ マスクの間にハンガリアン マッチングを適用して、ターゲット クエリをビデオ/画像エンティティに割り当て、予測されたマスクと分類を監視します。データセット間での分類の競合を回避するために、分類器は CLIP テキスト埋め込みに置き換えられます。最終的な損失関数は次のように表される。   。ここ、  マスク分類のクロスエントロピー(CE)損失である。  そして これらはそれぞれ、セグメンテーションのマスククロスエントロピー (CE) 損失とダイス損失です。

一般的な推論 画像のセグメンテーションでは、Mask2Former と同じ推論プロセスに従います。たとえば、PS の場合、ソートされたスコアに従ってオブジェクトとその他の項目をマージします。スコアは CLIP テキスト埋め込みによって生成されます。この論文では、VIS と VPS の両方のビデオ セグメンテーション タスクでインスタンス ID を生成するために、以前の研究に従い、追加の追跡コンポーネントを導入する代わりにクエリ マッチングを使用します。 VOS タスクでは、最初のフレームと残りのフレーム間のマスク マッチングを採用します。インタラクティブなセグメンテーションタスクでは、オリジナルの SAM に従って、ボックスとポイントのヒントを提供することでバイナリマスクを取得します。オープン語彙セグメンテーションタスクでは、固定された CLIP エンコーダーがあるため、マスク プーリング スコアと学習したスコアをオープン語彙埋め込みとマージします。

タスクを組み合わせてより多くのアプリケーションを取得する 私たちのモデルはさまざまなセグメンテーション タスクを実行できるため、インタラクティブ、オープン ボキャブラリ、および画像/ビデオのセグメンテーション タスクを組み合わせることで、いくつかの新しいアプリケーションを実現できます。たとえば、インタラクションとビデオのセグメンテーションを組み合わせて、柔軟なキュー駆動型のビデオ オブジェクトのセグメンテーションを実現できます。あるいは、インタラクティブなセグメンテーションとオープン語彙設定を組み合わせて、オープン語彙のインタラクティブなセグメンテーションを実現することもできます。

実験結果:

データセットと評価指標 従来の設定とは異なり、本論文の目的は、可能な限り複数のデータセットでの共同トレーニングを検討することです。この論文では、COCO panoptic、COCO-SAM、VIPSeg、Youtube-VIS-2019 (YT-VIS19) をトレーニング データセットとして使用します。この論文には、クローズドセットテストに加えて、トレーニング中に注釈が使用されなかった Youtube-VIS-2021、ADE-20k、および DAVIS-2017 データセットを使用したオープン語彙 (OV) 推論も含まれています。 COCO-SAM は、グラウンドトゥルースの境界ボックスとマスクの中心点を視覚的な手がかりとして使用して作成されます。注釈は COCO パノプティック マスクを介して取得されます。さらに、OMG-Seg のマルチデータセット共同トレーニングの有効性を検証するために、表 3 にマルチデータセット設定も含めます。表 2 に加えて、この論文では、共同トレーニング用の ADE-20k や YT-VIS21 などのデータセットをさらに追加しています。この論文では、PQ、マスク mAP、VPQ、チューブ mAP、J&F、mIoU など、各データセットに対応する評価指標を使用しています。

実験の詳細 私たちのモデルと他のすべてのベースラインを MMDetection に実装します。この記事では、32 個の A100 GPU を備えた分散トレーニング フレームワークを使用します。各ミニバッチには、各 GPU に 1 つの画像があります。データ拡張では、以前の研究と同様に大規模なジッタリングを採用して、強力なベースラインを構築します。各テーブルのすべてのモデルに対して、同じトレーニング手順を使用します。 OpenCLIP を使用してバックボーン ネットワークを初期化し、学習した分類器を対応するテキスト埋め込みに置き換えます。画像入力の場合、2 つの画像とそのマスクを 1 つに連結して疑似ビデオとして扱われます。この論文では、各データセットのトレーニング サンプルのバランスをとるために、異なるサンプリング レートを採用しています。この論文では、参考までに、凍結およびトレーニングされたバックボーン ネットワークの結果を報告します。

主な結果

虽然在COCO图像分割基准上表现略有下降,但在VIPSeg数据集上取得了接近最先进水平的结果;开放词汇视频分割领域效果也不错。

基于K-Net和Mask2Former进行了多数据集联合训练。联合共同训练通常可以提高大多数视频分割数据集的性能,从而实现了大幅度的模型参数减少(从1326M减少到221M)。这种改进在三个VPS和VIS数据集中是一致的,无论是否冻结了骨干网络。

結論は:

この論文では、画像、ビデオ、オープン語彙、インタラクティブなセグメンテーションのための初の共同トレーニング フレームワークを紹介します。私たちのソリューションである OMG-Seg は、統一されたクエリ表現と共有デコーダーを使用してさまざまなタスクを処理する、新しくシンプルなフレームワークです。初めて、10 種類の異なるタスクでタスク固有のモデルに匹敵するパフォーマンスを発揮できる単一のセグメンテーション モデルをトレーニングすることが可能になりました。このアプローチにより、パラメータのサイズが大幅に削減され、さまざまなアプリケーションのモデル設計における専門的なエンジニアリングの必要性が軽減されます。私たちの効率的で多用途なフレームワークは、マルチタスクおよびマルチデータセットのセグメンテーションのための堅牢なベースラインとして機能することが期待されています。

オリジナルリンク: https://mp.weixin.qq.com/s/Hz2gDOy5POxU_bFyJCxUDw

<<:  1万語の要約 | 2023年のビッグモデルと自動運転の論文を簡単に見る

>>:  マルチユーザーデータ取得: LangChain 技術ガイドとケーススタディ

ブログ    
ブログ    

推薦する

自然言語処理: エンタープライズ AI の新たなフロンティア

単純なスペルミスや単語の誤用によって会話ボットの応答が変わってしまう可能性がありますが、人間のエージ...

2 回のセッションの後、Ovio は次のように分析します: 私たちは人工知能の時代を迎えましたが、それは良い面と悪い面の両方があります。

2回の会期は3月20日に終了した。今年の全国人民代表大会では、政府活動報告に「人工知能」が再び記載...

...

...

スーパーマリオをプレイする3本の機械指がサイエンス誌に掲載された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

GitHub スター 6000 以上! Pythonで機械学習のバイブルPRMLを実践

ビショップの PRML は機械学習のバイブルと言っても過言ではありません。この本では、パターン認識と...

Deeplearning4j: JVM 向けのディープラーニングと ETL

[[410828]]この記事はWeChatの公開アカウント「Java Architecture M...

機械学習モデルに不可欠な 5 つのデータ前処理手法

[[324419]]データ サイエンス プロジェクトに取り組んだことがある場合、データ マイニングの...

ドローン自動化システムの産業への応用を探る

世界中の企業は、競合他社に対して競争上の優位性を獲得するのに役立つ高度なテクノロジーを常に探していま...

...

アシモフのロボット工学三原則とモービルアイの自動運転五原則

テクノロジー・トラベラーは11月20日、北京から報道した(執筆者:ガオ・フェイ):多くのSF作家の想...

近年、軍事用人工知能スタートアップが人気を集めている理由

ロシアとウクライナの紛争が始まって2週間、データ分析会社パランティアのCEO、アレクサンダー・カープ...

分析とAIがIoTの成長を牽引

「未来の工場には、男性と犬の2人の従業員しかいないでしょう。男性は犬に餌を与え、犬は男性を監視して機...

シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか? Redditの男の魂を問う質問が白熱した議論を巻き起こす

シリコンバレーの大企業からのオファーは多くのプログラマーにとって依然として非常に魅力的であり、今年は...