NTUと上海AIラボが300以上の論文をまとめました:Transformerベースの視覚セグメンテーションの最新レビューが公開されました

NTUと上海AIラボが300以上の論文をまとめました:Transformerベースの視覚セグメンテーションの最新レビューが公開されました

SAM (Segment Anything) は、基本的な視覚セグメンテーション モデルとして、わずか 3 か月で多くの研究者の注目と追跡を集めました。 SAM の背後にあるテクノロジーを体系的に理解し、進化のペースについていき、独自の SAM モデルを作成したい場合は、このトランスフォーマー ベースのセグメンテーション調査を見逃さないでください。最近、南洋理工大学と上海人工知能研究所の研究者数名がトランスフォーマーベースのセグメンテーションに関するレビューを書き、近年のトランスフォーマーベースのセグメンテーションと検出モデルを体系的にレビューしました。調査された最新モデルは今年6月時点のものです。同時に、このレビューには関連分野の最新の論文や多数の実験分析と比較も含まれており、幅広い展望を持ついくつかの将来の研究方向を明らかにしています。

視覚的セグメンテーションは、画像、ビデオ フレーム、またはポイント クラウドを複数のセグメントまたはグループに分割することを目的としています。この技術は、自動運転、画像編集、ロボット認識、医療分析など、現実世界で多くの用途に使用されています。過去 10 年間で、ディープラーニング ベースの手法はこの分野で目覚ましい進歩を遂げました。最近では、もともと自然言語処理用に設計された自己注意ベースのニューラル ネットワークである Transformer が、さまざまな視覚処理タスクにおいて、従来の畳み込みアプローチや再帰アプローチを大幅に上回るパフォーマンスを発揮しています。具体的には、Visual Transformer は、さまざまなセグメンテーション タスクに対して強力で統合された、さらにシンプルなソリューションを提供します。このレビューでは、Transformer ベースの視覚セグメンテーションの包括的な概要を示し、最近の進歩をまとめています。まず、問題の定義、データセット、以前の畳み込み手法などの背景を確認します。次に、本論文では、最近の Transformer ベースの方法をすべて統合するメタアーキテクチャについてまとめます。この論文では、このメタアーキテクチャに基づいて、このメタアーキテクチャの変更や関連するアプリケーションを含むさまざまな方法設計を検討します。さらに、本稿では、3D ポイント クラウド セグメンテーション、基本モデル チューニング、ドメイン適応セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、いくつかの関連設定についても紹介します。さらに、本論文では、広く認知されているいくつかのデータセットでこれらの手法をまとめ、再評価します。最後に、この論文では、この分野における未解決の課題を特定し、将来の研究の方向性を提案しています。この記事では、Transformer ベースの最新のセグメンテーションおよび検出方法を引き続き追跡します。

写真

プロジェクトアドレス: https://github.com/lxtGH/Awesome-Segmentation-With-Transformer

論文アドレス: https://arxiv.org/pdf/2304.09854.pdf

研究の動機

  • ViT と DETR の登場により、セグメンテーションと検出の分野で大きな進歩が遂げられました。現在、ほぼすべてのデータセット ベンチマークでトップランクの手法は、Transformer に基づいています。そのためには、この方向の方法と技術的特徴を体系的に要約し、比較する必要があります。
  • 最近の大規模モデル アーキテクチャはすべて、マルチモーダル モデルやセグメンテーション ベース モデル (SAM) などの Transformer 構造に基づいており、さまざまな視覚タスクが統一されたモデル モデリングへと移行しています。
  • セグメンテーションと検出によって、関連する下流タスクが多数発生し、これらのタスクを解決するための多くの方法も、Transformer 構造を使用しています。

概要 機能

  • 体系的で読みやすい。この論文では、セグメンテーションのさまざまなタスク定義、および関連するタスク定義と評価メトリックを体系的にレビューします。さらに、本論文では畳み込み法から始めて、ViT と DETR に基づくメタアーキテクチャをまとめています。このレビューでは、このメタフレームワークに基づいて、関連する方法を要約して一般化し、最近の方法を体系的にレビューします。具体的な技術レビューのルートを図1に示します。
  • 技術的な観点からの詳細な分類。これまでの Transformer のレビューと比較して、この記事ではメソッドをより慎重に分類します。この記事では、同様のアイデアを持つ論文を集め、それらの類似点と相違点を比較します。例えば、この記事では、メタアーキテクチャを同時に変更するデコーダー側の手法を、画像ベースの Cross Attention とビデオベースの時空間 Cross Attention モデリングに分類します。
  • 研究上の質問の包括性。この論文では、画像、ビデオ、ポイント クラウドのセグメンテーション タスクを含むセグメンテーションのさまざまな側面を体系的にレビューします。同時に、本稿では、オープンセットセグメンテーションと検出モデル、教師なしセグメンテーション、弱教師セグメンテーションなどの関連する方向性についてもレビューします。

写真

図1. 調査内容のロードマップ

図2. よく使われるデータセットとセグメンテーションタスクの概要

Transformerベースのセグメンテーションと検出方法の概要と比較

図3. 一般的なメタアーキテクチャフレームワーク

この論文ではまず、DETR と MaskFormer のフレームワークに基づくメタアーキテクチャについて概説します。このモデルは、次の異なるモジュールで構成されています。

  • バックボーン:画像の特徴を抽出するために使用される特徴抽出器。
  • ネック:マルチスケール オブジェクトを処理するためにマルチスケール機能を構築します。
  • オブジェクト クエリ:前景オブジェクトや背景オブジェクトなど、シーン内の各エンティティを表すために使用されるクエリ オブジェクト。
  • デコーダー:オブジェクト クエリと対応する機能を段階的に最適化するために使用されるデコーダー。
  • エンドツーエンドのトレーニング:オブジェクト クエリに基づく設計により、エンドツーエンドの最適化を実現できます。

このメタアーキテクチャに基づいて、既存の方法は、タスクに応じて最適化と調整を行うために、次の 5 つの異なる方向に分けることができます。図 4 に示すように、各方向にはいくつかの異なるサブ方向が含まれています。

図4. Transformerベースのセグメンテーション手法の概要と比較

  • より優れた特徴表現学習、表現学習。強力な視覚的特徴表現は、常により優れたセグメンテーション結果につながります。この論文では、関連する作業を、より優れた視覚的な Transformer 設計、ハイブリッド CNN/Transformer/MLP、自己教師あり学習の 3 つの側面に分類しています。
  • デコーダー側のメソッド設計、デコーダーでのインタラクション設計。このセクションでは、新しい Transformer デコーダーの設計について説明します。本稿では、デコーダー設計を 2 つのグループに分けます。1 つは画像セグメンテーションにおける交差注意設計を改善するためのグループ、もう 1 つはビデオセグメンテーションにおける時空間交差注意設計を改善するためのグループです。前者は、元の DETR のデコーダーを改善するための、より優れたデコーダーの設計に重点を置いています。後者は、クエリ オブジェクト ベースのオブジェクト検出器とセグメンテーションをビデオ ドメインに拡張し、ビデオ オブジェクト検出 (VOD)、ビデオ インスタンス セグメンテーション (VIS)、ビデオ ピクセル セグメンテーション (VPS) を実現し、時間的な一貫性と相関関係のモデリングに重点を置いています。
  • オブジェクト クエリの最適化の観点から、クエリ オブジェクトを最適化してみます。 Faster-RCNN と比較すると、DETR の収束スケジュールは長くなります。クエリ オブジェクトの役割が重要であるため、トレーニングを高速化し、パフォーマンスを向上させるために、いくつかの既存の方法が研究されてきました。この論文では、オブジェクトクエリアプローチに基づいて、以下の文献を、位置情報の追加と追加の監視の採用という 2 つの側面に分類します。位置情報は、クエリ機能の高速トレーニング サンプリングの手がかりとなります。追加の監督は、DETR のデフォルトの損失関数以外の特定の損失関数の設計に重点を置いています。
  • クエリ オブジェクトを使用して、フィーチャをインスタンスに関連付けます (関連付けのためのクエリの使用)。クエリ オブジェクトのシンプルさを活かして、最近のいくつかの研究では、下流のタスクを解決するための関連ツールとしてクエリ オブジェクトを使用しています。主な使用法は 2 つあります。1 つはインスタンス レベルの関連付け、もう 1 つはタスク レベルの関連付けです。前者は、インスタンス識別の考え方を採用し、ビデオのセグメンテーションや追跡など、ビデオ内のインスタンスレベルのマッチング問題を解決します。後者は、クエリ オブジェクトを使用してさまざまなサブタスクを橋渡しし、効率的なマルチタスク学習を実現します。
  • マルチモーダル条件付きクエリ オブジェクト生成、条件付きクエリ生成。この章では、マルチモーダルセグメンテーションタスクに焦点を当てます。条件付きクエリ オブジェクトは、主にクロスモーダルおよびクロスイメージの特徴マッチング タスクを処理するために使用されます。タスクの入力条件に応じて、デコーダー ヘッドは異なるクエリを使用して、対応するセグメンテーション マスクを取得します。本論文では、さまざまな入力のソースに応じて、これらの作品を言語的特徴と画像的特徴という 2 つの側面に分類します。これらの方法は、クエリ オブジェクトをさまざまなモデルの機能と融合する戦略に基づいており、複数のマルチモーダル セグメンテーション タスクと少数ショット セグメンテーションで優れた結果を達成しています。

図 5 は、これら 5 つの異なる方向におけるいくつかの代表的な作品の比較を示しています。より具体的な方法の詳細と比較については、論文の内容を参照してください。

写真

図5. Transformerベースのセグメンテーションと検出の代表的な手法の概要と比較

関連研究分野における手法のまとめと比較

この論文では、いくつかの関連分野についても検討します: 1. Transformer に基づくポイント クラウド セグメンテーション方法。 2. 視覚的かつマルチモーダルな大規模モデルのチューニング。 3. ドメイン転移学習やドメイン一般化学習などのドメイン関連のセグメンテーションモデルの研究。 4. 効率的なセマンティックセグメンテーション:教師なしセグメンテーションモデルと弱教師セグメンテーションモデル。 5. クラスに依存しないセグメンテーションと追跡。 6. 医療画像のセグメンテーション。

写真

図6. 関連研究分野におけるTransformerベースの手法のまとめと比較

異なる方法による実験結果の比較

図7. セマンティックセグメンテーションデータセットのベンチマーク実験

図8. パノプティックセグメンテーションデータセットのベンチマーク実験

この論文では、同じ実験設計条件を一貫して使用して、パノラマセグメンテーションとセマンティックセグメンテーションの複数のデータセットに関するいくつかの代表的な研究の結果を比較します。結果は、同じトレーニング戦略とエンコーダーを使用すると、方法間のパフォーマンスのギャップが狭まることを示しています。

さらに、この記事では、複数の異なるデータセットとタスクにおける最近の Transformer ベースのセグメンテーション手法の結果も比較します。 (セマンティックセグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーション、および対応するビデオセグメンテーションタスク)

今後の方向性

さらに、本論文では、将来の研究の方向性に関する分析もいくつか提供しています。ここでは例として 3 つの異なる方向を示します。

  • より一般的で統一されたセグメンテーション モデル。さまざまなセグメンテーション タスクを統合するために Transformer 構造を使用するのがトレンドです。最近の研究では、クエリ オブジェクト ベースのトランスフォーマーを使用して、単一のアーキテクチャ内でさまざまなセグメンテーション タスクを実行しています。考えられる研究の方向性としては、さまざまなセグメンテーション データセットで 1 つのモデルを通じて画像とビデオのセグメンテーション タスクを統合することです。これらの一般的なモデルは、さまざまなシナリオで普遍的で堅牢なセグメンテーションを実現できます。たとえば、さまざまなシナリオでまれなカテゴリを検出してセグメント化することで、ロボットはより適切な判断を下すことができます。
  • 視覚的推論と組み合わせたセグメンテーション モデル。視覚的推論では、ロボットがシーン内のオブジェクト間のつながりを理解する必要があり、この理解は動作計画において重要な役割を果たします。これまでの研究では、オブジェクト追跡やシーン理解などのさまざまなアプリケーションで、セグメンテーション結果を視覚推論モデルへの入力として使用することが検討されてきました。セグメンテーションと視覚的推論の統合は、セグメンテーションと関係分類の両方に相互に有益な可能性を秘めており、有望な方向性となる可能性があります。視覚的推論をセグメンテーション プロセスに組み込むことで、研究者は推論の力を活用してセグメンテーションの精度を向上させることができ、セグメンテーションの結果は視覚的推論のためのより優れた入力を提供することもできます。
  • 継続学習のためのセグメンテーションモデルの研究。既存のセグメンテーション手法は通常、事前に定義されたカテゴリのセットを持つ閉世界のデータセットでベンチマークされます。つまり、トレーニング サンプルとテスト サンプルには、事前にわかっている同じカテゴリと特徴空間があると想定されます。ただし、実際のシナリオは通常、オープンワールドで非定常であり、新しいカテゴリのデータが継続的に出現する可能性があります。例えば、自動運転車や医療診断では、予期せぬ状況が突然発生する可能性があります。現実世界と閉ざされた世界のシナリオにおける既存の方法のパフォーマンスと機能の間には明らかなギャップがあります。したがって、セグメンテーション モデルの既存の知識ベースに新しい概念を徐々に継続的に組み込み、モデルが生涯学習を実行できるようにすることが望ましいです。

詳しい研究の方向性については、原著論文を参照してください。

<<:  私をプログラマーと呼ばないで、私は「AIエンジニア」です、マスク氏:自然言語プログラミングを始めましょう

>>: 

ブログ    
ブログ    

推薦する

初心者向けガイド: Numpy、Keras、PyTorch を使用した単純な線形回帰

[[433966]]図 1 に示すように、さまざまな種類の機械学習技術は、さまざまなカテゴリに分類で...

自動テストの落とし穴は何ですか?どうすれば解決できるでしょうか?

自動テストは、ソフトウェア ツールまたはハードウェア デバイスを使用して、テスト ケースの手動実行を...

世界的な食糧危機に対処するため、AI、5G、マシンビジョンが力を合わせて「魚を育てる」

今日、世界的な食糧問題は現実的な問題となっており、悪化する環境危機がこの課題をさらに悪化させています...

プログラマーの芸術: ソートアルゴリズムのダンス

1. バブルソート 2. シェルソート 3. 選択ソート 4. 挿入ソート 5. クイックソート 6...

インタビュー必須:バックトラッキングアルゴリズムの詳細な説明

序文みなさんこんにちは。私はカタツムリを採っている小さな男の子です。 LeetCode を練習してい...

...

NSAが設計した暗号化アルゴリズムは停止された

すべての RSA 暗号化システムでは、強力な暗号化キーまたは類似のキーを作成するために、ユーザーが予...

...

考えてみましょう: なぜ AI が必要ないのでしょうか?

[[270404]] [51CTO.com クイック翻訳] 人工知能(AI)は今ホットな話題であり...

...

...

ICLR 2020 におけるナレッジグラフ研究の包括的な概要

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

あるいは人間の目よりも鮮明です!世界初の3D人工眼球が発売され、何百万人もの人々が視力を取り戻す

[[327384]] 5月24日、メディアの報道によると、香港科技大学の研究者らがネイチャー誌に発表...

AIはオミクロン変異体の構造を1時間で予測、誤差は原子直径の半分のみ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...