Meta の「Split Everything AI」よりも多用途です。 HKUSTの画像セグメンテーションAIが登場: より強力な粒度とセマンティック機能を実現

Meta の「Split Everything AI」よりも多用途です。 HKUSTの画像セグメンテーションAIが登場: より強力な粒度とセマンティック機能を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

「すべてをセグメント化する」MetaのSAMよりも汎用性の高い画像セグメンテーションAIが登場!

このモデルはSemantic-SAMと呼ばれます。名前が示すように、SAM セグメンテーション効果を完全に再現することをベースにしたこの AI には、次の 2 つの大きな特徴もあります。

  • 意味認識: モデルはセグメント化されたエンティティに意味ラベルを提供することができます
  • 豊富な粒度: モデルは、オブジェクトからパーツまで、さまざまな粒度レベルでエンティティをセグメント化できます。

写真

著者自身の言葉:

Semantic-SAM は、複数の粒度でオブジェクトをセグメント化して認識する一般的な画像セグメンテーション モデルです。

私たちの知る限り、本研究は、SA-1Bデータセット、一般的なセグメンテーションデータセット(COCOなど)、および部分セグメンテーションデータセット(PASCAL Partなど)でモデルを共同でトレーニングする初の試みであり、SA-1Bで定義されたインタラクティブなセグメンテーションタスク(プロンプト可能なセグメンテーション)と他のセグメンテーションタスク(パノプティクセグメンテーションや部分セグメンテーションなど)に対するマルチタスク共同トレーニングの相互促進効果を体系的に研究しています。

論文は、香港科技大学、マイクロソフト研究所、IDEA研究所、香港大学、ウィスコンシン大学マディソン校、清華大学などの研究機関から発表されたものです。

詳しくは見てみましょう〜

  • 論文アドレス: https://arxiv.org/abs/2307.04767
  • コードアドレス: https://github.com/UX-Decoder/Semantic-SAM
  • オンラインデモアドレス: 上記コードリポジトリのホームページ

(以下は論文著者の寄稿です)

1. はじめに

Semantic-SAM は、SAM のセグメンテーション効果を完全に再現し、より優れた粒度とセマンティック機能を実現できる、強力なビジョン基盤モデルです。 Semantic-SAM は、次のような幅広いセグメンテーション タスクと関連アプリケーションをサポートしています。

  • 一般的なセグメンテーション 一般的なセグメンテーション(パノラマ/セマンティック/インスタンスセグメンテーション)
  • 部品のセグメンテーション
  • 多粒度セマンティクスによるインタラクティブなセグメンテーション
  • 多段階の画像編集

写真

1.1 SAMを再現する

SAM は Semantic-SAM のサブタスクです。 SAM効果を再現するコードをオープンソース化しました。これはオープンソースコミュニティにおける初のDETR構造に基づくSAM再現コードです。

1.2 SAMを超えて

  • 粒度の豊富さ: Semantic-SAM は、ユーザーのクリックに応じて必要なあらゆるセグメンテーション粒度 (1 ~ 6) で高品質のエンティティ セグメンテーションを生成できるため、より制御しやすくユーザー フレンドリなインタラクティブなセグメンテーションが可能になります。
  • 意味認識。 Semantic-SAM は、意味的にラベル付けされたデータセットと SA-1B データセットを使用してモデルを共同でトレーニングし、オブジェクト レベルと細分化されたレベルで意味情報を学習します。
  • 多機能。 Semantic-SAM は、高品質のパノラマ、セマンティック、インスタンス、きめ細かなインタラクティブなセグメンテーションを実現し、SA-1B とその他のセグメンテーション タスクの相互促進効果を検証します。

ワンクリックで最大 6 つの細分化されたセグメントをエクスポートできます。 SAM と比較すると、より制御可能な方法でユーザーの意図を一致させることができます。マウスを長時間動かしても目的のセグメンテーションが見つからないことを心配する必要はありません。

2. モデルの紹介

2.1 モデル構造

Semantic-SAM のモデル構造は、Mask DINO に基づいて開発されています。 Mask DINO は、DETR フレームワークに基づく統合検出およびセグメンテーション ネットワークであり、同じモデル サイズの SOTA モデルです。 Semantic-SAM のモデル構造は主にデコーダー部分で改善されており、一般的なセグメンテーションとインタラクティブなセグメンテーションの両方をサポートします。一般的なセグメンテーションの実装はMask DINOと同じです。インタラクティブセグメンテーションには、ポイントとボックスの2つの形式があります。ボックスからマスクへのマッチングの曖昧さはありません。実装方法は一般的なセグメンテーションと同じで、ポイントからマスクへのマッチングがSemantic-SAMの重要な設計です。

Semantic-SAM では、ユーザーのポイント入力が 6 つのプロンプトに変換され、各プロンプトには区別するための学習可能なレベルの埋め込みが含まれています。これら 6 つのプロンプトは、デコーダーを通じて、異なる粒度の 6 つのセグメンテーション結果と、オブジェクトおよびパーツのカテゴリを生成します。

写真

2.2 トレーニング

オブジェクトレベルとパーツレベルのセマンティクスを学習するために、Semantic-SAM は、マルチ粒度データセット(SA-1B) 、オブジェクトレベルデータセット(COCO など) 、パーツレベルデータセット(Pascal Part など) などの複数のデータセットから同時に学習します。

共同データセットから意味認識と粒度の豊かさを学習するために、次の 2 つのトレーニング方法を導入します。

分離されたオブジェクト分類とパーツ分類のセマンティクス: 一般化可能なオブジェクトとパーツのセマンティクスを学習するために、オブジェクト分類とパーツ分類を分離し、オブジェクト注釈付きデータのみでも共通のパーツのセマンティクスを学習できるようにします。たとえば、頭はほとんどすべての動物に共通する部分です。モデルが、ラベル付けされた犬の頭、猫の頭、羊の頭などから、ライオン、トラ、パンダなどの頭を一般化可能な方法で認識する能力を学習することを期待しています。

写真

多対多の多粒度学習: インタラクティブなセグメンテーションにおけるポイント入力の場合、Semantic-SAM は 6 つのプロンプトを使用して多粒度セグメンテーションの結果を出力し、クリックを含むすべてのラベル付きセグメンテーションを監督として使用します。この多対多のマッチングと、複数のセグメンテーション結果から複数のセグメンテーション注釈への監視により、モデルは高品質の多粒度セグメンテーション効果を実現できます。

写真

3. 実験

3.1 SA-1Bと共通セグメンテーションデータセットの共同トレーニング

SA-1B と一般的なセグメンテーション データセットを共同でトレーニングすると、COCO セグメンテーションと検出が大幅に改善されるなど、一般的なセグメンテーションのパフォーマンスが向上することがわかりました。

写真

SA-1B データをトレーニングする過程で、少量の SA-1B データを使用しても良好な結果が得られることがわかりました。

写真

3.2 SA-1Bと細粒度セグメンテーションデータセットの共同トレーニング

同様に、SA-1B と細粒度セグメンテーション データセットを共同でトレーニングすると、パーツ セグメンテーションのパフォーマンスが向上します。

写真

4. 視覚化

4.1 Semantic-SAMのプロンプトは大量のデータから固定パターン表現を学習する

Semantic-SAM には、学習可能なプロンプトが合計 6 つあります。さまざまな画像をクリックして、各プロンプトに対応するセグメンテーション結果を観察すると、各プロンプトのセグメンテーションが固定の粒度に対応していることがわかります。これは、各プロンプトが固定レベルのセマンティクスを学習し、出力がより制御可能であることを示唆しています。

写真

4.2 セマンティックSAMとSAMおよびSA-1Bグラウンドトゥルースの比較

各行の左端の画像にある赤い点は、ユーザーがクリックした場所です。(a) と (b) は、それぞれ Semantic-SAM と SAM のセグメンテーション出力です。(c) は、ユーザーのクリックを含む Ground-truth セグメンテーションです。 SAM と比較すると、Semantic-SAM はセグメンテーション品質が優れ、粒度も豊富なため、ユーザーは必要なセグメンテーション粒度を見つけやすくなり、制御性も向上します。

写真

<<: 

>>:  AIを活用することで大型機種の消費電力を節約できるのか? ? ?

ブログ    

推薦する

機械学習アルゴリズムを使用して「実験室地震」を予測するにはどうすればよいでしょうか?

[[186458]]機械学習アルゴリズムが「実験室の地震」を予測できるという事実は、間違いなく画期...

世界初の電動ロボットが「宙返り」を練習し、ボストン・ダイナミクス・アトラスに挑戦!コーヒーアートも作れます。

2017年、ボストン・ダイナミクス社の人型ロボット「アトラス」が宙返りをするシーンが世界を驚かせた...

Cloudera は研究から実稼働までエンタープライズ機械学習を加速します

クラウド向けに最適化された機械学習および分析のための最新プラットフォームを提供する Cloudera...

C# データ構造とアルゴリズムのシーケンス テーブルの簡単な分析

C# データ構造とアルゴリズムのシーケンス テーブルとは何ですか?まず、C# のデータ構造とアルゴリ...

GPT-3を超えて、DeepMindは新しいお気に入りのGatoをリリースしましたが、「スープは変えても薬は変えない」と疑問視されています

大規模な言語モデリングにヒントを得て、Deepmind は同様のアプローチを適用し、マルチモーダル、...

ドイツのハッカーはレンタルしたコンピュータリソースを使ってハッシュアルゴリズムを攻撃する

ドイツのセキュリティ愛好家が、レンタルしたコンピュータ リソースを使用して、SHA1 ハッシュ アル...

人工知能がデータセンターの需要を爆発的に増加させる

JLLの新しいレポートによると、人工知能の需要とクラウドサービスの継続的な導入により、データセンター...

...

2 要素認証 (2FA) とは何ですか? また、なぜ使用する必要があるのですか?

インターネットは、ミームや動画、秘密にしておきたいものの宝庫です。セキュリティは最も重要です。正直に...

科学者が人工結晶で大きな進歩を遂げ、コンピューターをより低電力で動作可能に

コンピューターは小型化、高性能化していますが、動作には大量のエネルギーが必要です。過去 10 年間で...

IBMは人工知能にアナログコンピューティングを使用し、AIコンピューティングを改革する

IBM は人工知能コンピューティングを改革する方法に取り組んでいます。 IBM の研究者は、人工知能...

マルチモーダルな大型モデルの幻覚が 30% 減少しました。 USTCらが初の錯視補正フレームワーク「Woodpecker」を提案

視覚幻覚は、マルチモーダル大規模言語モデル (MLLM) でよく見られる典型的な問題です。簡単に言え...

海外の科学者が「AI漢方」を開発:舌診断システムの精度は最大94%

10月23日、中国医学では2000年以上もの間、人の舌の色や形を観察して病気を診断してきたと報じら...

AI技術により人類の寿命が延びる

現在、50歳以上の人口は世界で最も急速に増加している年齢層となっており、当然ながら世界経済と医療制度...