小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5%だけです

小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5%だけです

2023年のコンピュータービジョンの分野では、「 Segment Anything Model」が大きな注目を集めている研究開発です。

Metaが4月にリリースしたSegmentation Everything Model(SAM)は、画像内のすべてのコンテンツを自動的にセグメント化できます。

Segment Anything の主な機能は、ヒントベースの Visual Transformer (ViT) モデルです。このモデルは、1,100 万枚の画像から 10 億を超えるマスクを含むビジョン データセットである SA-1B でトレーニングされており、特定の画像内の任意のオブジェクトをセグメント化できます。この機能により、SAM は視覚分野における基本モデルとなり、視覚以外の分野でもアプリケーション価値を生み出すことができます。

上記の利点にもかかわらず、SAM の ViT-H 画像エンコーダーには 632M のパラメーターがあるため (ヒントベースのデコーダーには 387M のパラメーターのみが必要です)、実際に SAM を使用してセグメンテーション タスクを実行する場合の計算コストとメモリ コストが高く、リアルタイム アプリケーションには困難が生じます。その後、研究者らは、デフォルトの ViT-H 画像エンコーダーの知識を小さな ViT 画像エンコーダーに精製したり、CNN ベースのリアルタイム アーキテクチャを使用して Segment Anything タスクの計算コストを削減したりするなど、いくつかの改善戦略も提案しました。

最近の研究では、Meta の研究者は、SAM のマスク画像事前トレーニング (SAMI) を使用するという別の改善案を提案しました。これは、MAE 事前トレーニング方法と SAM モデルを活用して、高品質の事前トレーニング済み ViT エンコーダーを取得することで実現されます。


  • 論文リンク: https://arxiv.org/pdf/2312.00863.pdf
  • 論文ホームページ: https://yformer.github.io/efficient-sam/

このアプローチにより、優れたパフォーマンスを維持しながら SAM の複雑さが軽減されます。具体的には、SAMI は SAM エンコーダー ViT-H を使用して特徴埋め込みを生成し、軽量エンコーダーを使用してマスク画像モデルをトレーニングして、画像パッチではなく SAM の ViT-H から特徴を再構築します。結果として得られるユニバーサル ViT バックボーンは、画像分類、オブジェクト検出、セグメンテーションなどの下流タスクに使用できます。次に研究者らは、SAM デコーダーを使用して事前トレーニング済みの軽量エンコーダーを微調整し、セグメンテーション タスクを完了します。

この方法を評価するため、研究者らはマスク画像の事前トレーニングによる転移学習設定を採用しました。つまり、モデルは最初に再構成損失を使用して 224 × 224 の画像解像度で ImageNet で事前トレーニングされ、次に教師ありデータを使用してターゲット タスクでモデルが微調整されました。

SAMI 事前トレーニングにより、ViT-Tiny/-Small/-Base などのモデルを ImageNet-1K でトレーニングし、一般化パフォーマンスを向上させることができます。 ViT-Small モデルの場合、ImageNet-1K で 100 回の微調整を行った後、研究者は 82.7% のトップ 1 精度を達成し、他の最先端の画像事前トレーニング ベースラインを上回りました。

研究者らは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションに関して事前トレーニング済みモデルを微調整しました。これらすべてのタスクにおいて、私たちの方法は他の事前トレーニング済みのベースラインよりも優れた結果を達成し、さらに重要なことに、小さなモデルで大きな利益を獲得します。

論文の著者である Yunyang Xiong 氏は、次のように述べています。「この論文で提案されている EfficientSAM は、パラメータが 20 分の 1 少ないですが、実行時間は 20 倍高速で、元の SAM モデルとの差はわずか 2 パーセントポイント以内であり、MobileSAM/FastSAM よりもはるかに優れています。」

デモでは、写真内の動物をクリックすると、EfficientSAM がオブジェクトを素早くセグメント化します。

EfficientSAM は画像内の人物を正確に識別することもできます。

トライアルアドレス: https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM は、1) ImageNet での SAMI の事前トレーニング (上)、2) SA-1B での SAM の微調整 (下) の 2 つの段階で構成されています。

EfficientSAM は主に次のコンポーネントで構成されています。

クロスアテンションデコーダー: SAM 機能の監視下では、デコーダーによって再構築する必要があるのはマスクトークンのみであり、エンコーダー出力は再構築プロセスでアンカーとして機能できることがわかります。クリスクロス アテンション デコーダーでは、クエリはマスクされたトークンから取得され、キーと値はエン​​コーダーのマスクされていない機能とマスクされた機能から取得されます。交差アテンションデコーダーからのマスクされたトークンの出力特徴とエンコーダーからのマスクされていないトークンの出力特徴をマージして、MAE 出力埋め込みを作成します。これらの結合された特徴は、最終的な MAE 出力で入力画像トークンの元の位置に並べ替えられます。

リニア投影ヘッド。研究者らは、エンコーダーと交差アテンションデコーダーを通じて画像出力を取得し、これらの特徴を小さなプロジェクトヘッドに入力して、SAM 画像エンコーダー内の特徴を揃えました。簡単にするために、この論文では線形投影ヘッドのみを使用して、SAM 画像エンコーダーと MAE 出力間の特徴次元の不一致の問題に対処します。

復興損失。各トレーニング反復において、SAMI には SAM 画像エンコーダーからの順方向特徴抽出と、MAE の順方向および逆方向伝播プロセスが含まれます。 SAM 画像エンコーダーと MAE 線形投影ヘッドからの出力を比較して、再構成損失を計算します。

事前トレーニング後、エンコーダーはさまざまな視覚タスクの特徴表現を抽出でき、デコーダーは破棄されます。特に、あらゆるタスクのセグメンテーションに効率的な SAM モデルを構築するために、図 2 (下) に示すように、EfficientSAM の画像エンコーダーと SAM のデフォルトのマスク デコーダーとして、SAMI 事前トレーニング済みの軽量エンコーダー (ViT-Tiny や ViT-Small など) を採用しています。この論文では、SA-1B データセットで EfficientSAM モデルを微調整し、あらゆるタスクのセグメンテーションを実現します。

実験

画像分類。画像分類タスクにおけるこの方法の有効性を評価するために、研究者らは SAMI の考え方を ViT モデルに適用し、ImageNet-1K でのパフォーマンスを比較しました。

表 1 に示すように、SAMI は MAE、iBOT、CAE、BEiT などの事前トレーニング方法、および DeiT や SSTA などの蒸留方法と比較されます。

SAMI-B のトップ 1 精度は 84.8% に達し、これは事前トレーニング済みのベースライン、MAE、DMAE、iBOT、CAE、BEiT よりも高い値です。 SAMI は、DeiT や SSTA などの蒸留方法と比較しても大きな改善が見られます。 ViT-Tiny や ViT-Small などの軽量モデルの場合、SAMI の結果は DeiT、SSTA、DMAE、MAE と比較して大幅な向上を示しています。

オブジェクトの検出とインスタンスのセグメンテーション。また、SAMI 事前トレーニング済み ViT バックボーンを下流のオブジェクト検出およびインスタンス セグメンテーション タスクに拡張し、COCO データセットで事前トレーニングされたベースラインと比較します。表 2 に示すように、SAMI は一貫して他のベースラインよりも優れています。

これらの実験結果は、SAMI が提供する事前トレーニング済みの検出器バックボーンが、オブジェクト検出およびインスタンス分割タスクに非常に効果的であることを示しています。

セマンティックセグメンテーション。この論文では、事前トレーニング済みのバックボーンをセマンティックセグメンテーションタスクにさらに拡張し、その有効性を評価します。結果を表 3 に示します。SAMI 事前トレーニング済みバックボーンを使用する Mask2former は、MAE 事前トレーニング済みバックボーンよりも ImageNet-1K で優れた mIoU を実現します。これらの実験結果は、本論文で提案された手法がさまざまな下流タスクにうまく一般化できることを証明しています。

表 4 は、EfficientSAM と SAM、MobileSAM、SAM-MAE-Ti を比較したものです。 COCO では、EfficientSAM-Ti は MobileSAM よりも優れたパフォーマンスを発揮します。 SAMI 事前トレーニング済み重みを使用した EfficientSAM-Ti も、MAE 事前トレーニング済み重みよりも優れたパフォーマンスを発揮します。

さらに、EfficientSAM-S は、パラメータが 20 分の 1 少ないにもかかわらず、COCO ボックス上の SAM より 1.5 mIoU 低く、LVIS ボックス上の SAM より 3.5 mIoU 低いだけです。また、EfficientSAM は、MobileSAM や SAM-MAE-Ti と比較して、複数回のクリックでも優れたパフォーマンスを発揮することがわかりました。

表 5 は、ゼロショットインスタンスセグメンテーションの AP、APS、APM、および APL を示しています。研究者らは、EfficientSAM を MobileSAM および FastSAM と比較し、EfficientSAM-S は FastSAM と比較して COCO で 6.5 AP 以上、LVIS で 7.8 AP を達成したことを発見しました。 EffidientSAM-Ti に関しては、COCO で 4.1 AP、LVIS で 5.3 AP と、FastSAM よりもはるかに優れています。一方、MobileSAM は COCO で 3.6 AP、LVIS で 5.5 AP です。

さらに、EfficientSAM は FastSAM よりもはるかに軽量で、efficientSAM-Ti のパラメータは 9.8M、FastSAM のパラメータは 68M です。

図 3、4、および 5 には、読者が EfficientSAM のインスタンスのセグメンテーション機能について補足的に理解できるように、いくつかの定性的な結果が示されています。

研究の詳細については原著論文を参照してください。

<<:  GPT-175Bを例にとった大規模言語モデルの分散トレーニングの定量分析とベストプラクティス

>>:  国内トップクラスのAIカンファレンスCPALに採択された論文の成果を公開!合計30件の口頭発表と60件のスポットライト記事

ブログ    
ブログ    

推薦する

検出器を追加して、YOLOv8 を実際の戦闘に展開しましょう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ニューヨーク大学のチームは、自然言語を使ってチャットボットChatGPTを使ってマイクロプロセッサをゼロから設計した。

6月19日、生成型人工知能がハードウェア設計などの分野に参入し始めました。最近、ニューヨーク大学の...

ガートナー: CIO がビッグモデルを選択するための 6 つの基準と 5 つの主な導入方法

過去 2 年間で、ChatGPT は急速に広まりました。過去 6 か月間で、多くの企業が生成 AI ...

機械学習への8つのステップ

先月、Kaggle の共同創設者兼 CTO である Ben Hamner 氏が、Kaggle、機械学...

人工知能技術が医療の精度をさらに向上

マクロ的な視点で見ると、人工知能(AI)は労働力を補完する存在です。AIはデータに基づく意思決定のツ...

AI とデジタル病理学は医療通信をどのように改善できるのでしょうか?

人工知能 (AI) とデジタル病理学は、特に通信分野において医療業界に革命をもたらすと期待されていま...

TensorFlow を使用してロボットに音楽を作曲する方法を教えるにはどうすればよいでしょうか?秘密はこれです

今日はAIがどのように音楽を作曲するのかを見ていきたいと思います。この記事では、TensorFlow...

交通大学ACMクラス卒業生のGoogleでの新たな仕事:Excelの表の数式を自動で記述

[[433049]]数式ビルダーのテーブルバージョンが登場しました。交通大学の ACM クラスを卒業...

人工知能が誤って解釈する画像とはどのようなものでしょうか?

ウィリアム・ギブソンの2010年の小説『ゼロ・ヒストリー』では、ある登場人物が「これまでで最も醜いT...

...

ビッグバンを証明した男が亡くなった!宇宙背景放射の発見でノーベル賞受賞者が90歳で死去

ノーベル物理学賞を受賞し、宇宙のビッグバン理論を証明したアメリカの物理学者で電波天文学者のアーノ・ア...

...

1 つの GPU + 数行のコードで、大規模モデルのトレーニング速度が 40% 向上します。 HuggingFaceのシームレスなサポート

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

4大産業用ロボット産業の市場分析と産業用ロボットの中長期的発展

中国製造2025の状況下で、イノベーションと起業家精神を奨励し、経済を高品質発展へと転換する中、中国...

...