小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5%だけです

小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5%だけです

2023年のコンピュータービジョンの分野では、「 Segment Anything Model」が大きな注目を集めている研究開発です。

Metaが4月にリリースしたSegmentation Everything Model(SAM)は、画像内のすべてのコンテンツを自動的にセグメント化できます。

Segment Anything の主な機能は、ヒントベースの Visual Transformer (ViT) モデルです。このモデルは、1,100 万枚の画像から 10 億を超えるマスクを含むビジョン データセットである SA-1B でトレーニングされており、特定の画像内の任意のオブジェクトをセグメント化できます。この機能により、SAM は視覚分野における基本モデルとなり、視覚以外の分野でもアプリケーション価値を生み出すことができます。

上記の利点にもかかわらず、SAM の ViT-H 画像エンコーダーには 632M のパラメーターがあるため (ヒントベースのデコーダーには 387M のパラメーターのみが必要です)、実際に SAM を使用してセグメンテーション タスクを実行する場合の計算コストとメモリ コストが高く、リアルタイム アプリケーションには困難が生じます。その後、研究者らは、デフォルトの ViT-H 画像エンコーダーの知識を小さな ViT 画像エンコーダーに精製したり、CNN ベースのリアルタイム アーキテクチャを使用して Segment Anything タスクの計算コストを削減したりするなど、いくつかの改善戦略も提案しました。

最近の研究では、Meta の研究者は、SAM のマスク画像事前トレーニング (SAMI) を使用するという別の改善案を提案しました。これは、MAE 事前トレーニング方法と SAM モデルを活用して、高品質の事前トレーニング済み ViT エンコーダーを取得することで実現されます。


  • 論文リンク: https://arxiv.org/pdf/2312.00863.pdf
  • 論文ホームページ: https://yformer.github.io/efficient-sam/

このアプローチにより、優れたパフォーマンスを維持しながら SAM の複雑さが軽減されます。具体的には、SAMI は SAM エンコーダー ViT-H を使用して特徴埋め込みを生成し、軽量エンコーダーを使用してマスク画像モデルをトレーニングして、画像パッチではなく SAM の ViT-H から特徴を再構築します。結果として得られるユニバーサル ViT バックボーンは、画像分類、オブジェクト検出、セグメンテーションなどの下流タスクに使用できます。次に研究者らは、SAM デコーダーを使用して事前トレーニング済みの軽量エンコーダーを微調整し、セグメンテーション タスクを完了します。

この方法を評価するため、研究者らはマスク画像の事前トレーニングによる転移学習設定を採用しました。つまり、モデルは最初に再構成損失を使用して 224 × 224 の画像解像度で ImageNet で事前トレーニングされ、次に教師ありデータを使用してターゲット タスクでモデルが微調整されました。

SAMI 事前トレーニングにより、ViT-Tiny/-Small/-Base などのモデルを ImageNet-1K でトレーニングし、一般化パフォーマンスを向上させることができます。 ViT-Small モデルの場合、ImageNet-1K で 100 回の微調整を行った後、研究者は 82.7% のトップ 1 精度を達成し、他の最先端の画像事前トレーニング ベースラインを上回りました。

研究者らは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションに関して事前トレーニング済みモデルを微調整しました。これらすべてのタスクにおいて、私たちの方法は他の事前トレーニング済みのベースラインよりも優れた結果を達成し、さらに重要なことに、小さなモデルで大きな利益を獲得します。

論文の著者である Yunyang Xiong 氏は、次のように述べています。「この論文で提案されている EfficientSAM は、パラメータが 20 分の 1 少ないですが、実行時間は 20 倍高速で、元の SAM モデルとの差はわずか 2 パーセントポイント以内であり、MobileSAM/FastSAM よりもはるかに優れています。」

デモでは、写真内の動物をクリックすると、EfficientSAM がオブジェクトを素早くセグメント化します。

EfficientSAM は画像内の人物を正確に識別することもできます。

トライアルアドレス: https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM は、1) ImageNet での SAMI の事前トレーニング (上)、2) SA-1B での SAM の微調整 (下) の 2 つの段階で構成されています。

EfficientSAM は主に次のコンポーネントで構成されています。

クロスアテンションデコーダー: SAM 機能の監視下では、デコーダーによって再構築する必要があるのはマスクトークンのみであり、エンコーダー出力は再構築プロセスでアンカーとして機能できることがわかります。クリスクロス アテンション デコーダーでは、クエリはマスクされたトークンから取得され、キーと値はエン​​コーダーのマスクされていない機能とマスクされた機能から取得されます。交差アテンションデコーダーからのマスクされたトークンの出力特徴とエンコーダーからのマスクされていないトークンの出力特徴をマージして、MAE 出力埋め込みを作成します。これらの結合された特徴は、最終的な MAE 出力で入力画像トークンの元の位置に並べ替えられます。

リニア投影ヘッド。研究者らは、エンコーダーと交差アテンションデコーダーを通じて画像出力を取得し、これらの特徴を小さなプロジェクトヘッドに入力して、SAM 画像エンコーダー内の特徴を揃えました。簡単にするために、この論文では線形投影ヘッドのみを使用して、SAM 画像エンコーダーと MAE 出力間の特徴次元の不一致の問題に対処します。

復興損失。各トレーニング反復において、SAMI には SAM 画像エンコーダーからの順方向特徴抽出と、MAE の順方向および逆方向伝播プロセスが含まれます。 SAM 画像エンコーダーと MAE 線形投影ヘッドからの出力を比較して、再構成損失を計算します。

事前トレーニング後、エンコーダーはさまざまな視覚タスクの特徴表現を抽出でき、デコーダーは破棄されます。特に、あらゆるタスクのセグメンテーションに効率的な SAM モデルを構築するために、図 2 (下) に示すように、EfficientSAM の画像エンコーダーと SAM のデフォルトのマスク デコーダーとして、SAMI 事前トレーニング済みの軽量エンコーダー (ViT-Tiny や ViT-Small など) を採用しています。この論文では、SA-1B データセットで EfficientSAM モデルを微調整し、あらゆるタスクのセグメンテーションを実現します。

実験

画像分類。画像分類タスクにおけるこの方法の有効性を評価するために、研究者らは SAMI の考え方を ViT モデルに適用し、ImageNet-1K でのパフォーマンスを比較しました。

表 1 に示すように、SAMI は MAE、iBOT、CAE、BEiT などの事前トレーニング方法、および DeiT や SSTA などの蒸留方法と比較されます。

SAMI-B のトップ 1 精度は 84.8% に達し、これは事前トレーニング済みのベースライン、MAE、DMAE、iBOT、CAE、BEiT よりも高い値です。 SAMI は、DeiT や SSTA などの蒸留方法と比較しても大きな改善が見られます。 ViT-Tiny や ViT-Small などの軽量モデルの場合、SAMI の結果は DeiT、SSTA、DMAE、MAE と比較して大幅な向上を示しています。

オブジェクトの検出とインスタンスのセグメンテーション。また、SAMI 事前トレーニング済み ViT バックボーンを下流のオブジェクト検出およびインスタンス セグメンテーション タスクに拡張し、COCO データセットで事前トレーニングされたベースラインと比較します。表 2 に示すように、SAMI は一貫して他のベースラインよりも優れています。

これらの実験結果は、SAMI が提供する事前トレーニング済みの検出器バックボーンが、オブジェクト検出およびインスタンス分割タスクに非常に効果的であることを示しています。

セマンティックセグメンテーション。この論文では、事前トレーニング済みのバックボーンをセマンティックセグメンテーションタスクにさらに拡張し、その有効性を評価します。結果を表 3 に示します。SAMI 事前トレーニング済みバックボーンを使用する Mask2former は、MAE 事前トレーニング済みバックボーンよりも ImageNet-1K で優れた mIoU を実現します。これらの実験結果は、本論文で提案された手法がさまざまな下流タスクにうまく一般化できることを証明しています。

表 4 は、EfficientSAM と SAM、MobileSAM、SAM-MAE-Ti を比較したものです。 COCO では、EfficientSAM-Ti は MobileSAM よりも優れたパフォーマンスを発揮します。 SAMI 事前トレーニング済み重みを使用した EfficientSAM-Ti も、MAE 事前トレーニング済み重みよりも優れたパフォーマンスを発揮します。

さらに、EfficientSAM-S は、パラメータが 20 分の 1 少ないにもかかわらず、COCO ボックス上の SAM より 1.5 mIoU 低く、LVIS ボックス上の SAM より 3.5 mIoU 低いだけです。また、EfficientSAM は、MobileSAM や SAM-MAE-Ti と比較して、複数回のクリックでも優れたパフォーマンスを発揮することがわかりました。

表 5 は、ゼロショットインスタンスセグメンテーションの AP、APS、APM、および APL を示しています。研究者らは、EfficientSAM を MobileSAM および FastSAM と比較し、EfficientSAM-S は FastSAM と比較して COCO で 6.5 AP 以上、LVIS で 7.8 AP を達成したことを発見しました。 EffidientSAM-Ti に関しては、COCO で 4.1 AP、LVIS で 5.3 AP と、FastSAM よりもはるかに優れています。一方、MobileSAM は COCO で 3.6 AP、LVIS で 5.5 AP です。

さらに、EfficientSAM は FastSAM よりもはるかに軽量で、efficientSAM-Ti のパラメータは 9.8M、FastSAM のパラメータは 68M です。

図 3、4、および 5 には、読者が EfficientSAM のインスタンスのセグメンテーション機能について補足的に理解できるように、いくつかの定性的な結果が示されています。

研究の詳細については原著論文を参照してください。

<<:  GPT-175Bを例にとった大規模言語モデルの分散トレーニングの定量分析とベストプラクティス

>>:  国内トップクラスのAIカンファレンスCPALに採択された論文の成果を公開!合計30件の口頭発表と60件のスポットライト記事

ブログ    
ブログ    
ブログ    

推薦する

高度な数学の問題解決ツール:写真を撮ってアップロードすると答えがわかる。この中国の学生は驚くべきAIを作った

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ニューラルネットワークのトレーニングでは、エポック、バッチサイズ、反復の違いがわかりません

[[204925]]きっと、コンピューターの画面を見て頭を悩ませ、「なぜコードでこの 3 つの用語を...

グリーンロボットが環境の持続可能性にどのように貢献できるか

グリーンロボットは気候変動と闘い、より良い未来へと導くのに役立ちます。私たちは通常、ロボットが「環境...

...

...

人工知能はどのようにしてデジタル経済の新しい時代を導くのでしょうか?デジタルサミットの専門家は言う

[[346344]] 「人類の技術発展の歴史を振り返ると、機械化、電化、情報化の時代を経験し、生産や...

インテリジェントビル通信システムの構成と要件

1. インテリジェントビル通信システムの構成インテリジェントビル通信システムは、主に以下の部分で構成...

...

GANを別の視点から見る: 別の損失関数

ジェレミー・ハワード氏はかつて、Generative Adversarial Network (GA...

MetaGPTが人気に! 2ドルでボスになれる、GitHubには11.2万個のスターがつき、AIエージェント「オールラウンダー」が誕生

インテリジェントエージェントは未来です!最近、別の AI エージェント プロジェクト MetaGPT...

人工知能の時代では、次の7つの重要な要素を念頭に置く必要があります

政府は、他の経済的、社会的進歩と同様に、AI とデータの競争力を重視すべきです。研究への投資や技術リ...

RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

大学では人工知能を専攻できるコースはありますか?まだ道のりは長い

教育省は最近、「高等教育機関向け人工知能イノベーション計画」を発表し、「人工知能分野における人材育成...

パラメータ数は元の1%に過ぎません。Beiyouらは、超解像アルゴリズムを使用した高性能なビデオ伝送方法を提案しました。

[[421986]]過去数年間でインターネットビデオは爆発的な成長を遂げており、ビデオ伝送インフラ...