小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5％だけです

2023年のコンピュータービジョンの分野では、「 Segment Anything Model」が大きな注目を集めている研究開発です。

Metaが4月にリリースしたSegmentation Everything Model（SAM）は、画像内のすべてのコンテンツを自動的にセグメント化できます。

Segment Anything の主な機能は、ヒントベースの Visual Transformer (ViT) モデルです。このモデルは、1,100 万枚の画像から 10 億を超えるマスクを含むビジョンデータセットである SA-1B でトレーニングされており、特定の画像内の任意のオブジェクトをセグメント化できます。この機能により、SAM は視覚分野における基本モデルとなり、視覚以外の分野でもアプリケーション価値を生み出すことができます。

上記の利点にもかかわらず、SAM の ViT-H 画像エンコーダーには 632M のパラメーターがあるため (ヒントベースのデコーダーには 387M のパラメーターのみが必要です)、実際に SAM を使用してセグメンテーションタスクを実行する場合の計算コストとメモリコストが高く、リアルタイムアプリケーションには困難が生じます。その後、研究者らは、デフォルトの ViT-H 画像エンコーダーの知識を小さな ViT 画像エンコーダーに精製したり、CNN ベースのリアルタイムアーキテクチャを使用して Segment Anything タスクの計算コストを削減したりするなど、いくつかの改善戦略も提案しました。

最近の研究では、Meta の研究者は、SAM のマスク画像事前トレーニング (SAMI) を使用するという別の改善案を提案しました。これは、MAE 事前トレーニング方法と SAM モデルを活用して、高品質の事前トレーニング済み ViT エンコーダーを取得することで実現されます。

論文リンク: https://arxiv.org/pdf/2312.00863.pdf
論文ホームページ: https://yformer.github.io/efficient-sam/

このアプローチにより、優れたパフォーマンスを維持しながら SAM の複雑さが軽減されます。具体的には、SAMI は SAM エンコーダー ViT-H を使用して特徴埋め込みを生成し、軽量エンコーダーを使用してマスク画像モデルをトレーニングして、画像パッチではなく SAM の ViT-H から特徴を再構築します。結果として得られるユニバーサル ViT バックボーンは、画像分類、オブジェクト検出、セグメンテーションなどの下流タスクに使用できます。次に研究者らは、SAM デコーダーを使用して事前トレーニング済みの軽量エンコーダーを微調整し、セグメンテーションタスクを完了します。

この方法を評価するため、研究者らはマスク画像の事前トレーニングによる転移学習設定を採用しました。つまり、モデルは最初に再構成損失を使用して 224 × 224 の画像解像度で ImageNet で事前トレーニングされ、次に教師ありデータを使用してターゲットタスクでモデルが微調整されました。

SAMI 事前トレーニングにより、ViT-Tiny/-Small/-Base などのモデルを ImageNet-1K でトレーニングし、一般化パフォーマンスを向上させることができます。 ViT-Small モデルの場合、ImageNet-1K で 100 回の微調整を行った後、研究者は 82.7% のトップ 1 精度を達成し、他の最先端の画像事前トレーニングベースラインを上回りました。

研究者らは、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションに関して事前トレーニング済みモデルを微調整しました。これらすべてのタスクにおいて、私たちの方法は他の事前トレーニング済みのベースラインよりも優れた結果を達成し、さらに重要なことに、小さなモデルで大きな利益を獲得します。

論文の著者である Yunyang Xiong 氏は、次のように述べています。「この論文で提案されている EfficientSAM は、パラメータが 20 分の 1 少ないですが、実行時間は 20 倍高速で、元の SAM モデルとの差はわずか 2 パーセントポイント以内であり、MobileSAM/FastSAM よりもはるかに優れています。」

デモでは、写真内の動物をクリックすると、EfficientSAM がオブジェクトを素早くセグメント化します。

EfficientSAM は画像内の人物を正確に識別することもできます。

トライアルアドレス: https://ab348ea7942fe2af48.gradio.live/

方法

EfficientSAM は、1) ImageNet での SAMI の事前トレーニング (上)、2) SA-1B での SAM の微調整 (下) の 2 つの段階で構成されています。

EfficientSAM は主に次のコンポーネントで構成されています。

クロスアテンションデコーダー: SAM 機能の監視下では、デコーダーによって再構築する必要があるのはマスクトークンのみであり、エンコーダー出力は再構築プロセスでアンカーとして機能できることがわかります。クリスクロスアテンションデコーダーでは、クエリはマスクされたトークンから取得され、キーと値はエンコーダーのマスクされていない機能とマスクされた機能から取得されます。交差アテンションデコーダーからのマスクされたトークンの出力特徴とエンコーダーからのマスクされていないトークンの出力特徴をマージして、MAE 出力埋め込みを作成します。これらの結合された特徴は、最終的な MAE 出力で入力画像トークンの元の位置に並べ替えられます。

リニア投影ヘッド。研究者らは、エンコーダーと交差アテンションデコーダーを通じて画像出力を取得し、これらの特徴を小さなプロジェクトヘッドに入力して、SAM 画像エンコーダー内の特徴を揃えました。簡単にするために、この論文では線形投影ヘッドのみを使用して、SAM 画像エンコーダーと MAE 出力間の特徴次元の不一致の問題に対処します。

復興損失。各トレーニング反復において、SAMI には SAM 画像エンコーダーからの順方向特徴抽出と、MAE の順方向および逆方向伝播プロセスが含まれます。 SAM 画像エンコーダーと MAE 線形投影ヘッドからの出力を比較して、再構成損失を計算します。

事前トレーニング後、エンコーダーはさまざまな視覚タスクの特徴表現を抽出でき、デコーダーは破棄されます。特に、あらゆるタスクのセグメンテーションに効率的な SAM モデルを構築するために、図 2 (下) に示すように、EfficientSAM の画像エンコーダーと SAM のデフォルトのマスクデコーダーとして、SAMI 事前トレーニング済みの軽量エンコーダー (ViT-Tiny や ViT-Small など) を採用しています。この論文では、SA-1B データセットで EfficientSAM モデルを微調整し、あらゆるタスクのセグメンテーションを実現します。

実験

画像分類。画像分類タスクにおけるこの方法の有効性を評価するために、研究者らは SAMI の考え方を ViT モデルに適用し、ImageNet-1K でのパフォーマンスを比較しました。

表 1 に示すように、SAMI は MAE、iBOT、CAE、BEiT などの事前トレーニング方法、および DeiT や SSTA などの蒸留方法と比較されます。

SAMI-B のトップ 1 精度は 84.8% に達し、これは事前トレーニング済みのベースライン、MAE、DMAE、iBOT、CAE、BEiT よりも高い値です。 SAMI は、DeiT や SSTA などの蒸留方法と比較しても大きな改善が見られます。 ViT-Tiny や ViT-Small などの軽量モデルの場合、SAMI の結果は DeiT、SSTA、DMAE、MAE と比較して大幅な向上を示しています。

オブジェクトの検出とインスタンスのセグメンテーション。また、SAMI 事前トレーニング済み ViT バックボーンを下流のオブジェクト検出およびインスタンスセグメンテーションタスクに拡張し、COCO データセットで事前トレーニングされたベースラインと比較します。表 2 に示すように、SAMI は一貫して他のベースラインよりも優れています。

これらの実験結果は、SAMI が提供する事前トレーニング済みの検出器バックボーンが、オブジェクト検出およびインスタンス分割タスクに非常に効果的であることを示しています。

セマンティックセグメンテーション。この論文では、事前トレーニング済みのバックボーンをセマンティックセグメンテーションタスクにさらに拡張し、その有効性を評価します。結果を表 3 に示します。SAMI 事前トレーニング済みバックボーンを使用する Mask2former は、MAE 事前トレーニング済みバックボーンよりも ImageNet-1K で優れた mIoU を実現します。これらの実験結果は、本論文で提案された手法がさまざまな下流タスクにうまく一般化できることを証明しています。

表 4 は、EfficientSAM と SAM、MobileSAM、SAM-MAE-Ti を比較したものです。 COCO では、EfficientSAM-Ti は MobileSAM よりも優れたパフォーマンスを発揮します。 SAMI 事前トレーニング済み重みを使用した EfficientSAM-Ti も、MAE 事前トレーニング済み重みよりも優れたパフォーマンスを発揮します。

さらに、EfficientSAM-S は、パラメータが 20 分の 1 少ないにもかかわらず、COCO ボックス上の SAM より 1.5 mIoU 低く、LVIS ボックス上の SAM より 3.5 mIoU 低いだけです。また、EfficientSAM は、MobileSAM や SAM-MAE-Ti と比較して、複数回のクリックでも優れたパフォーマンスを発揮することがわかりました。

表 5 は、ゼロショットインスタンスセグメンテーションの AP、APS、APM、および APL を示しています。研究者らは、EfficientSAM を MobileSAM および FastSAM と比較し、EfficientSAM-S は FastSAM と比較して COCO で 6.5 AP 以上、LVIS で 7.8 AP を達成したことを発見しました。 EffidientSAM-Ti に関しては、COCO で 4.1 AP、LVIS で 5.3 AP と、FastSAM よりもはるかに優れています。一方、MobileSAM は COCO で 3.6 AP、LVIS で 5.5 AP です。

さらに、EfficientSAM は FastSAM よりもはるかに軽量で、efficientSAM-Ti のパラメータは 9.8M、FastSAM のパラメータは 68M です。

図 3、4、および 5 には、読者が EfficientSAM のインスタンスのセグメンテーション機能について補足的に理解できるように、いくつかの定性的な結果が示されています。

研究の詳細については原著論文を参照してください。

<<: GPT-175Bを例にとった大規模言語モデルの分散トレーニングの定量分析とベストプラクティス

>>: 国内トップクラスのAIカンファレンスCPALに採択された論文の成果を公開！合計30件の口頭発表と60件のスポットライト記事

ブログ

精度が 20% 未満なので、GPT-4V/Gemini はコミックを理解できません。最初の画像シーケンスベンチマークがリリースされました

小さなモデルは「すべてを分割」することもできます。メタはSAMを改良し、パラメータは元のバージョンの5％だけです

方法

実験

データセンター市場はAIの爆発的な増加に向けて準備を整えている

人工知能とモノのインターネットの統合は、今後10年間で最大のイノベーションの機会となるかもしれない

AIにソフトウェア開発を教える: IBMオープンソースデータセットProject CodeNetには1,400万のコード例が含まれている

精度が 20% 未満なので、GPT-4V/Gemini はコミックを理解できません。最初の画像シーケンスベンチマークがリリースされました

新しい問題と古い問題の組み合わせは、個人情報保護に新たな課題をもたらします。

一般的な機械学習アルゴリズム11種の紹介

OpenAI、開発者向けGPTチャットボットAPIのメジャーアップデートを発表、価格を値下げ

推薦する

高度な数学の問題解決ツール：写真を撮ってアップロードすると答えがわかる。この中国の学生は驚くべきAIを作った

ニューラルネットワークのトレーニングでは、エポック、バッチサイズ、反復の違いがわかりません

グリーンロボットが環境の持続可能性にどのように貢献できるか

人工知能はどのようにしてデジタル経済の新しい時代を導くのでしょうか?デジタルサミットの専門家は言う

インテリジェントビル通信システムの構成と要件

GANを別の視点から見る: 別の損失関数

MetaGPTが人気に！ 2ドルでボスになれる、GitHubには11.2万個のスターがつき、AIエージェント「オールラウンダー」が誕生

人工知能の時代では、次の7つの重要な要素を念頭に置く必要があります

RoboFusion: SAM による堅牢なマルチモーダル 3D 検査

大学では人工知能を専攻できるコースはありますか?まだ道のりは長い

パラメータ数は元の1%に過ぎません。Beiyouらは、超解像アルゴリズムを使用した高性能なビデオ伝送方法を提案しました。