中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

Meta の「Segment Everything Model」(SAM) よりも高速な画像セグメンテーション ツールが登場しました。

最近、中国科学院のチームがFastSAMモデルをオープンソース化しました。このモデルは、元のSAMと同じ効果を50倍の速度で達成し、25FPSでリアルタイム推論を実現できます。

この成果は Github で 2.4K 以上のスターを獲得し、Twitter や PaperswithCode などのプラットフォームでも大きな注目を集めました。

関連論文のプレプリントが公開されました。

以下のコンテンツは寄稿者によって提供されています

Visual Foundations Model(SAM)[1]は、多くのコンピュータービジョンタスクに大きな影響を与えてきました。これは、画像の分割、画像の説明、画像編集などのタスクの基盤となっています。

しかし、計算コストが膨大であるため、実際のシナリオでは広範囲に適用できません。

最近、中国科学院自動化研究所は、高速化された代替ソリューションである FastSAM を提案し、オープンソース化しました。

すべてをセグメント化するタスクを、完全なインスタンスのセグメント化とプロンプトによる選択という 2 つのサブタスクに再分割することで、インスタンスのセグメント化ブランチを備えた従来の CNN 検出器は、SAM 方式に匹敵するパフォーマンスを 50 倍の実行速度で実現します。これは、すべてをリアルタイムでセグメント化する最初の基本モデルです。

意味と動機

SAM の出現により、「Segment Anything」タスクが開発されました。このタスクは、その一般化とスケーラビリティにより、将来的には幅広い視覚タスクの基礎となる可能性があります。

FastSAM は、このタスクにリアルタイム ソリューションを提供し、セグメンテーション モデルの実用的なアプリケーションと開発をさらに促進します。

この論文では、「すべてをセグメント化する」タスクを、完全なインスタンスのセグメント化とプロンプトによる選択の 2 つの段階に分離しています。人工的な事前構造を導入することで、SAM と同様のパフォーマンスを実現しながら、50 倍の速度向上を実現しています。

FastSAM の優れたパフォーマンスは、視覚タスクのアーキテクチャの選択に新たな視点を提供します。特定のタスクでは、専用のモデル構造が計算効率と精度の点で依然として有利である可能性があります。

モデル圧縮の観点から見ると、FastSAM は、大規模なモデルに基づいて高品質のデータを生成し、人工的な事前構造を導入することで計算の複雑さを大幅に削減する実現可能性も証明しています。

ウェブデモ

HuggingFaceのスペースでは、FastSAMのセグメンテーション効果をすぐに体験できます。

カスタム画像をアップロードし、モードを選択してパラメータを設定し、分割ボタンをクリックすると、満足のいくセグメンテーション結果を得ることができます。

現在、すべてのモードとポイント モード間の相互作用がサポートされており、将来的には他のモードもサポートされる予定です。 Replicate では、オンライン エクスペリエンスのすべてのモードがサポートされています。

複数のインタラクション方法

FastSAM は現在、3 つの対話モードをサポートしています。

マルチポイントインタラクションモード

FastSAM は、前景/背景ラベルを使用した複数のポイント インタラクション モードをサポートしており、さまざまなシナリオのアプリケーション要件に適切に適応できます。

欠陥検出のシナリオを例にとると、物体の欠陥を正確に検出するには、欠陥部分に前景ポイントを追加し、正常な錠剤部分に背景ポイントを追加するだけで済みます。

フレームインタラクションモード

FastSAM はボックス インタラクション モードもサポートしています。欠陥検出を例にとると、物体の欠陥を正確に検出するには、欠陥のおおよその位置を選択するだけで済みます。

テキストインタラクションモード

FastSAM はテキストインタラクションモードもサポートし、オープンソース化しています。さまざまなテキストプロンプトを通じて、FastSAM はさまざまな色の犬を正確に分類できます。

仕組み

下の図に示すように、FastSAM のネットワーク アーキテクチャは、フルインスタンス セグメンテーションとヒント ガイド選択の 2 つの段階に分けられます。

完全なインスタンスのセグメンテーション段階では、FastSAM は畳み込みニューラル ネットワークを使用して、画像内のすべてのオブジェクトまたは領域をセグメント化します。

プロンプトガイドによる選択フェーズでは、ポイントプロンプト、ボックスプロンプト、テキストプロンプトなどのさまざまなプロンプトを使用して、注目の対象を選択します。

Transformer ベースの方法とは異なり、FastSAM は、ローカル接続やオブジェクト割り当て戦略など、視覚セグメンテーション タスクに密接に関連する事前知識を組み込んでいます。これにより、パラメータ数と計算量を減らしながら、より速く収束できるようになります。

定性的および定量的分析

テスト結果によると、FastSAM のパフォーマンスはあらゆる面で Meta のオリジナル バージョンに劣っていません。

スピード

表からわかるように、FastSAM は SAM をはるかに上回る速度性能を実現します。「すべてを分割」モードでは、SAM の速度は均一なポイント プロンプトの数によって影響を受けますが、その構造の特性により、ポイント プロンプトの数が増えても FastSAM の実行時間は増加しないため、「すべてを分割」モードに適しています。

同時に、FastSAM は構造設計において人間の事前知識を活用するため、リアルタイム推論を実行する際に SAM と同等のパフォーマンスも実現します。

エッジ検出

次の図は代表的なエッジ検出結果を示しています。定性的な観察によれば、FastSAM のパラメータは大幅に少ない (68M のみ) にもかかわらず、非常に高品質のエッジ検出結果を生成できることが示されています。

下の表からわかるように、FastSAM は SAM と同様のパフォーマンスを実現します。 Ground Truth と比較すると、FastSAM と SAM はどちらもより多くのエッジを予測する傾向があり、この偏差は表に定量的に反映されています。

オブジェクト候補

下の表からわかるように、FastSAMはbbox AR@1000の点で最も計算集約的なSAMモデル(SAM-H E64)よりも優れており、LVISデータセットでトレーニングされたViTDet-H[2]に次ぐ性能です。

結果を視覚化する

SA-1B セグメンテーション結果: 次の図は、SA-1B データセット上のさまざまなシーンとマスクの数に対する FastSAM のセグメンテーション結果を示しています。

ダウンストリーム アプリケーションの比較: 次の 3 つの図は、異常検出、顕著なオブジェクトのセグメンテーション、建物の抽出という 3 つのダウンストリーム タスクにおける FastSAM と SAM のパフォーマンスを比較したものです。FastSAM は、さまざまなモードで SAM と同等のパフォーマンスを達成しています。

参考文献
[1] Kirillov A、Mintun E、Ravi N、et al。Segment anything[J]。arXivプレプリントarXiv:2304.02643、2023。
[2] Li J、Yang T、Ji W、他「弱教師付き時間的動作局在化のためのノイズ除去クロスビデオコントラストの検討[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19914-19924.

論文アドレス: https://arxiv.org/abs/2306.12156

GitHub プロジェクト ページ: https://github.com/CASIA-IVA-Lab/FastSAM

HuggingFace デモ: https://huggingface.co/spaces/An-619/FastSAM

デモを複製する: https://replicate.com/casia-iva-lab/fastsam

<<:  SFから現実へ:人間のデジタルツインの旅

>>:  AIがネットワークゴミを生み出す:古いインターネットは死につつあり、新しいインターネットは困難の中で生まれる

ブログ    
ブログ    

推薦する

産業用 IoT が人工知能の時代へ

インテリジェンスは近年、製造業における最も重要なトレンドです。過去数年間の市場教育を経て、過去2年間...

再帰アルゴリズムの時間計算量について十分に理解していない

[[414048]]この記事では、面接の質問と面接のシナリオを使用して、再帰アルゴリズムの時間計算量...

...

AIは新たな科学革命を先導している

著者 | ブライアン・マクマホン、翻訳者 | bluemin、編集者 | 陳彩仙1950年代にDNA...

...

...

...

...

ユーザーエクスペリエンスは過去のものになりました。AIは国民、さらには社会の視点から問題を考える必要があります。

今日、テクノロジーの巨人とその AI ベースのデジタル プラットフォームおよびソリューションは、世界...

いくつかの一般的な暗号化アルゴリズムのPython実装

私たちは日常生活の中で、暗号化アルゴリズムによく遭遇します。今日は、これらの暗号化アルゴリズムの P...

運転教習業界にも「AI」の波が吹き荒れる、普及規模に注目

[[422314]]近年、都市化と道路交通建設の加速により、自動車旅行の需要が継続的に増加しており、...

概要: インターネット時代です!人工知能に関する4つの大きな誤解

インターネットは現在、非常に急速に発展しており、特に過去2年間で、人工知能はインターネットのトレンド...

...

古代のLRから始まる初心者でもわかるレコメンデーションアルゴリズム入門

[[386397]]みなさんこんにちは。私は、気づかないうちに長い間、推薦システムに取り組んできまし...

顔認識における克服すべき困難

顔認識は、生体認証の分野、さらには人工知能の分野においても最も難しい研究テーマの 1 つと考えられて...