中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

Meta の「Segment Everything Model」(SAM) よりも高速な画像セグメンテーション ツールが登場しました。

最近、中国科学院のチームがFastSAMモデルをオープンソース化しました。このモデルは、元のSAMと同じ効果を50倍の速度で達成し、25FPSでリアルタイム推論を実現できます。

この成果は Github で 2.4K 以上のスターを獲得し、Twitter や PaperswithCode などのプラットフォームでも大きな注目を集めました。

関連論文のプレプリントが公開されました。

以下のコンテンツは寄稿者によって提供されています

Visual Foundations Model(SAM)[1]は、多くのコンピュータービジョンタスクに大きな影響を与えてきました。これは、画像の分割、画像の説明、画像編集などのタスクの基盤となっています。

しかし、計算コストが膨大であるため、実際のシナリオでは広範囲に適用できません。

最近、中国科学院自動化研究所は、高速化された代替ソリューションである FastSAM を提案し、オープンソース化しました。

すべてをセグメント化するタスクを、完全なインスタンスのセグメント化とプロンプトによる選択という 2 つのサブタスクに再分割することで、インスタンスのセグメント化ブランチを備えた従来の CNN 検出器は、SAM 方式に匹敵するパフォーマンスを 50 倍の実行速度で実現します。これは、すべてをリアルタイムでセグメント化する最初の基本モデルです。

意味と動機

SAM の出現により、「Segment Anything」タスクが開発されました。このタスクは、その一般化とスケーラビリティにより、将来的には幅広い視覚タスクの基礎となる可能性があります。

FastSAM は、このタスクにリアルタイム ソリューションを提供し、セグメンテーション モデルの実用的なアプリケーションと開発をさらに促進します。

この論文では、「すべてをセグメント化する」タスクを、完全なインスタンスのセグメント化とプロンプトによる選択の 2 つの段階に分離しています。人工的な事前構造を導入することで、SAM と同様のパフォーマンスを実現しながら、50 倍の速度向上を実現しています。

FastSAM の優れたパフォーマンスは、視覚タスクのアーキテクチャの選択に新たな視点を提供します。特定のタスクでは、専用のモデル構造が計算効率と精度の点で依然として有利である可能性があります。

モデル圧縮の観点から見ると、FastSAM は、大規模なモデルに基づいて高品質のデータを生成し、人工的な事前構造を導入することで計算の複雑さを大幅に削減する実現可能性も証明しています。

ウェブデモ

HuggingFaceのスペースでは、FastSAMのセグメンテーション効果をすぐに体験できます。

カスタム画像をアップロードし、モードを選択してパラメータを設定し、分割ボタンをクリックすると、満足のいくセグメンテーション結果を得ることができます。

現在、すべてのモードとポイント モード間の相互作用がサポートされており、将来的には他のモードもサポートされる予定です。 Replicate では、オンライン エクスペリエンスのすべてのモードがサポートされています。

複数のインタラクション方法

FastSAM は現在、3 つの対話モードをサポートしています。

マルチポイントインタラクションモード

FastSAM は、前景/背景ラベルを使用した複数のポイント インタラクション モードをサポートしており、さまざまなシナリオのアプリケーション要件に適切に適応できます。

欠陥検出のシナリオを例にとると、物体の欠陥を正確に検出するには、欠陥部分に前景ポイントを追加し、正常な錠剤部分に背景ポイントを追加するだけで済みます。

フレームインタラクションモード

FastSAM はボックス インタラクション モードもサポートしています。欠陥検出を例にとると、物体の欠陥を正確に検出するには、欠陥のおおよその位置を選択するだけで済みます。

テキストインタラクションモード

FastSAM はテキストインタラクションモードもサポートし、オープンソース化しています。さまざまなテキストプロンプトを通じて、FastSAM はさまざまな色の犬を正確に分類できます。

仕組み

下の図に示すように、FastSAM のネットワーク アーキテクチャは、フルインスタンス セグメンテーションとヒント ガイド選択の 2 つの段階に分けられます。

完全なインスタンスのセグメンテーション段階では、FastSAM は畳み込みニューラル ネットワークを使用して、画像内のすべてのオブジェクトまたは領域をセグメント化します。

プロンプトガイドによる選択フェーズでは、ポイントプロンプト、ボックスプロンプト、テキストプロンプトなどのさまざまなプロンプトを使用して、注目の対象を選択します。

Transformer ベースの方法とは異なり、FastSAM は、ローカル接続やオブジェクト割り当て戦略など、視覚セグメンテーション タスクに密接に関連する事前知識を組み込んでいます。これにより、パラメータ数と計算量を減らしながら、より速く収束できるようになります。

定性的および定量的分析

テスト結果によると、FastSAM のパフォーマンスはあらゆる面で Meta のオリジナル バージョンに劣っていません。

スピード

表からわかるように、FastSAM は SAM をはるかに上回る速度性能を実現します。「すべてを分割」モードでは、SAM の速度は均一なポイント プロンプトの数によって影響を受けますが、その構造の特性により、ポイント プロンプトの数が増えても FastSAM の実行時間は増加しないため、「すべてを分割」モードに適しています。

同時に、FastSAM は構造設計において人間の事前知識を活用するため、リアルタイム推論を実行する際に SAM と同等のパフォーマンスも実現します。

エッジ検出

次の図は代表的なエッジ検出結果を示しています。定性的な観察によれば、FastSAM のパラメータは大幅に少ない (68M のみ) にもかかわらず、非常に高品質のエッジ検出結果を生成できることが示されています。

下の表からわかるように、FastSAM は SAM と同様のパフォーマンスを実現します。 Ground Truth と比較すると、FastSAM と SAM はどちらもより多くのエッジを予測する傾向があり、この偏差は表に定量的に反映されています。

オブジェクト候補

下の表からわかるように、FastSAMはbbox AR@1000の点で最も計算集約的なSAMモデル(SAM-H E64)よりも優れており、LVISデータセットでトレーニングされたViTDet-H[2]に次ぐ性能です。

結果を視覚化する

SA-1B セグメンテーション結果: 次の図は、SA-1B データセット上のさまざまなシーンとマスクの数に対する FastSAM のセグメンテーション結果を示しています。

ダウンストリーム アプリケーションの比較: 次の 3 つの図は、異常検出、顕著なオブジェクトのセグメンテーション、建物の抽出という 3 つのダウンストリーム タスクにおける FastSAM と SAM のパフォーマンスを比較したものです。FastSAM は、さまざまなモードで SAM と同等のパフォーマンスを達成しています。

参考文献
[1] Kirillov A、Mintun E、Ravi N、et al。Segment anything[J]。arXivプレプリントarXiv:2304.02643、2023。
[2] Li J、Yang T、Ji W、他「弱教師付き時間的動作局在化のためのノイズ除去クロスビデオコントラストの検討[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19914-19924.

論文アドレス: https://arxiv.org/abs/2306.12156

GitHub プロジェクト ページ: https://github.com/CASIA-IVA-Lab/FastSAM

HuggingFace デモ: https://huggingface.co/spaces/An-619/FastSAM

デモを複製する: https://replicate.com/casia-iva-lab/fastsam

<<:  SFから現実へ:人間のデジタルツインの旅

>>:  AIがネットワークゴミを生み出す:古いインターネットは死につつあり、新しいインターネットは困難の中で生まれる

ブログ    
ブログ    

推薦する

革新的な人工視覚脳インプラントが初めて視覚障害者に移植される

現時点では失明を治す方法はないが、初めての人工視覚システムの移植が初めて成功し、失明した人々の視力を...

世界人工知能会議が終了しました。今後、AIは私たちの生活にどのように浸透していくのでしょうか?

過去 2 年間で最もホットな話題は何かと聞かれれば、人工知能は間違いなくそのリストに載るでしょう。金...

清華大学と北京大学は確実にトップ20に入っています!世界のAI研究の年間ランキングが発表され、中国と米国の間には大きな差がある

さらに、テクノロジー業界に特化したベンチャーキャピタル企業であるサンダーマーク・キャピタルは、毎年こ...

ソフトウェア開発プロセスの近代化における生成AIの役割

近年、ソフトウェア エンジニアリングでは、自動化の強化と開発プロセスの合理化に向けて大きな変化が見ら...

...

アルゴリズムエンジニアのメリット: 超実践的技術ロードマップ

これは、会社のアルゴリズム グループの同僚向けに作成された技術ロードマップです。主な目的は、技術ルー...

人工知能はクラウドストレージとデータサービスの革新を推進する

[[358649]]従来のストレージとデータ構造が、クラウドネイティブ アプリケーションに必要な移植...

...

人工知能はどのようにしてスマートホームを実現するのでしょうか?

リッチー・リッチは、ハーヴェイ・コミックスに登場した最も有名なキャラクターの一人です。漫画を覚えてい...

調査によると、AIはデータ文化に大きな影響を与えている

2023年はGenAIの年ですが、GenAI(生成型人工知能)の採用率は期待に応えていません。ほとん...

人工知能技術は人間の生活にどのような影響を与えるのでしょうか?

[[349271]]人工知能と産業の組み合わせは、中国市場の爆発的な成長を促進し、中国のモバイルイ...

...

2019年自動車向け人工知能コンピューティング技術と市場動向

[[258319]]人工知能 (AI) は、私たちの毎日の通勤を含め、ゆっくりと、しかし確実に、より...

ビジネス上の問題を機械学習の問題に変換するにはどうすればよいでしょうか?

[[196752]]機械学習が価値を変革するための最も重要なステップは何ですか?ビジネス上の問題に...

李嘉誠は率直に言った。「人工知能の時代には、これらのいくつかの業界だけが大きな成功を達成するのに役立ちます。」

李嘉誠氏はこう語った。「人工知能の時代には、世界がどう変化しても、経済サイクルがどう変動しても、常に...