中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

Meta の「Segment Everything Model」(SAM) よりも高速な画像セグメンテーション ツールが登場しました。

最近、中国科学院のチームがFastSAMモデルをオープンソース化しました。このモデルは、元のSAMと同じ効果を50倍の速度で達成し、25FPSでリアルタイム推論を実現できます。

この成果は Github で 2.4K 以上のスターを獲得し、Twitter や PaperswithCode などのプラットフォームでも大きな注目を集めました。

関連論文のプレプリントが公開されました。

以下のコンテンツは寄稿者によって提供されています

Visual Foundations Model(SAM)[1]は、多くのコンピュータービジョンタスクに大きな影響を与えてきました。これは、画像の分割、画像の説明、画像編集などのタスクの基盤となっています。

しかし、計算コストが膨大であるため、実際のシナリオでは広範囲に適用できません。

最近、中国科学院自動化研究所は、高速化された代替ソリューションである FastSAM を提案し、オープンソース化しました。

すべてをセグメント化するタスクを、完全なインスタンスのセグメント化とプロンプトによる選択という 2 つのサブタスクに再分割することで、インスタンスのセグメント化ブランチを備えた従来の CNN 検出器は、SAM 方式に匹敵するパフォーマンスを 50 倍の実行速度で実現します。これは、すべてをリアルタイムでセグメント化する最初の基本モデルです。

意味と動機

SAM の出現により、「Segment Anything」タスクが開発されました。このタスクは、その一般化とスケーラビリティにより、将来的には幅広い視覚タスクの基礎となる可能性があります。

FastSAM は、このタスクにリアルタイム ソリューションを提供し、セグメンテーション モデルの実用的なアプリケーションと開発をさらに促進します。

この論文では、「すべてをセグメント化する」タスクを、完全なインスタンスのセグメント化とプロンプトによる選択の 2 つの段階に分離しています。人工的な事前構造を導入することで、SAM と同様のパフォーマンスを実現しながら、50 倍の速度向上を実現しています。

FastSAM の優れたパフォーマンスは、視覚タスクのアーキテクチャの選択に新たな視点を提供します。特定のタスクでは、専用のモデル構造が計算効率と精度の点で依然として有利である可能性があります。

モデル圧縮の観点から見ると、FastSAM は、大規模なモデルに基づいて高品質のデータを生成し、人工的な事前構造を導入することで計算の複雑さを大幅に削減する実現可能性も証明しています。

ウェブデモ

HuggingFaceのスペースでは、FastSAMのセグメンテーション効果をすぐに体験できます。

カスタム画像をアップロードし、モードを選択してパラメータを設定し、分割ボタンをクリックすると、満足のいくセグメンテーション結果を得ることができます。

現在、すべてのモードとポイント モード間の相互作用がサポートされており、将来的には他のモードもサポートされる予定です。 Replicate では、オンライン エクスペリエンスのすべてのモードがサポートされています。

複数のインタラクション方法

FastSAM は現在、3 つの対話モードをサポートしています。

マルチポイントインタラクションモード

FastSAM は、前景/背景ラベルを使用した複数のポイント インタラクション モードをサポートしており、さまざまなシナリオのアプリケーション要件に適切に適応できます。

欠陥検出のシナリオを例にとると、物体の欠陥を正確に検出するには、欠陥部分に前景ポイントを追加し、正常な錠剤部分に背景ポイントを追加するだけで済みます。

フレームインタラクションモード

FastSAM はボックス インタラクション モードもサポートしています。欠陥検出を例にとると、物体の欠陥を正確に検出するには、欠陥のおおよその位置を選択するだけで済みます。

テキストインタラクションモード

FastSAM はテキストインタラクションモードもサポートし、オープンソース化しています。さまざまなテキストプロンプトを通じて、FastSAM はさまざまな色の犬を正確に分類できます。

仕組み

下の図に示すように、FastSAM のネットワーク アーキテクチャは、フルインスタンス セグメンテーションとヒント ガイド選択の 2 つの段階に分けられます。

完全なインスタンスのセグメンテーション段階では、FastSAM は畳み込みニューラル ネットワークを使用して、画像内のすべてのオブジェクトまたは領域をセグメント化します。

プロンプトガイドによる選択フェーズでは、ポイントプロンプト、ボックスプロンプト、テキストプロンプトなどのさまざまなプロンプトを使用して、注目の対象を選択します。

Transformer ベースの方法とは異なり、FastSAM は、ローカル接続やオブジェクト割り当て戦略など、視覚セグメンテーション タスクに密接に関連する事前知識を組み込んでいます。これにより、パラメータ数と計算量を減らしながら、より速く収束できるようになります。

定性的および定量的分析

テスト結果によると、FastSAM のパフォーマンスはあらゆる面で Meta のオリジナル バージョンに劣っていません。

スピード

表からわかるように、FastSAM は SAM をはるかに上回る速度性能を実現します。「すべてを分割」モードでは、SAM の速度は均一なポイント プロンプトの数によって影響を受けますが、その構造の特性により、ポイント プロンプトの数が増えても FastSAM の実行時間は増加しないため、「すべてを分割」モードに適しています。

同時に、FastSAM は構造設計において人間の事前知識を活用するため、リアルタイム推論を実行する際に SAM と同等のパフォーマンスも実現します。

エッジ検出

次の図は代表的なエッジ検出結果を示しています。定性的な観察によれば、FastSAM のパラメータは大幅に少ない (68M のみ) にもかかわらず、非常に高品質のエッジ検出結果を生成できることが示されています。

下の表からわかるように、FastSAM は SAM と同様のパフォーマンスを実現します。 Ground Truth と比較すると、FastSAM と SAM はどちらもより多くのエッジを予測する傾向があり、この偏差は表に定量的に反映されています。

オブジェクト候補

下の表からわかるように、FastSAMはbbox AR@1000の点で最も計算集約的なSAMモデル(SAM-H E64)よりも優れており、LVISデータセットでトレーニングされたViTDet-H[2]に次ぐ性能です。

結果を視覚化する

SA-1B セグメンテーション結果: 次の図は、SA-1B データセット上のさまざまなシーンとマスクの数に対する FastSAM のセグメンテーション結果を示しています。

ダウンストリーム アプリケーションの比較: 次の 3 つの図は、異常検出、顕著なオブジェクトのセグメンテーション、建物の抽出という 3 つのダウンストリーム タスクにおける FastSAM と SAM のパフォーマンスを比較したものです。FastSAM は、さまざまなモードで SAM と同等のパフォーマンスを達成しています。

参考文献
[1] Kirillov A、Mintun E、Ravi N、et al。Segment anything[J]。arXivプレプリントarXiv:2304.02643、2023。
[2] Li J、Yang T、Ji W、他「弱教師付き時間的動作局在化のためのノイズ除去クロスビデオコントラストの検討[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19914-19924.

論文アドレス: https://arxiv.org/abs/2306.12156

GitHub プロジェクト ページ: https://github.com/CASIA-IVA-Lab/FastSAM

HuggingFace デモ: https://huggingface.co/spaces/An-619/FastSAM

デモを複製する: https://replicate.com/casia-iva-lab/fastsam

<<:  SFから現実へ:人間のデジタルツインの旅

>>:  AIがネットワークゴミを生み出す:古いインターネットは死につつあり、新しいインターネットは困難の中で生まれる

ブログ    
ブログ    
ブログ    

推薦する

...

ニッチから人気へ: 世界的な AI イノベーションが「ソフト」になった理由

この人工知能の波が出現したとき、世界中の AI 研究所が競争を重視していたことを今でも覚えています。...

人工知能システム:無制限の核融合反応を現実のものに

近年、研究者らはトカマクの停止や損傷の原因となる核分裂反応を研究している。核分裂反応を予測・制御でき...

顔認識技術の倫理

顔認識技術がさまざまな分野で持つ大きな可能性は、ほとんど想像できないほどです。ただし、最も洗練された...

...

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑...

東京オリンピックでロボットが美しい風景になる

[[413763]]最近、4年に一度のオリンピックがついに東京で開催されました。フィールドでは、世界...

カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

現在、多くの自動運転車開発者は米国カリフォルニア州(以下、「カリフォルニア」という)で路上試験を行う...

フードデリバリーロボット市場は11.6億規模に到達。美団は「台頭」するか?

近年、ロボット産業は急速に発展しており、工業、農業、サービスなど多くの分野でロボットが見られるように...

GPTベースの開発者ツール

localGPT - GPT モデル ツールのローカル展開localGPT を使用すると、GPT モ...

この世界的に有名な旅行ウェブサイトは、150の独自の機械学習モデルを分析し、6つの教訓を学びました。

多くのメディア記事では、「機械学習がXX業界に力を与える」という言葉を目にしますが、この「エネルギー...

...

Dr. ByteのAIは大活躍、ワンクリックでボーカルと伴奏を完璧に分離

[[424966]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている

人工知能は長い間、小売業から農業に至るまで、さまざまな業界で主要な技術的焦点となってきており、大手企...

データ詐欺師はどこにでもいる。いわゆる「万能薬」を暴く方法

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...