サイズはたったの1MB!超軽量顔認識モデルがGithubで人気

サイズはたったの1MB!超軽量顔認識モデルがGithubで人気

最近、ユーザー Linzaer が、エッジ コンピューティング デバイス、モバイル デバイス、PC に適した超軽量のユニバーサル顔検出モデルを Github でオープンソース化しました。このモデル ファイルのサイズはわずか 1 MB で、オープンソース化されるとすぐに Github のトレンド リストのトップに躍り出ました。

わずか数日で、Github で 2.1K のスターと 398 のフォークを獲得しました (Github アドレス: https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB)

Linzaer氏によると、このモデルはエッジコンピューティングデバイスや低コンピューティングデバイス(ARM推論を使用するなど)向けに設計されており、ARMなどの低コンピューティングデバイスでの一般的なシナリオでリアルタイムの顔検出推論を実行できるほか、モバイル端末やPCにも適用できるという。

主な機能は次のとおりです。

  • モデルサイズに関しては、デフォルトの FP32 精度 (.pth) ファイルサイズは 1.04 ~ 1.1 MB で、int8 量子化後の推論フレームワークのサイズは約 300 KB です。
  • モデル計算に関しては、入力解像度は 320x240、スループットは約 90~109 MFlops です。
  • このモデルには、バージョン スリム (合理化されたバックボーンによりわずかに高速化) とバージョン RFB (より高い精度のために修正された RFB モジュールが追加された) の 2 つのバージョンがあります。
  • さまざまなアプリケーション シナリオでより適切に動作するように、320 x 240 と 640 x 480 の異なる入力解像度でワイドフェイスを使用してトレーニングされた事前トレーニング済みモデルが提供されます。
  • 移植と推論を容易にするために onnx エクスポートをサポートします。

これまでテストされた通常の動作環境は次のとおりです。

  • Ubuntu 16.04、Ubuntu 18.04、Windows 10 (推論)
  • Python 3.6
  • パイトーチ 1.2
  • CUDA10.0 + CUDNN7.6

精度、速度、モデルサイズの比較

トレーニング セットは、Retinaface によって提供されるクリーンな wideface ラベルと wideface データセットを使用して生成され、VOC トレーニング セットが生成されます。

ワイドフェイステスト

WIDER FACE テスト セットでのテスト精度 (単一スケールの入力解像度: 320*240 または最大辺長 320 に比例してスケーリング)

WIDER FACE テスト セットでのテスト精度 (単一スケールの入力解像度: VGA 640*480 または最大辺長 640 に比例してスケーリング)

端末機器推論速度

Raspberry Pi 4B MNN推論テスト時間(単位:ms)(ARM/A72x4/1.5GHz/入力解像度:320x240/int8量子化)

モデルサイズの比較

画像効果は以下のとおりです。

<<:  AI は鉱業をどのように改善できるのでしょうか?

>>:  産業用ロボットを選択するための 9 つの主要なパラメータをご存知ですか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能の波で私たちは職を失うのでしょうか?

[[200388]]概要: 私たちの仕事が機械に置き換えられるのはいつでしょうか? 最も危険な仕事...

アコーディオン: HBase メモリ圧縮アルゴリズム

最近では、HBase ベースの製品の読み取り速度と書き込み速度に対する要件がますます高まっています。...

科学記事:強化学習後、ロボット学習のボトルネックをどう突破するのか?

[[340407]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

銀行における会話型 AI – 企業が犯しがちな 3 つの間違い

金融サービス業界は、特定の金融プロセスに不可欠なレガシー機器やシステムを使用しているため、他の業界に...

AI検出器は復活するのか?成功率は98%と高く、OpenAIを上回っている。

現在の AI テキスト検出器には、AI が生成したテキストと人間が作成したテキストを効果的に区別する...

...

推薦システムで学ぶべき対照的な学習方法

みなさんこんにちは。私はDiaobaiです。今日は、レコメンデーションシステムで学ぶべき対照学習法に...

ChatGPTの収益成長は阻害されている:モバイルアプリのダウンロードは急増しているが、拡大は遅い

10月10日、最近のレポートによると、OpenAIの人工知能チャットボットChatGPTの収益成長が...

通信ネットワークにおけるOSPFプロトコルの適用とアルゴリズムの最適化

3G通信技術は広く利用されており、4Gに向けてますます進化しています。通信ネットワーク内のアクセスス...

アートデザインにおける人工知能

AdobeやCelsysなどのソフトウェア企業は近年、デジタルデザインソフトウェアに人工知能機能を追...

MetaのAIは、メタバースで「あなたの言葉を実現」することを可能にします

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

二次編集やUnreal Engine 5へのインポートをサポートし、Stable Diffusionは3D生成機能に進化

全体像を捉えるモデルに関して言えば、Stability AI が 2022 年にリリースした Sta...

...

最も偽のGANモデル! Facebook、史上最強の移行機能を備えたIC-GANをリリース

[[425904]] GAN モデルは優れていますが、トレーニング データに対する要件が高すぎるため...

...