サイズはたったの1MB！超軽量顔認識モデルがGithubで人気

サイズはたったの1MB！超軽量顔認識モデルがGithubで人気

最近、ユーザー Linzaer が、エッジコンピューティングデバイス、モバイルデバイス、PC に適した超軽量のユニバーサル顔検出モデルを Github でオープンソース化しました。このモデルファイルのサイズはわずか 1 MB で、オープンソース化されるとすぐに Github のトレンドリストのトップに躍り出ました。

わずか数日で、Github で 2.1K のスターと 398 のフォークを獲得しました (Github アドレス: https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB)

Linzaer氏によると、このモデルはエッジコンピューティングデバイスや低コンピューティングデバイス（ARM推論を使用するなど）向けに設計されており、ARMなどの低コンピューティングデバイスでの一般的なシナリオでリアルタイムの顔検出推論を実行できるほか、モバイル端末やPCにも適用できるという。

主な機能は次のとおりです。

モデルサイズに関しては、デフォルトの FP32 精度 (.pth) ファイルサイズは 1.04 ～ 1.1 MB で、int8 量子化後の推論フレームワークのサイズは約 300 KB です。
モデル計算に関しては、入力解像度は 320x240、スループットは約 90～109 MFlops です。
このモデルには、バージョンスリム (合理化されたバックボーンによりわずかに高速化) とバージョン RFB (より高い精度のために修正された RFB モジュールが追加された) の 2 つのバージョンがあります。
さまざまなアプリケーションシナリオでより適切に動作するように、320 x 240 と 640 x 480 の異なる入力解像度でワイドフェイスを使用してトレーニングされた事前トレーニング済みモデルが提供されます。
移植と推論を容易にするために onnx エクスポートをサポートします。

これまでテストされた通常の動作環境は次のとおりです。

Ubuntu 16.04、Ubuntu 18.04、Windows 10 (推論)
Python 3.6
パイトーチ 1.2
CUDA10.0 + CUDNN7.6

精度、速度、モデルサイズの比較

トレーニングセットは、Retinaface によって提供されるクリーンな wideface ラベルと wideface データセットを使用して生成され、VOC トレーニングセットが生成されます。

ワイドフェイステスト

WIDER FACE テストセットでのテスト精度 (単一スケールの入力解像度: 320*240 または最大辺長 320 に比例してスケーリング)

WIDER FACE テストセットでのテスト精度 (単一スケールの入力解像度: VGA 640*480 または最大辺長 640 に比例してスケーリング)

端末機器推論速度

Raspberry Pi 4B MNN推論テスト時間（単位：ms）（ARM/A72x4/1.5GHz/入力解像度：320x240/int8量子化）

モデルサイズの比較

画像効果は以下のとおりです。

<<: AI は鉱業をどのように改善できるのでしょうか?

>>: 産業用ロボットを選択するための 9 つの主要なパラメータをご存知ですか?

エッジコンピューティングと人工知能について知っておくべき7つのこと

エッジコンピューティングと人工知能について知っておくべき7つのこと

ブログ

「機械学習」CNNを徹底理解

「機械学習」CNNを徹底理解

ブログ

反論: AIに急いで取り組むべきではない5つの理由

反論: AIに急いで取り組むべきではない5つの理由

ブログ

研究により、ディープラーニングAIは乳がんリスクの予測に優れていることが判明

研究により、ディープラーニングAIは乳がんリスクの予測に優れていることが判明

ブログ

Uber劉延東：Uberがフードデリバリーサービスを開始したとき、世界中のフードデリバリー会社は衝撃を受けた

Uber劉延東：Uberがフードデリバリーサービスを開始したとき、世界中のフードデリバリー会社は衝撃を受けた

ブログ

Baidu Mapsは、インテリジェントな位置情報サービスプラットフォームを構築するために、新世代の人工知能マップエコシステムをリリースしました。

Baidu Mapsは、インテリジェントな位置情報サービスプラットフォームを構築するために、新世代の人工知能マップエコシステムをリリースしました。

ブログ

量子プロセッサのパフォーマンスはなぜ変動するのでしょうか? Googleが見つけた答えは、素材に欠陥があるということだ

量子プロセッサのパフォーマンスはなぜ変動するのでしょうか? Googleが見つけた答えは、素材に欠陥があるということだ

ブログ

推薦システムの主なアルゴリズムの概要とYoutubeのディープラーニング推薦アルゴリズムの例

推薦システムの主なアルゴリズムの概要とYoutubeのディープラーニング推薦アルゴリズムの例

ブログ

ブログ

チューリング賞受賞者ヨシュア・ベンジオ氏：生成フローネットワークがディープラーニングの分野を拡大

チューリング賞受賞者ヨシュア・ベンジオ氏：生成フローネットワークがディープラーニングの分野を拡大

ブログ

推薦する

機械学習で不均衡なデータをどのように処理しますか?

上司から、利用可能なさまざまな測定値に基づいて製品に欠陥があるかどうかを予測するモデルを作成するよう...

GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

拡散モデルの出現により、テキスト生成ビデオ技術の開発が促進されましたが、このような方法は通常、計算コ...

炭素クレジット監査における人工知能の応用

カーボンクレジットとは、保有者に 1 トンの二酸化炭素またはその他の温室効果ガスに相当する排出権を...

曹永寿：ビッグデータとAI技術がアーティストの商業的価値を測る基準を構築

[元記事は51CTO.comより]最近、エンターテインメントビッグデータアプリケーションサービスプロ...

GenAI の投資が 2024 年にデータセンターにどのような変化をもたらすか

私たちは、日常の習慣から抜け出し、長い間待ち望まれていた自分自身を変えるために、ちょっとしたモチベー...

2023年に開発者が知っておくべき6つのAIツール

Chat GPTのリリース以来、AIはプログラミングをはじめ、さまざまな分野で素晴らしい製品を生み出...

ロボットはすべてレンガを動かしているのでしょうか?人工知能は失業の波を引き起こすでしょうか？

今日、私は突然、食べたり飲んだり休んだりすることなく、1時間で200個のレンガを積むことができるレン...

軍事分野における人工知能の浸透と応用に関する考察

人工知能（AI）技術は現在、新たな急速な成長期に入り、将来の世界を変える可能性が最も高い破壊的技術と...

...

74KBの写真も高解像度です。Googleはニューラルネットワークを使用して新しい画像圧縮アルゴリズムを作成しました

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載...

AIと建物の運用: 人、データ、信頼の基盤の構築

最近では、人工知能とそのサブセットである機械学習が注目のキーワードになっています。ディープフェイク、...

研究によると、2027年までにAIの電力消費量は一部の国の電力消費量と同等になると予想されている。

10月17日のニュースによると、人工知能はプログラマーのプログラミング速度を上げ、ドライバーの安全...

AIがサイバーセキュリティに与える影響

人工知能（AI）は、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーション...

機械学習と従来のプログラミングの違いについて話す

[[264779]] AI と ML は誇張されすぎていて、if 文を書いたりプログラミングに関係す...

...