モデルはわずか1MBで、軽量な顔検出モデルはオープンソースであり、その効果は主流のアルゴリズムに劣らない。

[[279121]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI モデルはますます小さくなり、必要な計算能力もますます弱くなってきていますが、精度は依然として保証されています。

最新の代表例は、GitHub でオープンソース化されたばかりの中国のプロジェクト、超軽量の汎用顔検出モデルです。

プロジェクトの貢献者によると、モデルファイルのサイズはわずか 1 MB で、計算の複雑さは 320x240 入力に対してわずか 90MFlops です。

もちろん、その効果は業界で現在主流のオープンソース顔検出アルゴリズムに劣るものではなく、むしろそれを上回っています。

超軽量で多用途

このモデルの貢献者はlinzaiで、これはエッジコンピューティングデバイスまたは低コンピューティングデバイス (ARM 推論など) 向けに設計された、リアルタイムの超軽量ユニバーサル顔検出モデルであると紹介しました。

デフォルトの FP32 精度 (.pth) ファイルサイズは 1.1 MB で、推論フレームワークの int8 量子化サイズは約 300 KB です。

目標は、ARM を使用して、低コンピューティングデバイスの一般的なシナリオでリアルタイムの顔検出推論を実行することです。同時に、これはモバイル環境 (Android および IOS)、PC 環境 (CPU および GPU) などにも当てはまります。

GitHubプロジェクトページによると、このモデルはUbuntu16.04、Ubuntu18.04、Windows 10、Python3.6、Pytorch1.2、CUDA10.0 + CUDNN7.6などの環境でテストされており、正常な動作を保証できるとのこと。

モデル設計には 2 つのバージョンがあります。1) 合理化されたバックボーンを持ち、わずかに高速なバージョンスリム、2) より高い精度のために修正された RFB モジュールを追加したバージョン RFB です。

また、320x240 と 640x480 の異なる入力解像度で wideface を使用してトレーニングされた事前トレーニング済みモデルも提供されており、さまざまなシナリオでより適切に機能します。

Linzai 氏は、プロジェクト全体に特別な演算子はなく、onnx エクスポートをサポートしているため、移植が容易になると紹介しました。

その効果は、現在主流のオープンソースアルゴリズムに劣らない

このようなモデルの効果/精度は何ですか?

Linzai 氏は、モデルの精度、速度、シナリオテスト、サイズテストも GitHub プロジェクトページで公開しました。

出場者は 2 人います。1 つは、OpenCV の中国ウェブサイトのウェブマスターである Yu Shiqi 氏が開発したオープンソースの顔検出アルゴリズムである Libfacedetection です。

もう 1 つは、業界で最も先進的なオープンソースの顔検出アルゴリズムの 1 つである Retinaface-Mobilenet-0.25 (Mxnet) です。

Widerface データセットのテスト結果は次のとおりです。

基本的に version-slim/version-RFB で最良の結果が得られます。

Raspberry Pi 4B MNN推論テスト時間のテスト結果は次のとおりです。

対照的に、スリム版の速度は劣っていません。

地下鉄の駅、万達広場、オフィスなどのシナリオでテストが実施され、結果からRFBバージョンにも利点があることが示されました。

さらに重要なのは、新しいオープンソースモデルが軽量であることです。

ポータル

このプロジェクトの GitHub ページで、linzai は VOC 形式のトレーニングデータセットとトレーニングプロセスを生成する方法、およびこのモデルをより有効に使用する方法についても共有しました。

興味があれば見てみてください〜

<<: 世界トップ10のAIトレーニングチップの包括的なレビュー

>>: 人工知能が普及せず、自動運転に支障？

ブログ

アンドリュー・ン氏のチームが2019年のAIトレンドを振り返る：自動運転は寒い冬を迎え、ディープフェイクはモンスターとなった

モデルはわずか1MBで、軽量な顔検出モデルはオープンソースであり、その効果は主流のアルゴリズムに劣らない。

アンドリュー・ン氏のチームが2019年のAIトレンドを振り返る：自動運転は寒い冬を迎え、ディープフェイクはモンスターとなった

この記事ではSentinelと一般的なフロー制御アルゴリズムを紹介します。

IBM、投資先企業とフォーチュン500企業とのつながりを支援するブロックチェーン投資ファンドを立ち上げ

Visual Mamba が登場: 2.8 倍高速、メモリが 87% 削減

OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

BEV の可能性の限界を探ろう! DA-BEV: 新しい教師なし BEV SOTA ソリューション!

MITはロボットの構造を自動設計できるコンピュータシステムを発明し、25年で最高の成果を達成した。

このプロジェクトはオープンソース化されています。Microsoft Research は転移学習を使用して、実用化に向けて自律型ドローンをトレーニングします。

推薦する

カーネルCF: 推薦システムのための最適リコール戦略

ビジネス上の問題を機械学習の問題に変換するにはどうすればよいでしょうか?

アリババがコアテクノロジーを公開：推論性能が2位より5倍速く、4つの世界選手権で優勝した方法

ChatGPTでPPTを書く別の方法

データ処理を簡単にしますか? Baidu EasyDataが初の高度なインテリジェントデータクリーニング機能をリリース

「編集神ヴィム」の父が死去。ネットユーザー「彼は多くの人の人生を変えた」

ボストンダイナミクスが CES で楽しいひとときを過ごし、ロボット犬の Spot がメタバースに登場します。

Apple、Googleなど大企業のAI面接の質問を入手しました。あなたは挑戦してみますか？

パンデミック中の人工知能技術の5つの主要な応用

星が輝くとき - WOT グローバルテクノロジーイノベーションカンファレンス 2021 が間もなく開催されます

フランシス・バーガーは分析をよりスマートにし、難しくしない

大型モデルの欠点を補うことに特化したRAGでは、どのような新たな進歩があったのでしょうか？このレビューでは明らかに

もうひとつ：なぜ消費者向けロボット企業は失敗しているのか？