モデルはわずか1MBで、軽量な顔検出モデルはオープンソースであり、その効果は主流のアルゴリズムに劣らない。

モデルはわずか1MBで、軽量な顔検出モデルはオープンソースであり、その効果は主流のアルゴリズムに劣らない。

[[279121]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI モデルはますます小さくなり、必要な計算能力もますます弱くなってきていますが、精度は依然として保証されています。

最新の代表例は、GitHub でオープンソース化されたばかりの中国のプロジェクト、超軽量の汎用顔検出モデルです。

プロジェクトの貢献者によると、モデル ファイルのサイズはわずか 1 MB で、計算の複雑さは 320x240 入力に対してわずか 90MFlops です。

もちろん、その効果は業界で現在主流のオープンソース顔検出アルゴリズムに劣るものではなく、むしろそれを上回っています。

超軽量で多用途

このモデルの貢献者はlinzaiで、これはエッジ コンピューティング デバイスまたは低コンピューティング デバイス (ARM 推論など) 向けに設計された、リアルタイムの超軽量ユニバーサル顔検出モデルであると紹介しました。

デフォルトの FP32 精度 (.pth) ファイル サイズは 1.1 MB で、推論フレームワークの int8 量子化サイズは約 300 KB です。

[[279122]]

目標は、ARM を使用して、低コンピューティング デバイスの一般的なシナリオでリアルタイムの顔検出推論を実行することです。同時に、これはモバイル環境 (Android および IOS)、PC 環境 (CPU および GPU) などにも当てはまります。

GitHubプロジェクトページによると、このモデルはUbuntu16.04、Ubuntu18.04、Windows 10、Python3.6、Pytorch1.2、CUDA10.0 + CUDNN7.6などの環境でテストされており、正常な動作を保証できるとのこと。

モデル設計には 2 つのバージョンがあります。1) 合理化されたバックボーンを持ち、わずかに高速なバージョン スリム、2) より高い精度のために修正された RFB モジュールを追加したバージョン RFB です。

また、320x240 と 640x480 の異なる入力解像度で wideface を使用してトレーニングされた事前トレーニング済みモデルも提供されており、さまざまなシナリオでより適切に機能します。

Linzai 氏は、プロジェクト全体に特別な演算子はなく、onnx エクスポートをサポートしているため、移植が容易になると紹介しました。

その効果は、現在主流のオープンソースアルゴリズムに劣らない

[[279123]]

このようなモデルの効果/精度は何ですか?

Linzai 氏は、モデルの精度、速度、シナリオテスト、サイズテストも GitHub プロジェクト ページで公開しました。

出場者は 2 人います。1 つは、OpenCV の中国ウェブサイトのウェブマスターである Yu Shiqi 氏が開発したオープンソースの顔検出アルゴリズムである Libfacedetection です。

もう 1 つは、業界で最も先進的なオープン ソースの顔検出アルゴリズムの 1 つである Retinaface-Mobilenet-0.25 (Mxnet) です。

Widerface データセットのテスト結果は次のとおりです。

基本的に version-slim/version-RFB で最良の結果が得られます。

Raspberry Pi 4B MNN推論テスト時間のテスト結果は次のとおりです。

対照的に、スリム版の速度は劣っていません。

地下鉄の駅、万達広場、オフィスなどのシナリオでテストが実施され、結果からRFBバージョンにも利点があることが示されました。

さらに重要なのは、新しいオープンソース モデルが軽量であることです。

ポータル

このプロジェクトの GitHub ページで、linzai は VOC 形式のトレーニング データセットとトレーニング プロセスを生成する方法、およびこのモデルをより有効に使用する方法についても共有しました。

興味があれば見てみてください〜

<<:  世界トップ10のAIトレーニングチップの包括的なレビュー

>>:  人工知能が普及せず、自動運転に支障?

推薦する

AIが物流業界に革命を起こす5つの方法

人工知能は物流業界に革命を起こす上で重要な役割を果たします。グローバル化により、あらゆるものがデジタ...

自然言語処理のためのオープンソースツールトップ12

私たちの生活に浸透しているすべてのチャットボット、音声アシスタント、予測テキスト、その他の音声/テキ...

ロボット危機:私たちの仕事はより困難に…

[[412010]]ロボット、つまり自動化と AI の総称は、私たちの周りにはどこにでもあります。...

GPT-3を超えて、DeepMindは新しいお気に入りのGatoをリリースしましたが、「スープは変えても薬は変えない」と疑問視されています

大規模な言語モデリングにヒントを得て、Deepmind は同様のアプローチを適用し、マルチモーダル、...

NumPy から直接 RNN を作成するにはどうすればいいですか?

成熟した Tensorflow および PyTorch フレームワークを使用して再帰ニューラル ネッ...

...

初心者向けガイド: 自然言語処理のためのニューラル ネットワーク

この記事を読むと、次のことがわかります。自然言語処理の分野に最も大きな影響を与えたニューラル ネット...

word2vecの作者はイリヤらとの10年間の恨みを明かした。seq2seqも私のアイデアだった

画期的な論文word2vec は、当然の NeurIPS Test of Time Award を受...

ディープラーニング入門: オートエンコーダから変分オートエンコーダまで

オートエンコーダ(AE)は、半教師あり学習や教師なし学習で使用される人工ニューラルネットワーク(AN...

高性能自動運転ドメインコントローラ設計の主要要素

[[438361]]次世代自動運転システムの設計における反復的な更新は、主に新機能の継続的な反復に反...

分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法

具体的には、この記事ではまず、分散コンピューティングの基本概念と、分散コンピューティングがディープラ...

ファーウェイ、2025年のトップ10トレンドを発表:大企業の97%がAIを導入

世界の人口の58%が5Gネットワ​​ークにアクセスできるようになり、14%の家庭に「ロボット執事」が...

...

クォンタムAIパーク、リアルタイム翻訳、Googleが革新的なAI製品を展示

[[434605]] Googleは11日、「発明家」をテーマにしたイベントを開催し、AI技術をベー...

香港大学の黄凱斌氏:6G時代のエッジインテリジェンス、シャノンとチューリングの出会い

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...