[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術は数分であなたを「スター」に変身させる」では、年齢とともに顔の特徴が変化することに言及し、AIFR 技術の 2 つの主要モデルである生成と識別に関する技術的な分析を行いました。 (a) 入力画像 (b) 顔の変形 (c) 顔の変形 (d) 一致した有名人の画像 「あなたはどの有名人に一番似ていますか?」比較写真 今日は、技術専門家が提供したフローチャートから始めて、この小さなアプリケーション「あなたはどの有名人に最も似ていますか?」の比較写真の背後にある基本的なプロセスとアルゴリズムを分析します。 図1: 顔認識技術の基本プロセス 図 1 に示すように、ユーザーはアプリケーションに画像 (たとえば、トランプ氏の画像) を入力し、顔認識の基本的なプロセスは次のようになります。
その中で、顔の特徴の用途は、特徴比較と特徴検索の2種類に分けられます。
以下は、上記の手順に関係するアルゴリズムと適用されたテクノロジーの簡単な紹介です。 顔検出技術 2000年頃、アメリカの科学者ポール・ヴィオラとマイケル・J・ジョーンズは、リアルタイムで実行できる顔検出方法、すなわちアダブーストベースの顔検出方法を提案しました。 この方法は、高速に計算された Harr 特徴を使用し、Adaboost アルゴリズムを通じて有効な特徴と一連の弱い分類器 (弱い学習器) を選択し、最終的に線形結合方式で最終的な強い分類器を取得することで、検出速度と精度を向上させます。 OpenCV には、対応するトレーニング アルゴリズムと呼び出すことができるモデルがあります。 これに基づいて、PixelDifference (PD) 特徴に基づく検出方法など、さまざまな改良方法が提案されています。ピクセル間のグレースケールの違いを特徴として使用し、検出速度をさらに向上させます。 さらに、PD 機能が正規化され、照明に対する堅牢性を向上させるために、ピクセル差の正規化 (NPD) 機能が提案されています。これらの方法は計算リソースの消費が少なく、モデルがシンプルなので、モバイル デバイスでの使用に適しています。 顔検出の分野では、約 20 年にわたる研究を通じて豊富な研究成果が得られ、さまざまな場面で応用されてきました。近年、ディープラーニングはますます強力になり、顔検出技術は新たな高みに到達しました。 たとえば、FasterR-CNN に基づく顔検出方法は、FDDB テスト セットで優れた検出結果を達成しました。図 2 は、この方法を使用した顔検出のサンプル画像を示しています。 図2: 顔検出の例 上の写真の緑色のボックスは手動でマークした位置で、赤色のボックスはアルゴリズムによって出力された検出結果です。 顔のキーポイント位置決め技術 顔のキーポイントの位置特定は、顔検出に基づいて、顔の特徴点(目、眉毛、鼻、口、顔の輪郭)の位置をさらに特定することを目的としています。 アプリケーションに応じて、顔のキーポイントの数は数個から数百個まで異なって定義されます。この技術の核心は、顔の重要なポイントの位置をいかに正確に計算するかです。一般的に、3 種類のアルゴリズムが関係しています。
この方法は検出速度が速く、位置決め効果も良好です。オープンソースの dlib ライブラリ (http://dlib.net/) には、このアルゴリズムの完全な実装が含まれています。
図 3 に示すように、キーポイントの配置の例画像がいくつかあります。 図3: 顔のキーポイントの配置例 顔の特徴抽出技術 有名な特徴抽出アルゴリズム SIFT (スケール不変特徴変換) や HoG (方向勾配ヒストグラム) など、従来の特徴記述方法のほとんどは、顔の特徴抽出技術に適用できます。 これらのアルゴリズムは強力な特徴抽出機能を備えていますが、手動での特徴選択は非常に手間のかかるヒューリスティックな(専門知識を必要とする)方法であり、調整には多くの時間がかかります。 ビッグデータの時代では、膨大な量の画像データを入手し、ディープラーニング手法を使用してより効率的な顔の特徴を得ることができます。現在、ディープラーニングは特徴抽出の主流の方法となっており、顔認識の分野で大きな成果を上げています。 顔認識のその後の応用 特徴抽出後、顔画像情報は 4096 次元浮動小数点ディープラーニング特徴ベクトルなどの高次元特徴ベクトルに変換されます。後続のアプリケーションでは、顔の ID 認識、顔画像の検索、顔による支払いなど、実際のシナリオに基づいてさまざまな分野を探索できます。 顔認識技術は、金融、社会保障、教育、セキュリティ業界など、より関心の高い場面で使用されるだけでなく、ライブ美化やビデオ特殊効果など、他のリラックスや娯楽の業界にも応用できます。
図4: ビデオ効果 このようなアプリケーションに関係する基盤技術のほとんど(顔検出やキーポイント追跡)は、携帯電話でリアルタイムに実行する必要があり、携帯電話でリアルタイム処理を実現するために、非常に高い実行速度を維持しながら精度を確保するという技術的な課題が生じます。 現在採用されているソリューションのほとんどは、アルゴリズムの最適化とモデルの最適化という工学的手段を通じて、アルゴリズムを携帯電話に移植するものです。たとえば、Adaboost に基づく顔検出アルゴリズムと ERT に基づくキーポイント検出アルゴリズムを組み合わせ、それぞれサンプルトレーニングを通じて小規模モデルを取得し、携帯電話での実行に適したものにします。 顔認識技術は、これらのさまざまなアプリケーションを通じて、人々の生活に利便性をもたらすだけでなく、生活に楽しさも加えます。インターネット時代において、顔認識技術は多くの場面で応用されており、データのセキュリティと技術の合理的な使用をどのように確保するかは無視できないテーマです。安全かつ合理的に使用することでのみ、顔認識技術の役割を十分に発揮し、人々の生活に利益をもたらすことができます。
張 紅明 Mogujie のシニア テクニカル エキスパート 張紅明(ニックネーム:ミンダ)は2015年にMogujieに入社し、Meili United Groupの画像技術の研究開発を担当しています。アルゴリズムチームを結成して率い、エンジニアリングチームやビジネスチームと協力して、グループに画像技術サポートを提供しています。主な業務は、画像検索、画像認識、商品画像コンテンツ分析などです。事業内容は、電子商取引のショッピングガイド、ライブ放送などのシナリオです。 Mogujieに入社する前は、NEC中国研究所とアリババグループに勤務し、画像技術と機械学習の研究と応用に従事していました。 参考文献 [1] Viola.Paul、MichaelJ.Jones「堅牢なリアルタイム顔検出」International journal ofcomputer vision 57.2 (2004): 137-154。 [2] オープンCV [3]Markuš N、Frljak M、Pandžić IS、et al.決定木で整理されたピクセル強度比較による物体検出[J]。arXiv:1305.4537、2013。 [4]Liao S、Jain AK、Li S Z. 高速かつ正確な制約のない顔検出器[J]。IEEEパターン分析および機械知能に関する取引、2016、38(2):211-223。 [5] Huaizu Jiang、Erik Learned-Miller。より高速なR-CNNによる顔検出。arXiv:1606.03473、2016 [6] http://personalpages.manchester.ac.uk/staff/timothy.f.cootes/ [7] http://www.milbo.users.sonic.net/stasm/index.html [8]Kazemi V、Sullivan J. 回帰木の集合による1ミリ秒の顔の位置合わせ。IEEEコンピュータビジョンとパターン認識会議の議事録。2014:1867-1874 [9] http://dlib.net [10] Y. Sun、X. Wang、X. Tang。顔のポイント検出のためのディープ畳み込みネットワークカスケード。IEEEコンピュータビジョンとパターン認識会議(CVPR)の議事録、2013年 [11]Taigman, Y., Yang, M., Ranzato, MA,& Wolf, L. (2014年6月)。Deepface: 顔認証における人間レベルのパフォーマンスとのギャップを埋める。Computer Vision and Pattern Recognition(CVPR)、2014 IEEE Conference on (pp. 1701-1708)。 [12] W. Ouyang、X. Wang、X. Zeng、S. Qiu、P. Luo、Y. Tian、H. Li、S. Yang、Z. Wang、CC Loy、およびX. Tang、「DeepID-Net:物体検出のための変形可能な深層畳み込みニューラルネットワーク」、IEEE Conf. on Computer Vision and Pattern Recognition、2015年6月 [13] フロリアン・シュロフ、ドミトリー・カレニチェンコ、ジェームズ・フィルビン、「FaceNet: 顔認識とクラスタリングのための統合埋め込み」、2015 IEEE コンピュータビジョンとパターン認識会議 (CVPR)、第 00 巻、第 、pp. 815-823、2015 年 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: TensorFlow を使用してシンプルなロジスティック回帰モデルをゼロから構築する
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
小売業の経営者は、長期的な顧客関係の構築を妨げる在庫管理の問題に直面することがよくあります。小売在庫...
過去 2 年間で、人工知能とディープラーニングは起業の分野で人気が高まってきました。シリコンバレーの...
最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合でき...
これらの技術の応用により、長期的にはドローンが開発され、橋梁点検の分野で応用されるでしょう。では、橋...
数え切れないほど多くの企業が、意思決定を支援するために機械学習 (ML) を日常的に使用しています。...
AI は、その潜在的パワーにもかかわらず、ビジネスを前進させるイノベーションの創出や推進において補助...
個人によって生成されるデータの量と種類が増加し続けるにつれて、警察はそれに追いつくために効果的な自動...
今週の水曜日、OpenAI は ChatGPT のマルチモーダル機能のリリースを発表しました。さて、...
2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...