顔認識技術が明らかに、未来はもうすぐ「手の届くところ」に！

[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術は数分であなたを「スター」に変身させる」では、年齢とともに顔の特徴が変化することに言及し、AIFR 技術の 2 つの主要モデルである生成と識別に関する技術的な分析を行いました。

(a) 入力画像 (b) 顔の変形 (c) 顔の変形 (d) 一致した有名人の画像

「あなたはどの有名人に一番似ていますか？」比較写真

今日は、技術専門家が提供したフローチャートから始めて、この小さなアプリケーション「あなたはどの有名人に最も似ていますか？」の比較写真の背後にある基本的なプロセスとアルゴリズムを分析します。

図1: 顔認識技術の基本プロセス

図 1 に示すように、ユーザーはアプリケーションに画像 (たとえば、トランプ氏の画像) を入力し、顔認識の基本的なプロセスは次のようになります。

顔検出技術により、入力画像内の顔の位置を見つけます。
キーポイントポジショニングテクノロジーは、目、鼻、口、輪郭上のキーポイントなど、顔のキーポイントを見つけます。
顔特徴抽出ステップでは、顔の位置が補正され、特徴抽出法によって顔を記述する特徴ベクトルが計算されます。
入力画像（a）については、対応する特徴ベクトルAを計算することができ、同時に、適用された有名人の顔ライブラリについては、顔特徴ライブラリDBとして保存することができる。
AとDB内の各ベクトルとの類似度を一つずつ計算し、類似度に応じて結果をソートすることで、画像(d)の有名人のように最も類似した有名人の顔を見つけることができます。
画像変形例（b）と（c）は、コンピュータグラフィックス手法を使用した顔のテクスチャ変換の結果です。

その中で、顔の特徴の用途は、特徴比較と特徴検索の2種類に分けられます。

特徴マッチング:事前に保存された顔の特徴データベースとの類似度によって特徴ベクトルをソートし、入力画像との類似度が最も高い結果を返します。これは通常、本人認識の結果です。
特徴検索:アプリケーションの顔データベース内の入力画像に類似した結果を返します。

以下は、上記の手順に関係するアルゴリズムと適用されたテクノロジーの簡単な紹介です。

顔検出技術

2000年頃、アメリカの科学者ポール・ヴィオラとマイケル・J・ジョーンズは、リアルタイムで実行できる顔検出方法、すなわちアダブーストベースの顔検出方法を提案しました。

この方法は、高速に計算された Harr 特徴を使用し、Adaboost アルゴリズムを通じて有効な特徴と一連の弱い分類器 (弱い学習器) を選択し、最終的に線形結合方式で最終的な強い分類器を取得することで、検出速度と精度を向上させます。 OpenCV には、対応するトレーニングアルゴリズムと呼び出すことができるモデルがあります。

これに基づいて、PixelDifference (PD) 特徴に基づく検出方法など、さまざまな改良方法が提案されています。ピクセル間のグレースケールの違いを特徴として使用し、検出速度をさらに向上させます。

さらに、PD 機能が正規化され、照明に対する堅牢性を向上させるために、ピクセル差の正規化 (NPD) 機能が提案されています。これらの方法は計算リソースの消費が少なく、モデルがシンプルなので、モバイルデバイスでの使用に適しています。

顔検出の分野では、約 20 年にわたる研究を通じて豊富な研究成果が得られ、さまざまな場面で応用されてきました。近年、ディープラーニングはますます強力になり、顔検出技術は新たな高みに到達しました。

たとえば、FasterR-CNN に基づく顔検出方法は、FDDB テストセットで優れた検出結果を達成しました。図 2 は、この方法を使用した顔検出のサンプル画像を示しています。

図2: 顔検出の例

上の写真の緑色のボックスは手動でマークした位置で、赤色のボックスはアルゴリズムによって出力された検出結果です。

顔のキーポイント位置決め技術

顔のキーポイントの位置特定は、顔検出に基づいて、顔の特徴点（目、眉毛、鼻、口、顔の輪郭）の位置をさらに特定することを目的としています。

アプリケーションに応じて、顔のキーポイントの数は数個から数百個まで異なって定義されます。この技術の核心は、顔の重要なポイントの位置をいかに正確に計算するかです。一般的に、3 種類のアルゴリズムが関係しています。

ASM/AAM クラシックアルゴリズム。これはイギリスの科学者 Tim Cootes によって提案されました。基本的な考え方は、顔のテクスチャ特徴と各特徴点間の位置を制限することです。その中で、Stam オープンソースパッケージは ASM の実装であり、実際に使用できます。
ブースティングツリーに基づくアルゴリズム。たとえば、Ensemble of RegressionTress (ERT) アルゴリズムに基づく顔のキーポイント検出方法は、各キーポイントのローカル特徴を学習し、特徴を組み合わせて線形回帰を使用してキーポイントを検出します。

この方法は検出速度が速く、位置決め効果も良好です。オープンソースの dlib ライブラリ (http://dlib.net/) には、このアルゴリズムの完全な実装が含まれています。

ディープラーニングに基づいたアルゴリズム。例えば、香港中文大学のTang Xiaoou教授の研究グループは、CNNのカスケード構造を提案し、キーポイントの位置決めにおいて良好な結果を達成しました。

図 3 に示すように、キーポイントの配置の例画像がいくつかあります。

図3: 顔のキーポイントの配置例

顔の特徴抽出技術

有名な特徴抽出アルゴリズム SIFT (スケール不変特徴変換) や HoG (方向勾配ヒストグラム) など、従来の特徴記述方法のほとんどは、顔の特徴抽出技術に適用できます。

これらのアルゴリズムは強力な特徴抽出機能を備えていますが、手動での特徴選択は非常に手間のかかるヒューリスティックな（専門知識を必要とする）方法であり、調整には多くの時間がかかります。

ビッグデータの時代では、膨大な量の画像データを入手し、ディープラーニング手法を使用してより効率的な顔の特徴を得ることができます。現在、ディープラーニングは特徴抽出の主流の方法となっており、顔認識の分野で大きな成果を上げています。

顔認識のその後の応用

特徴抽出後、顔画像情報は 4096 次元浮動小数点ディープラーニング特徴ベクトルなどの高次元特徴ベクトルに変換されます。後続のアプリケーションでは、顔の ID 認識、顔画像の検索、顔による支払いなど、実際のシナリオに基づいてさまざまな分野を探索できます。

顔認識技術は、金融、社会保障、教育、セキュリティ業界など、より関心の高い場面で使用されるだけでなく、ライブ美化やビデオ特殊効果など、他のリラックスや娯楽の業界にも応用できます。

ライブ放送の美化：現在のライブ放送プラットフォームはすべて、司会者のイメージをより輝かせるための顔美化機能を提供しています。
ビデオ特殊効果: 携帯電話でカラフルな特殊効果ビデオを撮影し、友人の輪の中で共有するのは楽しいことです。

図4: ビデオ効果

このようなアプリケーションに関係する基盤技術のほとんど（顔検出やキーポイント追跡）は、携帯電話でリアルタイムに実行する必要があり、携帯電話でリアルタイム処理を実現するために、非常に高い実行速度を維持しながら精度を確保するという技術的な課題が生じます。

現在採用されているソリューションのほとんどは、アルゴリズムの最適化とモデルの最適化という工学的手段を通じて、アルゴリズムを携帯電話に移植するものです。たとえば、Adaboost に基づく顔検出アルゴリズムと ERT に基づくキーポイント検出アルゴリズムを組み合わせ、それぞれサンプルトレーニングを通じて小規模モデルを取得し、携帯電話での実行に適したものにします。

顔認識技術は、これらのさまざまなアプリケーションを通じて、人々の生活に利便性をもたらすだけでなく、生活に楽しさも加えます。インターネット時代において、顔認識技術は多くの場面で応用されており、データのセキュリティと技術の合理的な使用をどのように確保するかは無視できないテーマです。安全かつ合理的に使用することでのみ、顔認識技術の役割を十分に発揮し、人々の生活に利益をもたらすことができます。

[[195296]]

張紅明

Mogujie のシニアテクニカルエキスパート

張紅明（ニックネーム：ミンダ）は2015年にMogujieに入社し、Meili United Groupの画像技術の研究開発を担当しています。アルゴリズムチームを結成して率い、エンジニアリングチームやビジネスチームと協力して、グループに画像技術サポートを提供しています。主な業務は、画像検索、画像認識、商品画像コンテンツ分析などです。事業内容は、電子商取引のショッピングガイド、ライブ放送などのシナリオです。 Mogujieに入社する前は、NEC中国研究所とアリババグループに勤務し、画像技術と機械学習の研究と応用に従事していました。

参考文献

[1] Viola.Paul、MichaelJ.Jones「堅牢なリアルタイム顔検出」International journal ofcomputer vision 57.2 (2004): 137-154。

[2] オープンCV

[3]Markuš N、Frljak M、Pandžić IS、et al.決定木で整理されたピクセル強度比較による物体検出[J]。arXiv:1305.4537、2013。

[4]Liao S、Jain AK、Li S Z. 高速かつ正確な制約のない顔検出器[J]。IEEEパターン分析および機械知能に関する取引、2016、38(2):211-223。

[5] Huaizu Jiang、Erik Learned-Miller。より高速なR-CNNによる顔検出。arXiv:1606.03473、2016

[6] http://personalpages.manchester.ac.uk/staff/timothy.f.cootes/

[7] http://www.milbo.users.sonic.net/stasm/index.html

[8]Kazemi V、Sullivan J. 回帰木の集合による1ミリ秒の顔の位置合わせ。IEEEコンピュータビジョンとパターン認識会議の議事録。2014：1867-1874

[9] http://dlib.net

[10] Y. Sun、X. Wang、X. Tang。顔のポイント検出のためのディープ畳み込みネットワークカスケード。IEEEコンピュータビジョンとパターン認識会議（CVPR）の議事録、2013年

[11]Taigman, Y., Yang, M., Ranzato, MA,& Wolf, L. (2014年6月)。Deepface: 顔認証における人間レベルのパフォーマンスとのギャップを埋める。Computer Vision and Pattern Recognition(CVPR)、2014 IEEE Conference on (pp. 1701-1708)。

[12] W. Ouyang、X. Wang、X. Zeng、S. Qiu、P. Luo、Y. Tian、H. Li、S. Yang、Z. Wang、CC Loy、およびX. Tang、「DeepID-Net：物体検出のための変形可能な深層畳み込みニューラルネットワーク」、IEEE Conf. on Computer Vision and Pattern Recognition、2015年6月

[13] フロリアン・シュロフ、ドミトリー・カレニチェンコ、ジェームズ・フィルビン、「FaceNet: 顔認識とクラスタリングのための統合埋め込み」、2015 IEEE コンピュータビジョンとパターン認識会議 (CVPR)、第 00 巻、第、pp. 815-823、2015 年

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: TensorFlow を使用してシンプルなロジスティック回帰モデルをゼロから構築する

>>: アルゴリズムの原理から推奨戦略まで