顔認識技術は、Google、Facebook、Alibaba、Tencent、Baiduなどの国内外のインターネット大手から多額の研究開発投資を集めただけでなく、Face++、SenseTime、Linkface、CloudWalk、Yituなどの多くのスタースタートアップを生み出し、ビデオ監視、犯罪捜査、インターネット金融ID検証、セルフサービス通関システムなどにおいて多くの成功した応用事例を生み出しました。本稿では、顔認識技術の発展を整理し、関連分野における著者の実践に基づいていくつかの実用的なソリューション設計を提供します。興味のある読者の皆さんのお役に立てれば幸いです。 概要 一般的に言えば、あらゆる機械学習の問題は、適切な変換関数を見つける問題と同等です。例えば、音声認識は、入力された1次元の時系列音声信号を意味空間に変換する適切な変換関数を見つけることであり、最近注目を集めている囲碁人工知能AlphaGoは、入力された2次元のレイアウト画像を決定空間に変換して、次のステップの最適な動きを決定します。同様に、顔認識も、入力された2次元の顔画像を特徴空間に変換する適切な変換関数を見つけることであり、それによって対応する人物のアイデンティティを一意に決定します。 人々はずっと、囲碁は顔認識よりはるかに難しいと信じてきました。そのため、AlphaGoが絶対的な優位性で世界チャンピオンのイ・セドルと柯潔を楽々と破ったとき、人々は人工知能の力にさらに驚きました。実は、この結論は「常識」に基づく誤解に過ぎません。なぜなら、ほとんどの人の個人的な経験からすると、厳しい訓練を積んだ後でも、囲碁の世界チャンピオンに勝つ可能性は非常に低いからです。逆に、大多数の普通の人は、厳しい訓練を積まなくても、顔認識のタスクを簡単に完了することができます。しかし、両者の難しさについてもう少し詳しく見てみましょう。コンピューターの「目」では、囲碁盤は単なる19x19の行列です。行列の各要素の可能な値は、それぞれ石なし、白石、黒石を表す3つの{0,1,2}から来ます。したがって、入力ベクトルの可能な値は3361です。顔認識の場合、512x512の入力画像を例にとると、コンピューターの「目」では512x512x3次元の行列です。行列の各要素の可能な値の範囲は0〜255です。したがって、入力ベクトルの可能な値は256786432です。囲碁 AI と顔認識はどちらも適切な変換関数 f を探していますが、後者の入力空間の複雑さは明らかに前者よりもはるかに大きくなります。 理想的な変換関数 f の場合、最良の分類効果を達成するために、変換された特徴空間において、同じクラスのサンプルのクラス内差が可能な限り小さく、異なるクラスのサンプルのクラス間差が可能な限り大きくなることが期待されます。しかし、理想は満ち溢れているが、現実は乏しい。照明、表情、遮蔽、姿勢など、多くの要因の影響により(図 1 を参照)、異なる人々間の違いは、図 2 に示すように、同じ人々間の違いよりも小さくなることがよくあります。顔認識アルゴリズムの開発の歴史は、これらの認識に影響を与える要因との闘いの歴史でもあります。 図1 顔認識に影響を与える要因 図2 姿勢は、同じ人よりも異なる人を似せる 顔認識技術の開発 認知科学者は1950年代初頭から顔認識の研究を始めました。 1960 年代に、顔認識の工学的応用に関する研究が正式に始まりました。当時の方法は主に人間の顔の幾何学的構造を利用し、顔の器官の特徴点とそれらの間の位相関係を分析することで顔を特定していました。この方法はシンプルで直感的ですが、顔の姿勢や表情が変わると精度が大幅に低下します。 1991年に有名な「固有顔」法[1]が初めて主成分分析と統計的特徴技術を顔認識に導入し、実用効果が大きく進歩しました。このアイデアはその後の研究でさらに発展しました。例えば、ベルフマーはフィッシャー判別基準を顔の分類に適用することに成功し、線形判別分析に基づくフィッシャーフェイス法を提案しました[2]。 21 世紀の最初の 10 年間、機械学習理論の発展に伴い、学者たちは遺伝的アルゴリズム、サポート ベクター マシン (SVM)、ブースティング、多様体学習、カーネル法に基づく顔認識を次々と研究してきました。 2009年から2012年にかけて、スパース表現[3]はその優れた理論と遮蔽要因に対する堅牢性により、注目の研究トピックとなりました。 同時に、業界では基本的に、慎重に設計されたローカル記述子に基づく特徴抽出とサブスペース法に基づく特徴選択によって、最良の認識結果を達成できるというコンセンサスに達しています。ガボール[4]とLBP[5]の特徴記述子は、現在までに顔認識の分野で人工的に設計された最も成功した2つの局所記述子です。この期間中、顔照明の正規化、顔姿勢の補正、顔の超解像、オクルージョン処理など、顔認識に影響を与えるさまざまな要素を対象とした処理も、その段階での研究のホットスポットでした。研究者が、制限されたシナリオでの顔認識から制限のない環境での顔認識へと焦点を移し始めたのもこの段階でした。このような状況の中で、LFW顔認識公開コンテストが人気を博しました。当時、最高の認識システムは、制限されたFRGCテストセットで99%以上の認識精度を達成できましたが、LFWでの最高精度はわずか80%程度で、実用にはほど遠いと思われていました。 2013年に、MSRAの研究者は初めて10万語の大規模なトレーニングデータセットの使用を試み、高次元LBP特徴とジョイントベイズ法に基づくLFWで95.17%の精度を達成しました[6]。この結果は、制限のない環境での顔認識を効果的に改善するには、大規模なトレーニング データセットが重要であることを示しています。しかし、上記の従来の方法はすべて、大規模なデータセットを使用したトレーニング シナリオを処理するのが困難です。 2014年頃から、ビッグデータやディープラーニングの発展に伴い、ニューラルネットワークが再び注目を集め、画像分類、手書き認識、音声認識などのアプリケーションにおいて、従来の手法をはるかに上回る成果を達成しました。香港中文大学の孫毅らは、畳み込みニューラルネットワークを顔認識に適用することを提案した[7]。20万のトレーニングデータポイントを使用して、LFWで初めて人間のレベルを超える認識精度を達成し、顔認識開発の歴史における画期的な出来事となった。それ以来、研究者たちはネットワーク構造を継続的に改善し、トレーニングサンプルのサイズを拡大し、LFW の認識精度を 99.5% 以上に引き上げました。表 1 に示すように、顔認識の開発におけるいくつかの古典的な方法と、LFW でのそれらの精度を示します。基本的な傾向として、トレーニング データの規模はますます大きくなり、認識精度はますます高くなっています。顔認識の開発の歴史についてさらに詳しく知りたい読者は、参考文献[8][9]を参照してください。 表1 従来の顔認識方法とLFWにおける精度の比較 技術的ソリューション 実際のアプリケーションで高精度の顔認識を実現するには、照明、姿勢、遮蔽などの顔認識の困難な要因に対処するためのターゲットを絞った設計を実行する必要があります。たとえば、照明と姿勢の要因に関しては、トレーニング サンプルを収集するときに各個人が十分な照明と姿勢の変化をカバーするように努めるか、照明と姿勢によって引き起こされる顔の ID 情報の変化を補正するための効果的な前処理方法を設計します。図3は著者の関連分野における研究成果の一部を示している[10][11]。 表2 比較的正常な顔認識トレーニングセット 表 2 は、この論文で使用したトレーニング データ セットを示しています。最初の 3 つは最も一般的な公開トレーニング データ セットであり、最後の 1 つは非公開のビジネス データ セットです。表 3 には、パフォーマンス検証のための 2 つのデータ セットとテスト プロトコルが示されています。このうち、LFW は現在最も主流の無制限の顔認識公開コンテストです。ほとんどのトレーニング セットには大きなノイズがあり、対応するクリーニング操作を行わないとトレーニングが収束することが難しいことがわかりました。この論文では、表 4 に示すように、高速で信頼性の高いデータクリーニング方法を紹介します。 表3 本論文で使用したテストセット 表4 高速かつ信頼性の高いトレーニングデータクリーニング方法 図 4 は、主にマルチパッチ分割、CNN 特徴抽出、マルチタスク学習/マルチロス融合、特徴融合モジュールを含む、効果的な顔認識技術ソリューションのセットを示しています。 図4 顔認識技術ソリューション
表5 データクリーニング前後の認識モデルのパフォーマンスの比較 表 5 は、トレーニング データのクリーニング前後のテスト セットのパフォーマンス比較結果を示しています。これに基づいて、次のような結論を導き出すことができます。
このことから、実用的な認識性能を最大限に発揮させるためには、使用環境と同じ学習データをできるだけ使用して学習を行う必要があることがわかります。同じ結論が論文[12]にも記載されている。 実際、完全な顔認識実用システムには、上記の認識アルゴリズムに加えて、顔検出、顔のキーポイントの位置決め、顔の位置合わせなどのモジュールが含まれている必要があります。セキュリティ要件が高い一部のアプリケーションでは、写真、ビデオ再生、3Dプリントモデルなどによる認識システムへの偽造攻撃を防ぐために、生体検出モジュールを導入する必要もあります。ビデオ入力で最高の認識効果を得るためには、画像品質評価モジュールを導入して認識に最も適切なビデオフレームを選択し、照明の不均一、姿勢の大きい、解像度の低い、モーションブラーなどの要因が認識に与える影響をできるだけ排除する必要があります。さらに、多くの研究者や企業は、赤外線/3Dカメラを導入するなどして、これらの要因の影響を積極的に回避しようとしてきました。典型的な実用的な顔認識ソリューションを図 5 に示します。 図5 実用的な顔認識ソリューションのフローチャート 要約する この記事では、顔認識技術の開発の歴史を簡単にまとめ、実用的なソリューションの設計のための参考資料を提供します。顔認識技術は、LFW 公開コンテストで 99% を超える精度を達成しましたが、特に N が非常に大きい場合、ビデオ監視などの実際のシナリオで 1:N の認識距離が本当に実用的になるまでには、まだ道のりが残っています。今後は、大規模な顔認識をできるだけ早く実用化するために、トレーニングデータの拡張、新しいモデルの設計、メトリック学習にさらに力を注ぐ必要があります。 |
<<: 4 大検索大手は人工知能に夢中です。最も有望なのはどれだと思いますか?
>>: 眼球認識技術が魔法を発揮し、一目であなたを認識します
[[191038]]ブランドン・エイモス編集:モリー・ハン・シャオヤン目次1. はじめに2. ステ...
[[120276]]ハッシュアルゴリズムのヒルベルト曲線図 (Ian Boyd 提供) Google...
近年、コア技術の継続的な進歩と市場需要の継続的な解放により、ドローン産業は急速に発展しています。アプ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[278770]]地図:李暁軍● 学校での顔認識の導入は、データセキュリティと個人のプライバシーの...
今日、偶然Embedchainというウェアハウスを見つけ、とても便利だと思ったので、皆さんとシェアし...
[[378901]]米政府の委員会は報告書草案の中で、米国は人工知能(AI)を搭載した自律型兵器の...
この時代において、AIは科学技術の将来の発展の重要な支点となり、AIチップは産業の発展を牽引する新た...
「文明化された AI」への期待が高まるにつれ、コンサルタントは公平で偏見のないアルゴリズムを作成する...
1990年代初頭、中国の著名な学者である周海中氏は、人工知能技術がさまざまな分野で広く使用され、予想...
[[251984]]ニューラル ネットワークの仕組みを理解する最良の方法は、自分でニューラル ネッ...