顔認証は必見！顔のなりすまし防止、クロスポーズ認識などを実現する方法を学ぶための 5 つの論文 (リンク付き)

[[281197]]

[はじめに] 顔認識はコンピュータビジョンにおける最大の研究分野の一つです。多くの企業が顔認識技術の研究開発に投資しています。

顔認識は、コンピュータービジョンにおける最大の研究分野の 1 つです。顔認識機能を使って、携帯電話のロックを解除したり、セキュリティドアで本人確認を行ったり、一部の国で支払いを行ったりできるようになりました。多くの企業が顔認識技術の研究開発に投資しています。この記事では、その研究の一部を紹介し、顔認識に関する機械学習の論文を 5 つ紹介します。

1. 大規模マルチモーダル顔偽装防止データセットとベンチマーク

顔認識技術は、数多くの実用的なアプリケーションにより、ますます重要になっています。スマートフォンのロック解除から顔認証による支払い方法まで、顔認識はさまざまな方法でセキュリティと監視を向上させることができます。

しかし、この技術にはいくつかのリスクも伴います。これらのシステムを騙すために使用できる顔のなりすましの方法は数多くあります。したがって、顔のなりすまし防止はセキュリティ侵害を防ぐために非常に重要です。

顔のなりすまし防止研究をサポートするために、この論文の著者らは、CASIASURF と呼ばれるマルチモーダル顔のなりすまし防止データセットを紹介しています。本稿執筆時点では、顔のなりすまし防止のための最大のオープンデータセットです。

具体的には、データセットには、RGB、深度、IR モダリティで 1,000 人の被験者から撮影された 21,000 本のビデオが含まれています。著者らは、データセットに加えて、顔のなりすまし防止のベースラインとして、新しいマルチモーダル融合モデルも提案しました。

公開/最終更新日 – 2019年4月1日

著者および寄稿者 – Shifeng Zhang (NLPR、CASIA、UCAS、中国)、Xiaobo Wang (JD AI Research)、Ajian Liu (MUST、マカオ、中国)、Chenxu Zhao (JD AI Research)、Jun Wan (NLPR、CASIA、UCAS、中国)、Sergio Escalera (バルセロナ大学)、Hailin Shi (JD AI Research)、Zezheng Wang (JD Finance)、Stan Z. Li (NLPR、CASIA、UCAS、中国)。

出典: http://arxiv.org/pdf/1812.00408v3.pdf

2. FaceNet: 顔認識とクラスタリングのための統合埋め込み

この論文では、著者らは FaceNet と呼ばれる顔認識システムを提案しました。

このシステムは、中間ボトルネック層を使用する代わりに、深層畳み込みニューラルネットワークを使用して埋め込みを最適化します。著者らは、彼らのアプローチの最も重要な側面はシステムのエンドツーエンドの学習であると指摘しています。

研究チームは、CPU クラスター上で 1,000 ～ 2,000 時間かけて畳み込みニューラルネットワークをトレーニングしました。次に、4 つのデータセットでその方法を評価しました。

特に、FaceNet は、よく知られている Labeled Faces in the Wild (LFW) データセットで 99.63% の精度を達成し、Youtube Faces データベースでは 95.12% の精度を達成しています。

公開/最終更新日 – 2015年6月17日

著者および寄稿者 – Google Inc. の Florian Schroff、Dmitry Kalenichenko、James Philbin

出典: http://arxiv.org/pdf/1503.03832v3.pdf

3. 確率的顔埋め込み

現在の顔認識の埋め込み方法は、制御された設定で高いパフォーマンスを実現できます。これらの方法は、顔の画像を撮影し、その顔に関するデータを潜在的な意味空間に保存することによって機能します。

しかし、現在のアプローチは、完全に制御されていない環境でテストすると、うまく機能しません。これは、画像に顔の特徴が欠けていたり、状況があいまいだったりすることが原因です。このような状況の一例としては、ビデオの品質が低い可能性がある監視ビデオでの顔認識が挙げられます。

この問題を解決するために、この論文の著者らは確率的顔埋め込み (PFE) を提案しました。著者らは、既存の決定論的埋め込みを PFE に変換する方法を提案しています。最も重要なことは、このアプローチにより顔認識モデルのパフォーマンスが効果的に向上することを著者らは指摘している点です。

リリース/最新アップデート – 2019 年 8 月 7 日

著者および寄稿者 – ミシガン州立大学の Yichun Shi 氏と Anil K. Jain 氏。

出典: http://arxiv.org/pdf/1904.09658.pdf

4. 顔認識の悪魔はノイズの中にいる

SenseTime、カリフォルニア大学サンディエゴ校、南洋理工大学の研究者らは、大規模な顔画像データセットにおけるノイズの影響を研究した。

多くの大規模データセットは、そのサイズとコスト効率のせいで、ラベルノイズが発生しやすくなります。この論文は、ラベルノイズの原因と顔認識モデルにおけるその結果についての知識を提供することを目的としています。さらに、彼らは IMDb-Face と呼ばれるクリーンな顔認識データセットを構築してリリースすることを目指しています。

この研究の 2 つの主な目的は、ノイズが最終的なパフォーマンスに与える影響を発見し、顔のアイデンティティに注釈を付ける戦略を決定することです。これを実現するために、チームは、公開されている顔画像の 2 つの一般的なデータセット、MegaFace と MS-Celeb-1M を手動でクリーンアップしました。実験では、クリーンアップされた MegaFace データセットの 32% と MS-Celeb-1M クリーンアップされたデータセットの 20% のみでトレーニングされたモデルが、クリーンアップされていない元のデータセット全体でトレーニングされたモデルと同様のパフォーマンスを達成したことが示されました。

リリース/最新アップデート – 2018 年 7 月 31 日

著者および寄稿者 – Fei Wang (SenseTime)、Liren Chen (カリフォルニア大学サンディエゴ校)、Cheng Li (SenseTime)、Shiyao Huang (SenseTime)、Yanjie Chen (SenseTime)、Chen Qian (SenseTime)、Chen Change Loy (南洋理工大学)。

出典: arxiv.org

5. VGGFace2: ポーズや年齢を問わず顔を認識するためのデータセット

深層畳み込みニューラルネットワークを使用した顔認識に関する研究は数多く行われています。次に、これらのモデルをトレーニングするために、多くの大規模な顔画像データセットが作成されました。しかし、論文の著者らは、これまで公開されたデータセットには顔のポーズや年齢の変化に関する広範なデータが含まれていないと指摘している。

この論文では、オックスフォード大学の研究者がVGGFace2データセットを紹介しています。データセットには、さまざまな年齢、民族、照明、ポーズのバリエーションを持つ画像が含まれています。データセットには合計 331 万枚の画像と 9,131 個のオブジェクトが含まれています。

<<: 2019年北京知源会議が北京で開幕、中国と海外の学術リーダーが人工知能研究の最前線について議論

>>: 人工知能は企業で実用化されつつある