[はじめに] 顔認識はコンピュータビジョンにおける最大の研究分野の一つです。多くの企業が顔認識技術の研究開発に投資しています。 顔認識は、コンピュータービジョンにおける最大の研究分野の 1 つです。顔認識機能を使って、携帯電話のロックを解除したり、セキュリティドアで本人確認を行ったり、一部の国で支払いを行ったりできるようになりました。多くの企業が顔認識技術の研究開発に投資しています。この記事では、その研究の一部を紹介し、顔認識に関する機械学習の論文を 5 つ紹介します。 1. 大規模マルチモーダル顔偽装防止データセットとベンチマーク 顔認識技術は、数多くの実用的なアプリケーションにより、ますます重要になっています。スマートフォンのロック解除から顔認証による支払い方法まで、顔認識はさまざまな方法でセキュリティと監視を向上させることができます。 しかし、この技術にはいくつかのリスクも伴います。これらのシステムを騙すために使用できる顔のなりすましの方法は数多くあります。したがって、顔のなりすまし防止はセキュリティ侵害を防ぐために非常に重要です。 顔のなりすまし防止研究をサポートするために、この論文の著者らは、CASIASURF と呼ばれるマルチモーダル顔のなりすまし防止データセットを紹介しています。本稿執筆時点では、顔のなりすまし防止のための最大のオープンデータセットです。 具体的には、データセットには、RGB、深度、IR モダリティで 1,000 人の被験者から撮影された 21,000 本のビデオが含まれています。著者らは、データセットに加えて、顔のなりすまし防止のベースラインとして、新しいマルチモーダル融合モデルも提案しました。 公開/最終更新日 – 2019年4月1日 著者および寄稿者 – Shifeng Zhang (NLPR、CASIA、UCAS、中国)、Xiaobo Wang (JD AI Research)、Ajian Liu (MUST、マカオ、中国)、Chenxu Zhao (JD AI Research)、Jun Wan (NLPR、CASIA、UCAS、中国)、Sergio Escalera (バルセロナ大学)、Hailin Shi (JD AI Research)、Zezheng Wang (JD Finance)、Stan Z. Li (NLPR、CASIA、UCAS、中国)。 出典: http://arxiv.org/pdf/1812.00408v3.pdf 2. FaceNet: 顔認識とクラスタリングのための統合埋め込み この論文では、著者らは FaceNet と呼ばれる顔認識システムを提案しました。 このシステムは、中間ボトルネック層を使用する代わりに、深層畳み込みニューラル ネットワークを使用して埋め込みを最適化します。著者らは、彼らのアプローチの最も重要な側面はシステムのエンドツーエンドの学習であると指摘しています。 研究チームは、CPU クラスター上で 1,000 ~ 2,000 時間かけて畳み込みニューラル ネットワークをトレーニングしました。次に、4 つのデータセットでその方法を評価しました。 特に、FaceNet は、よく知られている Labeled Faces in the Wild (LFW) データセットで 99.63% の精度を達成し、Youtube Faces データベースでは 95.12% の精度を達成しています。 公開/最終更新日 – 2015年6月17日 著者および寄稿者 – Google Inc. の Florian Schroff、Dmitry Kalenichenko、James Philbin 出典: http://arxiv.org/pdf/1503.03832v3.pdf 3. 確率的顔埋め込み 現在の顔認識の埋め込み方法は、制御された設定で高いパフォーマンスを実現できます。これらの方法は、顔の画像を撮影し、その顔に関するデータを潜在的な意味空間に保存することによって機能します。 しかし、現在のアプローチは、完全に制御されていない環境でテストすると、うまく機能しません。これは、画像に顔の特徴が欠けていたり、状況があいまいだったりすることが原因です。このような状況の一例としては、ビデオの品質が低い可能性がある監視ビデオでの顔認識が挙げられます。 この問題を解決するために、この論文の著者らは確率的顔埋め込み (PFE) を提案しました。著者らは、既存の決定論的埋め込みを PFE に変換する方法を提案しています。最も重要なことは、このアプローチにより顔認識モデルのパフォーマンスが効果的に向上することを著者らは指摘している点です。 リリース/最新アップデート – 2019 年 8 月 7 日 著者および寄稿者 – ミシガン州立大学の Yichun Shi 氏と Anil K. Jain 氏。 出典: http://arxiv.org/pdf/1904.09658.pdf 4. 顔認識の悪魔はノイズの中にいる SenseTime、カリフォルニア大学サンディエゴ校、南洋理工大学の研究者らは、大規模な顔画像データセットにおけるノイズの影響を研究した。 多くの大規模データセットは、そのサイズとコスト効率のせいで、ラベル ノイズが発生しやすくなります。この論文は、ラベル ノイズの原因と顔認識モデルにおけるその結果についての知識を提供することを目的としています。さらに、彼らは IMDb-Face と呼ばれるクリーンな顔認識データセットを構築してリリースすることを目指しています。 この研究の 2 つの主な目的は、ノイズが最終的なパフォーマンスに与える影響を発見し、顔のアイデンティティに注釈を付ける戦略を決定することです。これを実現するために、チームは、公開されている顔画像の 2 つの一般的なデータセット、MegaFace と MS-Celeb-1M を手動でクリーンアップしました。実験では、クリーンアップされた MegaFace データセットの 32% と MS-Celeb-1M クリーンアップされたデータセットの 20% のみでトレーニングされたモデルが、クリーンアップされていない元のデータセット全体でトレーニングされたモデルと同様のパフォーマンスを達成したことが示されました。 リリース/最新アップデート – 2018 年 7 月 31 日 著者および寄稿者 – Fei Wang (SenseTime)、Liren Chen (カリフォルニア大学サンディエゴ校)、Cheng Li (SenseTime)、Shiyao Huang (SenseTime)、Yanjie Chen (SenseTime)、Chen Qian (SenseTime)、Chen Change Loy (南洋理工大学)。 出典: arxiv.org 5. VGGFace2: ポーズや年齢を問わず顔を認識するためのデータセット 深層畳み込みニューラルネットワークを使用した顔認識に関する研究は数多く行われています。 次に、これらのモデルをトレーニングするために、多くの大規模な顔画像データセットが作成されました。 しかし、論文の著者らは、これまで公開されたデータセットには顔のポーズや年齢の変化に関する広範なデータが含まれていないと指摘している。 この論文では、オックスフォード大学の研究者がVGGFace2データセットを紹介しています。 データセットには、さまざまな年齢、民族、照明、ポーズのバリエーションを持つ画像が含まれています。 データセットには合計 331 万枚の画像と 9,131 個のオブジェクトが含まれています。 |
<<: 2019年北京知源会議が北京で開幕、中国と海外の学術リーダーが人工知能研究の最前線について議論
著者 | 湘湘天志 張波 他Twins は Meituan とアデレード大学が提案した視覚的注意モデ...
[[248243]]北京時間31日、マイクロソフトが英国のビジネスリーダーと従業員5,000人を対象...
ディープラーニングの活発な発展に伴い、業務シナリオで使用するためのディープ ニューラル ネットワーク...
「この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より転載を許可さ...
[51CTO.com クイック翻訳]画像セグメンテーションは、画像内のオブジェクトの境界と領域を決定...
最近、清華大学ビッグデータ研究センターの機械学習研究部門は、効率的で簡潔な転移学習アルゴリズムライブ...
7月29日のニュース、海外メディアの報道によると、マイクロソフトは投資家に対し、グラフィックス・プロ...
シーメンスとマイクロソフトは協力し、人間と機械のコラボレーションを強化し、生産性を向上させるように設...
9月4日のニュースによると、マイクロソフト、アマゾン、グーグル、フェイスブックの親会社であるMeta...
[[409963]]学術研究の特許所有権は、研究者の研究成果を保護し、保証するものであるため、研究者...
[[431971]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...