顔認証は必見!顔のなりすまし防止、クロスポーズ認識などを実現する方法を学ぶための 5 つの論文 (リンク付き)

顔認証は必見!顔のなりすまし防止、クロスポーズ認識などを実現する方法を学ぶための 5 つの論文 (リンク付き)

[[281197]]

[はじめに] 顔認識はコンピュータビジョンにおける最大の研究分野の一つです。多くの企業が顔認識技術の研究開発に投資しています。

顔認識は、コンピュータービジョンにおける最大の研究分野の 1 つです。顔認識機能を使って、携帯電話のロックを解除したり、セキュリティドアで本人確認を行ったり、一部の国で支払いを行ったりできるようになりました。多くの企業が顔認識技術の研究開発に投資しています。この記事では、その研究の一部を紹介し、顔認識に関する機械学習の論文を 5 つ紹介します。

1. 大規模マルチモーダル顔偽装防止データセットとベンチマーク

顔認識技術は、数多くの実用的なアプリケーションにより、ますます重要になっています。スマートフォンのロック解除から顔認証による支払い方法まで、顔認識はさまざまな方法でセキュリティと監視を向上させることができます。

しかし、この技術にはいくつかのリスクも伴います。これらのシステムを騙すために使用できる顔のなりすましの方法は数多くあります。したがって、顔のなりすまし防止はセキュリティ侵害を防ぐために非常に重要です。

顔のなりすまし防止研究をサポートするために、この論文の著者らは、CASIASURF と呼ばれるマルチモーダル顔のなりすまし防止データセットを紹介しています。本稿執筆時点では、顔のなりすまし防止のための最大のオープンデータセットです。

具体的には、データセットには、RGB、深度、IR モダリティで 1,000 人の被験者から撮影された 21,000 本のビデオが含まれています。著者らは、データセットに加えて、顔のなりすまし防止のベースラインとして、新しいマルチモーダル融合モデルも提案しました。

公開/最終更新日 – 2019年4月1日

著者および寄稿者 – Shifeng Zhang (NLPR、CASIA、UCAS、中国)、Xiaobo Wang (JD AI Research)、Ajian Liu (MUST、マカオ、中国)、Chenxu Zhao (JD AI Research)、Jun Wan (NLPR、CASIA、UCAS、中国)、Sergio Escalera (バルセロナ大学)、Hailin Shi (JD AI Research)、Zezheng Wang (JD Finance)、Stan Z. Li (NLPR、CASIA、UCAS、中国)。

出典: http://arxiv.org/pdf/1812.00408v3.pdf

2. FaceNet: 顔認識とクラスタリングのための統合埋め込み

この論文では、著者らは FaceNet と呼ばれる顔認識システムを提案しました。

このシステムは、中間ボトルネック層を使用する代わりに、深層畳み込みニューラル ネットワークを使用して埋め込みを最適化します。著者らは、彼らのアプローチの最も重要な側面はシステムのエンドツーエンドの学習であると指摘しています。

研究チームは、CPU クラスター上で 1,000 ~ 2,000 時間かけて畳み込みニューラル ネットワークをトレーニングしました。次に、4 つのデータセットでその方法を評価しました。

特に、FaceNet は、よく知られている Labeled Faces in the Wild (LFW) データセットで 99.63% の精度を達成し、Youtube Faces データベースでは 95.12% の精度を達成しています。

公開/最終更新日 – 2015年6月17日

著者および寄稿者 – Google Inc. の Florian Schroff、Dmitry Kalenichenko、James Philbin

出典: http://arxiv.org/pdf/1503.03832v3.pdf

3. 確率的顔埋め込み

現在の顔認識の埋め込み方法は、制御された設定で高いパフォーマンスを実現できます。これらの方法は、顔の画像を撮影し、その顔に関するデータを潜在的な意味空間に保存することによって機能します。

しかし、現在のアプローチは、完全に制御されていない環境でテストすると、うまく機能しません。これは、画像に顔の特徴が欠けていたり、状況があいまいだったりすることが原因です。このような状況の一例としては、ビデオの品質が低い可能性がある監視ビデオでの顔認識が挙げられます。

この問題を解決するために、この論文の著者らは確率的顔埋め込み (PFE) を提案しました。著者らは、既存の決定論的埋め込みを PFE に変換する方法を提案しています。最も重要なことは、このアプローチにより顔認識モデルのパフォーマンスが効果的に向上することを著者らは指摘している点です。

リリース/最新アップデート – 2019 年 8 月 7 日

著者および寄稿者 – ミシガン州立大学の Yichun Shi 氏と Anil K. Jain 氏。

出典: http://arxiv.org/pdf/1904.09658.pdf

4. 顔認識の悪魔はノイズの中にいる

SenseTime、カリフォルニア大学サンディエゴ校、南洋理工大学の研究者らは、大規模な顔画像データセットにおけるノイズの影響を研究した。

多くの大規模データセットは、そのサイズとコスト効率のせいで、ラベル ノイズが発生しやすくなります。この論文は、ラベル ノイズの原因と顔認識モデルにおけるその結果についての知識を提供することを目的としています。さらに、彼らは IMDb-Face と呼ばれるクリーンな顔認識データセットを構築してリリースすることを目指しています。

この研究の 2 つの主な目的は、ノイズが最終的なパフォーマンスに与える影響を発見し、顔のアイデンティティに注釈を付ける戦略を決定することです。これを実現するために、チームは、公開されている顔画像の 2 つの一般的なデータセット、MegaFace と MS-Celeb-1M を手動でクリーンアップしました。実験では、クリーンアップされた MegaFace データセットの 32% と MS-Celeb-1M クリーンアップされたデータセットの 20% のみでトレーニングされたモデルが、クリーンアップされていない元のデータセット全体でトレーニングされたモデルと同様のパフォーマンスを達成したことが示されました。

リリース/最新アップデート – 2018 年 7 月 31 日

著者および寄稿者 – Fei Wang (SenseTime)、Liren Chen (カリフォルニア大学サンディエゴ校)、Cheng Li (SenseTime)、Shiyao Huang (SenseTime)、Yanjie Chen (SenseTime)、Chen Qian (SenseTime)、Chen Change Loy (南洋理工大学)。

出典: arxiv.org

5. VGGFace2: ポーズや年齢を問わず顔を認識するためのデータセット

深層畳み込みニューラルネットワークを使用した顔認識に関する研究は数多く行われています。 次に、これらのモデルをトレーニングするために、多くの大規模な顔画像データセットが作成されました。 しかし、論文の著者らは、これまで公開されたデータセットには顔のポーズや年齢の変化に関する広範なデータが含まれていないと指摘している。

この論文では、オックスフォード大学の研究者がVGGFace2データセットを紹介しています。 データセットには、さまざまな年齢、民族、照明、ポーズのバリエーションを持つ画像が含まれています。 データセットには合計 331 万枚の画像と 9,131 個のオブジェクトが含まれています。

<<:  2019年北京知源会議が北京で開幕、中国と海外の学術リーダーが人工知能研究の最前線について議論

>>:  人工知能は企業で実用化されつつある

ブログ    
ブログ    

推薦する

Programiz: 多くの人がChatGPTを使ってプログラミングを学んでおり、Web開発分野はAIの影響を最も受けやすい

プログラマー育成ウェブサイトProgramizは10月18日、ChatGPTがプログラミング教育分野...

...

OpenAIのSora、中国は追いつけないのか?

春節の時期にOpenAIのSoraが大人気でした。私も見てみましたが、正直GPT4が出た時ほどの衝撃...

Midjourneyに匹敵します!なぜミャオヤカメラは突然人気が出たのでしょうか?

編纂者:ユン・ジャオ、ワン・ルイピン、ノア「家族の写真がついに出てきました…」最近、ミャオヤカメラの...

...

将来の物流と輸送における人工知能の役割

[[392872]]物流および貨物輸送組織のデジタル化が進むにつれて、企業は顧客、サプライ チェーン...

未来に向けて:IoT + AIが人類の進化の方向となる

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

「人工知能、データサイエンス、機械学習」について語る -- 概要

[[190364]]この記事は、写真付きの 4 つの例を含む 6 時間かけて執筆されました。目的は、...

「中東のシリコンバレー」として知られるイスラエルはスーパーチップを開発している

「中東のシリコンバレー」と呼ばれるイスラエルはハイテク産業が発達しており、特にチップ産業や半導体技術...

2020 年のディープラーニングに最適な GPU の概要。どれが最適かを確認してください。

ビッグデータダイジェスト制作出典: lambdalabs編纂者:張秋月ディープラーニング モデルが強...

ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

米国のパデュー大学が最近発表した「誰の回答が優れているか? ChatGPT と Stack Over...

9月9日がまたやってきました。重陽の節句にスマートテクノロジーについてお話しましょう。

[[428874]]現代では、社会の発展と時代の進歩に伴い、伝統と現代の衝突、古典と革新の融合が、...

SQL クエリ エンジンの自然言語として GPT を使用する方法

翻訳者 |李睿レビュー | Chonglou 今日では、 ChatGPTのような生成AI技術のおかげ...

インテルの宋吉強氏:AIは爆発の臨界点に達しており、今年中に専用チップを発売する予定

インテルとニューインテリジェンスが共同で開催した2017年ニューインテリジェンスオープンソースエコシ...