あなたはまだ顔認識精度指標に騙されていませんか?

あなたはまだ顔認識精度指標に騙されていませんか?

導入

ハードウェアの性能向上と顔データ量の増加に伴い、顔認識はますます成熟し、商業的な用途もますます増えています。顔認識アルゴリズムが一定の改善を遂げ、LFW での認識精度が 99.6% 以上に達したという記事をよく見かけます。

[[346897]]

実際、精度だけではモデルの性能を測ることはできません。精度は、顔認識における最も重要な指標である合格率と不合格率を反映できません。合格率には、同じ人物が合格する確率と、異なる人物が合格する確率が含まれます。不合格率には、異なる人物が不合格になる確率と、同じ人物が不合格になる確率が含まれます。通常、異なる人物の合格率が低い場合、モデルの同じ人物の合格率が高くなることを期待します。次の評価指標は、主にこの 2 つに基づいて開発されています。

顔認識

現在、顔認識は、顔出勤、実名認証、本人確認、顔決済、Skynetシステムなど、さまざまな用途に使用されています。実際、基礎となる実装技術は主に顔認証と顔検索に依存しています。顔認証は 1:1 顔マッチングとも呼ばれ、顔検索は 1:N 顔マッチングとも呼ばれます。

まず、顔検出により顔が含まれる画像から顔の位置情報と顔のキーポイントを抽出し、次にアフィン変換により顔のキーポイントと組み合わせて顔の位置合わせを行い、位置合わせされた顔画像を取得します。次に、顔画像は顔認識モデルを通じて顔の特徴を抽出します。抽出された特徴は高次元ベクトルであり、このベクトルの次元は通常 128、256、512、1024 またはそれ以上です。

2 つの顔画像が類似しているかどうかを判断するための主な指標は、ユークリッド距離とコサイン類似度です。まず、顔認識モデルを通じて顔画像を特徴ベクトルに変換します。名前が示すように、ユークリッド距離は 2 つのベクトル間のユークリッド距離を計算するため、2 つのベクトル間のユークリッド距離が小さいほど、それらの類似性が高くなります。コサイン類似度は、2つのベクトル間の角度のコサイン値を計算するものです。cosθの値の範囲は[−1, 1]です。0.5+0.5∗cosθで[0, 1]に正規化できます。コサイン類似度が大き​​いほど、同一人物である可能性が高くなります。

1:1 顔マッチングでも 1:N 顔マッチングでも、まずしきい値 (ユークリッド距離または類似度) を決定する必要があります。通常、顔の類似性の測定指標は類似度です。後で説明するしきい値は、実際には類似度しきい値です。しきい値は、指定された合格率または拒否率に応じて顔データセットによって決定されます。率がしきい値より大きい場合は、その人物は同一人物であることを意味し、そうでない場合は同一人物ではないことを意味します。

顔認証

1:1 顔認証では、2 枚の写真を比較して同一人物かどうかを確認します。一般的な用途としては、駅での顔ゲート実名認証や携帯電話の顔認証ロック解除などがあります。比較画像の類似性が閾値より大きいかどうかを判断することで、一般的に使用される性能評価指標は以下のとおりです。

  • 遠い

FAR(False Accept Rate)とは、FPR(False Positive Rate)と同等の、他人受入率のことです。異なる人物を誤って同一人物とみなす回数を指し、異なる人物同士の比較全体の比率です。計算式は以下のとおりです。

混同行列(TP、TN、FP、FN)の詳細な説明については、私の他の記事「分類アルゴリズムでよく使用される評価指標」を参照してください。

  • タール

TAR(True Accept Rate)は正しい承認率を表し、TPR(True Positive Rate)に相当します。これは、同一人物のすべての比較の中で、同一人物であると正しく判断された回数を指します。計算式は次のとおりです。

  • 連邦準備制度理事会

FRR(False Reject Rate)とFNR(False Negative Rate)は、同一人物を比較したが同一人物ではないと判断された数を指し、計算式は以下のとおりです。

1:1 顔認識コンテストの中には、FMR (誤一致率) や FNMR (誤不一致率) などの評価指標が設定されているものもあります。 FMR は FAR に相当する誤一致率を指し、FNMR は FRR に相当する誤不一致率を指します。

FNMR @ FMR = 0.000001 のような表現を目にすることがあります。この表現は、データセット上で FMR = 0.000001 のときのしきい値が計算され、このしきい値に基づいて FNMR が計算されることを意味します。これと同様に、TAR=0.998@FAR=1e-6 は、異なる人の合格率が 1e-6 の場合、同じ人の合格率は 99.8% であることを意味します。 1:1 顔認証の場合、FAR が低いほど、TAR が高いほど優れています。

顔検索

1:N 顔認識評価は、オープンセット識別とクローズドセット識別の 2 つのケースに分けられます。

1:N 顔認識を評価する場合、ギャラリー G (ベースライブラリ、登録済みの顔ライブラリ)、プローブ (プローブ、認識する顔画像) の 3 セットの画像が必要です。プローブは Pn と Pg​ に分かれており、Pn​ の顔写真はギャラリーにないため偽者と呼ばれ、Pg​ の顔写真はギャラリーにあるため天才と呼ばれます。

オープンセット認識

オープンセット識別: オープンセット識別が解決する必要がある問題は、プローブPj​がギャラリー内に存在するかどうか、存在する場合はその人物が誰であるかを判断することです。 Pj​はギャラリーにいてもいなくてもかまいません。

ギャラリーG={g1​,g2​.....gn​} と仮定すると、gi​ はギャラリー内の人物を表し、テスト対象の顔 Pj​ と各 gi​ 間の類似度が計算され、Sji​ で表されます。これは、2 つの顔画像が同一人物である確率を表します。 G と Pj​ の各人物間の類似度を計算し、集合 S{sj1​,sj2​.....sjn​} を取得し、集合 S を大きい順に並べ替えます (小さい順に並べ替えるにはユークリッド距離が使用されます)。ギャラリー内のPj​に対応する人物がg∗であると仮定し、Pj​とg∗の類似度がn番目であることを示すためにrank(Pj​)=nを定義します。rank1はトップマッチとも呼ばれます。

顔決済の場合はTOP1オープンセット識別、顔本人確認の場合はtopkオープンセット識別となります。

クローズドセット認識

閉集合識別: 閉集合識別が解決する必要がある問題は、ギャラリー内のプローブPj​ を見つけることであり、Pj​ はギャラリーに属しています。オープンセット認識と同様に、クローズドセット認識も、正しい認識結果が topk に含まれているかどうかに関係します。

評価指標

以下の評価指標は、オープンセット認識とクローズドセット認識の両方に適用されます。

  • ディレクター

DIR (検出および識別率): Pj​∈Pg​ と G の実際の結果 s∗ との類似度が τ より大きく、Pg​ 内の同一人物ではない Pj​ とのその他のすべての類似度の割合より大きいことを指します。DIR は、データベース内の人物の合格パフォーマンスを測定します。計算式は以下のとおりです

これを説明するために例を挙げてみましょう

G に 3 人の人物 A、B、C の顔情報が含まれており、それぞれに写真があり、Pj は C の別の顔写真であるとします。Pj と A、B、C の類似度がそれぞれ 0.5、0.6、0.9 で、τ が 0.7 の場合、一致は正しいとみなされます。 PjとCの類似度が0.68<τの場合、データベース外の人物とみなされ、一致しないことになります。 Pj と A、B、C との類似度がそれぞれ 0.6、0.8、0.78 の場合、Pj の TOP1 マッチは B になります。これは、C と Pj の類似度が rank(Pj)=2 で 2 位であり、Pj が間違った人物とマッチしているためです。

  • 遠い

FAR (誤報率): G 内の最も類似した人物との類似度が Pn​ 内の τ より大きい Pj​∈Pn​ の割合を指します。FAR は、データベース外の顔の拒否パフォーマンスを測定し、顔認識システムのセキュリティの保証でもあります。計算式は以下のとおりです

1:N 顔検索の場合、FAR が低く DIR が高いほど、モデルのパフォーマンスは向上します。例を使用して、これら 2 つの評価指標の計算方法を説明します。

上記の表は、ギャラリー(G)のPg​(Gにある写真)とPn​(Gにない写真)のテスト結果を示しています。Gのa、b、cはそれぞれA、B、Cに対応し、d、e、fはGにありません。閾値τが0.7のとき、DIRとFIRを計算してみましょう。

  1. aはAと最も類似しており、SaA​>τなので、一致は成功です。
  2. bとBの類似性はSbB​>τであるが、SbB​
  3. cはCと最も類似しているが、ScC​<τなので、一致は間違っている。

つまり、DIR = 1/3≈33.33%

  1. dはAとの類似度が最も高く、SdA​<τです。dはライブラリに存在しないため、一致は正しいです。
  2. e は C との類似度が最も高く、SeC​>τ です。c はライブラリにないため、一致は間違っています。
  3. fはCと最も類似しており、fはライブラリにないためSfC​<τであり、一致は正しい。

つまり、FAR=1/3≈33.33%

<<:  Google が地図「タイムマシン」を公開: 100 年前のあなたの街はどんな様子だったでしょうか?

>>:  時代を先取り: パーソナライズされたマーケティング: 人工知能がカスタマー サービス業界にもたらす変化

ブログ    
ブログ    
ブログ    

推薦する

...

Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AIはどのようにして責任を持つようになるのでしょうか?英国規格協会が答えを持っている

人工知能(AI)は、現在世界で最も革新的で影響力のある技術の1つであり、さまざまな分野や産業に浸透し...

...

周明氏との対話: ラストマイルを解決するために大きなモデルを使用するときは、理想主義にならないでください。

ゲスト | 周明執筆者 | Yun Zhaoある夜、湘源の湧き水が、広大で無限に湧き出しました。 C...

キングソフトAIラボが最初の実装計画を発表、AIの最も難しい部分を選択した

[[255298]] 「2014年に私は、30年前に設立されたKingsoft WPSは雷軍によって...

...

LSTM は惨めに失敗しました!ある少年が時系列モデルを使って恋人の感情を予測した4ページの論文を発表した。

[[430915]]ガールフレンドの感情は株式市場と同じくらい予測不可能です。違いは、多くの専門家...

役に立つ情報: GitHub で 26,000 個のスターを獲得!初心者のための Python アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

自動運転、顔認識…人工知能の時代が到来。私たちはどう対応すべきか?

2016年以降、人工知能がニュースに登場する頻度が高まっています。実は、理工系女子の私にとって、子...

AISpeechの趙恒毅氏:国内のスマート音声産業は幅広い発展の見通しがある

[51CTO.comからのオリジナル記事] 人工知能の急速な発展に伴い、音声インタラクションは人工知...

グラフアルゴリズムシリーズにおける深さ優先探索

[[396433]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

この記事では、ロボットが視覚を通じてターゲット追跡を実現する方法を説明します。

概要: 視覚追跡技術は、コンピュータービジョン(人工知能の一分野)の分野における重要なトピックであり...