あなたはまだ顔認識精度指標に騙されていませんか?

導入

ハードウェアの性能向上と顔データ量の増加に伴い、顔認識はますます成熟し、商業的な用途もますます増えています。顔認識アルゴリズムが一定の改善を遂げ、LFW での認識精度が 99.6% 以上に達したという記事をよく見かけます。

[[346897]]

実際、精度だけではモデルの性能を測ることはできません。精度は、顔認識における最も重要な指標である合格率と不合格率を反映できません。合格率には、同じ人物が合格する確率と、異なる人物が合格する確率が含まれます。不合格率には、異なる人物が不合格になる確率と、同じ人物が不合格になる確率が含まれます。通常、異なる人物の合格率が低い場合、モデルの同じ人物の合格率が高くなることを期待します。次の評価指標は、主にこの 2 つに基づいて開発されています。

顔認識

現在、顔認識は、顔出勤、実名認証、本人確認、顔決済、Skynetシステムなど、さまざまな用途に使用されています。実際、基礎となる実装技術は主に顔認証と顔検索に依存しています。顔認証は 1:1 顔マッチングとも呼ばれ、顔検索は 1:N 顔マッチングとも呼ばれます。

まず、顔検出により顔が含まれる画像から顔の位置情報と顔のキーポイントを抽出し、次にアフィン変換により顔のキーポイントと組み合わせて顔の位置合わせを行い、位置合わせされた顔画像を取得します。次に、顔画像は顔認識モデルを通じて顔の特徴を抽出します。抽出された特徴は高次元ベクトルであり、このベクトルの次元は通常 128、256、512、1024 またはそれ以上です。

2 つの顔画像が類似しているかどうかを判断するための主な指標は、ユークリッド距離とコサイン類似度です。まず、顔認識モデルを通じて顔画像を特徴ベクトルに変換します。名前が示すように、ユークリッド距離は 2 つのベクトル間のユークリッド距離を計算するため、2 つのベクトル間のユークリッド距離が小さいほど、それらの類似性が高くなります。コサイン類似度は、2つのベクトル間の角度のコサイン値を計算するものです。cosθの値の範囲は[−1, 1]です。0.5+0.5∗cosθで[0, 1]に正規化できます。コサイン類似度が大きいほど、同一人物である可能性が高くなります。

1:1 顔マッチングでも 1:N 顔マッチングでも、まずしきい値 (ユークリッド距離または類似度) を決定する必要があります。通常、顔の類似性の測定指標は類似度です。後で説明するしきい値は、実際には類似度しきい値です。しきい値は、指定された合格率または拒否率に応じて顔データセットによって決定されます。率がしきい値より大きい場合は、その人物は同一人物であることを意味し、そうでない場合は同一人物ではないことを意味します。

顔認証

1:1 顔認証では、2 枚の写真を比較して同一人物かどうかを確認します。一般的な用途としては、駅での顔ゲート実名認証や携帯電話の顔認証ロック解除などがあります。比較画像の類似性が閾値より大きいかどうかを判断することで、一般的に使用される性能評価指標は以下のとおりです。

遠い

FAR（False Accept Rate）とは、FPR（False Positive Rate）と同等の、他人受入率のことです。異なる人物を誤って同一人物とみなす回数を指し、異なる人物同士の比較全体の比率です。計算式は以下のとおりです。

混同行列（TP、TN、FP、FN）の詳細な説明については、私の他の記事「分類アルゴリズムでよく使用される評価指標」を参照してください。

タール

TAR（True Accept Rate）は正しい承認率を表し、TPR（True Positive Rate）に相当します。これは、同一人物のすべての比較の中で、同一人物であると正しく判断された回数を指します。計算式は次のとおりです。

連邦準備制度理事会

FRR（False Reject Rate）とFNR（False Negative Rate）は、同一人物を比較したが同一人物ではないと判断された数を指し、計算式は以下のとおりです。

1:1 顔認識コンテストの中には、FMR (誤一致率) や FNMR (誤不一致率) などの評価指標が設定されているものもあります。 FMR は FAR に相当する誤一致率を指し、FNMR は FRR に相当する誤不一致率を指します。

FNMR @ FMR = 0.000001 のような表現を目にすることがあります。この表現は、データセット上で FMR = 0.000001 のときのしきい値が計算され、このしきい値に基づいて FNMR が計算されることを意味します。これと同様に、TAR=0.998@FAR=1e-6 は、異なる人の合格率が 1e-6 の場合、同じ人の合格率は 99.8% であることを意味します。 1:1 顔認証の場合、FAR が低いほど、TAR が高いほど優れています。

顔検索

1:N 顔認識評価は、オープンセット識別とクローズドセット識別の 2 つのケースに分けられます。

1:N 顔認識を評価する場合、ギャラリー G (ベースライブラリ、登録済みの顔ライブラリ)、プローブ (プローブ、認識する顔画像) の 3 セットの画像が必要です。プローブは Pn と Pg に分かれており、Pn の顔写真はギャラリーにないため偽者と呼ばれ、Pg の顔写真はギャラリーにあるため天才と呼ばれます。

オープンセット認識

オープンセット識別: オープンセット識別が解決する必要がある問題は、プローブPjがギャラリー内に存在するかどうか、存在する場合はその人物が誰であるかを判断することです。 Pjはギャラリーにいてもいなくてもかまいません。

ギャラリーG={g1,g2.....gn} と仮定すると、gi はギャラリー内の人物を表し、テスト対象の顔 Pj と各 gi 間の類似度が計算され、Sji で表されます。これは、2 つの顔画像が同一人物である確率を表します。 G と Pj の各人物間の類似度を計算し、集合 S{sj1,sj2.....sjn} を取得し、集合 S を大きい順に並べ替えます (小さい順に並べ替えるにはユークリッド距離が使用されます)。ギャラリー内のPjに対応する人物がg∗であると仮定し、Pjとg∗の類似度がn番目であることを示すためにrank(Pj)=nを定義します。rank1はトップマッチとも呼ばれます。

顔決済の場合はTOP1オープンセット識別、顔本人確認の場合はtopkオープンセット識別となります。

クローズドセット認識

閉集合識別: 閉集合識別が解決する必要がある問題は、ギャラリー内のプローブPj を見つけることであり、Pj はギャラリーに属しています。オープンセット認識と同様に、クローズドセット認識も、正しい認識結果が topk に含まれているかどうかに関係します。

評価指標

以下の評価指標は、オープンセット認識とクローズドセット認識の両方に適用されます。

ディレクター

DIR (検出および識別率): Pj∈Pg と G の実際の結果 s∗ との類似度が τ より大きく、Pg 内の同一人物ではない Pj とのその他のすべての類似度の割合より大きいことを指します。DIR は、データベース内の人物の合格パフォーマンスを測定します。計算式は以下のとおりです

これを説明するために例を挙げてみましょう

G に 3 人の人物 A、B、C の顔情報が含まれており、それぞれに写真があり、Pj は C の別の顔写真であるとします。Pj と A、B、C の類似度がそれぞれ 0.5、0.6、0.9 で、τ が 0.7 の場合、一致は正しいとみなされます。 PjとCの類似度が0.68<τの場合、データベース外の人物とみなされ、一致しないことになります。 Pj と A、B、C との類似度がそれぞれ 0.6、0.8、0.78 の場合、Pj の TOP1 マッチは B になります。これは、C と Pj の類似度が rank(Pj)=2 で 2 位であり、Pj が間違った人物とマッチしているためです。