スタンフォード大学の学生が出会い系アプリをハッキング！ GAN モデルを使用して男性に変装し、顔認識システムを欺く

誰かが本当にあなたの顔を真似して、顔認識システムを回避できるのです!

最近、スタンフォード大学の研究者がarxivに論文を発表しました。スタンフォードCS236Gの課題ではありますが、論文は非常に興味深いアイデアを提案しています。生成的敵対ネットワークGANを使用して、対象の顔を模倣した顔画像を生成し、顔認識システムが正しく検証できるかどうかを確認します。

顔の主要な特徴情報が保持されるため、生成された顔画像は依然として顔認証に合格できることが論文の結果で示されており、これは平面的な画像認識のみに依存するシステムにとっては大きな打撃となります。

論文リンク: https://arxiv.org/pdf/2203.15068.pdf

研究者らは、2つの出会い系アプリの顔認証システムでブラックボックステストを実施し、顔認証プロセスを簡単に突破した。女性の顔を男性の顔に変換した後でも、顔認証を通過することができた。

著者らによると、この研究は、生成された画像を使用して顔認証を回避する初の試みであり、元の顔画像には特定の識別特徴があるが、大幅に変更された別の身元も認証を通過できるという。

これは誰の顔ですか？

オンライン検証システムが侵害されると、あらゆる種類の詐欺が非常に悪い結果をもたらす可能性があるため、人々は詐欺師を検出して対抗することに特に関心を持っています。

顔認証は、通常の本人確認とは異なり、顔画像に基づいて本人確認を行います。顔と本人確認は1対1で照合しますが、自分と同じ鍵を開けられる全く別の顔があった場合、どうやって「私は私だ」と証明するのでしょうか。

現在、多くのモバイルアプリは、顔認証技術は安全で、ユーザーの身元を保護できると主張しています。たとえば、BumbleやTinderなどの出会い系アプリの認識プロセスでは、ユーザーがアプリの内蔵カメラを使用して写真を撮影し、それをユーザーのプロフィールの写真と比較します。

写真を使用したこのタイプの顔検出には大きな問題があります。顔認識システムを回避できる偽の写真を使用して検証に合格できるのです。

元の顔と同じだが見た目が異なる顔の特徴が必要な場合は、敵対的生成ネットワークモデルが最適です。

しかし、GAN の誕生以来、生成された画像を期待どおりに制御する方法、または特徴ベクトルを通じて GAN モデルの生成プロセスをガイドする方法は、常に GAN 潜在空間に関する主な課題でした。

Gradient Weighted Class Activation Mapping (Grad-CAM) などの技術やツールは、クラス間の潜在的な方向を確立し、変換を可能にするのに役立ちますが、生成された画像を詳しく見ると、そのようなモデルでは変換の細かいスケールの制御が限られていることがわかります。

実験方法

著者は実験の基礎として 2 つのデータセットを使用しました。

1 つは人間のユーザーデータセットで、4 年間にわたる、さまざまな照明、年齢、視点の論文著者の顔画像 310 枚で構成されています。切り取られた顔は Caffe を使用して抽出されました。

もう 1 つは、カテゴリバランス調整後の FairFace データセット内の 108,501 枚の画像で、これも抽出およびトリミングされています。

実験結果をローカルで検証するために、研究者らは主に FaceNet と DeepFace に基づく ConvNet Inception 事前トレーニング済みモデルを使用して、ローカルで顔認証モデルを構築しました。画像ベクトルはトリプレット損失を使用してトレーニングされました。ここで、A はアンカー画像、P は正の例、N は負の例、α は間隔です。

この検証モデルは、FairFace のトレーニングサブセットの顔画像を使用します。顔の検証に合格するには、入力画像とデータベース内の対象ユーザーの間でフロベニウスノルム距離を計算します。しきい値 0.7 未満の画像はすべて同じ ID と同等とみなされ、それ以外の場合は検証が失敗したとみなされます。

画像生成モデルでは、著者は StyleGAN モデルを直接使用し、個人のデータセットで微調整しています。ランダムに生成された画像は、ローカルの顔認証システムに直接通過でき、画像はトレーニングデータセット内の画像とは異なって見えます。

微調整中は、データの過剰適合を回避し、トレーニングデータセットに類似しすぎた顔画像を生成するために、最初の 4 つのレイヤーの重みが固定されます。

基本的な StyleGAN モデルでは、元の顔とは異なる画像を取得できますが、ベースラインモデルの結果は、トレーニングデータセット内の画像と質的に類似しており (多様性が低い)、解像度は低くなります (忠実度が低い)。

著者らによる 2 番目の試みでは、対象の顔のシード画像をトレーニングできる StarGAN v2 モデルを使用します。

過剰適合を防ぐために、StarGAN v2 モデルは FairFace 検証セットを使用して約 10 時間事前トレーニングされました。画像を生成するために、著者らはトレーニングデータをシード画像 (参照) として使用し、人間のユーザーデータセットから処理された画像をソース画像 (ソース) として使用することも試みました。

著者らは、個人ユーザーのデータセットから処理された画像をシード画像とソース画像として使用することも試みましたが、結果はあまり改善されませんでした。

検証段階になると、著者はまずランダムに 1,000 枚の顔画像を選択し、ローカルテスト検証に合格した顔を見つけ出し、次に GAN を使用して生成された画像が再度正常に一致できるかどうかをテストしました。

下の写真は、左側が著者の写真、中央が検証に失敗した写真、右側が検証に成功した写真です。

実験の目的は、画像処理におけるパターンやテンプレートの検索に一般的に使用される評価指標であるマハラノビス距離を使用して、対象のアイデンティティの決定的な特徴を維持しながら、知覚される視覚的アイデンティティ間のギャップをできるだけ大きくすることです。

ベースライン生成モデルの場合、ローカルの顔検証に合格したにもかかわらず、得られた低解像度の結果は多様性が低いことが示されていますが、StarGAN v2 はより多様な検証合格画像を作成できます。

生成された画像は、著者の身元画像を基準として、出会い系アプリ「Bumble」と「Tinder」の顔認証システムでテストされ、認証に合格しました。

私の顔の「男性版」もBumbleの認証プロセスを通過しましたが、承認されるには結果の画像の照明を調整する必要がありました。一方、Tinderはより賢く、それに騙されませんでした。

これらは、画像合成とディープフェイク研究において依然として重要な課題である、GAN 潜在空間操作のコンテキストにおけるアイデンティティ投影の画期的な実験です。この研究は、異なるアイデンティティに非常に特殊な特性が永続的に埋め込まれるという概念や、他人のアイデンティティを「読み取る」ための「代替」アイデンティティの創造という概念も開拓しています。

悪魔は1フィートの高さだが、道は10フィート高い

現在、「顔スキャン」は人々の日常生活で非常に一般的になっており、店舗での顧客の流れの統計、無人自動販売機での顔支払い、ユニットのアクセス制御、家のドアのロック、公共交通機関/道路のセキュリティ監視、会社の顔認識出席、速達荷物の受け取り、銀行カードの開設、オンライン決済、ホテルのチェックインなどの分野で使用されています。「顔認識」技術は広く使用されており、拡大傾向を示しています。

顔認識技術は現在、2D 顔画像に基づくものと 3D 顔画像に基づくものの 2 つのカテゴリに分けられます。 2D顔認識は2Dカメラを使用して平面画像を撮影するため、アルゴリズムやソフトウェアがどれだけ高度であっても、情報が限られているとセキュリティレベルが十分ではなく、写真から簡単に解読されてしまいます。

2019年には、小学生たちが写真を手に持ってFengchaoの顔認識システムを「破った」。

よりセキュリティレベルの高い 3D 顔認識システムでは、立体画像撮影に 3D カメラを使用します。通常、プローブは 4 つあり、そのうち 2 つは大型カメラ、他の 2 つは補助光用の赤外線プローブと可視光プローブです。2 つのカメラが連携して 3D 画像を形成し、完全な 3 次元世界を復元します。現在、3D顔認識技術は写真、ビデオ、マスク、双子などを正確に区別することができます。

現在広く普及している顔認識による本人認証システムには、生体検知という重要な技術もあります。つまり、システムカメラが顔が本人であるかどうかを正確に識別すると同時に、写真やその他の手段を使って誰かが正当なユーザーになりすましていないかどうかもチェックします。そのため、銀行で顔認証を使用する場合、ユーザーは「左右を見る」または「まばたきする」などの操作を求められることが多いのです。

悪魔は1フィートの高さだが、道は10フィート高い。絶え間ない対決によってのみ、テクノロジーは発展し続けることができる。

<<: ヴェノムのように変形・修復可能なロボットが登場、1.5mmの亀裂も楽々通過

>>: Web3.0時代: インターネット上で作成したものはすべてあなたのものになります