顔認証の過去と現在の徹底分析

顔認証の過去と現在の徹底分析

​​

[[211140]]

​​

人工知能は、まず知覚段階、次に認知段階の 2 つの段階に分かれています。現在、人工知能全体はまだ知覚の比較的初期段階にあり、2つの主要な知覚経路は視覚と聴覚です。現在、私たちは主に視覚の方向に取り組んでいます。当社は 2012 年に設立されました。長年にわたり視覚分野の研究を行っており、常に人間の顔に焦点を当ててきました。では、なぜ人間の顔に取り組んでいるのでしょうか?人間の顔は、最も多くの情報量を持ち、最も商業的な価値の高い画像データだと私たちは考えています。画像を通じて、その人の年齢、性別、容姿、本人かどうかなど、さまざまな情報を知ることができます。

携帯電話のロック解除は今年ついに爆発的に普及しました。これは実は顔認識における長年の経験の最終結果なのです。まず、携帯電話のセキュリティの発展について見てみましょう。

​​

​​

2008年に初代iPhoneが発売されてからほぼ10年が経ちました。パスワードロック解除は 2009 年に登場し、パターンロックは 2010 年に登場し、その後多くの生体認証技術が続きました (図の青いフォントを参照)。生体認証の登場の主な目的は、ユーザーエクスペリエンスを向上させることです。頻繁にパスワードを入力するのは面倒ですし、ロック解除のためにパターンを描くのも面倒です。2013年に指紋ロック解除が導入されて以来、誰でも指で触れるだけで携帯電話のロックを解除できるようになりました。指紋、顔認識、虹彩はすべて、経験の問題を解決するために設計されています。

今年は、顔認証技術を最前線に押し上げた代表的な携帯電話が2機種発売されました。 1つ目は、今年上半期に発売されたSamsung S8です。Samsung S8は前面のシングルカメラロック解除ソリューションで、今年最も人気のある顔認証ロック解除ソリューションでもあります。2つ目はiPhone 10です。 iPhone 10 は、顔認証ロック解除の将来のトレンドを表す、前面の構造化光デュアルカメラロック解除ソリューションを採用しています。

では、今年、顔認証が携帯電話のロック解除の主流となった要因は何でしょうか?

最も重要な要素は工業デザインと製造技術の向上であると考えます。今年のフルスクリーンは工業デザインの主流となり、大きな指紋デザインは携帯電話の背面に移動され、指紋のユーザー体験の利点が減少しました。顔認識は、体験上の欠点を補うだけでなく、さらに重要なことに、顔認識にはカメラのみが必要であり、指紋のように多くの画面領域を占有する必要がないため、画面対ボディ比を大幅に高めることができます。

2 つ目の理由は、コストと利益の問題です。メーカーが携帯電話のような小さなスペースに指紋モジュールや虹彩モジュールを設置したい場合、犠牲にしなければならない携帯電話の内部スペース、つまりコストは莫大です。また、顔認識はカメラモジュール以外の内部スペースを占有しません。

3つ目は、チップ処理能力の向上と顔認識アルゴリズムの成熟です。ハードウェア レベルのアクセラレーション ソリューションを使用すると、携帯電話での顔認識アルゴリズムの実行速度を上げることができ、新しいライブネス テクノロジーにより顔のスキャンをより安全に行うことができます。これについては後で詳しく説明します。

5番目の理由は、カメラモジュール製造技術の進歩です。実は、構造化光は数年前から存在していましたが、携帯電話ほど小さいサイズにまで小型化されていませんでした。iPhoneは、このようなデバイスを発売した最初のメーカーです。構造化光に加え、通常の赤外線IOカメラ、TOFカメラ、カメラモジュールの小型化も含まれます。

最後の理由はユーザーエクスペリエンスです。顔認識で携帯電話のロックを解除する場合、協調操作を行う必要はありません。携帯電話を手に取るだけで直接ロックを解除できます。顔のスキャンは、薄暗い光、横顔、狭い領域の遮蔽など、一般的な干渉にも耐えることができます。これにより、顔スキャンはより優れたエクスペリエンスを備えた生体認証ソリューションになります。

ユーザー エクスペリエンスについて言えば、最も一般的な携帯電話のロック解除ソリューションのエクスペリエンスを比較してみましょう。

​​

​​

まず、データベース収集の点では、顔認証には 1 枚の写真のみが必要ですが、指紋認証には複数の写真が必要です。 Iris は比較的高速ですが、携帯電話を顔の前に持って数秒待つ必要があります。ロック解除の速度で言えば、顔認証ロック解除が最も速いです。携帯電話を手に取るだけで直接ロック解除できます。ただし、指紋をセンサーに押し当て、虹彩を目に合わせる必要があります。指紋ロック解除には、手が濡れていると指紋がまったくロック解除できない、手袋をはめているとロック解除できないなど、いくつかの一般的な干渉があります。虹彩のロックを解除する場合、コンタクトレンズの着用や直射日光に当たることも妨げとなります。顔認識には干渉シナリオもあります。たとえば、夜に家の中の照明がすべて消えている場合や、人がサングラスをかけている場合、双子がいる場合など、干渉が発生します。しかし、今では画面の明るさを上げるだけで顔のロックを解除できるようになりました。したがって、全体的な体験においては、人間の顔の方が有利です。

ユーザーエクスペリエンスについて話した後、顔スキャンが安全かどうかについて話しましょう。

一般的な生体認証には、指紋や虹彩に加えて、指静脈、強膜、網膜などの生体認証機能も含まれます。従来の生体認証はプライベートな特徴を収集するため、顔認証はより代替的な生体認証方法です。日常生活では写真を公開するのは簡単なので、それほどプライベートではないデータを収集します。

上の図に示すように、別の観点から見ると、人間の目ではこれらの指紋画像が同一人物のものかどうかを区別することは困難ですが、右側の画像が同一人物のものかどうかは簡単にわかります。私たちの脳には、顔認識に使用される紡錘状回と呼ばれる領域があります。紡錘状回の障害は一般に顔面失認として知られており、この病気の人は顔を認識することができません。上記の見解は、顔は他の生体認証よりもプライバシー性が低く、人間の脳による認識に適していることを示しています。したがって、ロック解除に顔認識を使用するには、より強力な真正性識別手段が必要です。

では、顔認識にはどのような技術が使われているのでしょうか?携帯電話のロックを解除するプロセスを見てみましょう。

最初のステップは、携帯電話を手に取ってビデオシーケンスのフレームを収集することです。このとき、これらのフレームに顔があるかどうかを検出し、顔を見つける必要があります。

2 番目のステップでは、目が開いているか閉じているか、頭の角度など、顔のいくつかの属性を分析して、ロック解除に適しているかどうかを判断します。たとえば、目を閉じているときに携帯電話のロックを解除するのは適切ではありません。誰かが私の携帯電話を持って写真を撮っていることになるからです。 3 つ目の技術は生体検知です。写真を使用して、電話を使用しているのがあなたなのか、それとも誰かがあなたの写真を使ってロックを解除しているのかを判断する必要があります。 4 番目の技術は顔認識です。データベース内の写真から抽出した顔の特徴とこのフレーム内の顔の特徴を比較して、同一人物のものであるかどうかを判断します。

​​

​​

顔認識については誰もが昔から耳にしているはずですが、実のところこの技術の歴史はそれほど長くありません。 2001年当時、顔検出はPC上でリアルタイムに実行できましたが、ディープラーニングは使用されていませんでした。 2005年、オムロンは初めてカメラに顔検出機能を組み込み、写真を撮る際にカメラが顔に焦点を合わせられるようにしました。 2012年、清華大学の同級生3人が協力してゲームアプリを制作しました。このゲームでは、頭を上下に振ることで主人公を操作します。これは顔のコントロールをベースにした最初のゲームでした。この3人の学生が私たちの3人の創設者です。携帯電話で顔認識アルゴリズムを実行できるようになったことは、以前のものに比べて大きな進歩です。 2015年、ジャック・マー氏はハノーバーメッセでアリペイの顔認識決済ソリューションを実演しました。ご存知のとおり、決済には非常に高いセキュリティ要件があります。このソリューションでは、顔検出、顔認識、さまざまな生体検出など、さまざまな顔検出技術が使用されています。しかし、このソリューションは今年まで商用化されていませんでした。ここ数年で、顔認証決済は急速に進歩しました。私たちは昨年、FaceIDという製品を発売しました。 Alipay や一部の金融商品を使用するとき、携帯電話がまばたきや首を振るなどの協力的な動作を要求してくることがあります。これが Face ID の機能です。まばたきや首を振る動作は顔認識には使われず、人が生きているかどうかを判断する生体検知に使われます。

では、生体検知とは何でしょうか?生体検知にはどのような技術が使用されていますか?

指紋と虹彩があれば、その人は生きていると言えるのでしょうか?彼は生きていません。指紋と虹彩だけでは不十分なので、その人がまだ「生きている」かどうかも判断する必要があります。たとえば、彼の指は暖かいですか?指の下の毛細血管に血液が流れていますか?これは生物が解決しなければならない問題です。したがって、あらゆる種類の生体認証方法は、実際には、人間が生きているかどうかを判断するための、人間に関する何らかの事前の知識に基づいていることがわかります。顔であれ、指紋であれ、虹彩であれ、私たちはこうした事前の知識に基づいて判断することしかできず、それはまるでチューブを通してヒョウを見るようなもので、大きな制限があります。

​​

​​

上の写真の通りです。より安全だと思われている指紋や虹彩も、実はハッキングされる可能性がある。指紋攻撃に関しては、数十元でシリコン型をオンラインで購入できます。所有者の指紋画像を入手してシリコン型に印刷することができれば、携帯電話のロックを解除できます。そのため、指紋モジュールは現在、指の現在の血流速度を判断して生きている人間であることを証明するなど、生物向けにも最適化されています。虹彩に関しては、高解像度の写真を印刷し、コンタクトレンズと併用すれば攻撃も可能となる。

ライブ顔認識技術では、昨年取り組んだオンライン金融シナリオで、いくつかの種類のライブ顔攻撃に遭遇しました。 1 つ目のタイプは、ある人物の顔を別の人物の顔に貼り付けるなど、顔を変える攻撃です。 2 つ目は、今年の携帯電話のロック解除攻撃に似た、画面を反転させる攻撃です。 3つ目は、3Dの偽の顔を計算して生成することで攻撃することです。金融シナリオの特殊性により、攻撃方法は無限にあります。私たちは、こうした攻撃から身を守るために、さまざまな種類のライブ アルゴリズムも開発しました。たとえば、現在操作されているオブジェクトが「生きている人」であるかどうかを判断するために、ユーザーに首を振ったり目を瞬きさせたりするように依頼する場合があります。

携帯電話のロックを解除するには、生存性に対するより高い要件が課せられます。ロックを解除するには、検査を完了するために携帯電話を手に取る必要があるため、ユーザーはドアのロックを解除するために首を振ったり目を瞬きしたりすることを好みません。携帯電話はどのようにして、これほど短時間で、協調動作なしでユーザーの真正性を判断できるのでしょうか?

​​

​​

上の3枚の写真のうちどれが実在の人物かわかりますか?

​​

​​

上記のものは比較的単純です。この写真はどうですか?

正解は、最後の2人は実在の人物です。 1 枚目は実際にはわかりにくいのですが、頬骨の上にマウス ポインターがあります。2 枚目は背景がぼやけた人物が写っていますが、実際のカメラでは背景がぼやけた人物は撮影できません。3 枚目は印刷して切り取り、カメラの前で撮影した写真です。4 枚目はスクリーン ショットです。

したがって、携帯電話のロックが解除されているときは予防策を講じる必要があります。まず、攻撃シナリオを定義する必要があります。

​​

​​

携帯電話に対する一般的な攻撃シナリオは、1 つ目は画面コピー攻撃、2 つ目は写真印刷攻撃です。

これら 2 つの攻撃シナリオでは、いくつかの脆弱性が捕捉されます。 1 つ目は、露出した境界線です。携帯電話の画面を撮影したり、写真を印刷したりすると、境界線が露出します。2 つ目は、ぼやけの問題です。携帯電話を非常に近づけて撮影すると、境界線は消えますが、写真はぼやけます。同様の問題としては、ピクセル、モアレ、携帯電話の画面の反射、変形、歪みなどがあります。

先ほど、マシンに大量の攻撃データを提供してトレーニングしました。マシンがさらに多くのデータを見ると、攻撃データがどれであるかを自然に識別できるようになります。したがって、最終的に機械が達成する生体防御のレベルは、人間の肉眼で判別できるこれら 6 つのシナリオをはるかに超えています。生体防御の点では、機械は人間の肉眼よりもはるかに信頼性が高いと言えます。

​​

​​

顔認識に関するよくある誤解をいくつか紹介します。

まず、次のような質問をよく受けます。顔認識のセキュリティ レベルをどのように評価しますか?指紋は何ポイントですか?安全基準は単純にパーセンテージの数値で測定できるものではありません。安全性を判断する基準はコストです。錠前を例に挙げてみましょう。クラス A 錠前の攻撃コストは 1 分以内に破られる可能性があり、クラス B 錠前の供給コストは約 5 分です。金庫室で使用されるクラス C 錠前は、破るのに 3 時間かかります。つまり、セキュリティ標準は実際には攻撃コストなのです。 iPhone X がより安全である理由は、顔認識率がシングルカメラの携帯電話よりも数パーセント高いからではなく、攻撃コストが高いからです。構造化光カメラはあらゆる平面攻撃を防御できるため、攻撃者は攻撃する前に 3 次元の顔モデルを作成する必要があります。

第二に、赤外線カメラはより安全でしょうか?

​​

​​

上図のように、画像に含まれるデータ量から判断すると、通常のカメラで収集される画像データの量は赤外線カメラよりもはるかに大きいため、一概に赤外線の方が安全とは言えません。しかし、赤外線カメラは確かにセキュリティを向上させることができ、そのセキュリティは主に RGB の補足に反映されます。私たちの肉眼では RGB 画像しか見えませんが、赤外線は目に見えません。赤外線画像により、どれが人間の顔でどれが携帯電話の画面であるかを効果的に区別することができます。さらに、赤外線ライトは暗いシーンでのロック解除をサポートし、体験にも役立ちます。

第三に、顔のキーポイントは顔の特徴と同じではありません。

​​

​​

上の写真のように左側がポイントです。 10 人の要点を比較すると、各人の要点は非常に似ているため、要点の比較はあまり信頼できないことがわかります。顔の特徴とは、顔に関するコード化されたデータの文字列を指します。これは多次元空間として考えることができ、各顔は多次元空間内の点です。顔の写真を複数集めると、それらは複数の点になります。点間の距離が近いほど、同一人物である可能性が高くなり、距離が遠いほど、同一人物ではない可能性が高くなります。これが私たちのロジックの計算方法です。

今年は、Appleを除いて、他のすべてのロック解除方法はロック解除レベルのソリューションです。支払いシナリオに遭遇した場合、それを完了するには、依然として指紋またはパスワードに頼る必要があります。私たちは、顔認証の未来は顔認証決済にあると信じています。支払いに関しては、特定のカメラ ハードウェア ソリューションだけがこのレベルのセキュリティを実現できます。たとえば、Apple が使用する構造化ライト。

構造化光デュアルカメラの主な原理は、構造化光送信機と受信機の位相差を通じて顔の深さを計算し、この深さに基づいて真偽を判断することです。したがって、構造化光ハードウェア自体は、画面や紙を含むすべての 2D 攻撃方法から防御できます。ただし、支払いシナリオの機密性のため、攻撃者は 3D プリントやシリコン膜などのより高価な攻撃方法を使用して所有者の財産を盗む可能性があります。 これらの生活上の問題を解決するには、私たちのようなアルゴリズム企業が必要です。

先ほども述べたように、顔認証決済は今年になって初めて実際に導入されました。杭州のKFC店舗に顔認識決済機が設置された。利用者は財布や携帯電話を持ち歩く必要がなく、機械まで走って顔をスキャンするだけで支払いが完了する。この決済装置の上部には構造化光カメラが設置されています。

体験と安全性の両方の問題を同時に解決するために、私たちは画期的な新しいライブテクノロジーを開発しました。具体的な原理を説明するのは不便ですが、以下の図をお見せしたいと思います。

​​

​​

上の写真のように、右上隅を見ると、左側の顔はシリコン製の立体的な顔で、2D の顔が印刷された紙を持っている実際の人物がいることがわかります。スペックル構造化光は、これらの材料に当たると光点を生成します。構造化光点の収集された画像を計算すると、どの材料がシリコンで、どの材料が人間の手であり、どの材料が紙であるかを効果的に判断できます。今後、携帯電話の顔スキャンによる支払いシナリオのセキュリティを向上させるための新しいテクノロジーがさらに登場する予定です。

将来を見据えると、顔スキャン決済のシナリオはあらゆる分野に拡大すると考えています。顔スキャンは協力や操作を必要とせず、ユーザーの認識なしに完了できるためです。そのため、オンラインでの決済だけでなく、新しい小売店や無人スーパーマーケットでのオフラインでも利用でき、顔スキャンを使用して決済の問題を解決できます。

<<:  TensorFlow を使用して Android デバイスでディープラーニング推論を実装する方法

>>:  畳み込みニューラルネットワークの簡単な説明

ブログ    
ブログ    

推薦する

大人気すぎてブレイク中! ByteDanceのGPT部門フローの秘密を解明

ノアが編集制作:51CTO テクノロジースタック(WeChat ID:blog) 「大規模な言語モデ...

2021年にはAI機能を導入する企業がますます増える

[[360047]]今年、ほとんどの企業は、新型コロナウイルス感染症による混乱に対処し、リモートワー...

ビデオ分析が物流と製造業の業務と安全性をどのように改善するか

[[400684]]製造品に対する世界的な需要が高まり続ける中、製造組織とサプライチェーン内のセキュ...

なぜ人工知能はテクノロジーの未来なのか?

人類の知恵はさまざまな文明を生み出してきました。人間の知能はさまざまな形態の人工知能を通じて強化する...

Anthropic が「GPT-4 のライバル」言語モデル Claude 2 をリリース: パフォーマンスが向上し、長いテキストもサポート

7 月 12 日のニュース、Anthropic は最近、新しい Claude 2 言語モデルをリリー...

2024年のITトレンド、予測、推奨事項

2024 年は、人工知能 (AI) を先頭に、革新的なテクノロジーにとってエキサイティングな年となる...

画期的なニューラルネットワークが量子AI研究への道を開く可能性

海外メディアの報道によると、イタリアの研究者らは最近、量子コンピュータ上で特殊なアルゴリズムを実行す...

...

考えてみると恐ろしいですね!人工知能は、成功率70%で人間の行動を操作することを学習したと疑われている。

人工知能に関しては、多くの人が懸念を表明しています。例えば、人類開発の最前線にいるホーキング博士とマ...

Hacker News のホットな話題: 利用できるパッケージが非常に多いにもかかわらず、プログラマーは依然としてアルゴリズムを学ぶ必要があるのでしょうか?

さまざまなアルゴリズムの実装やソフトウェア パッケージがオープン ソースで利用できる世界において、ア...

自然言語処理に加えて、単語埋め込み(Word2Vec)を使用してこれを行うこともできます。

機械学習の手法を使用して問題を解決する場合、適切なデータを持つことが重要です。残念ながら、生データは...

...