顔認識はどれくらい強力ですか? AIFRテクノロジーはあなたを数分で「スター」に変えます

顔認識はどれくらい強力ですか? AIFRテクノロジーはあなたを数分で「スター」に変えます

[[195170]]

[51CTO.com からのオリジナル記事]最近、私たちの画面には、「どの有名人に一番似ているか?」「将来の自分の姿を予測して?」「年齢差を見て?」など、顔の比較に基づいた写真が頻繁に溢れています...

図[1]

図[1]に示すように、これは「どの有名人に最も似ていますか?」アプリによって作成された比較写真です。この比較プロセスを見ると、その背後にどのような技術が使用されているのかが気になります。最初に思い浮かぶのは、顔認識と美しさです。しかし、詳細は...以下は、質問に回答し、疑問を解決するために専門家が示した正しい姿勢です。興味のある人のために!

顔認識技術の基本的なプロセス

現在、顔認識技術の詳細は無数にあり、工学技術も多様ですが、基本的なプロセスは定式化されています。人物の写真を入力すると、顔検出技術を使用して顔の位置を見つけ、これに基づいて目や口などのキーポイントを見つけ、次にいくつかの幾何学的および光学的補正を実行して顔の特徴を抽出し、顔認識を実現します。

各社の違いは、数点から100点近くまで及ぶキー抽出の数と、各リンクの詳細の追求にあります。

「あなたはどの有名人に一番似ていますか?」この画像(図1~図2)は顔検出技術を使用しています。いくつかのアルゴリズムに基づいて顔の位置を特定して抽出し、少数のキーポイントの検出技術も使用しています。このプロセスでは、さまざまな年齢の人々の写真や顔画像をどのように識別するかが研究する価値のあるポイントです。

年齢不変の顔認識は、学術界では年齢不変の顔認識 (AIFR) として知られています。AIFR テクノロジーは、同じ対象および年齢層の顔画像を認識できます。

AIFR技術は年齢変化に関係なく使用される

顔の特徴は年齢とともに変化する

人の顔の特徴は年齢とともに大きく変化します。グラフィックスの観点から見ると、この変更は輪郭の変更とテクスチャの変更に分けられます。

輪郭の変化とは、顔の特徴や顔の形の空間的な位置や構造的特徴の変化を指します。たとえば、赤ちゃんの顔は一般的に丸みを帯びた滑らかな輪郭をしていますが、大人になると楕円形、四角形、メロンシード型など、より多様な顔の形に成長し、顔の特徴がより立体的になります。

テクスチャーの変化とは、人間の顔の表面の肌の質感の変化を指します。赤ちゃんの肌は丸く、繊細で滑らかですが、大人の肌はより粗く、しわが多い傾向があります。

こうした輪郭や質感の変化は、人間が正確に理解することが難しい場合がよくあります。現在、人工知能技術の発展により、AIFR技術は徐々に成熟してきました。

AIFR技術の2つの主要モデル

現在、AIFRには多くの技術的な方向性がありますが、一般的には生成モデルと識別モデルの2つのタイプに分けられます。

生成モデル

生成モデルの基本的な考え方は、加齢による人間の顔の変化が特定のルールに従うと仮定し、数学的手法を使用して変化のルール自体を解くことです。パターンを理解した後、アルゴリズムは特定の年齢の顔の特徴に基づいて他の年齢の顔の特徴を生成できます。

図[1]を例にとると、具体的な実装手順は次のようになります。

  • 顔の輪郭特徴Sとテクスチャ特徴Tをそれぞれ抽出する
  • キャリブレーションと平均化
  • 顔の特徴の数学的モデルを確立し、モデルパラメータを解いて生成モデルを取得する
  • 予測する人物の顔の特徴を入力します
  • 生成モデルを使用して、この人物の別の年齢の顔の特徴を予測する
  • 輪郭特徴とテクスチャ特徴を再統合する
  • 実際の未来の顔と比較することで、同一人物なのか類似人物なのかを知ることができます。

判別モデル

判別モデルは生成モデルとは異なります。判別モデルは、人間の顔の変化するパターンの問題を解決しようとはしません。判別モデルは、顔の特徴の一部は年齢とともに変化しないと仮定し、年齢に依存しないこれらの特徴を使用して顔のアイデンティティを決定します。

図[2]

図[2]は、ディープラーニング技術を使用して年齢以外の特徴を抽出する方法を示しています。

最初の列は、同じ人物の異なる年齢S1、S2、S3の写真です。

畳み込みニューラルネットワークを通じて、システムは固定された特徴の顔の組み合わせS'を使用して元の画像を表す。

例えば:

固有面の組み合わせが隠れ因子アナライザーに入ると、この固有面に最も近い組み合わせのみが選択されます。

例えば:

3列目の顔の類似性はすでに非常に高いことがわかります。

顔認識の時代が到来:顔認識技術の代表的な用途

前述の小規模なアプリケーションに加えて、顔認識はますます広く使用されています。あらゆる分野で、顧客体験を向上させ、サービス レベルを最適化するために顔認識を使用しようとしています。ただし、顔 ID 認識と顔 ID 認証という 2 つの主要なカテゴリにまとめることができます

表面的には両者は似ているように見えますが、技術的な原理は異なります。顔認識は人々の集団の中であなたが誰であるかを識別するものであり、顔認証はあなたがあなた自身であるかどうかを確認するものです。代表的な用途は次のとおりです。

顔認識

  • VIP顔認識。このアプリケーションは、群衆の中にいる VIP 顧客を自動的にキャプチャして識別し、音声で挨拶したり、バックエンドを通じて関係するスタッフに通知したりすることもできます。
  • フェイスブラックリスト。このアプリケーションは、主要なチャネルに顔のブラックリストを設定し、主要な容疑者などを自動的に識別し、発見されると自動的に警察に通報することができます。

顔認証

  • 金融業界。この分野には、顔スキャンログイン、リモート顔アカウント開設、セルフサービスの顔カード開設など、多くのアプリケーションがあります。顔認識を大規模に適用した最初の銀行は、中国民生銀行です。同銀行は2014年初頭に顔認識プラットフォームの導入を開始し、ビジネスホール、セルフサービス機器、カウンターシステム、モバイルマーケティングに顔認識を適用しました。

これらは本人認証の補助手段です。これまでは、どのようなアプリケーション シナリオであっても、本人認証には ID カードと本人を手動で比較する方法と、ID カードのみを認証する方法の 2 つの方法しかありませんでした。ID カードのなりすましや他人の ID カードの盗難などの問題が発生しやすかったです。顔認識はこれらの問題をうまく解決します。

  • 社会保障業界。代表的な例としては、遠隔資格認証が挙げられます。従来は、被保険者の生活状況を証明するために、職員が現場で資格認証を行う必要がありましたが、高齢であったり、移動が困難であったり、自宅から遠く離れて住んでいる被保険者にとっては特に不便なものでした。

顔認識はリモートで顔の本人認証を実行できますが、写真詐欺を防ぐために、通常は生体検出ステップが追加されます。

  • 教育業界。主に大学入試、成人試験、人事試験などにおいて、指紋認証や顔認証などの生体認証技術を使用して受験者の本人確認を行うことで、本人と証明書の整合性を確保し、試験の公平性を確保することができます。

顔認識には依然としてセキュリティ上のリスクがある

顔認識は万能ではありません。技術の背後には依然としてリスクと抜け穴があります。たとえば、シミュレーションヘッドギア、ホログラフィック投影、顔追跡などが継続的に登場しており、単一の顔認識技術には大きな制限があり、セキュリティ要因は技術コンポーネントに比例していません。

したがって、プライバシーや支払いなどに関わる高度なセキュリティのシナリオで使用する場合は、顔認識技術のみを使用するのではなく、顔と声紋、指紋、虹彩などの生体認証信号を必ず統合してください。これにより、セキュリティ要素が大幅に向上します。

参考文献:

[1]Park U、Tong Y、Jain A K. 年齢に依存しない顔認識[J]。IEEEパターン分析および機械知能に関する取引、2010、32(5):947-954。

[2] Wen Y、Li Z、Qiao Y. 潜在因子誘導畳み込みニューラルネットワークによるフォーレージ不変の顔認識[C]//Proceedings of the IEEE Con​​ference on Computer Vision and Pattern Recognition. 2016: 4893-4901.

[[195175]]

李吉

CloudIn のプロダクト マネージャー

オーストラリアのウーロンゴン大学でコンピュータサイエンスの修士号を取得。Computer World、Changhe Netcomなどの企業でプロダクトマネージャーやオペレーションマネージャーとして勤務し、8年間の製品経験を持つ。現在は北京雲英伝説技術有限公司でビッグデータプロダクトマネージャーとして勤務。彼は、ディープラーニングとマシンビジョンの分野で中国の公安とサイバースペース管理局に関連するいくつかのプロジェクトを主導しており、人工知能技術を通じて社会にさらなる価値を生み出したいと考えています。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  人工知能時代の倫理的枠組み

>>:  TensorFlow を使用したコンテキスト チャットボットの実装

ブログ    
ブログ    
ブログ    

推薦する

OpenAI: GPT-5が危険すぎる場合、理事会はアルトマンの釈放を阻止する権利がある

OpenAIは新たな発表を行った。取締役会はアルトマン氏の決定を拒否する権限を持つようになった。特に...

ハッカーがトレーニングデータセットを汚染し、AIモデルが「犬を入力して猫を生成」できるようにするNightshadeツールを公開

10月25日、AIの大規模モデルトレーニングデータソースの著作権問題は、常に業界にとって頭痛の種とな...

...

...

機械学習の参入障壁が下がり、機械学習エンジニアのポジションがなくなる可能性も

機械学習エンジニアチームの責任者であり、Looker の最高製品責任者でもある彼は、10 年を超える...

変革の成功を推進する 4 つの AI コア原則

新しいプロジェクトは従業員に恐怖心を引き起こす可能性があり、変更が導入される全体的な文化は、その恐怖...

...

総合異常検知の新たな夜明け:華中科技大学などがGPT-4Vの総合異常検知性能を明らかに

異常検出タスクは、通常のデータ分布から大きく逸脱した外れ値を識別することを目的としており、産業検査、...

130年の歴史を持つアメリカのブランド、カーハートがAIを活用して売上を伸ばす方法

戦略的利益のために AI を活用している企業の中に、アメリカの衣料品会社 Carhartt がありま...

機械学習ソート入門 LTR - 線形モデル

[[207418]]多くの検索専門家は、「機械学習を通じて最適な重みを取得し」、それを検索クエリに使...

企業は AI、IoT、AR、VR、ブロックチェーン、ビッグデータをどのように活用して顧客を維持できるでしょうか?

企業は、顧客維持率と顧客体験を向上させ、競合他社に負けないようにするために、人工知能 (AI)、モノ...

機械学習におけるモデル展開とは何ですか?

機械学習におけるモデルのデプロイメントとは、機械学習モデルを既存の運用環境に統合し、入力を受け入れて...

今度のブレイン・コンピューター・インターフェースは人間の脳内の画像をリアルタイムで読み取ることができるのでしょうか?

脳コンピューターインターフェースは、言語の読み取りに加えて、人間の脳内の画像をリアルタイムで読み取る...

海雲捷迅2018ビッグデータ博覧会ツアー——2018ビッグデータ博覧会人工知能世界大会決勝戦が終了

5月25日、2018年中国国際ビッグデータ博覧会人工知能世界大会決勝戦が予定通り貴陽で開催され、世界...