5 分間の技術講演 | 顔認識についてどれくらい知っていますか?

5 分間の技術講演 | 顔認識についてどれくらい知っていますか?

パート01 顔認識技術の概要

顔認識技術は生体認証技術の一種で、人物の顔の特定の特徴(目、鼻、口、眉毛など)に基づいて人物を自動的に識別する技術です。顔認識、肖像認識、容姿認識、顔認識などとも呼ばれます。主にカメラやビデオカメラを使用して顔を含む画像やビデオストリームを収集し、顔検出技術を使用して顔があるかどうかを分析します。顔がある場合は、顔の位置、サイズ、主要な顔器官の位置に関する情報を提供します。次に、この情報に含まれる識別特徴を抽出し、既知の顔の特徴と比較して、各顔の識別を行います。


写真

パート02 顔検出

顔検出は、顔認識および顔分析システムの最初の重要なステップです。主に「顔はどこにあるのか」という問題を解決し、画像内の顔の位置とサイズを正確に調整し、その後の顔の特徴分析と認識に提供します。初期の顔検出作業は、主に手動で設計されたローカル記述子に基づく特徴抽出に基づいており、知識ベースの顔検出方法、モデルベースの顔検出方法、特徴ベースの顔検出方法、外観ベースの顔検出方法の 4 つのカテゴリに分けられます。その中でも、より古典的な作業には、Haar カスケード分類器と HOG (Histogram of Oriented Gridients) 特徴検出アルゴリズムがあります。しかし、従来の検出では、複数の変動要因がある難しい画像に対する顔検出の精度が限られています。


写真

図 WIDER FACE: 顔検出ベンチマーク

ディープラーニングの活発な発展に伴い、主にカスケード CNN モデル、R-CNN モデル、シングルショット検出器モデル、特徴ピラミッドネットワークモデル、Transformers モデルなどに基づく、さまざまなディープラーニングアーキテクチャに基づく多くの顔検出方法が徐々に進化し、特徴抽出、精度、スケーラビリティの面で従来の顔検出と認識が大幅に向上しました。 MTCNN は、優れた顔検出モデルの 1 つです。このモデルは、3 段階の深層畳み込みネットワークを通じて、顔とランドマークの位置を大まかから細かく予測します。具体的な手順は次のとおりです。ステージ 1: 浅い CNN を通じて候補ウィンドウをすばやく生成します。ステージ 2: より複雑な CNN を通じて多数の顔以外のウィンドウを拒否することでウィンドウを絞り込みます。ステージ 3: より強力な CNN を使用して結果を再度絞り込み、5 つの顔のランドマークの位置を出力します。

パート03 顔の特徴

顔の特徴は、顔の表現とも呼ばれ、顔の長さ、顔の幅、唇の幅、鼻の長さなど、顔の特定の特徴です。顔の特徴抽出は、顔の特徴をモデル化してベクトル化された顔の特徴を取得するプロセスです。顔の特徴抽出は、その技術的特徴によって、大域情報に基づく全体論的手法、局所情報に基づく局所的特徴手法、ディープラーニングに基づく手法の 3 つに大別できます。ディープラーニングに基づく顔の特徴は、データセットから特徴を自動的に学習できます。データセットが十分に堅牢なデータ(照明、姿勢、表情など)をカバーできる場合、アルゴリズムはさまざまな課題に適応できます。これは、現在主流の顔の特徴抽出方法でもあります。


写真

パート04 顔認識

顔認識は顔を比較するプロセスです。2 つの顔の類似性は、抽出された顔の特徴を比較することによって得られます。判断方法は、2 つの特徴間のユークリッド距離 (L2 距離) またはコサイン距離 (コサイン距離) を比較することです。L2 距離が小さいほど類似性が高くなります。コサイン距離の角度が小さいほど、コサイン距離が大きいほど類似性が高くなります。アライメント数に応じて、1:1 と 1:N に分けられます。最も一般的な 1:1 シナリオは、高速鉄道に乗るときに遭遇する機器などの人物と文書のマッチングです。 1:N は、1 つの顔をデータベース内の N 個の顔と比較することを意味します。たとえば、出勤管理マシンの場合、顔データベースには会社全体の顔写真がすべて含まれています。

<<:  5分間の技術講演 | GPU仮想化に関する簡単な講演

>>:  2時間で人間を超えることができます! DeepMind の最新 AI が 26 の Atari ゲームをスピードラン

ブログ    

推薦する

...

2022年の人工知能産業の10大発展トレンド

電子ファンネットワークが報じた(文/李婉婉)近年、技術の継続的な進歩に伴い、人工知能産業は急速に発展...

AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年...

Kafka のバイナリ検索アルゴリズムの改善

[[356205]]私は最近、Kafak のソース コードをいくつか研究し、Kafak の改良された...

...

あなたの頭上に「ロボット」がやって来ます!起業家の知恵:リアルタイムで位置を特定し、自動的に警報を鳴らすスマートヘルメットの開発

[[317160]]建設作業中には、火災、電気、機械など、多くの潜在的な安全上の危険が存在します。安...

経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。

大規模モデルの出現は、インテリジェントエージェントの設計に革命的な変化を引き起こしました。ChatG...

エア入力方式!浙江大学の最新研究:空中で指を動かすことでスマートウォッチにテキストを入力できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ギャップを埋める:AI時代のデータセンターの変革

ハイパースケールかエンタープライズかを問わず、現代のあらゆるデータセンターは、より広範なイノベーショ...

科学記事:強化学習後、ロボット学習のボトルネックをどう突破するのか?

[[340407]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

ニューラルネットワークにおける量子化と蒸留

この記事では、ディープラーニングにおけるモデルを合理化する技術、量子化と蒸留について詳しく説明します...

1つの命令を使用してGPT-3.5またはLlama 2を微調整する方法

ChatGPT や Llama 2 などの大規模言語モデル (LLM) は、さまざまなタスクでの汎用...

アルゴリズム、データ、機械学習機能... AI スタートアップの堀とは何でしょうか?

[[207684]]投資家が最も注目する点の一つは、起業家が独自の堀を見つけているかどうかだ。そし...

...