最後の顔認識画像の前処理では、前処理ステップを追加し、環境やその他の要因からの干渉を排除し、顔に焦点を当てて、認識効果を向上させました。 顔の比較は、2 枚の写真のグレースケール値マトリックス間の距離を計算することによって実現されます。画像の前処理により、さまざまな方法で 2 つのマトリックス間の距離が短縮され、計算結果の精度が向上します。 しかし、それで十分でしょうか?私たちの計算はピクセルのグレースケール値に基づいています。計算では、各ピクセルが操作に参加し、同等の重要性を持ち、結果に対して同じ貢献をします。この設計は合理的でしょうか? 計算の粒度が細かすぎて、結果の信頼性に影響していませんか? 直感的に、画像内のピクセルの重要性は異なるはずです。たとえば、目、鼻、口などのピクセルはより重要で、結果に大きな影響を与える必要があります。顔の中央のピクセルはそれほど重要ではないため、計算に含める必要もありません。 研究により、計算に不要なピクセルが実際に多数あることがわかっています。これらのピクセルを削除しても認識結果には影響しませんが、認識プロセスを高速化し、モデルの堅牢性を向上させることもできます。たとえば、ピクセルレベルの顔の比較では、画像にノイズを追加して認識エラーを引き起こすことで敵対的攻撃が行われます。 1. 顔の特徴従来の機械認識であれ、近年人気のディープラーニングであれ、それは人間の学習能力をコンピュータの計算力を通じて表現し、伝達することです。人の顔に注目したとき、その人をどのように表現するかを考えてみましょう。考えられる説明は次のようになります: 人間は強い抽象的思考力と学習能力を持って生まれます。顔の写真を見ると、その特徴が自動的に処理され、変換されます。この写真をもう一度見ると、顔の特徴が変形していたり欠けていたりしても、認識に影響はありません。 人間の抽象化、変換、補完の能力は、コンピュータに欠けているものです。人間の目の認識方法を模倣し、コンピュータが鼻や口などの重要な特徴に注意を向けるようにすることで、ある程度の知能を獲得することができます。 コンピュータが情報を保存する際には、顔全体ではなく、目、鼻、口などの顔のパーツが保存されます。これらのパーツを比較して、同じ物体であるかどうかを判断します。この方法は、顔の主要な特徴に基づいた認識技術と呼ばれ、通常はエッジと輪郭の検出によって実現されます。 2. エッジ検出Edgeとは何ですか?一般的には、目や鼻などの外部の輪郭を指します。グレースケール画像では、グレースケール値が大きく変化するポイントです。これらの変化は、画像の重要性や画像に含まれる情報を反映しています。 直感的に、画像の端に近い値は明らかなセグメンテーションを示し、グレースケール値が大きく変化しますが、画像のより滑らかな部分ではグレースケール値の変化は小さくなります。コンピュータでは、グレースケールの変化を通じて画像情報のエッジ検出を行うことができます。 これには数学的な理論があり、変化の速度を表すために一般的に勾配が使用されます。画像のグレースケールの変化には方向と大きさの両方があるため、画像の勾配を使用してこの変化を記述し、画像のエッジを検出できます。 数学的には、勾配には大きさと方向があり、微分可能であるなどの特定の条件が必要です。画像では、処理は一般的に簡略化され、演算子によって置き換えられます。 演算子は実際には一種のフィルターですが、演算子を使用すると、その数学的な意味と特定の目的が強調されます。現在一般的に使用されているエッジ検出演算子には、Sobel、ラプラシアン演算子、Canny などがあります。 Canny エッジ検出について簡単に説明しましょう。 優れたエッジ検出 Canny エッジ検出は、1986 年にオーストラリアのコンピューター科学者 John F. Canny によって開発されたマルチレベル エッジ検出アルゴリズムです。その目的は、最適なエッジを見つけることです。最適なエッジの定義は次のとおりです。 最適な検出 - アルゴリズムは画像内の実際のエッジを可能な限り多くマークすることができ、検出漏れや誤検出の可能性は非常に低くなります。 1) 画像のノイズ除去 ノイズはエッジ検出の精度に影響を与える可能性があるため、通常はガウス フィルタリングを使用して最初にノイズを除去する必要があります。 2) 勾配の大きさと方向を計算する 計算にはガウス フィルターが使用され、中心点に近いピクセル ポイントほど重みが大きくなります。 3) 勾配非最大抑制 ピクセル ポイントを走査して、現在の画像が局所的最大値であるかどうか、つまり周囲のピクセル間で同じ勾配方向を持つ最大値であるかどうかを判断します。そうでない場合は、画像のエッジ ポイントではないため、エッジを「細く」するためにグレー値が 0 に設定されます。 4) ダブルしきい値アルゴリズムを使用して最終エッジを決定する 前の手順を実行すると、画像のエッジが基本的に取得され、取得されたエッジが修正されます。 高しきい値と低しきい値の 2 つのしきい値を設定します。高いしきい値より高いエッジは保持され、低いしきい値より低いエッジは削除されます。中間の接続は再度処理され、他のエッジに接続されている部分のみが保持されます。 3. 輪郭検出演算子によって計算されるエッジは一般に不連続であり、比較的完全で閉じたターゲット輪郭を形成することは困難であるため、抽出された特徴は効果的でない可能性があります。輪郭検出アルゴリズムを使用することで、背景やターゲットの内部テクスチャやノイズ干渉の影響を無視し、エッジを洗練して接続し、明るさモデリングでは検出できないテクスチャ境界を解決することができます。 特別に設計された検出演算子を使用するなど、輪郭検出のためのいくつかの方法もあります。これらの演算子を使用することで、より優れた顔の特徴を生成することができ、後続の計算や比較に役立ちます。 4. 実施プロセス上記では顔の主要な特徴の計算方法について簡単に説明しました。実際のアプリケーションでは、統計分析技術を使用して多数の顔から対応する特徴を見つけ、口分類器、目分類器などのさまざまな分類器をトレーニングして、顔と重要な部分の検出を実現する必要があります。 比較を行う際には、顔が含まれる可能性のあるすべての検出ウィンドウを網羅的に検索し、キーパーツ情報を取得して保存または比較する必要があり、このプロセスは比較的時間がかかります。比較プロセス中に、各部分を類似性比較に使用して結果をマージしたり、各コンポーネントを含むグローバル機能を直接比較して比較結果を直接出力したりできます。 これら 2 つの方法は、人間の認識プロセスにも対応しています。研究によると、子供はターゲットの特定の局所的な特徴に基づいてターゲット (顔など) を認識することが多いのに対し、大人はターゲット全体を記憶することに重点を置いています。 顔の特徴の検出は、画像の前処理の手段としても使用できます。2 つの目の位置を決定し、2 つの目の間の距離を取得すれば、顔のスケールを取得でき、スケールを標準化して、人物とコレクターの間の距離の問題を解決できます。 V. アルゴリズムの評価理論的には、顔の主要な特徴は比較的安定しており、顔、方向などに対する要件はそれほど多くありません。アルゴリズムによって抽出された特徴は、オブジェクトの特性を正確に反映し、一定の不変性を備えているため、出力結果の一貫性が保証され、さまざまな初期のアプリケーション シナリオでの顔認識の使用に対応できます。 もちろん、ここでのオペレータ設計とモデル構築はどちらもドメイン知識のサポートが必要です。演算子の構築、特徴の抽出、モデルの構築はすべて最終的なマッチング結果に影響し、深い専門知識と経験が必要です。このプロセスは、多くの場合、手動モデリングによって完了します。各モデルとパラメータの設定には時間がかかり、ある程度の主観性があります。 同時に、特徴エンジニアリングの適応性は低いです。例えば、異なる地域の人々の顔の特徴は異なるため、すでに調整されたアルゴリズムを実装する場合、パラメータを手動で複数回調整する必要があります。このプロセスは時間がかかり、労力もかかるため、アルゴリズムの大規模な展開を著しく妨げます。 しかし、表面的には、顔の主要な特徴に基づく認識方法には多くの欠点があり、効率も低くなります。しかし、このアルゴリズムは人間の事前知識から始めることができ、直感的でシンプルです。ある程度、顔認識技術の発展と普及を促進し、その後のよりインテリジェントなアルゴリズムの基礎を築きました。 |
<<: 魔法の顔認識: たとえマスクやサングラスをかけていても、身近な人を認識できるのはなぜでしょうか?
[[337768]]現在、世界中のあらゆる部門が人工知能(AI)の研究を行っています。 AI の画...
四足歩行ロボットはもはや誰にとっても馴染みのない存在ではないはずです。ほとんどの人はメディアや企業の...
人工知能に対する人々の熱意が高まり続けるにつれ、新しく発売された製品は世界中の人々から大きな注目を集...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
翻訳者注:人工知能分野の発展は学者の貢献と切り離せないものです。しかし、研究が進むにつれて、「クリッ...
[51CTO.com クイック翻訳] この記事では、顔認識や画像認識、テキスト分析、自然言語処理 ...
Microsoft は、生成型人工知能ベースのデジタル アシスタント Copilot をより多くのソ...
科学技術分野における人工知能技術に関する議論は最高潮に達したようだ。昨年半ば、国務院は「新世代人工知...
自動車のインテリジェンスの急速な発展に伴い、新たなスマートな運転体験を実現し、スマートな移動を再定義...
IBM は、ガートナー社の 2021 年版クラウド AI 開発者サービス マジック クアドラントお...
クラウド通信および顧客エンゲージメント プラットフォームである Twilio が発表した新しい調査レ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...