画像処理のためのディープラーニング入門:耳のバイオメトリクスは注目の研究トピックとなっている[1]。最近のチャレンジである「制約なしの耳認識チャレンジ」[2]は、耳の画像から人物を認識することの難しさを示しています。耳の画像から得られるアイデンティティ関連情報を補足するために、年齢や性別情報などのソフトバイオメトリクスを活用することが補助的な手段となる可能性がある。この目的のために、本論文では、耳の画像における年齢と性別の分類のタスクを広範囲に調査します。 生体認証の特徴は、時間の経過とともに大きく変化せず、簡単に取得でき、各個人に固有であることが期待されます[3]。耳は、そのいくつかの特性により、生体測定研究や法医学的識別にとって重要な手段です。たとえば、顔の外観は表情やひげ、化粧の変化によって影響を受けますが、耳の外観は比較的一定です。耳介も顔の特徴の一つである。[4]耳の部位の中でも、耳たぶは法医学のケースで最も頻繁に使用される部位です。耳の中で唯一、成長し続け、形を変え続ける部分です。[5]防犯カメラで撮影された画像では、顔全体または一部が覆われていても耳が見えるため、識別のための補助情報として使用できます。さらに、横顔を見ると、耳はビデオ録画や写真から簡単に捉えることができます[6]。 耳画像を用いた耳認識に関する研究は数多く行われているが[1]、[6]、耳画像からソフトな生体認証特徴(年齢や性別など)を抽出する研究は限られている。私たちの知る限り、この研究は耳の画像から年齢を分類する最初の研究です。しかし、性別の分類のための耳の画像に関する先行研究はいくつかあります。 [7]では、耳の穴が測定の基準点として使用されています。マスクされた耳の画像から識別された耳の穴と耳の 7 つの特徴間のユークリッド距離を計算しました。彼らは実験のために342個のサンプルからなる社内データベースを使用しました。彼らは、ベイズ分類器、KNN 分類器、ニューラル ネットワークを使用しました。 KNN は 90.42% の分類精度で最高のパフォーマンスを達成しました。 [8]では、プロファイルの顔画像と耳画像を別々に使用し、ヒストグラム交差カーネルを備えたサポートベクターマシン(SVM)によって分類しました。彼らは、精度を向上させるために、ベイズ分析に基づくスコアレベルの融合を実行しました。実験にはUNDバイオメトリックデータセットF[11]の2D画像が使用された。融合の結果、精度は 97.65% となり、顔のみのパフォーマンスは約 95.43%、耳のみの精度は約 91.78% となりました。文献[9]では、ガボールフィルタを使用して特徴を抽出し、辞書学習に基づいて抽出された特徴を使用して分類が行われています。辞書はトレーニング サンプルに基づいて構築され、テスト フェーズでテスト サンプルをトレーニング データの線形結合として表すために使用されます。外観、姿勢、照明の大きなバリエーションを含むUNDバイオメトリックデータセットJ [11]が実験に使用されました。 128 個の特徴を使用することで、報告された最高の精度は 89.49% でした。 [10]では、2Dおよび3Dの耳の画像に対して性別の分類が行われています。 3D の耳は自動的に検出され、位置合わせされます。実験はUNDデータセットFとJ2 [11]で実施された。インデックス付けされた形状のヒストグラム特徴が SVM によって抽出され、分類されます。システムの平均パフォーマンスは 92.94% です。 本稿では、耳の画像の年齢と性別の分類に関する広範な分析を紹介します。耳を表現するために、幾何学的特徴と外観ベースの特徴の使用を検討しました。幾何学的特徴は、耳にある 8 つのランドマークに基づいています。これらのランドマークから特徴を抽出するために、ランドマーク間の 14 種類の距離を計算し、2 つの面積計算を実行しました。これらの抽出された特徴を分類するために、回帰分析、ランダム フォレスト、サポート ベクター マシン、ニューラル ネットワークの 4 つの異なる分類器が採用されています。 外観ベースの手法は、AlexNet [12]、VGG-16 [13]、GoogLeNet [14]、SqueezeNet [15]などのよく知られた深層畳み込みニューラルネットワーク(CNN)モデルに基づいています。彼らは、最初はドメイン適応を行うために大規模な耳のデータセットで微調整を行い、次に小規模なターゲットの耳のデータセットで微調整を 2 回行いました。実験では、外観ベースの方法が幾何学的特徴ベースの方法よりも優れていることが分かりました。性別の分類では 94% の精度を達成し、以前の研究で達成された精度を上回りました。年齢分類では52%の精度が得られました。要約すると、この論文の貢献は次のようになります。 •耳の画像における年齢と性別の分類のために、形状と外観に基づく特徴を調査しました。 •幾何学的特徴については、耳の8つのランドマークポイントを使用し、そこから16の特徴を導き出しました。 •外観ベースの手法では、Multi-PIE顔データセット[17]のシルエットとクローズアップ顔画像から構築された大規模な耳データセット[16]を使用しました。このようにして、私たちはよく知られている CNN モデルを効果的に移転し、その恩恵を受けて目の前の問題を解決しました。 •性別の分類において、以前の研究に比べて優れたパフォーマンスを達成しました。耳の画像から年齢を分類する最初の研究を紹介します。 ディープラーニングフロンティアアルゴリズムの性別分類結果: 性別分類結果を表 4 に示します。表の最初の列には分類子の名前が含まれ、2 番目の列には対応する分類精度が含まれます。どの関数が使用されているかを読者に思い出させるために、関数の種類が 2 番目の列の括弧内に表示されます。表から、外観ベースの方法が幾何学的特徴を利用する分類器よりも優れていることがわかります。正しい性別分類の確率レベルが 50% であることを考慮すると、幾何学的特徴を使用して得られる結果は非常に貧弱です。このパフォーマンスの低下の主な理由の 1 つは、幾何学的特徴に適用された正規化手順である可能性があります。正規化プロセス(特徴の平均をゼロ、分散を 1 にする)中に、性別に関する識別情報が失われた可能性があります。したがって、正規化の影響についてはさらに分析する必要があります。外観ベースの方法では約 90% の精度が達成されています。最高のパフォーマンスはGoogLeNetアーキテクチャ[14]を使用して達成され、分類精度は94%でした。この精度は、耳の画像における性別の分類に関するこれまでの研究で達成された性別の分類精度を上回っています[7]、[8]、[9]、[10]。表 5 にこれらの方法の比較を示します。全体的に、これまでの調査結果と一致して、耳の画像は対象者の性別を分類する上で有用な情報を提供することがわかりました。 ディープラーニングフロンティアアルゴリズムの年齢分類結果: 年齢分類結果を表 6 に示します。最初の列には分類子の名前が含まれ、2 番目の列には対応する分類精度が含まれます。どの関数が使用されているかを読者に思い出させるために、関数の種類が 2 番目の列の括弧内に表示されます。幾何学的特徴に基づく方法と外観に基づく方法の間のパフォーマンスのギャップは非常に小さいです。しかし、外見に基づく方法が再び優れていることが判明しました。幾何学的特徴を使用すると、3 つの隠し層ニューラル ネットワークとロジスティック回帰で最高のパフォーマンスが達成され、精度は 43% になります。 GoogLeNetアーキテクチャを使用した外観ベースの方法[14]は、52%の分類精度で最高のパフォーマンスを達成しました。性別分類で達成されたパフォーマンスと比較すると、年齢分類の精度は比較的低いです。この結果の理由として考えられるのは、各年齢層のサンプル数が限られていることです。年齢別クラス数が多いため、クラスあたりのサンプルサイズは小さくなります。データセットを拡張し、結果をさらに分析する予定です。幾何学的特徴ベースの方法と外観ベースの方法で得られる精度は非常に近いため、これら 2 つの方法を組み合わせることもパフォーマンスを向上させるもう 1 つの方法となる可能性があります。全体的に、外観は地理的特徴に比べて多くの情報を提供するため、年齢や性別の分類にはより有用であることがわかっています。 ディープラーニングフロンティアアルゴリズムの結論: この論文では、耳の画像の年齢と性別の分類について詳細な研究を行いました。私たちの知る限り、この研究は耳の画像を使用して年齢を分類した最初の研究であり、性別の分類に耳の画像を使用する数少ない研究の 1 つです。この研究では、耳を表現するために幾何学的特徴と外観ベースの特徴を採用します。耳にある 8 つの人体計測上のランドマークについて幾何学的特徴が計算され、14 の距離測定と 2 つの面積計算が含まれていました。これらの特徴は、ロジスティック回帰、ランダム フォレスト、サポート ベクター マシン、ニューラル ネットワークの 4 つの異なる方法を使用して分類されました。外観ベースの方法は、深層畳み込みニューラル ネットワークに基づいています。よく知られているCNNモデル、すなわちAlexNet [12]、VGG-16 [13]、GoogLeNet [14]、SqueezeNet [15]が研究に採用されてきました。 これらを効果的に実際のタスクに適用するために、まず、Multi-PIE顔データセット[17]で利用可能な横顔と人間に近い顔画像から構築された大規模な耳データセットで微調整されます。その後、更新されたモデルは、小規模なターゲット耳データセットで再度微調整されました。実験の結果、外観ベースの方法が幾何学的特徴ベースの方法よりも優れていることがわかりました。性別分類では 94% の精度、年齢分類では 52% の精度を達成しました。これらの結果は、耳の画像が年齢と性別の分類に役立つ手がかりを提供することを示唆しています。しかし、幾何学的特徴を使用した性別の分類にはさらなる作業が必要です。性別の分類では、幾何学的特徴は正規化の影響を受けやすいことが指摘されています。したがって、より優れた標準化スキームを検討する必要があります。年齢推定の場合、パフォーマンス低下の主な原因は、各年齢層に対するトレーニング サンプルの数が十分でないことであると考えられます。データセットを拡張し、より多くのサンプルを使用して年齢分類システムをトレーニングする予定です。また、UND-FやUND-J2 [11]などの一般的に使用されるデータセットで実験を行って比較することも目的としています。さらに、幾何学的特徴と外観ベースの特徴間の相補性についても研究する予定です。さらに、横顔の画像と耳の画像を組み合わせて年齢や性別の分類を行う予定です。 |
<<: 予想:2018年ワールドカップで優勝するのはどの国でしょうか?人工知能アルゴリズム分析が結果を教えてくれる
>>: Facebookが開発した高速データ圧縮アルゴリズムZstdの使い方
最近、ViT はコンピューター ビジョンの分野で強力な競争力を発揮し、複数のタスクで驚くべき進歩を遂...
ゲスト | 王 燕著者 | ユン・チャオコラム紹介: 「T最前線」は、51CTOコンテンツセンターが...
[[278770]]地図:李暁軍● 学校での顔認識の導入は、データセキュリティと個人のプライバシーの...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
李静さん(仮名)は、団地内の自分のアパートのドアを開けることができなくなった。ドアには「顔認識」装置...
現在、AI の最大の可能性は、回帰や分類などの分析技術にあることが知られています。ニューラル ネット...
サイバーセキュリティの状況は毎年、組織が対処する必要のある新たな課題や障害をもたらしており、たとえば...
GlobalDots の CTO である Yair Green 氏が、人工知能と機械学習がサービスと...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[435844]]人工知能用に構築されたコンピュータ システムに最適なアクセサリとコンポーネントは...
サプライチェーン管理は最適化ゲームです。 AI の導入により、企業は最適な成果の達成にさらに注力でき...