人工知能は耳の画像だけで年齢と性別を正確に判別できる

画像処理のためのディープラーニング入門：耳のバイオメトリクスは注目の研究トピックとなっている[1]。最近のチャレンジである「制約なしの耳認識チャレンジ」[2]は、耳の画像から人物を認識することの難しさを示しています。耳の画像から得られるアイデンティティ関連情報を補足するために、年齢や性別情報などのソフトバイオメトリクスを活用することが補助的な手段となる可能性がある。この目的のために、本論文では、耳の画像における年齢と性別の分類のタスクを広範囲に調査します。

生体認証の特徴は、時間の経過とともに大きく変化せず、簡単に取得でき、各個人に固有であることが期待されます[3]。耳は、そのいくつかの特性により、生体測定研究や法医学的識別にとって重要な手段です。たとえば、顔の外観は表情やひげ、化粧の変化によって影響を受けますが、耳の外観は比較的一定です。耳介も顔の特徴の一つである。[4]耳の部位の中でも、耳たぶは法医学のケースで最も頻繁に使用される部位です。耳の中で唯一、成長し続け、形を変え続ける部分です。[5]防犯カメラで撮影された画像では、顔全体または一部が覆われていても耳が見えるため、識別のための補助情報として使用できます。さらに、横顔を見ると、耳はビデオ録画や写真から簡単に捉えることができます[6]。

耳画像を用いた耳認識に関する研究は数多く行われているが[1]、[6]、耳画像からソフトな生体認証特徴（年齢や性別など）を抽出する研究は限られている。私たちの知る限り、この研究は耳の画像から年齢を分類する最初の研究です。しかし、性別の分類のための耳の画像に関する先行研究はいくつかあります。 [7]では、耳の穴が測定の基準点として使用されています。マスクされた耳の画像から識別された耳の穴と耳の 7 つの特徴間のユークリッド距離を計算しました。彼らは実験のために342個のサンプルからなる社内データベースを使用しました。彼らは、ベイズ分類器、KNN 分類器、ニューラルネットワークを使用しました。 KNN は 90.42% の分類精度で最高のパフォーマンスを達成しました。

[8]では、プロファイルの顔画像と耳画像を別々に使用し、ヒストグラム交差カーネルを備えたサポートベクターマシン（SVM）によって分類しました。彼らは、精度を向上させるために、ベイズ分析に基づくスコアレベルの融合を実行しました。実験にはUNDバイオメトリックデータセットF[11]の2D画像が使用された。融合の結果、精度は 97.65% となり、顔のみのパフォーマンスは約 95.43%、耳のみの精度は約 91.78% となりました。文献[9]では、ガボールフィルタを使用して特徴を抽出し、辞書学習に基づいて抽出された特徴を使用して分類が行われています。辞書はトレーニングサンプルに基づいて構築され、テストフェーズでテストサンプルをトレーニングデータの線形結合として表すために使用されます。外観、姿勢、照明の大きなバリエーションを含むUNDバイオメトリックデータセットJ [11]が実験に使用されました。 128 個の特徴を使用することで、報告された最高の精度は 89.49% でした。 [10]では、2Dおよび3Dの耳の画像に対して性別の分類が行われています。 3D の耳は自動的に検出され、位置合わせされます。実験はUNDデータセットFとJ2 [11]で実施された。インデックス付けされた形状のヒストグラム特徴が SVM によって抽出され、分類されます。システムの平均パフォーマンスは 92.94% です。

本稿では、耳の画像の年齢と性別の分類に関する広範な分析を紹介します。耳を表現するために、幾何学的特徴と外観ベースの特徴の使用を検討しました。幾何学的特徴は、耳にある 8 つのランドマークに基づいています。これらのランドマークから特徴を抽出するために、ランドマーク間の 14 種類の距離を計算し、2 つの面積計算を実行しました。これらの抽出された特徴を分類するために、回帰分析、ランダムフォレスト、サポートベクターマシン、ニューラルネットワークの 4 つの異なる分類器が採用されています。

外観ベースの手法は、AlexNet [12]、VGG-16 [13]、GoogLeNet [14]、SqueezeNet [15]などのよく知られた深層畳み込みニューラルネットワーク（CNN）モデルに基づいています。彼らは、最初はドメイン適応を行うために大規模な耳のデータセットで微調整を行い、次に小規模なターゲットの耳のデータセットで微調整を 2 回行いました。実験では、外観ベースの方法が幾何学的特徴ベースの方法よりも優れていることが分かりました。性別の分類では 94% の精度を達成し、以前の研究で達成された精度を上回りました。年齢分類では52%の精度が得られました。要約すると、この論文の貢献は次のようになります。

•耳の画像における年齢と性別の分類のために、形状と外観に基づく特徴を調査しました。

•幾何学的特徴については、耳の8つのランドマークポイントを使用し、そこから16の特徴を導き出しました。

•外観ベースの手法では、Multi-PIE顔データセット[17]のシルエットとクローズアップ顔画像から構築された大規模な耳データセット[16]を使用しました。このようにして、私たちはよく知られている CNN モデルを効果的に移転し、その恩恵を受けて目の前の問題を解決しました。

•性別の分類において、以前の研究に比べて優れたパフォーマンスを達成しました。耳の画像から年齢を分類する最初の研究を紹介します。

ディープラーニングフロンティアアルゴリズムの性別分類結果: 性別分類結果を表 4 に示します。表の最初の列には分類子の名前が含まれ、2 番目の列には対応する分類精度が含まれます。どの関数が使用されているかを読者に思い出させるために、関数の種類が 2 番目の列の括弧内に表示されます。表から、外観ベースの方法が幾何学的特徴を利用する分類器よりも優れていることがわかります。正しい性別分類の確率レベルが 50% であることを考慮すると、幾何学的特徴を使用して得られる結果は非常に貧弱です。このパフォーマンスの低下の主な理由の 1 つは、幾何学的特徴に適用された正規化手順である可能性があります。正規化プロセス（特徴の平均をゼロ、分散を 1 にする）中に、性別に関する識別情報が失われた可能性があります。したがって、正規化の影響についてはさらに分析する必要があります。外観ベースの方法では約 90% の精度が達成されています。最高のパフォーマンスはGoogLeNetアーキテクチャ[14]を使用して達成され、分類精度は94%でした。この精度は、耳の画像における性別の分類に関するこれまでの研究で達成された性別の分類精度を上回っています[7]、[8]、[9]、[10]。表 5 にこれらの方法の比較を示します。全体的に、これまでの調査結果と一致して、耳の画像は対象者の性別を分類する上で有用な情報を提供することがわかりました。

ディープラーニングフロンティアアルゴリズムの年齢分類結果: 年齢分類結果を表 6 に示します。最初の列には分類子の名前が含まれ、2 番目の列には対応する分類精度が含まれます。どの関数が使用されているかを読者に思い出させるために、関数の種類が 2 番目の列の括弧内に表示されます。幾何学的特徴に基づく方法と外観に基づく方法の間のパフォーマンスのギャップは非常に小さいです。しかし、外見に基づく方法が再び優れていることが判明しました。幾何学的特徴を使用すると、3 つの隠し層ニューラルネットワークとロジスティック回帰で最高のパフォーマンスが達成され、精度は 43% になります。 GoogLeNetアーキテクチャを使用した外観ベースの方法[14]は、52％の分類精度で最高のパフォーマンスを達成しました。性別分類で達成されたパフォーマンスと比較すると、年齢分類の精度は比較的低いです。この結果の理由として考えられるのは、各年齢層のサンプル数が限られていることです。年齢別クラス数が多いため、クラスあたりのサンプルサイズは小さくなります。データセットを拡張し、結果をさらに分析する予定です。幾何学的特徴ベースの方法と外観ベースの方法で得られる精度は非常に近いため、これら 2 つの方法を組み合わせることもパフォーマンスを向上させるもう 1 つの方法となる可能性があります。全体的に、外観は地理的特徴に比べて多くの情報を提供するため、年齢や性別の分類にはより有用であることがわかっています。

ディープラーニングフロンティアアルゴリズムの結論: この論文では、耳の画像の年齢と性別の分類について詳細な研究を行いました。私たちの知る限り、この研究は耳の画像を使用して年齢を分類した最初の研究であり、性別の分類に耳の画像を使用する数少ない研究の 1 つです。この研究では、耳を表現するために幾何学的特徴と外観ベースの特徴を採用します。耳にある 8 つの人体計測上のランドマークについて幾何学的特徴が計算され、14 の距離測定と 2 つの面積計算が含まれていました。これらの特徴は、ロジスティック回帰、ランダムフォレスト、サポートベクターマシン、ニューラルネットワークの 4 つの異なる方法を使用して分類されました。外観ベースの方法は、深層畳み込みニューラルネットワークに基づいています。よく知られているCNNモデル、すなわちAlexNet [12]、VGG-16 [13]、GoogLeNet [14]、SqueezeNet [15]が研究に採用されてきました。

これらを効果的に実際のタスクに適用するために、まず、Multi-PIE顔データセット[17]で利用可能な横顔と人間に近い顔画像から構築された大規模な耳データセットで微調整されます。その後、更新されたモデルは、小規模なターゲット耳データセットで再度微調整されました。実験の結果、外観ベースの方法が幾何学的特徴ベースの方法よりも優れていることがわかりました。性別分類では 94% の精度、年齢分類では 52% の精度を達成しました。これらの結果は、耳の画像が年齢と性別の分類に役立つ手がかりを提供することを示唆しています。しかし、幾何学的特徴を使用した性別の分類にはさらなる作業が必要です。性別の分類では、幾何学的特徴は正規化の影響を受けやすいことが指摘されています。したがって、より優れた標準化スキームを検討する必要があります。年齢推定の場合、パフォーマンス低下の主な原因は、各年齢層に対するトレーニングサンプルの数が十分でないことであると考えられます。データセットを拡張し、より多くのサンプルを使用して年齢分類システムをトレーニングする予定です。また、UND-FやUND-J2 [11]などの一般的に使用されるデータセットで実験を行って比較することも目的としています。さらに、幾何学的特徴と外観ベースの特徴間の相補性についても研究する予定です。さらに、横顔の画像と耳の画像を組み合わせて年齢や性別の分類を行う予定です。

<<: 予想：2018年ワールドカップで優勝するのはどの国でしょうか？人工知能アルゴリズム分析が結果を教えてくれる

>>: Facebookが開発した高速データ圧縮アルゴリズムZstdの使い方

ブログ

米メディア：米国はAI戦争に備えるため同盟国を誘致

ブログ

人工知能は耳の画像だけで年齢と性別を正確に判別できる

ただ！ Stack Overflow セルフヘルプがオープン

GPT-4 と Gemini は同時に重大な欠陥にさらされ、論理的推論が間違ってしまいました。ディープマインド上海交通大学の卒業生チームは、法学修士課程の知能が著しく低下していることを発見した

人工知能について知っておくべき12の秘密

AIの偏見に対処するための重要なステップ

新しい消費者向け IoT と人工知能の開発を加速させる機会は何でしょうか?

プログラマーがエキスパートになるためのプログラミングアルゴリズムトップ 10_モバイルテクノロジーセミマンスリー 40 号_51CTO.com

米メディア：米国はAI戦争に備えるため同盟国を誘致

推薦する

プログラマーの間でデータ構造やアルゴリズムに関する知識が一般的に不足していることについてどう思いますか?

機械学習モデルをトレーニングする際に避けるべき 6 つの間違い

GoogleのAutoML人工知能システムは、人間よりも優れた機械学習コードを作成できるようになりました

DeepMind が新世代 AlphaFold を発表、予測精度が 10% 近く向上しました。 DNAとRNAのAlphaFoldの瞬間が到来

年末総括：2020 年の人工知能の注目イベント一覧

文字の組み合わせをソートするJavaアルゴリズム

ビジネス開発における感情AIの重要性

2018 年に知っておくべき 15 の人工知能統計

大学を解雇され、Facebookも拒否した大物音声エンジニアのダニエル・ポーヴィー氏が、中国のXiaomiに入社する

AI時代に私たちは子供たちに何を教えるべきでしょうか？

5G の出現はフェデレーテッドラーニングにどのような影響を与えるでしょうか?

入力から出力までの「モーダル自由度」を実現し、NUSの中国チームがNExT-GPTをオープンソース化。AGIに最も近い最も統一されたマルチモーダルモデルがここにあります。