1. 顔認識技術の紹介 生体認証技術として、顔認証は非侵入的、非接触、フレンドリー、便利などの利点があります。顔認識は 20 世紀初頭に登場し、20 世紀半ばには独立した分野として発展しました。顔認識が実際に応用段階に入ったのは 1990 年代後半です。顔認識は顔マッチングの分野に属し、顔マッチングの方法には主に特徴表現と類似性測定が含まれます。 顔認識の一般的なプロセスには、主に顔検出、顔切り取り、顔補正、特徴抽出、顔認識が含まれます。顔検出は、取得した画像から干渉を除去し、顔情報を抽出し、顔画像の位置を取得します。検出の成功率は、主に画像の品質、光の強度、遮蔽などの要因によって影響を受けます。顔を取得した後、実際のニーズに応じて顔の一部または全体を切り取って、顔画像をさらに洗練させるのが顔の切り取りです。顔認識の精度を向上させるために、顔補正により、姿勢や表情による顔の変化を最小限に抑え、正面や落ち着いた状態の顔写真を取得できます。特徴抽出では、さまざまな特徴を使用して画像の類似性を測定および評価します。顔認識には、主に対象の顔を識別および検証するための 1 対 1 または 1 対多のアプリケーション シナリオが含まれます。 表情モデルは主に2D、2.5D、3Dに分けられます。 2D 顔とは、RGB、グレースケール、赤外線画像を指します。これらは、特定の視野角で色やテクスチャを表す画像であり、深度情報は含まれません。 2.5Dは、ある視点で撮影することで得られる顔の深度データですが、表面情報は不連続であり、隠れた部分の深度データ情報がありません。 3D 顔は、さまざまな角度で撮影された複数の深度画像から合成され、深度情報を含む完全で連続した表面情報を持ちます。 2D画像顔認識の研究は長い歴史があり、ソフトウェアとハードウェアの技術は比較的完成しており、広く使用されています。しかし、2D画像は2次元の平面情報を反映しており、深度データが含まれていないため、実際の顔モデルを完全に表現することはできません。 2次元の顔画像と比較すると、3次元画像は照明の影響を受けず、描写力が強く、顔情報をよりリアルに反映できます。顔合成、顔移行、3次元顔認識などのシナリオで使用されます。 3D 顔認識では、一般的に深度カメラを使用して顔の深度情報を取得します。これには主に、双眼カメラ、構造化光の原理に基づく RGB-D カメラ、光の飛行時間の原理に基づく TOF カメラが含まれます。一般的な 3 次元顔認識アルゴリズムには、主に従来の認識方法とディープラーニング認識方法が含まれます。 1. 伝統的な識別方法 (1)点群データに基づく顔認識 ポイント クラウドは、3D 顔データの表現方法です。各ポイントは 3 次元座標に対応します。スキャン デバイスはこのデータ形式を使用して、収集された 3 次元顔情報を保存します。スパース座標を形状情報に結合して、顔情報をより完全に反映することもできます。ポイント クラウド データに基づく 3D 顔認識では、マッチングに 3 次元ポイント クラウドを直接使用します。一般的な方法には、ICP (Iterative Closest Point) とハウスドルフ距離があります。前者は点群情報における並進・回転変換の誤差を補正することができ、後者は3次元点群間の最大距離を利用して顔を照合するが、どちらも堅牢性が不十分であるという問題があった。 (2)顔の特徴に基づく3D顔認識 顔の特徴には、主にローカル特徴とグローバル特徴があります。ローカル特徴は、深度画像から顔のキーポイントに関する特徴情報を抽出する場合に選択でき、グローバル特徴は、球面調和関数特徴やスパース係数特徴など、顔全体を変換して抽出します。 2. ディープラーニング認識方式 (1)深度マップに基づく顔認識 深度画像内の 3 次元データの Z 値を 2 次元平面に投影して、滑らかな 3 次元表面を形成します。正規化ネットワークと特徴抽出ネットワークを使用して、深度画像の顔認識を実現できます。正規化ネットワークは入力深度画像を HHA 画像に変換し、畳み込みニューラル ネットワーク回帰を使用して正規化された深度画像のパラメータを取得します。特徴抽出ネットワークは、深度画像内の顔を特徴付ける特徴ベクトルを取得するために使用されます。 (2)RGB-3DMMによる顔認識 3DMM は 3 次元顔変形統計モデルを指し、2 次元顔画像から 3 次元形状を復元する問題を解決するために最初に使用されました。現在では、主に深度画像またはカラー画像に顔モデルを回帰させて認識タスクを実行するために使用されます。 (3)RGB-Dに基づく顔認識 RGB-D 画像には、カラー画像と深度マップが含まれます。前者は、赤、緑、青のカラー チャネルから取得された画像であり、後者は、視点からのシーン オブジェクトの表面の距離に関連する画像チャネルを指します。この 2 つは相互に登録されます。マルチフレーム融合後のカラー画像と深度画像をそれぞれ事前トレーニングおよび転移学習し、特徴レイヤーで融合することで、顔認識率が向上します。 2. 表情認識に関する最新研究 1) ノイズの多いマルチタスク注釈による顔の感情認識 まとめ 人間の感情は表情から推測することができます。しかし、カテゴリモデルや次元モデルなどの一般的な感情エンコーディングモデルでは、顔の表情の注釈には通常、非常にノイズが多くなります。手動のマルチタスクラベリングの作業負荷を軽減するために、本論文では、ノイズの多いマルチタスク注釈による顔の表情認識という新しい問題を紹介しています。この新しい問題に対して、我々は、元の顔画像とマルチタスクラベル間のより信頼性の高い関連付けを学習し、ノイズの影響を軽減することを目的として、結合分布マッチングの観点から計算を実行することを提案します。統合された敵対的学習ゲームで感情予測と共同分布学習を可能にするために、新しいアプローチが採用されています。広範囲にわたる実験で実施された評価では、提案された新しい問題の現実的な設定と、合成ノイズラベル CIFAR-10 または実際のノイズラベル RAF および AffectNet のいずれかにおける最先端の競合方法に対する提案方法の明らかな利点を研究します。 この論文では、ノイズの多いマルチタスク ラベルにおける顔の表情認識の問題について検討します。実際のアプリケーションでは、最も一般的に使用される 2 つの顔の感情エンコーディング モデルは分類と次元ですが、利用可能な感情ラベルからモデルを学習すると、結果が悪くなる傾向があります。そのため、この論文で提案された式は、結合分布マッチングの観点からこの問題を解決し、データとマルチタスク ラベル間の相関関係を利用してラベル ノイズの影響を軽減することを目的としています。 本論文は、顔の感情認識の実際的なケースを解決するためのいくつかの貢献を提供します。要約すると、(1) ターゲットが安価なマルチタスク注釈を簡単に取得できる、ノイズの多いマルチタスクラベルを使用した顔の表情認識という新しい問題を提案します。(2) データと異種マルチタスクラベル間の明示的な結合分布と周辺分布のマッチングによる一般化された定式化を提案します。(3) 結合分布と周辺分布の制約に基づいて感情予測のトレーニングを最適化するための新しい敵対的学習モデルを紹介します。これは、提案された問題に適していることが証明されています。 ノイズの多いラベルを使用した顔の感情認識では、ノイズの多いラベルが付いた顔画像のみで堅牢なモデルをトレーニングします。従来の方法は、ノイズ ラベル分布を使用してノイズを直接モデル化することですが、従来の条件付き確率モデリングには、真の値に収束するための変換行列に対する制約がないなど、いくつかの明らかな欠点があります。この問題に対処するために、2 つの結合分布を一致させるという重要なアイデアを使用し、2 組のデータとラベルに対する次の 2 つの結合確率分布を考慮します。 現実世界のデータのデータ分布の明示的な確率密度関数をモデル化することは計算上困難であるため、2 つの結合分布を正確にモデル化して一致させることは多くの場合不可能です。この問題を克服するために、本論文では生成的敵対モデル法を採用しています。エンコーダーは入力画像からクリーンなラベルを推測する関数を学習し、デコーダーはノイズの多いラベルから顔画像と対応する表情を生成する関数を学習します。全体的なアーキテクチャを下図に示します。 エンコーダーとデコーダーによってキャプチャされた結合分布を一致させるために、ジェネレーターとディスクリミネーターの間で敵対的なゲームが行われます。識別器は、顔画像、ノイズ ベクトル、および GY と GX のマルチタスク ラベルのグループの結合分布を一致させるように特別に設計されています。結合分布アライメントの場合、自然なアプローチは、エンコーダーとデコーダーからサンプリングされたデータを別々にネットワークに送り、敵対的トレーニングを行うことです。ただし、各グループのデータは非常に異質であるため、直接連結することは適切ではありません。データとマルチタスク ラベル間の異質性を減らすために、この論文では複数のネットワーク フローを採用し、すべてのネットワーク フローの出力をネットワークに入力します。完全な目的関数は次のとおりです。 提案されたジェネレーターと識別器は、統一されたフレームワークで感情予測ベースの損失と分布マッチングベースの制約を最適化できます。このスキームに従って、本論文では最小最大目的関数が設計されています。 本論文では、顔の感情認識を対象タスクとしているため、感情予測を補助タスクとして使用し、画像とラベルの関係およびタスクとタスクの関係から対象タスクに利益をもたらします。アルゴリズムを下図に示します。 我々はこのモデルを2つの機会に評価した:(1)画像分類のための合成ノイズラベル付きデータセット(CIFAR-10 [25]);(2)表情認識のための2つの実用的な表情データセット(RAFとAffectNet)。 下の図は実験1の結果を示しています。本論文で提案したモデルを使用することで精度が向上していることがわかります。 下の図は、トレーニング ステップ中のベースラインと提案モデルのテスト精度曲線を視覚化したものです。 下の図は、実験2の顔感情データセットの評価結果を示しています。マルチタスクの場合、本論文で提案したモデルを使用した方が予測精度が高くなることがわかります。 この論文では、ノイズの多いマルチタスク注釈による顔の感情認識の問題を紹介しています。これは、人間のマルチタスク学習のラベル付けの労力を削減する上で大きな応用可能性を秘めています。本論文では、結合分布マッチングの観点から新しい定式化を紹介し、それに基づいて新しい敵対的学習法を採用して、感情予測と結合分布学習を共同で最適化します。最後に、合成ノイズラベル付きデータセットと実用的なノイズ付きマルチタスクデータベースの構築を研究し、それらの評価を通じて新しい問題を解決する上での私たちの方法の明らかな利点を示します。 2) THIN: 投げられる情報ネットワークと野外での表情認識への応用 まとめ ディープラーニング技術を使用して解決される多くのタスクでは、さまざまなクラスの外観に影響を与え、理想的な分類器が不変のままになる外生変数を識別することが可能です。この論文では、外生的/内生的二重表現を提案します。我々は、外生的表現によって条件付けられたディープアンサンブルを使用して弱い予測子の適応重みを学習し、外生的変数と予測タスク間の依存関係を明示的にモデル化する予測レイヤーを設計します。さらに、内生的表現から外生的情報を除去するために、外生的除去損失の計算が提案されています。したがって、外生情報は 2 回使用され、最初はターゲット タスクの条件付け変数として使用され、2 回目は内生表現の不変性を生成するために使用されます。この論文では、この方法を THIN (THrowable Information Networks の略) と名付けました。大きな回転での数字認識や複数のスケールでの形状認識など、外生情報を認識できるいくつかのシナリオで THIN を実験的に検証します。これは、アイデンティティを外生変数とする FER にも適用されます。特に、いくつかの難しいデータセットでは、THIN が最先端の方法を大幅に上回るパフォーマンスを発揮することを実証します。 ディープラーニング技術は、コンピュータービジョンの教師あり学習において大きな進歩を遂げ、表現とこの表現に基づく予測子の共同学習を可能にしました。十分に確立されたディープラーニング技術は、オブジェクトの分類や検出、セマンティックセグメンテーション、顔や体の分析など、ほとんどのコンピュータービジョンの問題における最先端のアプローチを構成しています。ただし、このようなタスクの多くでは、オブジェクトの外観は外生変数によって大きく影響される可能性があり、理想的にはタスク予測はこの変数に関して不変である必要があります。 しかし同時に、予測システムの観点からは、外部変数(被験者のアイデンティティなど)の変化に関係なく、ターゲットタスク(顔の表情など)を予測する必要があります。したがって、タスクに関連する表現(内生的表現と呼ばれる)には、外生的変数に関する情報ができるだけ含まれるべきではないと私たちは主張します。 要約すると、この場合、この外生変数はデータの変動の重要な原因であり、予測変数の出力が可能な限り一定になる情報源でもあります。したがって、外部表現と内部表現を別々に使用することを提案します。 この論文の貢献は以下の通りである。(1)内生的ネットワークと外生的ネットワークの二重ネットワークを使用する外生的ツリーベースのディープアンサンブル法を提案する。最初の出力表現は予測タスクに使用され、2番目の出力表現は深い相関調整のために、より関連性の高い弱い予測子と適応的に共同学習されます。(2)内生表現と外生表現の直交性を介して内生表現から外生変動を除去するために外生除去損失が提案されています。(3)このアプローチは、異なる外生変数を持つ複数のタスクで実験的に検証されています。 この記事では、ディープ ニューラル ネットワークを通じて外生情報をモデル化し、まずはシンプルなベースライン モデルを定義し、徐々に他のアーキテクチャを導入して、外生表現とタスク予測の間の依存関係を明示的に組み込む方法を説明します。全体的なアーキテクチャを下の図に示します。 上図に示すように、ベースラインフレームワーク、単純なディープインテグレーションメソッドフレームワーク、ツリー状のディープインテグレーションメソッドフレームワーク、および外生的なツリー状のディープインテグレーションメソッドフレームワークが主に提示されています。ベースライン フレームワークから始めて、ディープ アンサンブルの予測に適応的に重み付けし、外生的表現を活用することで、フレームワークの設計を徐々に改善していきます。 ツリー状の深層統合ネットワークは、パラメータを通じて対応する損失を最適化し、外生変数に関連する情報を内生表現のタスクに分解し、抽出された外生的特徴と内生的特徴をネットワークに入力して出力し、ハイパーパラメータを通じて実験を設定し、内在的表現から外生的情報を除去します。 外生変数を明確に識別できる合成データセットでモデルを評価します。次に、提案された方法のトレーニングまたはテストに使用されるデータセットと具体的な実装の詳細を中心に、実際の FER データセットでモデルを定性的および定量的に検証します。以下の表 2 は、MNIST-R および dSprites データセットの平均精度に基づくさまざまなアーキテクチャの比較を示しています。図 4 は、外生的表現の除去の平均精度による MNIST-R のアブレーション スタディを示しています。 この論文では、MNIST データセットに加えて、RAF-DB、AffectNet、ExpW データセットでも実験検証を行っています。表 3 は、平均精度の観点からさまざまなアーキテクチャを比較したもので、図 5 は RAF-DB データセットのアブレーション研究の結果です。 最後に、THIN を最先端の FER 手法と比較し、今日の最新かつ困難な FER データベースにおいて、THIN が最先端の手法を大幅に上回る性能を発揮することを実証します。 この論文で提案されたモデルには多くの応用可能性があります。まず、理論的には、THIN は、ポーズやスケールを外生変数とするボディポーズ推定や、ドメイン情報によるセマンティックセグメンテーションなど、他の問題に直接適用できます。第二に、この論文では THIN をトレーニングするために 1 つの外生変数のみが使用されます。ただし、複数のそのような変数と表現ネットワークを、何らかの融合スキームとともに適用することもできます。さらに、アイデンティティを外生変数とする THIN を使用して顔の表情を予測し、次に顔の表情を外生変数とする別の THIN を使用してアイデンティティを予測するなどして、FER とアイデンティティの予測を反復的に改良することができます。 注: 上記 2 つの論文を取得するには、公式アカウント「 Computer Vision Workshop 」のバックグラウンドで「 Face Recognition Technology 」と返信してください。 参考文献
この記事は学術的な共有のみを目的としています。著作権侵害がある場合は、記事を削除するようご連絡ください。 |
>>: 公正な「データアクセス」の新秩序の構築 AIが都市統治に根付く
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
著者: Qianshan校正:ウー・ムーテクノロジーの進歩により、AIは大きな発展の可能性を示してい...
背景ディープラーニングは、AI時代の中核技術として、さまざまなシナリオに適用されてきました。システム...
「ある瞬間、目の前のすべてがぼやけて、前方の道路状況がまったく見えませんでした。とても危険でした!」...
C# はデジタル変換のための中国語アルゴリズムを記述します最近、プロジェクト上の理由により、C# で...
ロボティック・プロセス・オートメーション (RPA) は、今日最も急速に成長しているテクノロジーの ...
過去 10 年間で、人工知能の分野で大きな進歩が遂げられてきましたが、その中で自然言語処理 (NLP...
ChatGPT の最大のライバルである Anthropic が新製品を発売しました。ちょうど今、An...
最近、当社の自動運転デビューがニュースで取り上げられており、ADS はついに謎の組織ではなくなりまし...
私たちの日常生活では、携帯電話のロック解除から検索エンジンを使った地図ナビゲーションまで、人工知能と...
人工知能は世界的な流行語となり、ほぼすべての企業のデジタル変革計画に不可欠な要素となっています。 A...
2018年、国内の人工知能とビッグデータ産業は引き続き急速な発展を遂げ、国家計画の導入に伴い、各地...