MDFR: 顔画像復元と顔回転の結合モデルに基づく顔認識法

MDFR: 顔画像復元と顔回転の結合モデルに基づく顔認識法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

現実の世界では、ポーズが大きい、照明が悪い、解像度が低い、ぼやけている、ノイズがあるなど、多くの要因が顔認識システムの認識性能に影響を与える可能性があります。これらの課題に対処するために、従来の顔認識方法では通常、まず低品質の顔画像を高品質の顔画像に復元してから顔認識を実行します。しかし、これらの方法のほとんどは段階的であり、顔認識に最適なソリューションではありません。

AI Technology Review は本日、この問題に対する優れた解決策を提示する論文を紹介します。この論文では、著者は、これらすべての影響要因を一度に解決するためのマルチ劣化顔復元モデル (Multi-Degradation Face Restoration、MDFR) を提案しています。

原題: 認識のための顔画像復元と正面化の共同作業

論文アドレス: https://ieeexplore.ieee.org/document/9427073/

MDFR は、複数の低品質要因の影響を受ける複数のポーズの顔画像から、高品質の正面顔画像を復元できます。 MDFR は、適切に設計されたエンコーダー/デコーダー ネットワーク構造です。

モデルの構築において、著者らは、ポーズ残差学習戦略と 3D ベースのポーズ正規化モジュール (PNM) を導入しました。これにより、入力された顔のポーズと正面の顔のポーズの違いを認識し、この違いを使用して顔の回転学習をガイドできます。

実験では、トレーニング後、MDFR は統合ネットワークを通じて、複数の低品質要因の影響を受けた側面顔画像から高解像度の正面顔画像を一度に復元し、顔アルゴリズムの認識率を効果的に向上できることが示されています。

1.背景と概要

制限のない条件下での顔認識は、コンピューター ビジョンにおける重要なタスクです。実際のアプリケーションでは、収集された顔画像には、大きな姿勢、不十分な照明、低解像度、ぼやけ、ノイズなどが含まれる場合があります。顔画像の品質に影響を与えるこれらの要因は、顔認識アプリケーションの失敗につながる可能性があります。これらの問題を解決するために、段階的なモデルを使用して、対応する低品質要因の影響を受けた顔画像を個別に処理する方法、つまり、最初に低品質の顔を高品質の顔画像に復元し、次に顔補正を実行して顔認識に使用する方法が多数あります。

しかし、これらの方法は顔認識の単一の要素のみを考慮しており、顔認識に影響を与える複数の要素に同時に対処できる方法はほとんどありません。したがって、単一の要素に基づくこのタイプの顔処理方法は、制限のない条件下での顔認識には適していません。本論文では、複数の劣化要因に対処し、任意のポーズが与えられた低品質の顔画像から高品質の正面顔を復元する顔復元モデル (MDFR) を提案しました。

この記事の貢献は次のとおりです。

  • 任意のポーズと複数の低品質要因を持つ顔画像を正面からの高品質の画像に復元するための、マルチ劣化顔復元 (MDFR) モデルが提案されています。
  • 顔の回転の過程では、姿勢残差学習戦略が使用され、3Dベースの姿勢正規化モジュールが提案されます。
  • 顔の再構築と正規化のタスクを統合ネットワークに統合する効果的な統合トレーニング戦略が提案されています。この方法により、出力される顔の品質とその後の顔認識効果がさらに向上します。

2.方法の説明

MDFR 構造を図 1 に示します。トレーニング プロセス中、MDFR は主に、デュアル エージェント ジェネレーターとデュアル エージェント ディスクリミネーターの 2 つのモジュールで構成されます。顔のポーズを正規化するために、ポーズ正規化モジュール (PNM) がネットワークに組み込まれています。

図 1. デュアルエージェントジェネレーター、ポーズ正規化モデル、およびデュアルエージェントディスクリミネーターを含む MDFR モデルの構造。

(1)デュアルエージェントジェネレータ

デュアルエージェントジェネレーターは、顔復元サブネットワーク (FRN) と顔正面化サブネットワーク (FFN) で構成されています。 FRN ネットワークの機能は、低品質の顔画像を高品質の顔画像に再構築することであり、FFN ネットワークは、FRN によって生成された横顔画像を修正することです。各サブネットワークには、エンコーダーとデコーダーが含まれています。前者は入力を特徴空間にマッピングするために使用され、後者は主にエンコードされた特徴を対応するターゲットの顔画像に再構築します。 2 つのサブネットワークは同じネットワーク構造を持ちますが、入力は異なります。 FRN のエンコーダーは入力された顔画像をエンコードし、デコーダーはエンコーダーの特徴をデコードします。 FFN デコーダーの入力には、エンコードされた顔の特徴に加えて、図 2 に示すように、顔の 2 つの姿勢のエンコードされた残差も含まれます。

図2 生成されたネットワークのネットワーク構造

(2)姿勢正常化モジュール

著者らは、姿勢を正常化するための姿勢正常化モジュール (PNM) を設計しました。 PNM は、顔がまっすぐになるようにガイドする、標準的で均一なスケールの真の正面ポーズを提供します。 3D モーフィング モデル (3DMM) に基づいて、顔の直交ベースラインの線形加重加算によって、2 次元の顔画像に対応する 3 次元頂点を取得できます。

3D の顔の頂点はスケール直交マッピングを通じて 2D 画像平面にマッピングされ、2D の側面画像は次のように表現されます。

このうち、パラメータMDFR:顔画像復元と顔回転ジョイントモデルに基づく顔認識方法は対応する回転行列であり、tは変換ベクトルです。回転行列と変換ベクトルを削除した後、正規化され真に回転した面の密な 2 次元座標は次のように表すことができます。

この記事では、著者は 3D 顔回転法 2DAL を使用して、指定された 2D 顔画像から高密度の顔座標を取得し、最終的によく使用される 18 個のキー ポイントを選択して、対応するガウス ヒートマップを生成します。

(3)デュアルプロキシ事前誘導識別器

顔の超解像の分野で使用される識別損失は、再構成された顔のリアリティを大幅に向上させることができます。そのため、本論文では、生成された顔が目標の姿勢を取得できるだけでなく、実際の識別情報も持つことができるように、対象顔のランドマークと正面顔の識別特徴マップという 2 つの事前情報を識別器に追加しています。対応する識別子は、PCD (Pose Conditioned Discriminator) と ICD (Identity Conditioned Discriminator) です。

実装プロセスでは、入力識別器に 2 種類の事前情報を適用して顔の生成をガイドし、それらを対応する識別器に入力して識別損失を解決します。 PCD と ICD は、実際の顔と生成された顔を区別できるだけでなく、実際の顔と生成された顔の姿勢やアイデンティティの違いも学習できます。

(4)ネットワーク研修

ネットワークのトレーニングは、主に「個別トレーニング」と「TI トレーニング」の 2 つの段階に分かれています。

個別トレーニング: この記事では、まず 2 つのサブネットワーク FRN と FFN を個別にトレーニングします。2 つのトレーニング プロセスは、それぞれ FRN-S と FFN-S と略されます。 FRN-S トレーニング プロセスで使用される損失関数は次のとおりです。

個人情報の紛失:

再構築されたピクセル損失:

全損:

FFN-S トレーニング プロセスで使用される損失関数は次のとおりです。

プラスリターンの損失:

条件付き敵対的損失:

全損:

タスク統合(TI)トレーニング:FRN と FFN が対応する個別のトレーニングを完了した後、著者らは事前トレーニング済みモデルに基づいて統合トレーニングを実行しました。この段階で、著者らは FFN モデルの出力をグラウンドトゥルースとして使用して FRN をトレーニングします。同時に、PNM によって正規化された実際の正面顔ランドマークは、FFN での顔の正面化をガイドするために使用されます。より良い顔の効果を生成するために、著者はこの段階で特徴アライメント損失 (FA) も使用しました。具体的な定義は次のとおりです。

全体的なトレーニング損失関数は次のとおりです。

3.実験結果

著者らはまず、ネットワーク構造と損失関数のさまざまな組み合わせを調査し、FFN-S と FRN-TI の対応する部分が顔生成に与える影響を観察しました。実験結果を図 3 に示します。

図 3. Multi-PIE データベースにおけるアブレーション実験の比較結果。

同時に、表 1 は、さまざまなポーズの顔に対する MDFR のさまざまなバリエーションのランク 1 認識率を示しています。すべての実験モデルの中で、FFN-S と FRN-TI が最高の精度を達成しました。

表 2 は、Multi-PIE データセットにおける FFN-S と FRN-TI の顔認識率と他の方法との比較を示しています。 FFN-S はすべてのポーズで最高の結果を達成し、FFN-TI がそれに続きます。姿勢角が±45°以内の場合、FFN-SとFFN-TIはCAPG-GANと同様の認識結果を達成します。ただし、姿勢角が±45°より大きい場合、FFN-SとFFN_TIの効果はCAPG-GANよりも大幅に優れています。

図4. 複数の低品質要因の影響下での異なる方法による顔の修復効果

著者らは、低解像度、照明不良、ノイズ、ぼやけなど、複数の低品質要因の影響を受けた顔画像に対して対応する検証を実施しました。実験では、この記事で言及されている方法は、さまざまな低品質要因に完全に対処できるだけでなく、対応する高品質の顔画像を生成できることが示されています。図 4 は、複数の低品質要因の影響下でのさまざまな方法による顔の復元効果を示しています。単一のタスクしか処理できない従来の方法とは異なり、本論文で提案された方法は、顔を回転させるだけでなく、高品質で復元し、最高の視覚効果を実現できることがわかります。

<<:  今日のトーク: 人工知能、ロボット、そして中国のバレンタインデー

>>:  保険業界は人工知能をどのように活用しているのか

ブログ    

推薦する

Python で線形回帰機械学習モデルを作成する方法は? 「初心者ガイド」

線形回帰とロジスティック回帰は、現在人気のある 2 つの機械学習モデルです。 [[331887]]こ...

メーデー休暇中の安全確保のため5G警察ロボットが配備される

[[397258]] 2021年5月1日、「労働節連休」初日、浙江省舟山市公安局普陀区支局東港派出所...

人工知能があなたの生活を変える10の方法

人類は歴史の中で長い道のりを歩んできましたが、現在の技術の進歩は人類の進歩のペースを加速させ、すべて...

...

...

Dubbo 負荷分散戦略コンシステントハッシュ

この記事では、主にコンシステント ハッシュ アルゴリズムの原理とデータ スキューの問題について説明し...

人工知能は宇宙人を発見するのに役立つかもしれない

米国の宇宙ウェブサイトによると、多くの科学者が人工知能(AI)を使ってエイリアン(学名は「地球外知的...

マイクロソフト、感情分析技術の販売を中止し、顔認識ツールの使用を制限

マイクロソフトは、人工知能システムのためのより責任ある枠組みを構築する取り組みの一環として、画像分析...

アクセシブルな旅行はより安全です! ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

最近、CVPR2022の各競技の結果が次々と発表されました。ByteDanceの知能創造AIプラット...

...

...

AIとMLでドキュメントを自動化する方法

[[312937]] [51CTO.com クイック翻訳] かつて紙は必須の事務用品とみなされ、ほと...

企業はアルゴリズムやデータを通じて、どのようにより深い堀を築くのでしょうか?

[51CTO.com からのオリジナル記事] データは今最もホットなものです。当時は「紙は洛陽と同...

AI セキュリティの大手企業は 2020 年にどのような行動を取るのでしょうか?

7月9日から7月11日まで、2020年世界人工知能会議クラウドサミットが上海で閉幕しました。「イン...

Python で KNN アルゴリズムを使用して欠損データを処理する

欠損データの処理は簡単な作業ではありません。 方法は、単純な平均補完や観察結果の完全な削除から、MI...