MDFR: 顔画像復元と顔回転の結合モデルに基づく顔認識法

MDFR: 顔画像復元と顔回転の結合モデルに基づく顔認識法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

現実の世界では、ポーズが大きい、照明が悪い、解像度が低い、ぼやけている、ノイズがあるなど、多くの要因が顔認識システムの認識性能に影響を与える可能性があります。これらの課題に対処するために、従来の顔認識方法では通常、まず低品質の顔画像を高品質の顔画像に復元してから顔認識を実行します。しかし、これらの方法のほとんどは段階的であり、顔認識に最適なソリューションではありません。

AI Technology Review は本日、この問題に対する優れた解決策を提示する論文を紹介します。この論文では、著者は、これらすべての影響要因を一度に解決するためのマルチ劣化顔復元モデル (Multi-Degradation Face Restoration、MDFR) を提案しています。

原題: 認識のための顔画像復元と正面化の共同作業

論文アドレス: https://ieeexplore.ieee.org/document/9427073/

MDFR は、複数の低品質要因の影響を受ける複数のポーズの顔画像から、高品質の正面顔画像を復元できます。 MDFR は、適切に設計されたエンコーダー/デコーダー ネットワーク構造です。

モデルの構築において、著者らは、ポーズ残差学習戦略と 3D ベースのポーズ正規化モジュール (PNM) を導入しました。これにより、入力された顔のポーズと正面の顔のポーズの違いを認識し、この違いを使用して顔の回転学習をガイドできます。

実験では、トレーニング後、MDFR は統合ネットワークを通じて、複数の低品質要因の影響を受けた側面顔画像から高解像度の正面顔画像を一度に復元し、顔アルゴリズムの認識率を効果的に向上できることが示されています。

1.背景と概要

制限のない条件下での顔認識は、コンピューター ビジョンにおける重要なタスクです。実際のアプリケーションでは、収集された顔画像には、大きな姿勢、不十分な照明、低解像度、ぼやけ、ノイズなどが含まれる場合があります。顔画像の品質に影響を与えるこれらの要因は、顔認識アプリケーションの失敗につながる可能性があります。これらの問題を解決するために、段階的なモデルを使用して、対応する低品質要因の影響を受けた顔画像を個別に処理する方法、つまり、最初に低品質の顔を高品質の顔画像に復元し、次に顔補正を実行して顔認識に使用する方法が多数あります。

しかし、これらの方法は顔認識の単一の要素のみを考慮しており、顔認識に影響を与える複数の要素に同時に対処できる方法はほとんどありません。したがって、単一の要素に基づくこのタイプの顔処理方法は、制限のない条件下での顔認識には適していません。本論文では、複数の劣化要因に対処し、任意のポーズが与えられた低品質の顔画像から高品質の正面顔を復元する顔復元モデル (MDFR) を提案しました。

この記事の貢献は次のとおりです。

  • 任意のポーズと複数の低品質要因を持つ顔画像を正面からの高品質の画像に復元するための、マルチ劣化顔復元 (MDFR) モデルが提案されています。
  • 顔の回転の過程では、姿勢残差学習戦略が使用され、3Dベースの姿勢正規化モジュールが提案されます。
  • 顔の再構築と正規化のタスクを統合ネットワークに統合する効果的な統合トレーニング戦略が提案されています。この方法により、出力される顔の品質とその後の顔認識効果がさらに向上します。

2.方法の説明

MDFR 構造を図 1 に示します。トレーニング プロセス中、MDFR は主に、デュアル エージェント ジェネレーターとデュアル エージェント ディスクリミネーターの 2 つのモジュールで構成されます。顔のポーズを正規化するために、ポーズ正規化モジュール (PNM) がネットワークに組み込まれています。

図 1. デュアルエージェントジェネレーター、ポーズ正規化モデル、およびデュアルエージェントディスクリミネーターを含む MDFR モデルの構造。

(1)デュアルエージェントジェネレータ

デュアルエージェントジェネレーターは、顔復元サブネットワーク (FRN) と顔正面化サブネットワーク (FFN) で構成されています。 FRN ネットワークの機能は、低品質の顔画像を高品質の顔画像に再構築することであり、FFN ネットワークは、FRN によって生成された横顔画像を修正することです。各サブネットワークには、エンコーダーとデコーダーが含まれています。前者は入力を特徴空間にマッピングするために使用され、後者は主にエンコードされた特徴を対応するターゲットの顔画像に再構築します。 2 つのサブネットワークは同じネットワーク構造を持ちますが、入力は異なります。 FRN のエンコーダーは入力された顔画像をエンコードし、デコーダーはエンコーダーの特徴をデコードします。 FFN デコーダーの入力には、エンコードされた顔の特徴に加えて、図 2 に示すように、顔の 2 つの姿勢のエンコードされた残差も含まれます。

図2 生成されたネットワークのネットワーク構造

(2)姿勢正常化モジュール

著者らは、姿勢を正常化するための姿勢正常化モジュール (PNM) を設計しました。 PNM は、顔がまっすぐになるようにガイドする、標準的で均一なスケールの真の正面ポーズを提供します。 3D モーフィング モデル (3DMM) に基づいて、顔の直交ベースラインの線形加重加算によって、2 次元の顔画像に対応する 3 次元頂点を取得できます。

3D の顔の頂点はスケール直交マッピングを通じて 2D 画像平面にマッピングされ、2D の側面画像は次のように表現されます。

このうち、パラメータMDFR:顔画像復元と顔回転ジョイントモデルに基づく顔認識方法は対応する回転行列であり、tは変換ベクトルです。回転行列と変換ベクトルを削除した後、正規化され真に回転した面の密な 2 次元座標は次のように表すことができます。

この記事では、著者は 3D 顔回転法 2DAL を使用して、指定された 2D 顔画像から高密度の顔座標を取得し、最終的によく使用される 18 個のキー ポイントを選択して、対応するガウス ヒートマップを生成します。

(3)デュアルプロキシ事前誘導識別器

顔の超解像の分野で使用される識別損失は、再構成された顔のリアリティを大幅に向上させることができます。そのため、本論文では、生成された顔が目標の姿勢を取得できるだけでなく、実際の識別情報も持つことができるように、対象顔のランドマークと正面顔の識別特徴マップという 2 つの事前情報を識別器に追加しています。対応する識別子は、PCD (Pose Conditioned Discriminator) と ICD (Identity Conditioned Discriminator) です。

実装プロセスでは、入力識別器に 2 種類の事前情報を適用して顔の生成をガイドし、それらを対応する識別器に入力して識別損失を解決します。 PCD と ICD は、実際の顔と生成された顔を区別できるだけでなく、実際の顔と生成された顔の姿勢やアイデンティティの違いも学習できます。

(4)ネットワーク研修

ネットワークのトレーニングは、主に「個別トレーニング」と「TI トレーニング」の 2 つの段階に分かれています。

個別トレーニング: この記事では、まず 2 つのサブネットワーク FRN と FFN を個別にトレーニングします。2 つのトレーニング プロセスは、それぞれ FRN-S と FFN-S と略されます。 FRN-S トレーニング プロセスで使用される損失関数は次のとおりです。

個人情報の紛失:

再構築されたピクセル損失:

全損:

FFN-S トレーニング プロセスで使用される損失関数は次のとおりです。

プラスリターンの損失:

条件付き敵対的損失:

全損:

タスク統合(TI)トレーニング:FRN と FFN が対応する個別のトレーニングを完了した後、著者らは事前トレーニング済みモデルに基づいて統合トレーニングを実行しました。この段階で、著者らは FFN モデルの出力をグラウンドトゥルースとして使用して FRN をトレーニングします。同時に、PNM によって正規化された実際の正面顔ランドマークは、FFN での顔の正面化をガイドするために使用されます。より良い顔の効果を生成するために、著者はこの段階で特徴アライメント損失 (FA) も使用しました。具体的な定義は次のとおりです。

全体的なトレーニング損失関数は次のとおりです。

3.実験結果

著者らはまず、ネットワーク構造と損失関数のさまざまな組み合わせを調査し、FFN-S と FRN-TI の対応する部分が顔生成に与える影響を観察しました。実験結果を図 3 に示します。

図 3. Multi-PIE データベースにおけるアブレーション実験の比較結果。

同時に、表 1 は、さまざまなポーズの顔に対する MDFR のさまざまなバリエーションのランク 1 認識率を示しています。すべての実験モデルの中で、FFN-S と FRN-TI が最高の精度を達成しました。

表 2 は、Multi-PIE データセットにおける FFN-S と FRN-TI の顔認識率と他の方法との比較を示しています。 FFN-S はすべてのポーズで最高の結果を達成し、FFN-TI がそれに続きます。姿勢角が±45°以内の場合、FFN-SとFFN-TIはCAPG-GANと同様の認識結果を達成します。ただし、姿勢角が±45°より大きい場合、FFN-SとFFN_TIの効果はCAPG-GANよりも大幅に優れています。

図4. 複数の低品質要因の影響下での異なる方法による顔の修復効果

著者らは、低解像度、照明不良、ノイズ、ぼやけなど、複数の低品質要因の影響を受けた顔画像に対して対応する検証を実施しました。実験では、この記事で言及されている方法は、さまざまな低品質要因に完全に対処できるだけでなく、対応する高品質の顔画像を生成できることが示されています。図 4 は、複数の低品質要因の影響下でのさまざまな方法による顔の復元効果を示しています。単一のタスクしか処理できない従来の方法とは異なり、本論文で提案された方法は、顔を回転させるだけでなく、高品質で復元し、最高の視覚効果を実現できることがわかります。

<<:  今日のトーク: 人工知能、ロボット、そして中国のバレンタインデー

>>:  保険業界は人工知能をどのように活用しているのか

ブログ    
ブログ    

推薦する

AIがデータ侵害やデータ損失の防止にどのように役立つか

サイバーセキュリティは長期にわたる戦いです。 日々新たな脅威が出現し、最高情報セキュリティ責任者 (...

清華大学と中国人工知能学会が2019年人工知能開発報告書を発表

2019年中国人工知能産業年次大会で「2019年人工知能発展報告書」が発表されました。唐潔教授は、関...

【WOT2018】AIの敷居は下がり続け、AIツールは誰でも利用可能に

[51CTO.comより引用] 2018年11月30日から12月1日まで、WOT2018グローバル人...

Tensorflow はディープラーニングに基づいて画像補完をどのように実装するのでしょうか?

[[191038]]ブランドン・エイモス編集:モリー・ハン・シャオヤン目次1. はじめに2. ステ...

人工知能は「大きい」と「小さい」に分けられる

大規模な多国籍産業企業は、進行中のデジタル産業革命で効果的に競争できるように、機械をよりスマートにす...

頑固なマージソートアルゴリズム

この記事はWeChatの公開アカウント「Beta Learns JAVA」から転載したもので、著者は...

AI に関する知っておくべき 29 の統計とトレンド

ChatGPTは2022年11月の爆発的なリリースに続いて世界を席巻し、2023年には人工知能(AI...

人工ニューラルネットワークとBPアルゴリズムについての簡単な説明

[[338555]] 【51CTO.comオリジナル記事】 1 はじめに現在、機械学習技術とも呼ばれ...

ソフトウェアは世界を飲み込んでいるが、AIはソフトウェアを飲み込んでいる

COVID-19が世界を席巻したとき、人工知能はなぜ大きな空白を埋めることができるのか?教育、セキュ...

...

将来、人工知能は冷酷な大量虐殺者になるのでしょうか?

人類の将来に対する最も永続的な恐怖の一つは、人工知能が人間の制御を逃れ、人類を絶滅させる可能性がある...

誇大宣伝サイクルを経ても、チャットボットがまだ普及していないのはなぜでしょうか?

2016 年に私たちは、ボット パラダイムの変化は、過去 10 年間の Web からモバイル アプリ...

わずか数行のコードで最初のウェブアプリを作成

データ サイエンス プロジェクトの展開は、データ サイエンティストと機械学習エンジニアの両方に必要な...

2021年に注目すべき10の重要なディープラーニングアルゴリズム

[[416068]] [51CTO.com クイック翻訳]人間が未来を予測することは困難ですが、人工...