ICCV 2021 | 生成されたデータに基づく顔認識

ICCV 2021 | 生成されたデータに基づく顔認識

[[422257]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

この記事は、コンピュータービジョン分野のトップカンファレンスであるICCV 2021で発表された論文「SynFace: 合成データによる顔認識」の解釈です。

この論文は、JD Discovery Instituteがシドニー大学およびTencent Data Platform Departmentと共同で完成させたものです。現在顔認識モデルのトレーニングに使用されている実際の顔データのプライバシー権、ラベルノイズ、ロングテール分布の問題に対応するため、実際のデータの代わりにシミュレートされた顔データを使用して顔モデルをトレーニングすることを提案しています。本論文では、Identity MixupとDomain Mixupを導入することで、生成データでトレーニングしたモデルと実際のデータでトレーニングしたモデル間の精度のギャップを大幅に縮小し、トレーニングデータ内のさまざまな特性が認識精度に与える影響を体系的に分析します。

論文リンク: https://arxiv.org/abs/2108.07960

1

背景

近年、顔認識タスクは大きな進歩を遂げており、その中でも大規模な顔トレーニングデータセットが非常に重要な役割を果たしてきました。しかし、近年注目を集めているプラ​​イバシーの問題、すなわち顔学習データセットの使用にはデータセットに含まれるすべての人の許可と同意が必要であることから、一部の大規模データセット[1]は公式サイトから削除され、アクセスできなくなっています。また、インターネットから収集したこの種のデータセットには、ラベルノイズやロングテール分布(つまり、各カテゴリに含まれるサンプル数が大きく異なる)などの問題もあり、ネットワーク構造や損失関数が適切に設計されていない場合は、認識精度の低下を招きます。さらに、これらのデータには特定の顔の特徴(表情、姿勢、照明条件など)がラベル付けされていないため、顔認識におけるこれらの要素の具体的な影響を体系的に分析することはできません。

2

探索的分析

上記の問題を解決するために、実際のデータではなく生成されたデータを導入して顔認識モデルをトレーニングする予定です。近年、GAN[2]に基づく生成モデルが急速に発展しており、図1に示すように、これによって生成された顔画像は、いくつかのシナリオではすでに実際の人物と区別がつかないものになっています。


図1: 最初の行は実際の顔、2行目は生成された顔

生成された顔のさまざまな特徴(アイデンティティ、表情、姿勢、照明条件など)をさらに制御するために、DiscoFaceGAN[3]を基本的な生成モデルとして採用し、まず実際のデータでトレーニングされたモデルと比較しました。 RealFace と SynFace は、それぞれ実際のデータと生成されたデータを使用してトレーニングされ、実際のテスト セットと生成されたテスト セットで評価されたモデルを表します。結果を表 1 に示します。


表1: 実際のデータと生成されたデータでトレーニングされたモデルのクロスドメイン評価結果

実験結果から、2 つの認識精度の違いは、実際のデータと生成されたデータという 2 つの異なる分野の違いによって生じていることがわかります。生成された顔をさらに観察すると、同じクラス(つまり、同じ人物)のサンプル顔の違いが少ない、つまりクラス内距離が小さいことがわかります。実際のデータと生成されたデータの深層特徴を視覚化するためにMDS [4]を使用します。図2の緑色の五角形と水色の三角形を参照してください。生成されたデータのクラス内距離が実際のデータのクラス内距離よりも大幅に小さいことは明らかです。


図2: 実際のデータと3種類の生成されたデータの深層特徴の視覚化

3

方法の紹介

アイデンティティの混乱

生成されたデータのクラス内距離を増やすために、Mixup[5]に触発されて、生成された顔モデルのアイデンティティ係数空間にミックスアップ、つまりIdentity Mixup (IM)を導入し、Mixup Face Generatorを取得します。 2 つの恒等係数とについては、それらの中間状態 (補間値) を新しい恒等係数として取得し、それに対応するラベルも線形に変化します (式 1 を参照)。さらに、このようにして得られた新しいアイデンティティ係数でも高品質の顔画像が生成できること、また重み係数が変化するとアイデンティティ情報が徐々に変化していくことが視覚化によってわかりました(図 3 参照)。

式1: 恒等係数空間における混乱

図3: アイデンティティミックスアップの重みが変化すると、アイデンティティはスムーズに移行します

IM が生成された顔データのクラス内距離を高めることができることを確認するために、3 つの異なる程度の IM (係数によって調整) 後に生成された顔の特徴を視覚化しました (図 2 を参照)。シアン色の三角形から青色の四角形、そして赤色の円へと、クラス内距離が徐々に増加し、対応する精度も 88.75 から 89.47、さらに 90.95 へと増加していることがわかります。これは、IM がクラス内距離を増加させ、認識精度を向上できることを完全に実証しています。また、表2から、IMを追加した後、認識精度が88.98から91.97に大幅に向上していることがわかります。図5、6、表3の後続の実験結果もIMの有効性を証明しています。

ドメインの混在

生成データでトレーニングされたモデルと実際のデータでトレーニングされたモデル間の精度のギャップをさらに狭めるために、それを緩和するための一般的なドメイン適応方法としてDomain Mixup (DM)を導入しました。具体的には、少量の注釈付き実データと大量の生成データのみを使用して、DM を通じてモデルをトレーニングします。DM の具体的な数学的形式は、式 2 で確認できます。およびはそれぞれ生成された顔画像と実際の顔画像を表し、対応するラベルも線形に変化します。


公式2: ドメイン空間の混同

そのため、モデルトレーニングには DM を使用して実際のデータと生成データを混合します。実際のデータのみでトレーニングしたモデルとの比較結果を表 2 に示します。導入した DM により、さまざまな設定で精度が大幅かつ安定的に向上することがわかります。


表2: 実データと混合データを使用してトレーニングしたモデルの精度

たとえば、最後の一連の実験では、91.22 と比較して 95.78 は大幅な改善でした。これは、少量の実データと混ぜることで、生成されたデータにぼかしや照明などの現実世界の外観情報を取り入れることができ、2つの領域間のギャップが狭まり、精度が向上するためだと推測しています。実データを2K_20まで増やし続けると、精度は95.78から97.65にさらに向上します。アイデンティティの混同とドメインの混同を含む全体的なフローチャートは、図 4 に示されています。


図4: フレームワーク全体のフローチャート

4

実験分析

入手した Mixup Face Generator を使用すると、生成される顔の数、アイデンティティ、表情、姿勢、照明を制御できるため、これらの要素が顔認識タスクに与える具体的な影響を体系的に分析してみましょう。

まず、ロングテール分布の問題を分析してみましょう。実際の顔データは基本的にインターネットから収集されるため、一部のクラス(人物)には多数のサンプルがありますが、一部のクラスには少数のサンプルしかありません。このような不均衡な分布のトレーニングによって得られるモデルのパフォーマンスは劣っています。この問題をシミュレートするために、生成されたデータの各カテゴリのサンプル数を制御します。図 5 に示すように、2K_UB1 から 2K_UB2、そして 2K_50 まで、分布はますますバランスが取れてきており、対応する精度も徐々に向上していることがわかります。生成されたデータ内のカテゴリサンプルの数を制御することで、ロングテール分布によって引き起こされる問題を自然に回避できます。さらに、Identity Mixup (IM) の導入により、すべての設定が大幅に改善されました。


図5: ロングテール分布の問題

次に、生成されたデータセットの幅(カテゴリの数)と深さ(クラス内のサンプルの数)が認識精度に与える影響を調べます(表 3 を参照)。深さと幅が増加すると、精度が徐々に向上することがわかります。ただし、深度が 20 に達すると、精度は飽和し始めます。また、(a)と(e)を観察すると、サンプル総数(50K)は同じであるが、(a)が(e)を4.37と大きく上回っており、幅が深さよりも重要な役割を果たしていることがわかります。さらに、Identity Mixup(IM)を導入することで、すべての設定が大幅に改善されたことがわかり、改めてIMの有効性が実証されました。


表3: 生成されたデータセットの幅と深さ

最後に、他の特徴は変更せず、現在調査中の特徴のみを変更して、生成された顔のさまざまな特徴 (表情、ポーズ、照明など) の影響を分析します。例えば、Expression は、他の姿勢や照明はそのままにして、表情だけを変えて生成したデータです。これらで学習させたモデルの精度を図 6 に示します。何も変えず (Non)、表情だけを変えた場合、最も悪い結果になっていることがわかります。これは、ここで生成される表情の種類が、基本的に笑顔など非常に限られているため、何も変えていないのと同等になり得るためです。ポーズと照明を変更すると大きな改善が得られます。これは、テスト データセット内のポーズと照明のバリエーションが非常に大きいためと考えられます。同様に、IM の導入により着実な改善がもたらされ、どちらも同様の精度が達成されます。潜在的な理由としては、IM は強力なデータ拡張とみなすことができ、各機能が最終的な精度に与える影響を軽減できることが挙げられます。


図6: 顔のさまざまな特徴を生成する比較実験

5

結論

本稿では、シミュレートされた顔データを生成して顔認識モデルを効果的にトレーニングする方法を検討しました。関連する実験結果の比較分析を通じて、生成データのクラス内距離を増やすためにIdentity Mixupを提案し、生成データと実データ間のドメイン差をさらに狭めるためにDomain Mixupを導入しました。どちらも認識精度を大幅に向上させ、実データトレーニングで得られたモデルとのギャップを大幅に狭めました。さらに、人間の顔のさまざまな特徴を体系的に分析した結果、トレーニングデータセットの深さと幅が最終的な認識率に大きな影響を与えることが明らかになりました。トレーニングデータセットの深さと幅が増加すると、認識率も増加しますが、飽和は最初に深さの次元に現れ、幅がより重要であることを意味します。さらに、姿勢や照明を豊かに変化させることで、生成されたデータを実際のデータに近づけることができ、認識率が大幅に向上します。詳しい実験結果と分析については、原著論文を参照してください。

<<:  人工ニューラルネットワークは生物学的ニューロンの「厚み」を活用できるでしょうか? 5階から8階が限界ではないかもしれない

>>:  AIイノベーションセンタートラックのリーディングカンパニー:智源匯が成都のスマート鉄道輸送の構築を支援

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

GPTは「贅沢」すぎるが、代替案が多数用意されており、展開の問題を心配する必要はもうない

近年、生成的事前トレーニング済みモデル (GPT など) の台頭により、自然言語処理の分野に革命が起...

ディープラーニングを専門家以外の人に説明するにはどうすればよいでしょうか?

昨年から、AIの普及に関わる仕事がたくさん必要になりました。私は長い間、ディープラーニングがなぜ特に...

機械学習で最もよく使われる最適化の1つ - 勾配降下法最適化アルゴリズムのレビュー

勾配降下アルゴリズムは、機械学習で非常に広く使用されている最適化アルゴリズムであり、多くの機械学習ア...

マルチエージェント強化学習の大規模モデルに関する予備的研究

1. 大規模マルチエージェント意思決定モデルの課題現実世界における多くの実際的な問題は、複数のエージ...

70%は輸入品。中国の産業用ロボットはチップのような悲劇をどう回避できるのか?

ロボットは産業の魂です。 [[386663]]しかし、私たちの身近な国である日本が、20年もの間、世...

...

人工知能が人間の能力を高める4つの方法

調査会社ガートナーの調査によると、2021年までに世界中の組織が人工知能を通じて約3兆ドルのビジネス...

独自の大規模言語モデルを展開する 5 つの方法

これは歴史上最も急速に成長している新技術です。生成 AI は世界を変え、画像、ビデオ、オーディオ、テ...

プロンプトエンジニアリング

プロンプト エンジニアリング (コンテキスト プロンプトとも呼ばれる) は、モデルの重み/パラメータ...

...

5つの異なるタイプの人工知能

近年、人工知能は、データから洞察を引き出すことに関する企業の考え方を一変させました。ほとんどの人はこ...

毎日のアルゴリズム: 回文部分文字列

[[434467]]文字列が与えられた場合、その文字列に含まれる回文の部分文字列の数を数えることがタ...

ビットコインアルゴリズム調整!世界の鉱山会社にとって採掘は困難に:利益は急激に減少

ビットコインの場合、その出力は固定されています。つまり、マイニングする人が増えれば増えるほど、マイニ...

自然災害の予測に関しては、AIはまだ大丈夫でしょうか?

古代から現代に至るまで、自然災害は人類に限りない損失をもたらしてきました。都市社会がますます発展する...