エラー率が44%減少しました!ニューヨーク大学の最新の「顔生成」は、年齢を自由に変えることが可能で、10代から高齢者まであらゆる人をカバーできる。

現在の「顔認識システム」は老化防止能力が非常に弱く、人の顔が老化すると認識性能が大幅に低下し、一定期間後に顔データを置き換える必要があります。

顔認識システムの堅牢性を向上させるには、個人の老化に関する高品質なデータを収集する必要があります。しかし、近年公開されているデータセットは、サイズが小さかったり、期間が短かったり（約5年など）、姿勢、照明、背景などが大きく変化したりしており、顔データに重点が置かれていません。

最近、ニューヨーク大学の研究者らは、潜在拡散モデルを通じてさまざまな年齢のアイデンティティ特徴を保持する方法を提案しました。この方法では、いくつかのサンプルトレーニングのみが必要で、「テキストプロンプト」を直感的に使用してモデル出力を制御できます。

論文リンク: https://arxiv.org/pdf/2307.08585.pdf

研究者らは、既存の GAN ベースの方法の限界に対処するために、アイデンティティ保存損失と少数の (画像、説明) 正規化子という 2 つの主要コンポーネントを導入しました。

2 つのベンチマークデータセット (CeleA と AgeDB) の評価では、提案された方法は、一般的に使用されている生体認証忠実度メトリックの最先端のベースラインモデルと比較して、誤った不一致率を約 44% 削減します。

人間の顔の加齢変化を追跡する

ドリームブース

本論文で提案する方法は、潜在的拡散モデル DreamBooth に基づいており、潜在的拡散モデルを微調整することで単一の主題を他のコンテキストに配置する (再コンテキスト化) ことができます。

Dreambooth では、入力として、対象の主題の複数の画像と、主題の一意の識別子とクラスラベルを含むテキストプロンプトが必要です。クラスラベルは複数のインスタンスのコレクションであり、主題はそのクラスに属する特定の例に対応します。

Dreambooth の目標は、各主題 (クラスの特定のインスタンス) に一意の識別子を関連付け、テキストの手がかりに従って、異なるコンテキストで同じ主題のイメージを再作成することです。

クラスラベルは、指定されたカテゴリの事前トレーニング済み拡散フレームワークの事前知識を活用する必要があります。クラスラベルが間違っていたり欠落していたりすると、出力の品質が低下する可能性があります。一意のトークンは特定のトピックへの参照として機能し、他の一般的な概念との競合を回避するために十分に希少である必要があります。

オリジナルの作成者は、3 文字未満の Unicode 文字シーケンスのセットをトークンとして使用し、トークナイザーとして T5-XXL を使用しました。

DreamBooth は、クラス固有の事前保存損失を使用して、ターゲットオブジェクトと出力画像間の偏差が最小限になるようにしながら、生成される画像の変動性を高めます。元のトレーニング損失は次のとおりです。

DreamBooth は、事前保存の助けを借りて、犬、猫、漫画などの被写体の画像を効果的に合成できます。ただし、この論文では、より複雑な構造と詳細なテクスチャを持つ人間の顔の画像に主に焦点を当てています。

クラスラベル「人」は人間のような特徴を捉えることができますが、個々の違いから生じるアイデンティティの特徴を捉えるには不十分な場合があります。

そこで研究者らは、元の画像と生成された画像の生体認証特徴間の距離を最小限に抑えるアイデンティティ保存項を損失関数に導入し、新しい損失関数で VAE を微調整しました。

式の3番目の項は、撮影された物体の実際の画像と生成画像との間の生体距離を表し、Bは2つの画像間のL1距離を表します。同じ画像の距離は0に近く、値が大きいほど、2つの被写体間の違いが大きくなります。特徴抽出器として、事前トレーニング済みのVGGFaceが使用されます。

次のステップは、U-Net モデルを凍結せずに、凍結した VAE とテキストエンコーダーを使用して、特定のターゲットに合わせて微調整することです。

UNet は、VAE エンコーダーによって生成された潜在表現のノイズを除去し、アイデンティティ保存コントラスト損失を使用してトレーニングされます。

研究者らは SimCLR フレームワークを採用し、正と負のサンプルペア間の正規化された温度スケールのクロスエントロピー損失を使用して、潜在表現、つまり次の式の S 関数を強化しました。

ノイズのない入力 (z0) とノイズ除去された出力 (zt) の潜在表現間のコントラスト損失は、重み付け項 λs = 0.1 と温度値 = 0.5 で計算されます。

U-Net アーキテクチャにおける潜在的表現間の対照的な損失により、モデルはさまざまな対象に対して拡散モデルを微調整できるようになります。

カスタマイズされた損失に加えて、研究者らは、カテゴリ（この場合は人物）の代表的な画像をすべて含む正規化セットを使用して、顔の年齢の進行と回帰の概念を潜在拡散モデルに伝えました。

現実的な顔画像を生成することが目的であれば、インターネットから選択された正規化された顔画像セットで十分です。

しかし、この記事の課題は、モデルに老化と若返りの概念を学習させ、それをさまざまな個人に適用することであるため、研究者はさまざまな年齢層の顔画像を使用し、それらを 1 語のキャプションと組み合わせることを選択しました。

画像の説明は、子供、ティーンエイジャー、若者、中年、高齢者、老人の 6 つの年齢層に対応しています。

年齢の説明は数値プロンプト（20、40）よりもパフォーマンスが良く、推論中に拡散モデルを促すために使用できます（⟨トークン⟩⟨クラスラベル⟩を⟨年齢グループ⟩として表示した写真）

実験結果

実験のセットアップ

研究者らは、Stable Diffusion v1.4 に実装された DreamBooth を使用して実験を行い、CLIP テキストエンコーダー (laion-aesthetics v2 5+ でトレーニング済み) とベクトル量子化 VAE を使用して年齢変更を完了しました。テキストエンコーダーは、拡散モデルのトレーニング中はフリーズされたままでした。

研究者らは、CelebAデータセットから100人の被験者の顔画像2,258枚と、AgeDBデータセットから100人の被験者の顔画像659枚を使用してトレーニングセットを形成した。

バイナリ属性「Young」を除き、CelebAデータセットには被験者の年齢情報がありませんが、AgeDBデータセットには正確な年齢値が含まれています。研究者は、画像数が最も多い年齢グループを選択してトレーニングセットとして使用し、残りの画像はテストセット（合計2,369枚の画像）で使用しました。

研究者らは、（画像、説明）データペアを正規化セットとして使用し、各顔画像には、対応する年齢ラベル（具体的には、15歳未満の子供、15〜30歳のティーンエイジャー、30〜40歳の若者、40〜50歳の中年、50〜65歳の中高年、65歳以上の高齢者）を示すキャプションが関連付けられ、wzx、sks、ams、ukjという4つの希少トークンがラベルとして使用されました。

比較結果

研究者らは、評価および比較のベースラインモデルとして IPCGAN、AttGAN、Talk-toEdit を使用しました。

IPCGANはCACDデータセットでトレーニングされたため、研究者らはCACDデータセットの62人の被験者で微調整し、FNMR = 2%であったのに対し、提案された手法ではFNMR（False NonMatch Rate）= 11%であった。

IPCGAN はデフォルトでは老化や若返りの操作を実行できないため、FNMR 値が非常に低くなることがわかります。

研究者らは、DeepFace年齢予測器を使用して自動年齢予測を行い、提案された方法で合成された画像では、元の画像やIPCGANによって生成された画像と比較して、年齢予測がより分散していることを観察しました。これは、年齢編集操作が成功したことを示しています。

AttGAN とダイアログ編集を CelebA データセットに適用すると、画像比較と生体認証マッチングのパフォーマンスの観点から、FMR = 0.01 で、私たちの方法は「若い」カテゴリの画像では AttGAN より 19% 優れており、「古い」カテゴリの画像では 7% 優れていることがわかります。

ユーザーリサーチ

研究者らは 26 件のユーザー回答を収集し、ランク 1 の生体認証精度 (回答総数の平均) は 78.8% に達しました。各年齢層の正しい認識精度は、子供 = 99.6%、青年 = 72.7%、ティーンエイジャー = 68.1%、中年 = 70.7%、高齢者 = 93.8% でした。

つまり、ユーザーは、生成された異なる年齢層の画像をかなり高い精度で区別することができました。

<<: AIが人間の翻訳者に取って代わり、有名なテクノロジーウェブサイトは13歳の従業員まで解雇し、ウェブサイトはすべてAIによって制作されている

>>: GitHub ホットリストのトップ: オープンソースの GPT-4 コードインタープリター、任意の Python ライブラリをインストールでき、ローカルターミナルで実行可能