Meituと中国科学技術大学が共同で顔面修復法DiffBFRを提案

ブラインドフェイスリストレーション (BFR) は、低品質の顔画像から高品質の顔画像を復元することを目的としています。これは、コンピュータービジョンとグラフィックスの分野における重要なタスクであり、監視画像の復元、古い写真の復元、顔画像の超解像など、さまざまなシナリオで広く使用されています。

しかし、このタスクは非常に困難です。ぼやけ、ノイズ、ダウンサンプリング、圧縮アーティファクトなどの不確実性の低下によって画像の品質が低下し、画像情報が失われる可能性があるためです。従来の BFR 手法では、通常、生成的事前確率、参照事前確率、幾何学的事前確率など、顔固有のさまざまな事前確率を設計することで問題を解決するために、生成的敵対的ネットワーク (GAN) に依存しています。これらの方法は最先端の結果を達成していますが、リアルな質感を同時に得ると同時に、きめ細かな顔の細部を復元するという目標を完全に達成するにはまだ不十分です。

画像復元のプロセスでは、顔画像のデータセットは通常、高次元空間に散在しており、分布の特徴的な次元はロングテール分布形式を呈しているためです。画像分類タスクのロングテール分布とは異なり、画像復元におけるロングテール領域の特徴は、ほくろ、しわ、色調など、アイデンティティにはほとんど影響しないが視覚効果に大きな影響を与える属性を指します。

図 1 に示すように、簡単な実験により、従来の GAN ベースの方法では、ロングテール分布の先頭と末尾のサンプルを同時に適切に処理できず、修復された画像で明らかな過剰な平滑化と詳細消失の問題が発生することがわかりました。拡散確率モデル (DPM) に基づく方法は、ロングテール分布に適合しやすく、実際のデータ分布に適合させながらテール特性を保持できます。

図1. ロングテール問題に対するGANベースとDPMベースのテスト

Meitu Imaging Research Institute (MT Lab) と中国科学院大学の研究者が共同で、新しい DPM ベースのブラインド顔画像復元方法 DiffBFR を提案しました。この方法はブラインド顔画像復元を実現し、低品質 (LQ) の顔画像を高品質 (HQ) の鮮明な画像に復元します。

論文リンク: https://arxiv.org/abs/2305.04517

この方法では、GAN と DPM という 2 つの生成モデルのロングテール問題への適応性を調査し、より正確な詳細情報を取得するための適切な顔復元モジュールを設計します。これにより、生成方法によって引き起こされる顔の過剰な平滑化現象が軽減され、復元の精度と正確性が向上します。この論文はACM MM 2023に採択されました。

DiffBFR: 視覚障害者のためのDPMベースの顔画像復元法

研究では、拡散モデルはトレーニングモードの崩壊を回避し、生成されたロングテール分布を適合させる点でGAN法よりも優れていることがわかりました。そのため、DiffBFRは拡散確率モデルを使用して顔の事前情報の埋め込みを強化します。任意の分布範囲内で高品質の画像を生成する強力な能力に基づいて、DPMがソリューションの基本フレームワークとして選択されました。

本研究では、論文で発見された顔データセットの特徴的なロングテール分布と過去の GAN ベースの方法の過剰平滑化現象に対応して、近似ロングテール分布により適合し、復元プロセスにおける過剰平滑化問題を克服するための合理的な設計を探求します。この論文では、同じパラメータサイズを持つ GAN と DPM を使用して MNIST データセットで簡単な実験を行った結果 (図 1 を参照)、DPM 法はロングテール分布に適切に適合できるのに対し、GAN はヘッドに重点を置きすぎてテールの特徴を無視するため、テールの特徴が生成されなくなると主張しています。そのため、BFR のソリューションとして DPM が選択されました。

2 つの中間変数を導入することにより、2 段階設計の DiffBFR で 2 つの特定の復元モジュールが提案され、最初に LQ 画像から ID 情報を復元し、次に実際の顔の分布に応じてテクスチャの詳細を強化します。設計は 2 つの主要部分で構成されています。

（１）アイデンティティ復元モジュール（IRM）：

このモジュールは、結果に顔の詳細を保持するために使用されます。一方、逆のプロセスで LQ 画像に条件付けられた純粋なガウスランダム分布からノイズを除去する方法に代えて、LQ 画像からいくらかのノイズを追加する切り捨てサンプリング法が提案されています。この論文では、この変更によって DPM の理論的証拠下限値 (ELBO) が削減され、より元の詳細が回復されることが理論的に証明されています。理論的証明に基づいて、入力サイズの異なる 2 つのカスケード条件付き拡散モデルが導入され、このサンプリング効果を強化し、高解像度画像を直接生成するトレーニングの難易度が軽減されます。同時に、条件入力の品質が高く、実際のデータ分布に近いほど、復元された画像の精度が高くなることがさらに証明されており、これは DiffBFR が IRM で最初に低解像度の画像を復元する理由でもあります。

（２）テクスチャーエンハンスメントモジュール（TEM）：

イメージのテクスチャを磨くために使用されます。ここでは、LQ 画像とはまったく関係のない無条件拡散モデルが導入されており、復元された結果が実際の画像データにさらに近くなります。この論文では、純粋なHQ画像でトレーニングされたこの無条件拡散モデルが、IRMが出力画像をピクセルレベルの空間で正しく分散するのに役立つことを理論的に証明しています。つまり、このモジュールを適用した後の画像分散のFIDは、使用前のFIDよりも低く、得られた修復画像は、一般にHQ画像の分散に類似しています。具体的には、タイムステップトランケーションサンプリングを使用して、ID 情報を保持しながらピクセルレベルのテクスチャを磨き上げます。

DiffBFR のサンプリング推論手順を図 2 に示します。また、サンプリング推論プロセスの概略図を図 3 に示します。

図2 DiffBFR法のサンプリング推論手順

図3 DiffBFR法のサンプリング推論プロセスの概略図

実験結果

図4 BFRのGANベース手法とDPMベース手法の可視化効果の比較

図5 BFRのSOTA法のパフォーマンス比較

図6 BFRのSOTA手法の視覚化比較

図7 モデルにおけるIRMとTEMのパフォーマンスの視覚的比較

図8 モデルにおけるIRMとTEMのパフォーマンス比較

図9 異なるパラメータによるIRMパフォーマンスの比較

図10 異なるパラメータによるTEM性能の比較

図11 DiffBFRの各モジュールのパラメータ設定

要約する

本論文では、拡散モデルに基づくブラインド劣化顔画像復元モデル DiffBFR を提案します。このモデルは、従来の GAN ベースの方法におけるトレーニングモードの崩壊とロングテール消失の問題を回避します。事前情報を拡散モデルに埋め込むことで、ランダムに抽出されたひどく劣化した顔画像から高品質で鮮明な復元画像が生成されます。具体的には、忠実度と実際の詳細を復元するために、それぞれ IRM と TEM という 2 つのモジュールが提案されています。理論的限界の導出と実験画像での実証により、モデルの優位性が実証され、既存の SOTA 方法と定性的および定量的に比較されます。

研究チーム

この論文は、Meitu Imaging Research Institute (MT Lab) と中国科学院大学の研究者によって共同で提案されました。 Meituイメージング研究所（MTラボ）は2010年に設立され、コンピュータビジョン、ディープラーニング、拡張現実などの分野でアルゴリズム研究、エンジニアリング開発、製品実装に専念するMeituのチームです。設立以来、コンピュータビジョンの分野での探索的研究に重点を置いてきました。2013年にはディープラーニングの展開を開始し、Meituのソフトウェアおよびハードウェア製品の全範囲に技術サポートを提供しています。同時に、イメージング業界の複数の垂直トラックにターゲットを絞ったSaaSサービスを提供しており、最先端のイメージングテクノロジーを通じてMeituのAI製品エコシステムの発展を促進しています。CVPR、ICCV、ECCVなどのトップクラスの国際大会に参加し、10回以上の優勝と準優勝を獲得し、トップクラスの国際学術会議で48本以上の論文を発表しています。 Meitu Imaging Research Institute (MT Lab) は、長年にわたりイメージング分野の研究開発に深く携わり、深い技術的蓄積を形成してきました。写真、ビデオ、デザイン、デジタルヒューマンの分野での技術の実装において豊富な経験を持っています。

<<:

>>: 思考連鎖CoTは思考マップGoTへと進化し、思考ツリーよりも優れたヒントエンジニアリング技術が誕生した