DeSRAは欠陥を検出して除去し、実際のシーンの超解像におけるGANをより完璧にします

生成的敵対的ネットワーク (GAN) を使用した画像超解像 (SR) は、リアルな詳細を復元する上で大きな成功を収めています。しかし、GAN ベースの SR モデルは、特に現実世界のシナリオでは許容できないアーティファクトを生成することがよく知られています。これまでの研究では、通常、トレーニング段階で追加の損失ペナルティによって欠陥を抑制していましたが、これらの方法は、トレーニング中に生成された同じ分布の欠陥タイプにのみ適用できます。

しかし、これらの方法を現実のシナリオに適用すると、推論プロセスに依然として明らかな欠陥が生じることがわかります。これに対して、 Tencent ARC Lab、XPixel チーム、マカオ大学の研究者らは新しいDeSRA方式を提案し、論文を発表しました。推論フェーズ中に生成された超解像欠陥を検出して排除できます。この論文はICML 2023に採択されました。

論文リンク: https://arxiv.org/abs/2307.02457
コードリンク: https://github.com/TencentARC/DeSRA

「GAN トレーニングの欠陥」と「GAN 推論の欠陥」

GAN ベースの方法は、テクスチャを使用したリアルな復元結果を生成することに大きな成功を収めています。 BSRGAN [1]とReal-ESRGAN [2]はGANベースのモデルを現実世界のアプリケーションに拡張し、現実世界の画像のテクスチャを回復する能力を実証しました。しかし、GAN-SR 方式では視覚的に許容できないアーティファクトが生成されることが多く、ユーザーエクスペリエンスに重大な影響を及ぼします。低解像度画像の劣化は未知で複雑であるため、この問題は現実世界のシーンではさらに深刻です。

最初の列: 低解像度の入力、2 番目の列: 既存の超解像手法によって生じた欠陥、3 番目の列: DeSRA が欠陥領域を検出、4 番目の列: DeSRA が欠陥を除去

欠陥の発生を軽減するために、LDL[3]はテクスチャの種類を分析し、各ピクセルが欠陥である確率を計算し、トレーニングプロセス中に損失を増やすことで欠陥を抑制します。確かに GAN-SR の結果は改善されますが、上の図に示すように、LDL には現実世界のテストデータで推論する際に明らかな欠陥があることが依然としてわかります。したがって、これらの欠陥は GAN-SR モデルのトレーニングプロセス中に現れない可能性があるため、モデルのトレーニングを改善するだけではこれらの欠陥を解決することは困難です。

ここでは、GAN のトレーニング中に発生する欠陥とテスト中に発生する欠陥を区別します。

GAN トレーニングアーティファクト: トレーニングフェーズ中に発生します。主な原因は、トレーニング中のネットワーク最適化の不安定性と、同じ分布データに対する SR の不適切さです。鮮明な高解像度画像があれば、トレーニングプロセス中にこれらの欠陥を制限できるため、LDLなどの欠陥の生成を軽減できます[3]。
GAN 推論アーティファクト: 推論フェーズ中に発生します。これらのアーティファクトは通常、現実世界では見られなかったデータに存在します。これらのアーティファクトは通常、トレーニングデータの分布には含まれず、トレーニング中には表示されません。したがって、トレーニングプロセスを改善する方法（LDL [3]など）では、これらの欠陥に対処することはできません。

GAN 推論から生じる不完全性に対処することは、新しい、かつ困難なタスクです。まず第一に、実際のシーンの低解像度の写真には、対応する高解像度の写真がありません。さらに、これらのアーティファクトはトレーニングセットにほとんどまたはまったく表示されない可能性があるため、シミュレートすることは困難です。言い換えれば、これらの不完全性はモデルには知られておらず、トレーニングデータの分布の範囲外にあります。この問題を解決することが、GAN-SR モデルを実際のシナリオに適用するための鍵であり、重要な実用的価値を持っています。

GAN推論の欠陥を検出する

この論文では、研究チームは GAN 推論中に発生する欠陥に対処することに焦点を当てました。これらの欠陥は実際のアプリケーションに重大な悪影響を及ぼすため、これらを解決することは大きな実用的価値があります。これらの欠陥は複雑かつ多様であるため、一度にすべてに対処するのは困難です。

この記事では主に、次の 2 つの特徴を持つ欠陥について扱います。

これらのアーティファクトは、事前トレーニング済みの MSE-SR モデルには表示されません。
これらの欠陥は明白でサイズも大きいため、人間の目で簡単に捉えることができます。上の画像はこれらのアーティファクトのいくつかの例を示しています。

前者の特徴については、研究チームは欠陥が GAN によって引き起こされたこと、および対応する MSE-SR 結果がテストデータの適切な参照結果であることを確認し、それによって欠陥を区別したいと考えました。 GAN アーティファクトには、不要な高周波の「詳細」が多すぎることが多いという考えに基づいています。つまり、研究チームは細かい部分を生成するためにGANトレーニングを導入したが、GANによって生成されたコンテンツがMSE-SRの結果と大きく異なることは望まなかったという。通常、MSE-SR モデルを微調整して GAN-SR モデルを取得するため、目に見えない実際のテストデータでも MSE-SR の結果が簡単に得られることに注意してください。後者の特徴において、目立ち、大きな面積を占める欠陥が最適化される理由は、このタイプの欠陥が人間の知覚に大きな影響を与えるからです。

具体的には、研究チームはまず、局所分散を計算することによって、MSE ベースと GAN ベースのモデルの生成結果間のテクスチャの違いを測定する定量的な指標を設計しました。このインジケーターは以下の部分で構成されています。

ローカルテクスチャの複雑さ: ローカル領域 P 内のピクセル強度の標準偏差を使用して、ローカルテクスチャを表します。

絶対テクスチャ差 d: 2 つのローカル領域の標準偏差 (x は GAN-SR 領域、y は MSE-SR 領域を表します)

相対的なテクスチャの違いd':

[0, 1]に正規化:

定数Cを導入する: 分母が比較的小さい場合に対処するため

テクスチャ差分マップ D を取得したら、それを使用して処理が必要な領域を決定できます。しかし、異なる意味領域の知覚許容度は異なるため、テクスチャの複雑さの違いだけを判断基準として使用するだけでは不十分です。たとえば、植物や髪の毛などの複雑なテクスチャ領域の詳細は欠陥として認識されにくいですが、海、空、建物などの滑らかで規則的なテクスチャ領域における大きなピクセルの違いは人間の知覚に敏感で、欠陥として簡単に認識されます。そこで、私たちの研究チームは、意味情報に基づいてアーティファクトマップ D をさらに調整し、下の図の 6 列目を取得しました。

最後に、研究チームは形態学的演算を使用して最終的な欠陥検出結果を取得しました。これは、下の図の 7 列目に示されています。具体的には、最初にすべて 1 で埋められた 5×5 行列を使用して侵食操作を実行します。この行列は、不連続な領域を接続するための拡張操作を実行するために使用されます。次に、すべて 1 の 3×3 マトリックスを使用して、マップの穴を埋めます。最後に、個別の小さな領域が検出ノイズとして除去されます。

GAN推論中に欠陥を除去する

修復結果の欠陥を検出することは、それ自体に大きな実用的価値を持っています。研究チームはこの結果に基づいて、GAN-SR モデルをさらに改良したいと考えています。実際のアプリケーションでは、ユーザーは明らかな欠陥を許容できないことが多く、欠陥のない弱い回復結果 (詳細が少ない) の方が、欠陥のある強い回復結果よりも受け入れられやすいことを考慮すると、そのため、彼らは MSE-SR の結果をモデル出力の参照として使用しました。下の図に示すように、研究チームは MSE-SR の結果を使用して、GAN-SR の結果で欠陥が検出された領域を置き換えました。合成された画像は疑似ハイビジョン画像（疑似GT）として使用されます。

ここで、は生成された疑似GTを表し、はそれぞれMSE-SRとGAN-SRの結果を表し、(・)は要素ごとの乗算を表し、Mは検出されたアーティファクトマップです。次に研究チームは、少量のデータを使用して実際のデータからデータペア (x,) を生成し、モデルを微調整しました。ここで、x は LR データを表します。微調整を数回繰り返すだけで (この実験では約 1K 回の反復で十分です)、更新されたモデルは明らかなアーティファクトのない視覚的に満足のいく結果を生成します。さらに、傷のない部分の細部には影響しません。この方法の動作メカニズムは、微調整プロセスを通じて合成データの分布と実際のデータの分布間のギャップを減らし、それによって GAN 推論におけるアーティファクトの問題を軽減することです。

実験的評価と分析

研究チームはReal-ESRGAN [2]、LDL [3]、SwinIR [4]を使用して、この方法の有効性を検証しました。既存の現実世界の超解像度データセットのいくつかは、特定のカメラの劣化を想定していますが、これは実際の状況とはかけ離れている可能性があることを考慮してください。そこで、彼らは手動で注釈を付けた欠陥データセットを構築しました。画像コンテンツの多様性と劣化を考慮して、ImageNet 1K の検証セットを実際の低解像度データとして使用します。次に、各方法で GAN 推論欠陥のある 200 枚の画像を選択して欠陥データセットを構築し、labelme を使用して欠陥領域に手動でラベルを付けます。これは、GAN 推論による欠陥検出のための最初のデータセットです。微調整プロセスでは、200 枚の画像をモデルの微調整用に 50 枚、検証セットとして残りの 150 枚に分割しました。

評価指標

現実世界の低解像度データの高解像度参照画像が不足しているため、PSNR や SSIM などの従来の指標は使用できません。そのため、研究チームは、検出結果を評価するために、1)検出された欠陥領域と実際の（手動で注釈を付けた）欠陥領域との交差和集合（IoU） 、2)検出結果の精度、3)検出結果の再現率の3つの指標を考慮しました。 A と B が特定の領域 z の検出された欠陥領域と実際の欠陥領域を表す場合、IoU は次のように定義されます。

IoU は画像ごとに計算され、検証セットの平均 IoU を使用して検出アルゴリズムが評価されます。 IoU が高いほど、検出精度が高くなります。次に、検出された欠陥領域の集合をS、正しいサンプルの集合をTと定義します。

精度 =正しく検出された領域の数 ( ) と検出された領域の総数 ( ) の比率。

研究チームは実際の欠陥領域をGと定義し、検出されたGT欠陥領域セットRを次のように計算しました。

リコール率 =正しく検出されたGT欠陥領域の数（）とGT欠陥領域の総数（）の比率。ここで、p は閾値であり、研究チームは経験に基づいてこれを 0.5 に設定しました。

欠陥検出結果

次の表に示すように、LDL モデルでの欠陥検出結果では、提案された方法が他のソリューションをはるかに上回る最高の IoU と精度を達成しています。注目すべきは、LDL がしきい値 = 0.001 のときに最高のリコールを達成することです。これは、この方式ではほとんどの領域が欠陥とみなされるため、検出結果がほとんど意味をなさないためです。 Real-ESRGAN と SwinIR の結果については、元の論文をご覧ください。

研究チームはまた、DeSRA微調整戦略を使用する前と後の欠陥検出結果を比較しました。結果は下の表に示されています。DeSRAを適用した後、Real-ESRGANのIoUは51.1から12.9に低下し、LDLのIoUは44.5から13.9に低下し、欠陥領域の検出範囲が大幅に縮小したことがわかりました。除去率はそれぞれ 75.43% と 74.97% であり、微調整後にテストデータ内の欠陥の 4 分の 3 を完全に除去できることを示しています。さらに、彼らの方法では追加の欠陥は導入されず、追加率は 0 です。

この論文では、以下の図で、GAN-SR モデルを改善するために論文の方法を使用した場合と使用しなかった場合の結果を視覚的に比較しています。元のモデルの結果と比較すると、改良された GAN-SR モデルによって生成された結果は視覚的な品質が向上し、明らかな GAN-SR アーティファクトはありません。これらすべての実験結果は、提案された方法が、モデルが実際の低解像度画像を処理する際に現れる欠陥を効果的に軽減できることを証明しています。

ユーザー調査

DeSRA 微調整戦略の有効性をさらに検証するために、研究チームは 2 つのユーザー調査を実施しました。最初の例では、元の GAN-SR モデルと微調整された GAN-SR モデルによって生成された結果を比較します。この実験では、画像に明らかなアーティファクトがあるかどうかを比較することに重点が置かれました。研究チームは合計 20 セットの画像を生成し、各セットには GAN-SR モデルと微調整された GAN-SR モデルの出力結果が含まれていました。画像はランダムにシャッフルされました。ユーザー調査には合計 15 人が参加し、各グループごとにアーティファクトが少ないと思われる画像が選択されました。最終的な統計結果を図9に示します。参加者の 82.23% は、微調整された GAN-SR モデルによって生成された結果にはアーティファクトが少ないと考えていました。提案された方法により、元のモデルの欠陥が大幅に排除されていることがわかります。

2 つ目は、微調整された GAN-SR モデルと元の MSE-SR モデルの結果の比較です。この実験は、モデルによって生成された結果に詳細が含まれているかどうかを比較するためのものです。研究チームは、MSE-SR モデルと微調整された GAN-SR モデルの出力結果をそれぞれ含む合計 20 セットの画像を生成しました。画像はランダムにシャッフルされました。ユーザー調査には合計 15 人が参加し、各グループは詳細度が高いと思われる画像を選択しました。最終的な統計結果を図9に示します。参加者の 93% は、微調整された GAN-SR モデルによって生成された結果にはより詳細な情報が含まれていると考えました。微調整された GAN-SR モデルは、MSE-SR モデルよりも詳細な情報を生成できることがわかります。

結論は

この研究で、研究チームは推論段階で GAN によって導入された欠陥を分析し、これらの欠陥を検出して排除する方法を提案しました。具体的には、まず MSE-SR と GAN-SR の相対的な局所分散を計算し、さらに意味情報を組み合わせて欠陥領域を特定しました。欠陥領域を検出した後、MSE ベースの結果を疑似 HD 画像として使用してモデルを微調整しました。微調整されたモデルは、少量のデータのみを使用して、推論中に元のモデルの欠陥をうまく排除できます。実験結果は、欠陥の検出と除去における彼らの方法の優位性を示しており、実際のアプリケーションにおける GAN-SR モデルの能力を大幅に向上させます。

オンライン継続学習

私たちのアプローチは継続的な学習と組み合わせることで、オンライン推論フェーズで発生する欠陥に対処するための新しいパラダイムを提供することができます。たとえば、現実世界のデータを処理するオンライン超解像システムの場合、研究チームの検出プロセスを使用して、復元された結果に GAN 推論アーティファクトがあるかどうかを検出できます。その後、欠陥のある検出された画像を使用して、超解像モデルを迅速に微調整し、システムが新しい GAN 推論欠陥に遭遇するまで同様の欠陥を処理できるようにします。継続的学習は高レベルの視覚タスクでは広く研究されてきましたが、超解像にはまだ適用されていません。研究チームは、GAN-SR 法の実際のシナリオへの応用を大きく前進させることができるため、将来的にこの問題を研究したいと考えています。

<<: 「編集神ヴィム」の父が死去。ネットユーザー「彼は多くの人の人生を変えた」

>>: