ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

[[423154]]

近年、正規化フローモデルは、画像超解像（画像SR）[SRFlow、ECCV2020]および画像再スケーリング[IRN、ECCV2020]タスクで驚くべき結果を達成しました。これら 2 つのタスクは根本的に異なりますが、非常に多くの類似点があります。上記2つの研究を基に、 ETHチューリッヒのコンピュータビジョン研究所の研究者らは、統一されたフレームワークを使用して画像の超解像と画像の再スケーリングを処理するHCFlowを提案し、一般的な画像の超解像、顔画像の超解像、画像の再スケーリングなどのタスクで最高の結果を達成しました。この論文はICCV2021に採択されました。

論文アドレス: https://arxiv.org/abs/2108.05301
Githubアドレス: https://github.com/JingyunLiang/HCFlow

まとめ

最近、Normalizing Flow モデルは低レベルビジョンの分野で驚くべき成果を達成しました。画像超解像（画像SR）では、低解像度画像とは異なるディテールを持つ高品質で多様なフォトリアリスティック画像を予測するために使用できます。画像の再スケーリングでは、ダウンサンプリングとアップサンプリングのプロセスを共同でモデル化してパフォーマンスを向上させるために使用できます。

この論文では、これら 2 つの問題に対処するために使用できる統合フレームワーク HCFlow を提案します。具体的には、HCFlow は、低解像度画像と失われた高周波情報を確率的にモデル化することで、高解像度画像と低解像度画像間の一対一変換を学習します。高頻度情報のモデリングプロセスは、条件付きで低解像度の画像に複数レベルで依存します。トレーニング中、この研究では最適化のために最大尤度損失関数を使用し、知覚損失と生成的敵対的損失 (GAN 損失) を導入してモデル効果をさらに向上させました。

実験結果によると、HCFlow は一般的な画像の超解像度、顔画像の超解像度、画像の再スケーリングなどのタスクで最高の結果を達成しました。

画像の超解像度と画像の再スケーリング

画像超解像の目的は、低解像度の画像から高解像度の画像を再構築することです。通常は低解像度の画像空間が与えられます。たとえば、バイキュービックダウンサンプリング画像などです。

画像の再スケーリングの目的は、高解像度の画像を視覚効果の高い低解像度の画像にダウンサンプリングし、元の高解像度の画像を適切に復元できるようにすることです。画像超解像タスクとは異なり、画像再スケーリングにおける低解像度画像空間は自分で定義できます。主な適用シナリオは、画像のストレージと帯域幅を削減することです。

方法

正規化フローの簡単な紹介

正規化フローモデルは、ターゲット空間 (高解像度画像 x など) と潜在空間 (ガウス分布に従う潜在変数 z など) 間の一対一の関係を学習することを目的としています。そのモデル構造は通常、可逆変換の複数の層で構成された可逆ニューラルネットワークです。

変数変換式と連鎖律に従って、モデルパラメータは次の最大尤度損失関数によって最適化できます。

詳しい入門情報については、以下を参照してください。

RealNVP 論文: https://arxiv.org/abs/1605.08803
グロー論文: https://arxiv.org/abs/1807.03039
エリック・ジャンのブログ: https://blog.evjang.com/2018/01/nf1.html
ウォータールー大学 CS480: https://www.youtube.com/watch?v=3KUvxIOJD0k

低解像度画像空間モデリング

画像の超解像度化と画像の再スケーリングのタスクには、実際には画像の劣化 (ダウンサンプリング) と画像の超解像度化 (アップサンプリング) のプロセスがあります。本研究では、正規化フローモデルに基づいて、高解像度画像 x と低解像度画像 y の間の可逆な全単射変換と、高頻度情報をエンコードする潜在変数 a を学習することができます。

。自然画像に対して直接確率モデリングを行うことは難しいため、本研究では実際の低解像度画像y*に基づいた条件付き分布モデルを設計した。

理想的には、研究者はyとy*が可能な限り近いことを望んでいるので、p(y|y*)をディラック関数として表現する。

そしてp(y|y*)は分散が非常に小さいガウス分布で近似されます。

高頻度情報p(a|y)は別の正規化フローモデルを通じてガウス分布p(z)に変換できるため、モデル全体は次のように定義できます。

このようにして、高解像度の画像 x は、可逆ニューラルネットワークを通じて低解像度の画像 y と高頻度情報をエンコードする潜在変数 z に変換され、両方とも既知のパラメータを持つガウス分布に従います。したがって、最大尤度損失関数を計算することで、モデルを簡単に最適化できます。

多層ネットワーク構造

低解像度画像と高頻度情報（すなわちp(a|y)）の関係をより適切にモデル化するために、本研究ではさらに、多段階の条件付き依存性モデリングフレームワークを提案した。ネットワーク全体の可逆性を保ちながら、高周波情報を段階的に復元し、高解像度の画像を再構築します。下の図に示すように、正規化されたフローの順方向プロセスはバイナリツリーの深さ優先トラバーサルに似ていますが、逆方向プロセスは最深層から最初の層まで段階的に計算されます。 y と a は、それぞれ各層の低周波情報と高周波情報を表します。数字は計算順序を表し、青い矢印は条件依存関係を表します。

具体的なネットワーク構造を下図に示します。

実験

画像超解像

この研究では、最大尤度損失関数を使用してモデルをトレーニングし、L1損失関数、知覚損失関数、生成的敵対的損失関数（GAN損失）を使用してモデル効果をさらに向上させました。パラメータ数を1/3に削減したHCFlowは、一般画像超解像と顔画像超解像の両方で最高の結果を達成しました。異なるランダムサンプリングでは、さまざまな詳細を持つ高品質で高解像度の画像を生成できます。 GAN ベースのモデルと同様に、正規化フローベースのモデルは主に視覚効果に焦点を当てており、通常は PSNR が低下することに注意してください。

画像の再スケーリング

画像の再スケーリングでは通常、再構成結果の多様性に重点が置かれないため、HCFlow は IRN (ECCV2020) と一致するトレーニング戦略を採用し、順方向プロセスと逆方向プロセスをそれぞれエンコードプロセスとデコードプロセスとして扱います。トレーニング損失関数には、高解像度画像と低解像度画像に対する L1 損失関数と、潜在変数に対する制約が含まれます。同様のモデルパラメータで、0.10～0.34dBの改善が達成されました。

モデルの詳細については、[原著論文]とオープンソースの[コード]をお読みください。

<<: LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

>>: ポストエピデミック時代のスマートエネルギー管理にエッジAIを活用する方法