近年、正規化フローモデルは、画像超解像(画像SR)[SRFlow、ECCV2020]および画像再スケーリング[IRN、ECCV2020]タスクで驚くべき結果を達成しました。これら 2 つのタスクは根本的に異なりますが、非常に多くの類似点があります。上記2つの研究を基に、 ETHチューリッヒのコンピュータビジョン研究所の研究者らは、統一されたフレームワークを使用して画像の超解像と画像の再スケーリングを処理するHCFlowを提案し、一般的な画像の超解像、顔画像の超解像、画像の再スケーリングなどのタスクで最高の結果を達成しました。この論文はICCV2021に採択されました。
まとめ 最近、Normalizing Flow モデルは低レベルビジョンの分野で驚くべき成果を達成しました。画像超解像(画像SR)では、低解像度画像とは異なるディテールを持つ高品質で多様なフォトリアリスティック画像を予測するために使用できます。画像の再スケーリングでは、ダウンサンプリングとアップサンプリングのプロセスを共同でモデル化してパフォーマンスを向上させるために使用できます。 この論文では、これら 2 つの問題に対処するために使用できる統合フレームワーク HCFlow を提案します。具体的には、HCFlow は、低解像度画像と失われた高周波情報を確率的にモデル化することで、高解像度画像と低解像度画像間の一対一変換を学習します。高頻度情報のモデリング プロセスは、条件付きで低解像度の画像に複数レベルで依存します。トレーニング中、この研究では最適化のために最大尤度損失関数を使用し、知覚損失と生成的敵対的損失 (GAN 損失) を導入してモデル効果をさらに向上させました。 実験結果によると、HCFlow は一般的な画像の超解像度、顔画像の超解像度、画像の再スケーリングなどのタスクで最高の結果を達成しました。 画像の超解像度と画像の再スケーリング 画像超解像の目的は、低解像度の画像から高解像度の画像を再構築することです。通常は低解像度の画像空間が与えられます。たとえば、バイキュービックダウンサンプリング画像などです。 画像の再スケーリングの目的は、高解像度の画像を視覚効果の高い低解像度の画像にダウンサンプリングし、元の高解像度の画像を適切に復元できるようにすることです。画像超解像タスクとは異なり、画像再スケーリングにおける低解像度画像空間は自分で定義できます。主な適用シナリオは、画像のストレージと帯域幅を削減することです。 方法 正規化フローの簡単な紹介 正規化フロー モデルは、ターゲット空間 (高解像度画像 x など) と潜在空間 (ガウス分布に従う潜在変数 z など) 間の一対一の関係を学習することを目的としています。そのモデル構造は通常、可逆変換の複数の層で構成された可逆ニューラル ネットワークです。 変数変換式と連鎖律に従って、モデルパラメータは次の最大尤度損失関数によって最適化できます。 詳しい入門情報については、以下を参照してください。
低解像度画像空間モデリング 画像の超解像度化と画像の再スケーリングのタスクには、実際には画像の劣化 (ダウンサンプリング) と画像の超解像度化 (アップサンプリング) のプロセスがあります。本研究では、正規化フローモデルに基づいて、高解像度画像 x と低解像度画像 y の間の可逆な全単射変換と、高頻度情報をエンコードする潜在変数 a を学習することができます。 。自然画像に対して直接確率モデリングを行うことは難しいため、本研究では実際の低解像度画像y*に基づいた条件付き分布モデルを設計した。 理想的には、研究者はyとy*が可能な限り近いことを望んでいるので、p(y|y*)をディラック関数として表現する。 そしてp(y|y*)は分散が非常に小さいガウス分布で近似されます。 高頻度情報p(a|y)は別の正規化フローモデルを通じてガウス分布p(z)に変換できるため、モデル全体は次のように定義できます。 このようにして、高解像度の画像 x は、可逆ニューラル ネットワークを通じて低解像度の画像 y と高頻度情報をエンコードする潜在変数 z に変換され、両方とも既知のパラメータを持つガウス分布に従います。したがって、最大尤度損失関数を計算することで、モデルを簡単に最適化できます。 多層ネットワーク構造 低解像度画像と高頻度情報(すなわちp(a|y))の関係をより適切にモデル化するために、本研究ではさらに、多段階の条件付き依存性モデリングフレームワークを提案した。ネットワーク全体の可逆性を保ちながら、高周波情報を段階的に復元し、高解像度の画像を再構築します。下の図に示すように、正規化されたフローの順方向プロセスはバイナリ ツリーの深さ優先トラバーサルに似ていますが、逆方向プロセスは最深層から最初の層まで段階的に計算されます。 y と a は、それぞれ各層の低周波情報と高周波情報を表します。数字は計算順序を表し、青い矢印は条件依存関係を表します。 具体的なネットワーク構造を下図に示します。 実験 画像超解像 この研究では、最大尤度損失関数を使用してモデルをトレーニングし、L1損失関数、知覚損失関数、生成的敵対的損失関数(GAN損失)を使用してモデル効果をさらに向上させました。パラメータ数を1/3に削減したHCFlowは、一般画像超解像と顔画像超解像の両方で最高の結果を達成しました。異なるランダムサンプリングでは、さまざまな詳細を持つ高品質で高解像度の画像を生成できます。 GAN ベースのモデルと同様に、正規化フロー ベースのモデルは主に視覚効果に焦点を当てており、通常は PSNR が低下することに注意してください。 画像の再スケーリング 画像の再スケーリングでは通常、再構成結果の多様性に重点が置かれないため、HCFlow は IRN (ECCV2020) と一致するトレーニング戦略を採用し、順方向プロセスと逆方向プロセスをそれぞれエンコード プロセスとデコード プロセスとして扱います。トレーニング損失関数には、高解像度画像と低解像度画像に対する L1 損失関数と、潜在変数に対する制約が含まれます。同様のモデルパラメータで、0.10~0.34dBの改善が達成されました。 モデルの詳細については、[原著論文]とオープンソースの[コード]をお読みください。 |
<<: LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます
>>: ポストエピデミック時代のスマートエネルギー管理にエッジAIを活用する方法
今年末までに、世界中で接続されるデバイスの数は 500 億台に達すると予測されており、モノのインター...
Transformer の高性能は非常に高い計算能力に依存しており、モバイル NLP に大きな制限が...
アドリアン・トゥルイユ翻訳者 | ブガッティ校正 | Chonglou制作:51CTO テクノロジー...
人工知能 (AI) 音声アシスタントは近年大きな進歩を遂げ、スマートスピーカーやその他の AI スマ...
科学技術の継続的な発展に伴い、人工知能は徐々に科学技術分野の主な研究方向になってきました。 「ロボッ...
5GとAIは未解決の問題に解決策を見つけることができる5G はエッジの究極の未来です。 5G は、普...
過去 10 年間で、スマート AI ツールの導入により、ワークスペースのデザインは完全に変化しました...
12月25日のニュース、シリコンバレーのテクノロジー企業の幹部たちは理解しにくい人々の集まりだ。彼ら...
デジタル経済の時代において、クラウド、5G、AI、ビッグデータ、人工知能などの新技術が社会の生産要素...
クラスタリングは、ビッグデータを理解する上で非常に一般的かつ基本的な方法です。最近、データ サイエン...
[51CTO.com からのオリジナル記事] テクノロジーが国の基盤であるならば、人工知能は将来の技...