ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

ETHは、画像の超解像と画像の再スケーリングを考慮して、新しい統合フレームワークHCFlowを提案しています。

[[423154]]

近年、正規化フローモデルは、画像超解像(画像SR)[SRFlow、ECCV2020]および画像再スケーリング[IRN、ECCV2020]タスクで驚くべき結果を達成しました。これら 2 つのタスクは根本的に異なりますが、非常に多くの類似点があります。上記2つの研究を基に、 ETHチューリッヒのコンピュータビジョン研究所の研究者らは、統一されたフレームワークを使用して画像の超解像と画像の再スケーリングを処理するHCFlowを提案し、一般的な画像の超解像、顔画像の超解像、画像の再スケーリングなどのタスクで最高の結果を達成しました。この論文はICCV2021に採択されました。

  • 論文アドレス: https://arxiv.org/abs/2108.05301
  • Githubアドレス: https://github.com/JingyunLiang/HCFlow

まとめ

最近、Normalizing Flow モデルは低レベルビジョンの分野で驚くべき成果を達成しました。画像超解像(画像SR)では、低解像度画像とは異なるディテールを持つ高品質で多様なフォトリアリスティック画像を予測するために使用できます。画像の再スケーリングでは、ダウンサンプリングとアップサンプリングのプロセスを共同でモデル化してパフォーマンスを向上させるために使用できます。

この論文では、これら 2 つの問題に対処するために使用できる統合フレームワーク HCFlow を提案します。具体的には、HCFlow は、低解像度画像と失われた高周波情報を確率的にモデル化することで、高解像度画像と低解像度画像間の一対一変換を学習します。高頻度情報のモデリング プロセスは、条件付きで低解像度の画像に複数レベルで依存します。トレーニング中、この研究では最適化のために最大尤度損失関数を使用し、知覚損失と生成的敵対的損失 (GAN 損失) を導入してモデル効果をさらに向上させました。

実験結果によると、HCFlow は一般的な画像の超解像度、顔画像の超解像度、画像の再スケーリングなどのタスクで最高の結果を達成しました。

画像の超解像度と画像の再スケーリング

画像超解像の目的は、低解像度の画像から高解像度の画像を再構築することです。通常は低解像度の画像空間が与えられます。たとえば、バイキュービックダウンサンプリング画像などです。

画像の再スケーリングの目的は、高解像度の画像を視覚効果の高い低解像度の画像にダウンサンプリングし、元の高解像度の画像を適切に復元できるようにすることです。画像超解像タスクとは異なり、画像再スケーリングにおける低解像度画像空間は自分で定義できます。主な適用シナリオは、画像のストレージと帯域幅を削減することです。

方法

正規化フローの簡単な紹介

正規化フロー モデルは、ターゲット空間 (高解像度画像 x など) と潜在空間 (ガウス分布に従う潜在変数 z など) 間の一対一の関係を学習することを目的としています。そのモデル構造は通常、可逆変換の複数の層で構成された可逆ニューラル ネットワークです。

変数変換式と連鎖律に従って、モデルパラメータは次の最大尤度損失関数によって最適化できます。

詳しい入門情報については、以下を参照してください。

  • RealNVP 論文: https://arxiv.org/abs/1605.08803
  • グロー論文: https://arxiv.org/abs/1807.03039
  • エリック・ジャンのブログ: https://blog.evjang.com/2018/01/nf1.html
  • ウォータールー大学 CS480: https://www.youtube.com/watch?v=3KUvxIOJD0k

低解像度画像空間モデリング

画像の超解像度化と画像の再スケーリングのタスクには、実際には画像の劣化 (ダウンサンプリング) と画像の超解像度化 (アップサンプリング) のプロセスがあります。本研究では、正規化フローモデルに基づいて、高解像度画像 x と低解像度画像 y の間の可逆な全単射変換と、高頻度情報をエンコードする潜在変数 a を学習することができます。

。自然画像に対して直接確率モデリングを行うことは難しいため、本研究では実際の低解像度画像y*に基づいた条件付き分布モデルを設計した。

理想的には、研究者はyとy*が可能な限り近いことを望んでいるので、p(y|y*)をディラック関数として表現する。

そしてp(y|y*)は分散が非常に小さいガウス分布で近似されます。

高頻度情報p(a|y)は別の正規化フローモデルを通じてガウス分布p(z)に変換できるため、モデル全体は次のように定義できます。

このようにして、高解像度の画像 x は、可逆ニューラル ネットワークを通じて低解像度の画像 y と高頻度情報をエンコードする潜在変数 z に変換され、両方とも既知のパラメータを持つガウス分布に従います。したがって、最大尤度損失関数を計算することで、モデルを簡単に最適化できます。

多層ネットワーク構造

低解像度画像と高頻度情報(すなわちp(a|y))の関係をより適切にモデル化するために、本研究ではさらに、多段階の条件付き依存性モデリングフレームワークを提案した。ネットワーク全体の可逆性を保ちながら、高周波情報を段階的に復元し、高解像度の画像を再構築します。下の図に示すように、正規化されたフローの順方向プロセスはバイナリ ツリーの深さ優先トラバーサルに似ていますが、逆方向プロセスは最深層から最初の層まで段階的に計算されます。 y と a は、それぞれ各層の低周波情報と高周波情報を表します。数字は計算順序を表し、青い矢印は条件依存関係を表します。

具体的なネットワーク構造を下図に示します。

実験

画像超解像

この研究では、最大尤度損失関数を使用してモデルをトレーニングし、L1損失関数、知覚損失関数、生成的敵対的損失関数(GAN損失)を使用してモデル効果をさらに向上させました。パラメータ数を1/3に削減したHCFlowは、一般画像超解像と顔画像超解像の両方で最高の結果を達成しました。異なるランダムサンプリングでは、さまざまな詳細を持つ高品質で高解像度の画像を生成できます。 GAN ベースのモデルと同様に、正規化フロー ベースのモデルは主に視覚効果に焦点を当てており、通常は PSNR が低下することに注意してください。

画像の再スケーリング

画像の再スケーリングでは通常、再構成結果の多様性に重点が置かれないため、HCFlow は IRN (ECCV2020) と一致するトレーニング戦略を採用し、順方向プロセスと逆方向プロセスをそれぞれエンコード プロセスとデコード プロセスとして扱います。トレーニング損失関数には、高解像度画像と低解像度画像に対する L1 損失関数と、潜在変数に対する制約が含まれます。同様のモデルパラメータで、0.10~0.34dBの改善が達成されました

モデルの詳細については、[原著論文]とオープンソースの[コード]をお読みください。

<<:  LSTMとトランスフォーマーの利点を組み合わせることで、DeepMindの強化学習エージェントはデータ効率を向上させます

>>:  ポストエピデミック時代のスマートエネルギー管理にエッジAIを活用する方法

ブログ    

推薦する

この遠隔操作脳実験は成功したが、ネットユーザーを怖がらせた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

米議会は来月AIサミットを開催し、マスク氏をはじめとする多くの有力者が出席すると報じられている。

8月29日、情報筋によると、イーロン・マスク氏、マーク・ザッカーバーグ氏、その他米国の著名なテクノ...

美団におけるナレッジグラフ可視化技術の実践と探究

著者 | 魏耀成魏ナレッジ グラフの視覚化により、ナレッジ グラフ データをより直感的に表示および分...

清華大学チームは、蛍光画像から自己教師あり方式でノイズを除去する空間冗長性ノイズ除去トランスフォーマー法を開発

高い信号対雑音比を備えた蛍光イメージングは​​、生物学的現象の正確な可視化と分析の基礎となっています...

駐車技術の進化: 人工知能が駐車場の未来をどう形作るか

近年、インドは深刻な駐車スペース不足という差し迫った問題に直面している。自動車の数が日々増加している...

内部テスト中です! Word、Excel、Outlookに機械学習が搭載される

マイクロソフトは、機械学習を使用して人々がより効率的に仕事を遂行できるよう支援する、多数の新機能を ...

コレクションにおすすめ!素晴らしい AWS 機械学習ツールキットの概要

[[330619]]テクノロジーとエコロジーの継続的な進化、およびアプリケーション シナリオの継続的...

ビル・ゲイツ:AIが最大の影響を与えるには何十年もかかる

[[271684]]ビル・ゲイツは、世界を変えるトレンドを予見し、それを活用することで、史上最も成功...

...

...

「脳制御+AI」で人は「本能」で運転できるようになる

「左に曲がれ、左に曲がれ、左に曲がれと言っただろう!」「ステップ!ステップ!ブレーキを踏め!」「手で...

2021 年の自然言語処理 (NLP) のトレンド トップ 10

2020 年は、ディープラーニングベースの自然言語処理 (NLP) 研究にとって忙しい年でした。最...

AIに感情を与えることは本当に重要なのでしょうか?

「合成感情」は人工知能の発展を妨げるのか?私たちは他の人とコミュニケーションをとるとき、通常は直接...

...