このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が超解像度モデル SRFlow を提案しました。このモデルはGANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習できます。この論文はECCV 2020に採択されました。

超解像度は、与えられた低解像度画像に対して複数の予測を可能にする不適切設定問題です。この基本的な事実は、再構成と敵対的損失を組み合わせて決定論的マッピングをトレーニングする、現在の最先端のディープラーニング手法の多くではほとんど無視されています。

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が、新しい超解像度モデル SRFlow を提案しました。このモデルは正規化フローに基づく超解像手法であり、GANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習することができます

論文アドレス: https://arxiv.org/pdf/2006.14200.pdf

プロジェクトアドレス: https://github.com/andreas128/SRFlow?

研究者らは、単一の損失関数、負の対数尤度を使用してモデルをトレーニングしました。 SRFlow は、超解像度問題の不適切性を直接考慮し、さまざまな忠実度の高解像度画像を予測することを学習します。さらに、研究者らは、SRFlow によって学習された強力な画像事後確率を使用して、他の画像のコンテンツを転送することで超解像度画像を強化できる柔軟な画像処理技術を設計しました。

この研究では、顔画像やその他の超解像度画像に基づく実験を紹介します。結果は、SRFlow が PSNR と知覚品質指標の両方で現在の最適な GAN 手法よりも優れていることを示しています。同時に、SRFlow は超解像度ソリューション空間の探索を可能にし、生成された画像の多様性を実現します。

次の図は、GAN に基づく ProgFSR と正規化フローに基づく SRFlow の比較結果を示しています。

SRFlowメソッドの紹介

研究者らは、低解像度(LR)入力画像を与えられた高解像度(HR)画像の条件付き確率分布を学習する問題として超解像度を定式化した。この方法は、自然画像多様体に基づいてすべての可能な超解像 (SR) 画像をキャプチャすることにより、超解像問題の不適切性を明示的に解決することを目的としています。

この目的のために、研究者らは、対数尤度ベースのトレーニングを使用して豊富な分布を学習する条件付き正規化フロー アーキテクチャを設計しました。

超解像のための条件付き正規化フロー

超解像の目的は、欠落している高周波の詳細を生成することで、与えられた低解像度画像 x の高解像度バージョン y を予測することです。現在のほとんどの方法は決定論的なマッピング x→y を学習しますが、この研究では、LR 画像 x に対応する自然な HR 画像 y の完全な条件付き分布を取得することを目的としています。

これは、モデルが単一の SR 出力を予測するのではなく、複数の可能性のある HR 画像をキャプチャする必要があるため、難しい問題です。この研究の目的は、多数の LR-HR トレーニング ペアを与えられた場合に、分布のパラメーター θ を純粋にデータ駆動型の方法でトレーニングすることです。

条件付きフロー層

フロー層 f^n_θ の設計は、条件が適切に整った逆行列と扱いやすいヤコビアンを確保するために特に注意する必要があります。この課題は[10,11]で初めて取り上げられ、最近では多くの研究の関心を集めています[5,14,21]。

この研究は、RealNVP [11]をベースにした無条件Glowアーキテクチャ[21]から始まります。これらのアーキテクチャで使用されるフロー層は、簡単な方法で条件付きにすることができます[3、49]。研究者らは、その概要を説明し、研究で提案されたアフィンインジェクターレイヤーを紹介しました。

建築

SRFlow のアーキテクチャを図 2 に示します。

アプリケーションと画像処理

研究者らは、SRFlowネットワークを複数のアプリケーションと画像処理タスクに使用しました。この研究で使用された技術は、GANベースの超解像法では利用できないSRFlowネットワークの2つの重要な利点を活用しました[47]。

まず、私たちのネットワークは、単一の画像を予測するのではなく、HR 画像空間内の分布をモデル化します。したがって、複数の可能性のある HR 予測をキャプチャすることで、優れた柔軟性が得られます。これにより、追加のガイダンスやランダム サンプリングを使用して、さまざまな予測を検討できるようになります。

第二に、フローネットワークf_θ(y; x)は完全に可逆なエンコーダー/デコーダーです。したがって、任意の HR 画像は潜在空間にエンコードされ、 として正確に再構築できます。この全単射対応により、潜在空間と画像空間の両方で柔軟な操作が可能になります。

確率的超解像

LR 画像 x が与えられた場合、さまざまな SR 予測をサンプリングすることで、SRFlow によって学習された分布を調査できます。フローベースのモデルで観察されているように、分散が小さいサンプリングで最良の結果が得られます[21]。したがって、分散 τ (温度とも呼ばれる) を持つガウス分布を使用します。 τ = 0.8 の場合、結果は以下の図 3 に示されます。

LR 一貫性スタイル転送

LR 画像 x を超解像する場合、SRFlow を使用すると、既存の HR 画像のスタイルを転送できます。

下の図 4 は、画像内の顔の特徴、髪の色、目の色のスタイル転送を示しています。

潜在空間の正規化

研究者らは、SRFlow ネットワーク f_θ の可逆性と学習した超解像事後分布を利用して、より高度な画像処理技術を開発しました。この方法の中心的な考え方は、目的のコンテンツを含む任意の HR 画像を潜在空間にマッピングすることです。潜在空間では、潜在的な統計が、指定された LR 画像内の低周波情報と一致するように正規化されます。 x を低解像度画像、 を任意の高解像度画像(LR 画像 x と同じである必要はありません)とします。この研究の目的は、LR 画像 x と一致する画像コンテンツを含む HR 画像 y を取得することです。

画像コンテンツの移行

この研究は、他の画像の内容を転送することで HR 画像を操作することを目的としています。 x を LR 画像、y を対応する HR 画像とします。超解像画像を処理している場合は、x の SR サンプルになります。ただし、x を y の縮小バージョンに設定することで、既存の HR 画像 y を操作することもできます。研究者たちは、下の図 5 に示すように、他の画像の内容を y の画像空間に直接埋め込むことで y を操作しました。

画像の復元

研究者らは学習した画像事後分布を画像復元タスクに適用し、その機能をさらに向上させました。ここで研究者らは、超解像のためだけにトレーニングされた同じ SRFlow ネットワークを使用したことに注意してください。研究者らは、ノイズや圧縮アーティファクトなど、画像内の高周波情報に大きな影響を与える要因を調査した。

実験

研究者らは、提案した方法を現在の SOTA 方法と比較し、制御変数分析を実行しました。

顔の超解像

この研究では、CelebAテストセットの5000枚の画像に基づいて顔超解像画像タスクにおけるSRFlowのパフォーマンスを評価し、バイキュービック、RRDB [47]、ESRGAN [47]、ProgFSR [19]と比較しました。

一般的な超解像度

研究者らは、DIV2K 検証セットでの一般的な超解像タスクにおける SRFlow のパフォーマンスを評価し、Bicubic、EDSR、RRDB、ESRGAN、RankSRGAN と比較しました。

GANベースの方法[47,56]と比較して、SRFlowはPSNR、LPIPS、LR-PSNRの結果が大幅に改善され、PIQUEとBRISQUEでも優れた結果が得られました。

図 8 の視覚化結果は、EDSR と RRDB の知覚効果が乏しく、これらの結果では高周波の詳細がほとんど生成されないことを示しています。対照的に、SRFlow は ESRGAN と比較して豊富な詳細を生成し、優れた知覚結果を達成できます。

最初の行に示されているように、ESRGAN によって生成された画像には、複数の場所にひどい変色アーティファクトとリンギング パターンがあります。一方、SRFlow はより安定した一貫性のある結果を生成できます。

制御変数研究

さらに、深さと幅という2つの要因の影響を研究するために、研究者らは制御変数実験を実施しました。図9はCelebAデータセットの結果を示しています。

タスクの要件に応じて適切なタイプのデータベースを選択するにはどうすればよいでしょうか?

AWS が公開したホワイトペーパー「特化データベースの時代へ」では、リレーショナル、キーバリュー、ドキュメント、インメモリ、グラフ、時系列、台帳、ドメインワイドカラムの 8 種類のデータベースが紹介され、それぞれの利点、課題、主なユースケースが一つずつ分析されています。

<<:  Python で多層パーセプトロン ニューラル ネットワークを実装する

>>:  ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

推薦する

5 つのコア コンポーネントで構成される AIoT は、3 つの大きな課題に直面しています。2 つのブレークスルー以外に何があるのでしょうか。

IoT と AI が徐々に融合するにつれ、AIoT は人々の生活をまったく新しい形で変えようとして...

人工知能は希少疾患を患う4億人の患者がより効果的な診断を受けるのに役立っている

[[284630]] ▲人工知能は数百万の遺伝子変異を高速で検索し、希少疾患の原因を特定することがで...

世界主要7カ国のAI戦略を総ざらい

21 世紀が近づくにつれ、各国の成功または失敗はもはや国民と政府指導者だけに依存するものではなくなり...

...

ドローン技術が牽引する未来のスマートシティ

テクノロジーが進化し続けるにつれ、ドローンが「破壊」と同義だった時代は終わりました。現在、ドローンは...

2022 年のヘルスケアと医薬品における AI の予測

市場の一流専門家によると、AI は病院の運営、新薬の発見、超音波検査を改善する可能性を秘めています。...

ゼロベース科学の普及: 4 つのシンプルな推奨アルゴリズムの背後にある原理

[[402797]]この記事はWeChatのパブリックアカウント「Big Data DT」から転載し...

人工知能は進歩しすぎているのでしょうか?この記事を読めば、誰もが人工知能の歴史を理解できる

人工知能は常に人々に非常に高級感を与えます。人々に役立つものの意味と価値を理解する必要があります。 ...

...

収集する価値のあるAIツールメモ8つ

緊急時のメモとしても使える、コレクションする価値のあるAI写真を8枚シェアします。最初の RTF フ...

ザッカーバーグの45分間の詳細なインタビュー:今後10年間のVRと脳コンピューターインターフェースへの野望を明らかにする

[[386531]]誰もそこに頭を突っ込みたくないよ!ザッカーバーグ氏は脳コンピューターインターフェ...

3 つのヒープ内キャッシュ アルゴリズム (ソース コードと設計アイデア付き)

トレードオフを最もよく反映するコンピュータ システムのテクノロジといえば、それはキャッシュです。高速...