このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

このモデルはGAN、ETH超解像モデルSRFlowよりも想像能力が強い

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が超解像度モデル SRFlow を提案しました。このモデルはGANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習できます。この論文はECCV 2020に採択されました。

超解像度は、与えられた低解像度画像に対して複数の予測を可能にする不適切設定問題です。この基本的な事実は、再構成と敵対的損失を組み合わせて決定論的マッピングをトレーニングする、現在の最先端のディープラーニング手法の多くではほとんど無視されています。

最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が、新しい超解像度モデル SRFlow を提案しました。このモデルは正規化フローに基づく超解像手法であり、GANよりも強力な想像力を持ち、低解像度の入力に基づいて出力の条件付き分布を学習することができます

論文アドレス: https://arxiv.org/pdf/2006.14200.pdf

プロジェクトアドレス: https://github.com/andreas128/SRFlow?

研究者らは、単一の損失関数、負の対数尤度を使用してモデルをトレーニングしました。 SRFlow は、超解像度問題の不適切性を直接考慮し、さまざまな忠実度の高解像度画像を予測することを学習します。さらに、研究者らは、SRFlow によって学習された強力な画像事後確率を使用して、他の画像のコンテンツを転送することで超解像度画像を強化できる柔軟な画像処理技術を設計しました。

この研究では、顔画像やその他の超解像度画像に基づく実験を紹介します。結果は、SRFlow が PSNR と知覚品質指標の両方で現在の最適な GAN 手法よりも優れていることを示しています。同時に、SRFlow は超解像度ソリューション空間の探索を可能にし、生成された画像の多様性を実現します。

次の図は、GAN に基づく ProgFSR と正規化フローに基づく SRFlow の比較結果を示しています。

SRFlowメソッドの紹介

研究者らは、低解像度(LR)入力画像を与えられた高解像度(HR)画像の条件付き確率分布を学習する問題として超解像度を定式化した。この方法は、自然画像多様体に基づいてすべての可能な超解像 (SR) 画像をキャプチャすることにより、超解像問題の不適切性を明示的に解決することを目的としています。

この目的のために、研究者らは、対数尤度ベースのトレーニングを使用して豊富な分布を学習する条件付き正規化フロー アーキテクチャを設計しました。

超解像のための条件付き正規化フロー

超解像の目的は、欠落している高周波の詳細を生成することで、与えられた低解像度画像 x の高解像度バージョン y を予測することです。現在のほとんどの方法は決定論的なマッピング x→y を学習しますが、この研究では、LR 画像 x に対応する自然な HR 画像 y の完全な条件付き分布を取得することを目的としています。

これは、モデルが単一の SR 出力を予測するのではなく、複数の可能性のある HR 画像をキャプチャする必要があるため、難しい問題です。この研究の目的は、多数の LR-HR トレーニング ペアを与えられた場合に、分布のパラメーター θ を純粋にデータ駆動型の方法でトレーニングすることです。

条件付きフロー層

フロー層 f^n_θ の設計は、条件が適切に整った逆行列と扱いやすいヤコビアンを確保するために特に注意する必要があります。この課題は[10,11]で初めて取り上げられ、最近では多くの研究の関心を集めています[5,14,21]。

この研究は、RealNVP [11]をベースにした無条件Glowアーキテクチャ[21]から始まります。これらのアーキテクチャで使用されるフロー層は、簡単な方法で条件付きにすることができます[3、49]。研究者らは、その概要を説明し、研究で提案されたアフィンインジェクターレイヤーを紹介しました。

建築

SRFlow のアーキテクチャを図 2 に示します。

アプリケーションと画像処理

研究者らは、SRFlowネットワークを複数のアプリケーションと画像処理タスクに使用しました。この研究で使用された技術は、GANベースの超解像法では利用できないSRFlowネットワークの2つの重要な利点を活用しました[47]。

まず、私たちのネットワークは、単一の画像を予測するのではなく、HR 画像空間内の分布をモデル化します。したがって、複数の可能性のある HR 予測をキャプチャすることで、優れた柔軟性が得られます。これにより、追加のガイダンスやランダム サンプリングを使用して、さまざまな予測を検討できるようになります。

第二に、フローネットワークf_θ(y; x)は完全に可逆なエンコーダー/デコーダーです。したがって、任意の HR 画像は潜在空間にエンコードされ、 として正確に再構築できます。この全単射対応により、潜在空間と画像空間の両方で柔軟な操作が可能になります。

確率的超解像

LR 画像 x が与えられた場合、さまざまな SR 予測をサンプリングすることで、SRFlow によって学習された分布を調査できます。フローベースのモデルで観察されているように、分散が小さいサンプリングで最良の結果が得られます[21]。したがって、分散 τ (温度とも呼ばれる) を持つガウス分布を使用します。 τ = 0.8 の場合、結果は以下の図 3 に示されます。

LR 一貫性スタイル転送

LR 画像 x を超解像する場合、SRFlow を使用すると、既存の HR 画像のスタイルを転送できます。

下の図 4 は、画像内の顔の特徴、髪の色、目の色のスタイル転送を示しています。

潜在空間の正規化

研究者らは、SRFlow ネットワーク f_θ の可逆性と学習した超解像事後分布を利用して、より高度な画像処理技術を開発しました。この方法の中心的な考え方は、目的のコンテンツを含む任意の HR 画像を潜在空間にマッピングすることです。潜在空間では、潜在的な統計が、指定された LR 画像内の低周波情報と一致するように正規化されます。 x を低解像度画像、 を任意の高解像度画像(LR 画像 x と同じである必要はありません)とします。この研究の目的は、LR 画像 x と一致する画像コンテンツを含む HR 画像 y を取得することです。

画像コンテンツの移行

この研究は、他の画像の内容を転送することで HR 画像を操作することを目的としています。 x を LR 画像、y を対応する HR 画像とします。超解像画像を処理している場合は、x の SR サンプルになります。ただし、x を y の縮小バージョンに設定することで、既存の HR 画像 y を操作することもできます。研究者たちは、下の図 5 に示すように、他の画像の内容を y の画像空間に直接埋め込むことで y を操作しました。

画像の復元

研究者らは学習した画像事後分布を画像復元タスクに適用し、その機能をさらに向上させました。ここで研究者らは、超解像のためだけにトレーニングされた同じ SRFlow ネットワークを使用したことに注意してください。研究者らは、ノイズや圧縮アーティファクトなど、画像内の高周波情報に大きな影響を与える要因を調査した。

実験

研究者らは、提案した方法を現在の SOTA 方法と比較し、制御変数分析を実行しました。

顔の超解像

この研究では、CelebAテストセットの5000枚の画像に基づいて顔超解像画像タスクにおけるSRFlowのパフォーマンスを評価し、バイキュービック、RRDB [47]、ESRGAN [47]、ProgFSR [19]と比較しました。

一般的な超解像度

研究者らは、DIV2K 検証セットでの一般的な超解像タスクにおける SRFlow のパフォーマンスを評価し、Bicubic、EDSR、RRDB、ESRGAN、RankSRGAN と比較しました。

GANベースの方法[47,56]と比較して、SRFlowはPSNR、LPIPS、LR-PSNRの結果が大幅に改善され、PIQUEとBRISQUEでも優れた結果が得られました。

図 8 の視覚化結果は、EDSR と RRDB の知覚効果が乏しく、これらの結果では高周波の詳細がほとんど生成されないことを示しています。対照的に、SRFlow は ESRGAN と比較して豊富な詳細を生成し、優れた知覚結果を達成できます。

最初の行に示されているように、ESRGAN によって生成された画像には、複数の場所にひどい変色アーティファクトとリンギング パターンがあります。一方、SRFlow はより安定した一貫性のある結果を生成できます。

制御変数研究

さらに、深さと幅という2つの要因の影響を研究するために、研究者らは制御変数実験を実施しました。図9はCelebAデータセットの結果を示しています。

タスクの要件に応じて適切なタイプのデータベースを選択するにはどうすればよいでしょうか?

AWS が公開したホワイトペーパー「特化データベースの時代へ」では、リレーショナル、キーバリュー、ドキュメント、インメモリ、グラフ、時系列、台帳、ドメインワイドカラムの 8 種類のデータベースが紹介され、それぞれの利点、課題、主なユースケースが一つずつ分析されています。

<<:  Python で多層パーセプトロン ニューラル ネットワークを実装する

>>:  ロボットと触覚センシング技術の衝突、人間とロボットの触覚センシングを初めて探る記事

ブログ    
ブログ    

推薦する

危険な環境を恐れず、人工知能配信ネットワークライブ操作ロボットが重い責任を勇敢に引き受けます

現在、産業、農業、住民の電力消費は急速に増加しており、風力発電、水力発電などの電源が電力供給の主な手...

AI データラベリングとは何ですか?課題は何ですか?

データ注釈はほとんどの人工知能の基盤であり、機械学習とディープラーニング モデルの品質を決定します。...

都市と市民がスマートシティ技術から得られる恩恵

テクノロジーは非常に効率的かつ完璧なので、私たちはそれに気付くことすらありません。しかし、通勤時間が...

AI、自動化、仕事の未来、そして注目と解決が必要な問題

職場で機械が人間の労働力を補うようになるにつれ、私たち全員がその恩恵を受けるために適応する必要があり...

...

AIとIoTが健康や医療のスマートイノベーションに貢献

中国の医療サービス市場の規模は巨大です。中国の医療サービス業界は、国家政策の推進により、デジタル化と...

Python 機械学習チュートリアル

この機械学習チュートリアルでは、機械学習の基本および中級の概念について説明します。初心者の学生と働く...

製造業における人工知能の活用事例トップ10

世界経済の礎である製造業は、人工知能 (AI) が推進する技術革命の最前線にあります。この記事では、...

人工知能の応用分野と必要な専門知識

1. 人工知能の応用分野1. コンピュータービジョン生体認証: 顔認識、歩行認識、歩行者 ReID、...

中国における医療用人工知能の現状分析:製品検証から市場検証まで

2016年以降、人工知能と医療の融合があらゆる面で火花を散らし始めています。医療AIは数年にわたる開...

...

適切な AI データ ストレージを選択するための 6 つのガイドライン

間違った AI ストレージ プラットフォームを選択すると、ビジネスに深刻な結果をもたらす可能性があり...

13Bモデルはあらゆる面でGPT-4を圧倒しますか?この裏にあるトリックは何でしょうか?

130 億のパラメータを持つモデルが実際にトップの GPT-4 に勝つのでしょうか?下の図に示すよ...