たった 1 回のトレーニングで 4K から 16K まで対応できる、初のシングルサンプルの超高解像度画像合成フレームワークが登場

たった 1 回のトレーニングで 4K から 16K まで対応できる、初のシングルサンプルの超高解像度画像合成フレームワークが登場


論文リンク: https://arxiv.org/pdf/2202.13799.pdf

従来の生成モデルでは、通常、パッチ分布学習に基づいて比較的小さな画像データセットから大きな画像を生成するため、視覚的に一貫性のある画像を生成することが困難です。 OUR-GAN は、低解像度で視覚的に一貫した画像を生成し、その後、超解像度によって徐々に解像度を上げていきます。 OUR-GAN は実際の UHR 画像から学習するため、長距離の一貫性を維持しながら、大規模な形状を細部まで合成できます。

OUR-GAN は、シームレスなサブ領域超解像を適用して、メモリ制約条件下で 4K 以上の解像度の UHR 画像を合成し、境界の不連続性の問題を解決します。さらに、OUR-GAN は特徴マップに垂直位置の埋め込みを追加することで、多様性と視覚的な一貫性を向上させます。 ST4K および RAISE データセットでの実験結果によると、OUR-GAN は既存の方法と比較して、より高い忠実度、視覚的な一貫性、多様性を示しています。

OUR-GANの合成効果を見てみましょう。次の図(上)はOUR-GANのトレーニングに使用した単一の4K画像、(下)はOUR-GANで合成した16K(16384 x 10912)画像です。

以下のグループはOUR-GANで合成された4K風景画像です。

OUR-GAN は、さまざまなパターンの高品質なテクスチャ画像を合成することに成功しました。

ワンショット超解像生成敵対ネットワーク

OUR-GANフレームワーク

OUR-GAN は、下の図 3 に示すように、限られた GPU メモリを占有する UHR 画像を 3 つのステップで合成します。まず、OURGAN は低解像度のグローバル構造を生成します。次に、メモリ内の超解像度により、メモリの制約内で解像度が可能な限り向上します。最後に、OURGAN はサブ領域ごとに超解像を適用して UHR 画像を合成し、メモリ制限を超えて解像度をさらに向上させます。

超解像度モデルの出力解像度は、トレーニング画像の解像度によって制限されます。しかし、ZSSR と MZSR は、情報の内部ループを利用することで、超解像モデルがトレーニング画像の 2 ~ 4 倍の大きさの画像を生成できることを実証しました。

グローバル構造生成

単一のトレーニング画像から全体的に一貫した形状を持つさまざまな画像を合成することを学習することは、困難な作業です。この研究の初期実験では、単一の画像でトレーニングできる複数のモデルを比較しました。その中でも、HP-VAE-GAN は他のモデルよりも多様性が高いものの、全体的な一貫性に欠けています。そのため、本研究では、第一段階としてHP-VAE-GANをベースラインモデルとして選択し、垂直座標畳み込みを適用することで全体的な一貫性を向上させます。 HP-VAE-GANは、式(1)~(3)に示すように、階層化されたパッチベースの生成方式によって画像を合成します。ここで、、それぞれジェネレータ、合成画像、スケールmのガウスノイズベクトルを表します。 ↑記号はアップサンプリングを表します。

まず、HP-VAE-GANは式(1)に示すようにガウスノイズから初期画像を生成し、次に式(2)(3)に示すように徐々に解像度を上げていきます。 1≤m≤Lの初期段階では、モード崩壊問題によりGANモデルの多様性が制限されるため、HP-VAE-GANは式(2)に示すように、多様性のためにパッチVAE [19]を適用する。しかし、L<m≤Mとなる後の段階では、式(3)に示すように、詳細保存のためにパッチGAN[22]を適用する。

メモリ内サブ領域レベルの超解像

2 番目と 3 番目のステップでは、OUR-GAN は忠実度に重点を置き、細かい詳細を追加することで、以前に合成された画像の解像度を向上させます。 3 番目のステップでは、OUR-GAN はサブ領域の超解像度を適用して、メモリ制限を超えて画像の解像度を高めます。これらのステップの中で最大の技術的課題は、単一のトレーニング画像を使用して超解像度モデルを学習することです。この研究では、優れた出力品質で知られる超解像モデルである ESRGAN を事前にトレーニングし、その後単一のトレーニング画像を使用して微調整することで、高い忠実度を実現しています。これまでの研究では、ZSSRやMZSR[21]など、単一の画像から学習できる超解像モデルが存在します。しかし、予備実験では、事前トレーニング済みの ESRGAN はゼロショット超解像モジュールよりも高い画像品質を示しています。この研究では、DIV2K および Flickr2K データセットを使用して ESRGAN を事前トレーニングしました。

2 番目のステップでは、研究者らは以前に合成した画像にランダム ノイズを追加し、その後、超解像モデルを使用して解像度を向上させました。 3 番目のステップでは、画像をサブ領域に分割し、各サブ領域画像に対して超解像度処理を実行し、スケーリングされたサブ領域画像をつなぎ合わせて、より高解像度の画像を作成します (図 5 を参照)。このような分割された超解像度を複数回繰り返すことで、4K 以上の解像度の UHR 画像を作成できます。

ただし、慎重に設計しないと、このような領域ごとの超解像度では境界で不連続性が生じる可能性があります。これまでの研究では、不連続性を防ぐためのいくつかの方法がありました。以前の研究では、不連続性の主な原因は入力特徴マップの周囲のゼロパディングであることが示され、いくつかの解決策が提案されました。 [28]は、境界でのゼロパディングの影響を防ぐために、入力サブ領域を拡張するオーバーラップタイル戦略を適用しました。 [12]は、交互畳み込みと転置畳み込みを備えたネットワークを慎重に設計することでゼロパディングを排除した。

後者はネットワークの再設計を必要とするため、研究者らは前者を改良した。研究者らは、Wenjie Luo ら (2016) に触発されて、図 6 に示すように、オーバーラップ サイズを ERF の半径に設定しました。これは TRF よりも大幅に小さくなっています。図 7 の実験結果は、ERF 半径に等しい重なりが不連続性を防ぐのに十分であることを示しています。 ERF の漸近近似は O(√depth) ですが、TRF の漸近近似は O(depth) であり、これは私たちの方法の利点が無視できないことを示しています。

研究者らは、ERF 半径の重複がない場合と重複がある場合のサブ領域超解像の結果を比較しました。図7は、サブ領域超解像出力画像と画像全体を拡大した通常の超解像出力画像の違いを示しています。図 7 (a) は、重複がない場合、サブ領域の超解像によってサブ領域の境界で大きな違いが生じることを示しています。しかし、重複するサブ領域によってこの差は弱まりました。

実験結果

ワンショット 4K 非反復画像合成下の図 8 は、OUR-GAN によって生成された 4K サンプル、ベースライン モデル、およびグラウンド トゥルース画像を示しています。

図 8. OUR-GAN によって生成された 4K サンプル、ベースライン モデルによって生成されたサンプル、およびグラウンド トゥルース画像。

InGAN は、小さなサンプルでトレーニングして学習した小規模なパターンを繰り返して画像を合成するため、視覚化のために多数の形状を含む超高解像度の画像を合成することができません。 SinGAN は大規模なパターンを生成できますが、構造の詳細を捉えることはできません。しかし、OUR-GAN は視覚的に一貫した形状と細かいディテールを備えた高品質の画像を合成することに成功しました。他のモデルと比較して、OUR-GAN は最も視覚的に魅力的な画像を合成します。

下の表 1 に示すように、OUR-GAN は定量的研究でも他のモデルを上回り、すべての構成の中で最高のスコアを達成しました。これは、OUR-GAN がグローバルな形状とローカルな詳細の両方を備えた高品質の画像を組み合わせていることを示しています。

世界的な一貫性と多様性

垂直座標畳み込みの効果を評価するために、研究者らはOUR-GANの最初のステップモデルを他のモデル(SinGAN、ConSinGAN、HP-VAE-GAN、SIV-GAN)に置き換え、合成画像の違いを比較しました。

図9.

図9は生成された画像を示しています。 ConSinGAN と SIV-GAN によって生成されるパターンは多様性が限られていますが、HPVAE-GAN によって合成された歪んだ構造は関連のないパターンを組み合わせています。図 10 に示すように、OUR-GAN は HP-VAE-GAN と比較してパターンの全体的な一貫性を大幅に改善し、ConSinGAN や SIV-GAN と比較してより多様なパターンを生成します。

図 10: 垂直座標畳み込みを使用した効果。 OUR-GAN は、垂直座標畳み込みの空間バイアスを通じて視覚的な一貫性を向上させます。

表2.

表2に定量評価の結果を示します。OUR-GANは定量的な結果の点では優れたパフォーマンスを発揮します。 OUR-GAN は SIFID スコアが最も低く、これは OUR-GAN がトレーニング画像の内部統計を学習するのに効果的であることを示しています。 LPIPS の他のベースラインと比較して、OUR-GAN では大きな違いは見られません。ただし、視覚的に不一致なパターンをペナルティの対象としないため、LPIPS が高いからといって、必ずしもモデルが高品質の画像を生成するとは限りません (付録 H に、LPIPS が高い視覚的に不一致なサンプルを示します)。 OUR-GAN は HP-VAE-GAN に比べて多様性に欠けますが、視覚的に一貫性のある画像を合成できます。

ワンショット高忠実度4Kテクスチャ画像合成

この研究では、高忠実度の UHR テクスチャ画像を合成する際の OUR-GAN のパフォーマンスも評価しました。 OUR-GAN は ST4K テクスチャ画像と合成 UHR 画像から学習し、2 つの合成サンプルが図 11 に示されています。

研究の詳細については原著論文を参照してください。

<<:  地図やGPSは信頼できないが、それは問題ではない:カリフォルニア大学バークレー校のロボットが未知の環境で3キロメートル以上を移動

>>:  自動運転車の意思決定制御システム技術を分析した記事

ブログ    
ブログ    
ブログ    

推薦する

ロボット宅配便があなたの玄関までお届けします!フォードが「無人配送」の最後のハードルを解決

Google と Amazon が競い合っている無人配達市場を覚えていますか? そこに新たなプレーヤ...

ついに誰かが自動運転を明確にした

01 自動運転とは自動運転は無人運転とも呼ばれ、その名の通り、車両が人間の操作なしに周囲の環境を認...

AI がデータセンターを持続可能性の原動力に変える方法

これまで多くの技術進歩の基盤となってきたデータセンターは、現在、インフラストラクチャ プロバイダーだ...

...

人工知能の役割がクローズアップ!ロボットが増えると雇用に影響が出るでしょうか?

短期的には、人工知能が雇用全体に与える影響は比較的軽微であり、構造的影響が量的影響を上回っている。し...

人工知能の研究ホットスポット:自然言語処理

人工知能(AI)は、新たな科学技術革命と産業変革の重要な原動力として、世界に大きな影響を与え、変化を...

今後 10 年間で 21 の新しい仕事が生まれます。あなたに何ができるか見てみましょう。

[[242467]]現在観察できるマクロ経済、政治、人口、社会、文化、ビジネス、テクノロジーの一般...

2019年の世界人工知能チップ産業の市場競争状況の分析

1. 世界の人工知能チップ産業の企業概要の分析近年、さまざまな勢力が AIチップに注目しています。参...

データマイニング分野における 10 の古典的なアルゴリズム - ナイーブ ベイズ アルゴリズム (コード付き)

導入ナイーブ ベイズ アルゴリズム (ナイーブ ベイズ アルゴリズムとも呼ばれます)。ナイーブ: 条...

ああはは、それだ!人気の機械学習アルゴリズムの 4 つの「なるほど!」という瞬間

ほとんどの人は 2 つのグループに分かれます。これらの機械学習アルゴリズムが理解できません。アルゴリ...

MITは、ニューラルネットワークトレーニングのブラックボックスを自動的に覗くネットワーク解剖フレームワークを提案

MIT の新しいテクノロジーは、視覚データでトレーニングされたニューラル ネットワークの内部の仕組み...

NIOにおける時系列予測アルゴリズムの応用の検討

1. 事業背景1. NIOの紹介2014 年 11 月に設立された NIO は、ハイエンドのスマート...

AIはもはや派手なものではなく、日常生活にもっと関連している

2020年に入り、業界におけるAIの発展は単なる技術革新やブレークスルーの範囲を超え、製品と業界の統...

回帰問題に最適な機械学習アルゴリズムを選択する

あらゆる種類の機械学習 (ML) の問題に取り組む場合、選択できるさまざまなアルゴリズムがあります。...

...