ディープラーニングによる超解像画像技術の概要

ディープラーニングによる超解像画像技術の概要

SRは大きな進歩を遂げました。一般的に、既存の SR 技術研究は、教師あり SR、教師なし SR、特定領域 SR (顔) の 3 つのカテゴリに大別できます。

まずは監督SRについてお話しましょう。

すでにさまざまなディープラーニング超解像モデルが存在します。これらのモデルは、教師あり超解像、つまり LR 画像とそれに対応するグラウンド トゥルース (GT) HR 画像を使用してトレーニングされたモデルです。これらのモデル間の違いは非常に大きいですが、本質的には、モデル フレームワーク、アップサンプリング方法、ネットワーク設計、学習戦略などの一連のコンポーネントの組み合わせです。この観点から、研究者はこれらのコンポーネントを組み合わせて、特定のタスクに適合する統合 SR モデルを構築します。

画像の超解像は不適切問題であるため、アップサンプリング(つまり、低解像度から高解像度を生成すること)をどのように実行するかが重要な問題となります。採用されたアップサンプリング操作とモデル内での位置に基づいて、SR モデルは、図に示すように、事前サンプリング SR、事後アップサンプリング SR、プログレッシブ アップサンプリング SR、反復アップサンプリングおよびダウンサンプリング SR の 4 つのモデル フレームワークに分類できます。

モデル内での配置に加えて、アップサンプリング操作でそれらをどのように実装するかも非常に重要です。補間法の欠点を克服し、アップサンプリング操作をエンドツーエンドで学習するために、転置畳み込み層とサブピクセル層を超解像に導入することができます。

転置畳み込み層 (逆畳み込み層とも呼ばれる) は、畳み込み層の出力と同様のサイズの特徴マップに基づいて、可能な入力を予測します。具体的には、ゼロ値を挿入し、畳み込みを行って画像を拡大することで、画像の解像度を高めます。簡単にするために、図に示すように、2 回のアップサンプリングを実行する 3×3 カーネルを例として挙げます。まず、入力は元のサイズの 2 倍に拡大され、新しく追加されたピクセル値は 0 に設定されます (b)。次に、サイズ3×3、ストライド1、パディング1のカーネル畳み込みが適用されます(c)。このようにして、入力特徴マップは 2 倍にアップサンプリングされ、受容野は最大で 2×2 になります。

転置畳み込み層は、バニラ畳み込みと互換性のある接続パターンを維持しながら、エンドツーエンドで画像サイズを拡大できるため、SR モデルのアップサンプリング層として広く使用されています。しかし、各軸に「不均一な重なり」が生じやすく、2 つの軸間の乗算によって、異なる振幅の独特なチェッカーボード パターンがさらに生成され、SR のパフォーマンスに悪影響を及ぼします。

サブピクセル レイヤーは、図に示すように、畳み込みによって複数のチャネルを生成し、その後形状を変更する、エンドツーエンドの学習アップサンプリング レイヤーでもあります。最初の畳み込みは、s2 倍のチャンネルを持つ出力を生成します。ここで、s はアップサンプリング係数です (b)。入力サイズがh×w×cであると仮定すると、出力サイズはh×w×s2cになります。その後、シャッフル操作が実行され、サイズsh×sw×cの出力(c)が生成されます。受容野のサイズは 3×3 に達します。

エンドツーエンドのアップサンプリング アプローチにより、サブピクセル レイヤーも SR モデルで広く使用されています。転置畳み込みレイヤーと比較すると、サブピクセル レイヤーの最大の利点は、受容野が大きく、より多くのコンテキスト情報が提供され、より正確な詳細を生成できることです。ただし、サブピクセルレベルでの受容野の分布は不均一であり、ブロック状の領域は実際には同じ受容野を共有しているため、ブロック境界付近で歪みが生じる可能性があります。

図に示すように、SR にはさまざまなディープラーニング モデルが使用されています。

ResNet は徹底的なマッピングの代わりに残差を学習し、上図 (a) に示すように SR モデルで広く採用されています。その中で、残差学習戦略は、グローバル残差学習とローカル残差学習の 2 種類に大別できます。

超解像は、入力画像がターゲット画像と高度に相関している画像間の変換タスクであるため、グローバル残差学習では 2 つの画像間の残差のみを学習します。この場合、完全な画像から別の画像への複雑な変換を学習する必要はなく、失われた高周波の詳細を回復するために残差マップを学習するだけで済みます。ほとんどの領域で残差がゼロに近いため、モデルの複雑さと学習の難しさは大幅に軽減されます。この方法は、アップサンプリング前の SR フレームワークでよく使用されます。

ローカル残差学習は ResNet の残差学習に似ており、ネットワークの深さの増加によって引き起こされる劣化の問題を軽減し、学習能力を向上させるために使用されます。

実際には、上記の方法は、ショートカット接続(通常は小さな定数係数でスケーリング)と要素ごとの加算演算によって実装されます。違いは、前者は入力画像と出力画像を直接接続するのに対し、後者は通常、異なる深さのネットワークのレイヤー間に複数のショートカットを追加することです。

• 再帰学習

上図(b)に示すように、超解像には再帰学習(同じモジュールを再帰的に複数回適用する)も採用されています。実際には、再帰学習は本質的に勾配消失または勾配爆発の問題を引き起こすため、残差学習やマルチ信号監視などのいくつかの手法が再帰学習と組み合わせてこれらの問題を軽減することがよくあります。

• チャネルフォーカス

異なるチャネルの特徴表現間の相互依存性と相互作用を考慮して、「スクイーズアンドエキサイテーション(SAE)」モジュールは、上の図(c)に示すように、チャネルの相互依存性を明示的にモデル化して表現機能を向上させます。グローバル平均プーリングを使用して各入力チャネルをチャネル記述子 (つまり定数) に圧縮し、これらの記述子を 2 つの完全接続レイヤーに入力してチャネル スケール係数を生成します。チャネルごとの乗算に基づいて、入力チャネルはスケール係数によって再スケールされ、最終出力が得られます。

• 密な接続

密な接続は、視覚タスクにおいてますます普及しつつあります。密なブロックの各層では、前のすべての層からの特徴マップが入力として使用され、その層自体の特徴マップが後続のすべての層の入力として使用されます。その結果、l 層の密なブロックでは l·(l - 1)/2 の接続が生成されます。密な接続は、勾配消失問題の緩和、信号伝播の強化、特徴の再利用の促進に役立つだけでなく、小さな成長率(つまり、密なブロックのチャネル数)と接続後のチャネル削減を採用することで、パラメータの数を大幅に削減します。

低レベルの特徴と高レベルの特徴を融合してより豊富な情報を提供し、高品質の詳細を再構築するために、図 (d) に示すように、SR フィールドに密な接続が導入されました。

• マルチパス学習

マルチパス学習とは、モデルに機能を転送するための複数のパスがあり、これらのパスが異なる操作を実行してより優れたモデリング機能を提供することを意味します。具体的には、グローバル方式、ローカル方式、スケール固有方式の 3 種類に分けられます。

グローバル マルチパス学習とは、複数のパスを使用して画像のさまざまな側面から特徴を抽出することを指します。これらのパスは伝播中に相互に交差する可能性があり、これにより特徴抽出能力が大幅に向上します。

ローカルマルチパス学習では、上図(e)に示すように、マルチスケール特徴抽出に新しいブロックを使用します。このブロックは、異なるカーネル サイズの畳み込みを使用して特徴を同時に抽出し、出力を連結して同じ操作を再度実行します。ショートカットは、要素ごとに追加することで、このブロックの出力と入力を接続します。このローカルマルチパス学習により、SR モデルは複数のスケールから画像の特徴をより適切に抽出し、パフォーマンスをさらに向上させることができます。

スケール固有のマルチパス学習は、モデルの主要部分(つまり、特徴抽出の中間部分)を共有し、上の図(f)に示すように、ネットワークの先頭と末尾にそれぞれスケール固有の前処理パスとアップサンプリングパスを追加します。トレーニング中は、選択したスケールに対応するパスのみが有効になり、更新されます。このようにして、ほとんどのパラメータは異なるスケール間で共有されます。

• 高度な畳み込み

畳み込み演算はディープ ニューラル ネットワークの基礎であり、畳み込み演算を改善することでパフォーマンスの向上や速度の高速化を実現できます。ここでは、Dilated Convolution と Group Convolution の 2 つの方法が示されています。コンテキスト情報は、画像の超解像度においてリアルな詳細を生成するのに役立つことはよく知られています。拡張畳み込みにより受容野が 2 倍に拡大し、最終的にパフォーマンスが向上します。グループ畳み込みは、上図(g)に示すように、パフォーマンスの低下をほとんど伴わずに、多数のパラメータと演算を削減できます。

• ピクセル単位の再帰学習

ほとんどの SR モデルでは、これをピクセルに依存しないタスクと見なしているため、生成されたピクセル間の相互依存性を適切に判断できません。人間の注意シフトメカニズムによって駆動される再帰ネットワークは、関与するパッチを順番に検出し、ローカルな機能強化を実行します。このようにして、モデルは各画像の特性に基づいて最適な検索パスを適応的にパーソナライズすることができ、それによって画像のグローバルな内部依存性を最大限に活用することができます。しかし、長い伝播経路を必要とする再帰プロセスは、特に超解像度 HR 画像の場合、計算コストとトレーニングの難易度を大幅に増加させます。

• ピラミッドプーリング

ピラミッドプーリングモジュールは、上図(h)に示すように、グローバルおよびローカルのコンテキスト情報をより有効に活用します。具体的には、サイズ h×w×c の特徴マップの場合、各特徴マップは M×M の間隔に分割され、グローバル平均プーリングが行われて M×M×c の出力が生成されます。次に、1×1 畳み込みが実行され、出力が 1 つのチャネルに圧縮されます。その後、低次元の特徴マップは、双線形補間によって元の特徴マップと同じサイズにアップサンプリングされます。異なる M を使用することで、モジュールはグローバルおよびローカルのコンテキスト情報を効果的に統合できます。

• ウェーブレット変換

ご存知のとおり、ウェーブレット変換 (WT) は、画像信号をテクスチャの詳細を表す高周波ウェーブレットとグローバルなトポロジ情報を含む低周波ウェーブレットに分解する効率的な画像表現です。 WT はディープラーニング ベースの SR モデルと組み合わされ、LR ウェーブレットのサブバンドを入力として補間し、対応する HR サブバンドの残差を予測します。 WT と逆 WT は、それぞれ LR 入力を分解し、HR 出力を再構築するために使用されます。

さらに、学習戦略の問題には、損失関数(ピクセル損失、コンテンツ損失、テクスチャ損失、敵対的損失、サイクル連続損失を含む)の設計、バッチ正規化(BN)、カリキュラム学習、マルチ信号監視などが含まれます。

教師なしSRについて話しましょう。

既存の超解像研究は主に教師あり学習に焦点を当てています。しかし、同じシーンの画像を異なる解像度で収集することは困難です。そのため、SR データセットの LR 画像は通常、HR 画像の劣化を事前に定義することによって取得されます。事前に定義された劣化による悪影響を防ぐには、教師なしの超解像度が選択肢になります。この場合、トレーニングにはペアになっていない画像 (HR または LR) のみが提供され、結果として得られるモデルは実際のシナリオで SR の問題に対処する可能性が高くなります。

• ゼロショット超解像

単一画像内の統計情報は、超解像に必要な情報を提供するのに十分であるため、ゼロショット超解像 (ZSSR) では、大規模なデータセットで一般的なモデルをトレーニングするのではなく、テスト時に教師なし SR 用の小さな画像固有の SR ネットワークをトレーニングします。具体的には、カーネル推定法は、単一のテスト画像から直接劣化カーネルを推定し、テスト画像に対して異なるスケール係数で劣化を実行して、小さなデータセットを構築します。次に、最終的な予測のために、このデータセットで小さな超解像度 CNN モデルをトレーニングします。

ZSSR は、画像内の特定の情報のクロススケール再現機能を使用して、非理想的な条件 (非バイキュービック縮退カーネルで取得され、ぼやけ、ノイズ、圧縮歪みの影響を受けた画像) での現実世界のシーンに近い画像に対して、従来の方法のパフォーマンスを大幅に向上させます。同時に、理想的な条件 (バイキュービック補間で構築された画像) では、結果は従来の方法と同様です。それにもかかわらず、テスト中に画像ごとに単一のネットワークをトレーニングする必要があるため、他の SR モデルよりもテスト時間が大幅に長くなります。

• 弱く監視されたSR

超解像度の事前劣化を回避するには、弱く監視された SR モデル、つまり、ペアになっていない LR-HR 画像を使用するのが解決策です。いくつかの方法では、HR-LR 劣化モデルを学習し、それを使用して SR モデルをトレーニングするためのデータセットを構築しますが、他の方法では、サイクルインサイクル ネットワークを設計して、LR-HR と HR-LR マッピングを同時に学習します。

事前劣化は最適ではないため、ペアになっていない LR-HR データセットから劣化を学習することが可能です。 1 つのアプローチは「2 段階アプローチ」と呼ばれます。

1) HR-LR GAN モデルをトレーニングし、ペアになっていない LR-HR 画像を使用して劣化を学習します。

2) 最初の GAN モデルに基づいて、LR-HR 画像ペアを使用して LR-HR GAN モデルをトレーニングし、SR を実行します。

HR から LR への GAN モデルでは、HR 画像がジェネレーターに送られて LR 出力が生成されますが、この出力は、HR 画像を縮小して得られた LR 画像 (平均プーリング) と一致するだけでなく、実際の LR 画像の分布とも一致する必要があります。トレーニング後、ジェネレーターは劣化モデルとして機能し、LR-HR 画像ペアを生成します。

LR-to-HR GAN モデルの場合、ジェネレーター (つまり、SR モデル) は生成された LR 画像を入力として受け取り、対応する HR 画像だけでなく HR 画像の分布とも一致する必要がある HR 出力を予測します。

「2 段階アプローチ」では、教師なしモデルによって超解像の現実世界の LR 画像の品質が効果的に向上し、従来の方法に比べて大幅な改善が達成されます。

教師なし SR への別のアプローチは、LR 空間と HR 空間を 2 つのドメインとして扱い、周期的な再帰構造を使用してそれらの間のマッピングを学習することです。この場合、トレーニングの目標は、マッピング結果をターゲット ドメイン分布に一致するようにプッシュし、ラウンド トリップ マッピングによってイメージを回復することです。

• イメージに関する深い事前知識

CNN 構造は、逆問題の前に大量の低レベルの画像統計をキャプチャするため、SR を実行する前に、ランダムに初期化された CNN を手動の事前知識として使用できます。具体的には、ランダムベクトル z を入力として受け取り、ターゲット HR 画像 I を生成しようとするジェネレータ ネットワークが定義されます。トレーニングの目標は、ネットワークが、ダウンサンプリングされたIˆyがLR画像Ixと同じであるIˆyを見つけることです。ネットワークはランダムに初期化され、データセットでトレーニングされたことがないため、事前の知識は CNN 構造自体のみです。このアプローチのパフォーマンスは教師あり方式に比べるとまだかなり劣りますが、従来のバイキュービックアップサンプリングをはるかに上回っています。さらに、CNN アーキテクチャ自体の合理性により、CNN 構造や自己相似性などの事前知識とディープラーニング手法を組み合わせて超解像度を向上させることが促進されました。

特定のSR。

具体的な SR 分野には、主に深度マップ、顔画像、ハイパースペクトル画像、ビデオの SR アプリケーションが含まれます。

顔画像の超解像度は顔幻覚 (FH) とも呼ばれ、顔に関連する他のタスクにも役立つことがよくあります。一般的な画像と比較して、顔画像には顔に関連する構造化された情報がより多く含まれているため、顔に関する事前知識(キーポイント、構造解析グラフ、ID など)を FH に組み込むことは、非常に人気があり有望なアプローチです。顔の事前知識を活用する最も簡単な方法は、生成された HR 画像がグラウンド トゥルース (GT) HR 画像と同じ顔関連情報を持つように制限することです。

パンクロマティック画像 (PAN)、つまり 3 つのバンドを持つ RGB 画像と比較して、数百のバンドを持つハイパースペクトル画像 (HSI) は豊富なスペクトル機能を提供し、さまざまな視覚タスクを容易にします。ただし、ハードウェアの制限により、高品質の HSI を収集することは PAN を収集するよりも難しく、収集された HSI の解像度ははるかに低くなります。そのため、この分野には超解像が導入され、研究者は HR PAN と LR HSI を組み合わせて HR HSI を予測する傾向があります。

ビデオの超解像度に関しては、複数のフレームにより、フレーム内の空間依存性だけでなく、フレーム間の時間依存性(動き、明るさ、色の変化など)など、より多くのシーン情報が提供されます。ほとんどのアプローチは、明示的な動き補正(オプティカルフローアルゴリズム、学習ベースの方法など)や再帰的な方法など、時空間依存性をより有効に活用することに主に焦点を当てています。

<<:  ディープマインド主任科学者:私は機械知能よりも人間の知能が引き起こす災害を心配している

>>:  2022年のデータサイエンスとAIの予測

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

統計分析と人工知能の9つの有名な大惨事

2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言しました...

[NCTS サミットレビュー] Li Yuanchun: 自動テストにおける強化学習の応用

2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...

...

KDnuggets 公式調査: データ サイエンティストが最もよく使用する 10 のアルゴリズム

[[174162]]最新の KDnuggets 調査では、データ サイエンティストが最もよく使用する...

モザイクを使用するのは安全ですか? AIがモザイクを除去し、導入から3日間で約7,000個の星を獲得

パスワードを隠すためにまだモザイクを使用していますか? 「見透かされる」ことには注意してください。ピ...

...

バブルアルゴリズムよりも単純なソートアルゴリズム:バグだらけに見えるプログラムが実は正しい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ディープラーニングモデルを使用して Java でテキスト感情分析を実行する

肯定的ですか? 否定的ですか? 中立的ですか? Stanford CoreNLP コンポーネントと数...

...

Moka、業界初となるAIネイティブHR SaaS製品「Moka Eva」をリリース、AGI時代を見据えた準備万端

2023年6月28日、Mokaは北京で2023年夏の新製品発表会を開催した。 Moka CEOのLi...

無料の AI ベスト論文検索ツール: ワンクリックで結果を表示し、数分で論文の表とデータを抽出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Java 実装と読み取り/書き込みロック アルゴリズムの考え方

問題の背景: 複数のスレッドが共有リソースへの読み取りおよび書き込みアクセスを実行します。書き込みス...

クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3は発売されてから24時間以上経ちますが、今でも人々の認知をリフレッシュさせています。量子物...

...

Jupyter のアップグレード: さまざまな大規模モデルを接続し、コードを生成し、チャットを通じてエラーを修正できます

これで、大規模言語モデル (LLM) が Jupyter に接続されました。これは主に、Projec...