注目メカニズムに基づく人工知能アルゴリズム単一画像超解像法は、質感と滑らかさを区別します

注目メカニズムに基づく人工知能アルゴリズム単一画像超解像法は、質感と滑らかさを区別します

人工知能アルゴリズムによる注目ベースの単一画像超解像法は、テクスチャと滑らかさを区別します。概要: 単一画像超解像 (SISR) の主な課題は、小さなテクスチャなどの高周波の詳細を回復することです。しかし、最先端の方法のほとんどには高周波領域を識別するための特定のモジュールがないため、出力画像がぼやけてしまいます。テクスチャ領域と滑らかな領域を区別するための注意ベースの方法を提案します。高周波詳細の位置を特定した後、高周波補正を実行します。この方法は、以前に提案された SISR ネットワークと統合できます。高周波強化を提供することで、より優れたパフォーマンスと視覚効果が実現されます。また、DenseRes ブロックで構成された独自の SISR ネットワークも提案します。このブロックは、低レベル機能と高レベル機能を効率的に組み合わせる方法を提供します。広範なベンチマーク評価により、私たちが提案した方法が SISR の最先端の研究に比べて大幅な改善を達成することが実証されています。

人工知能アルゴリズムの注意ベースの単一画像超解像法は、テクスチャと滑らかさを区別します。はじめに: 単一画像超解像 (SISR) のタスクは、単一の低解像度 (LR) 入力画像から高解像度 (HR) 画像を推測することです。これは、ローパス フィルタリングとダウンサンプリング中に小さなテクスチャなどの高周波情報が失われるため、非常に不適切な問題です。したがって、SISR は 1 対多のマッピングです。私たちの仕事は、微妙なテクスチャを可能な限り復元する最も合理的な HR 画像を見つけることです。

LR 画像から HR 画像を復元するには、LR 画像からより多くのコンテキスト情報を取得するための大きな受容野が必要です。より深いネットワークを使用することは、受容野を拡大するためのより良い方法です。ディープ ネットワークの欠点の 1 つは、勾配消失問題であり、これによりネットワークのトレーニングが困難になります。彼と他の人々。 [1]は残差学習フレームワークを使用してネットワークトレーニングを簡素化しました。スキップ接続は、ネットワークを介した勾配と情報の流れを強化するもう 1 つのソリューションです。低レベルの特徴には有効な情報が含まれており、HR 画像を再構築するために使用できます。 SISR はさまざまなレベルの集合的な情報から恩恵を受けます。

SISR の難しさは、小さなテクスチャなどの高周波の詳細を復元することにあります。出力画像と元の画像間の平均二乗誤差 (MSE) は、畳み込みニューラル ネットワークのトレーニングにおける損失関数としてよく使用されます。ただし、高いピーク信号対雑音比 (PSNR) を追求すると、MSE は多くの可能なソリューションの平均を返すため、出力画像はぼやけて信頼性の低いものに見えます。高周波の詳細を回復するために、知覚損失[2]が提案されており、ネットワークが特徴表現が類似した画像を生成するように促し、より鮮明な画像を生成します。 Ledig ら。 [3]、[4]は敵対的ネットワーク、知覚損失、テクスチャ損失を組み合わせて、出力画像が細かいテクスチャなどの高周波の詳細を回復するように促しました。しかし、これらのネットワークはいずれも高周波の詳細がどこにあるかを明確には認識しておらず、ただ盲目的にテクスチャを復元しようとするだけです。したがって、これらのネットワークのパフォーマンスは満足できるものではありません。

AIアルゴリズムの注目度ベースの単一画像超解像法は、テクスチャと滑らかさの寄与を区別します。これらの問題に対処するために、まず、各レイヤーを後続のすべてのレイヤーに接続するdenseNet [5]に基づいて、残差ビルディングブロック(Resblock)[1]で構成されるDenseResブロックと呼ばれる新しいブロックを提案します。各 Resblock の出力は他のすべての Resblock に接続され、情報フローが強化され、冗長な機能の再学習が回避されます。 DenseRes ブロックを使用すると、勾配消失の問題が軽減され、ネットワークのトレーニングが容易になります。次に、高周波の詳細を回復するための注意メカニズムを提供します。セマンティックなピクセル単位のセグメンテーションのためのU-net [6] に触発されて、我々は、領域が修復が必要な小さなテクスチャでいっぱいなのか、補間された画像に似ているのかをネットワークが区別できるようにするための、新しいハイブリッド密接続U-netを提案する。これは、高周波機能を選択的に強化する機能セレクターとして機能します。そのため、質感を可能な限り忠実に復元することができます。

SISR に注意メカニズムが導入されるのは今回が初めてです。この方法はシンプルで効果的です。高周波強調を選択的に提供することで、出力画像がぼやけがちな問題を軽減します。注意メカニズムは、以前に提案された SISR ネットワークと組み合わせることができます。より高いPSNRとSSIMを実現しました。もう 1 つの貢献は、低レベル機能と高レベル機能を効果的に組み合わせる方法を提供する DenseRes ブロックを提案したことです。高周波の詳細を復元するのに適しています。

私たちは、公開されている 4 つのベンチマーク データセットでモデルを評価します。 PSNR と構造類似性 (SSIM) インデックスの点で、現在の最先端の方法よりも優れています。 PSNRに関しては、VDSR [7]およびDRCN [8]と比較してそれぞれ0.54 dBおよび0.52 dBの改善を達成しました。この論文の残りの部分は次のように構成されています。第 2 章では、超解像 (SR) アルゴリズムや注意メカニズムなどの関連作業を紹介し、第 3 章ではネットワーク構造を提案します。セクション IV では、実験結果と最先端の結果との視覚的な比較を示します。セクション V では結論を述べます。

関連研究:SISR、バイキュービック法やランチョス法[9]などの初期の方法は実装が簡単で高速です。しかし、これらの方法では、高周波の詳細が欠落したぼやけた結果が生成されることがよくあります。低解像度画像と高解像度画像間の複雑なマッピングを確立するために、スパースコーディング[10]などの多くの強力な方法が提案されている。スパースコーディング[11]、[12]は、LR辞書上のLR画像のスパース表現が、HR辞書上の対応する高解像度画像のスパース表現と同じであるという仮定に基づいています。

最近、畳み込みニューラル ネットワーク (CNN) ベースのアルゴリズムは優れた結果を達成し、他のアルゴリズムを上回りました。ドンら[13]は、バイキュービック補間を使用して入力画像を拡大し、浅い畳み込みネットワークをエンドツーエンドでトレーニングして、LR入力から超解像出力への非線形マッピングを学習しました。その後、さまざまな研究[3]、[7]、[8]でSISRに深層ネットワークを使用することに成功し、浅い畳み込みアーキテクチャと比較して高いPSNR値を達成しました。最近、Lim et al. [14] NTIRE2017超解像チャレンジで最高の結果を達成した[15]。ネットワークの深さは最大 32 です。

SISRの多くの深層学習アルゴリズムでは、LR画像はネットワークへの入力として双三次補間によってアップサンプリングされます[7]、[8]。これは、SISR 操作が高解像度の空間で実行されることを意味し、これは最適ではなく、計算の複雑さが増加します。画像を補間する代わりに、サブピクセル畳み込み層[16]を適用して、特徴マップをネットワークの後続の層でグラウンドトゥルースのサイズにアップサンプリングします。これにより、モデル容量を維持しながら計算量が削減されます。

注意メカニズム: 注意ベースの方法は、さまざまなタスクで有望なパフォーマンスを示しています。音声認識の分野では、注意ベースの再帰型ネットワークデコーダーが音声発話を文字に書き起こすために使用されています[17]。 Chorowski ら[18]は注意メカニズムを使用して長い入力音声に対する堅牢性を改善した。 Houら[19]は、オンライン音声認識を実現するためのシンプルだが効果的な注意メカニズムを提案した。機械翻訳の分野では、Ashish et al. [20]は、注意メカニズムのみに基づいた新しい単純なネットワークを提案し、再発と制御を完全に排除し、機械翻訳タスクで優れた品質を示した。他の研究[21]、[22]でも注意力の助けを借りて良い結果が得られました。 ... Zhang らの研究では、人間の注意を引く特別な領域を特定し、その位置を特定することが目的でした。 [27]は、顕著な特徴を抽出するために対称完全畳み込みネットワークを設計した。 Li ら[28]は弱い教師ありアプローチを使用し、強い教師ありアプローチを使用して同等の結果を達成しました。

提案方法: このセクションでは、SISR の提案モデル アーキテクチャについて説明します。このネットワークは、LR 画像と HR 画像間のエンドツーエンドのマッピング関数 F を学習することを目的としています。図 1 に示すように、このネットワークは、HR 画像を復元することを目的とした特徴再構築ネットワークと、修復する高周波の詳細を見つけることを目的とした注意生成ネットワークの 2 つの部分で構成されています。 2 つのネットワークの出力を乗算すると、HR 画像の残差が得られます。

人工知能アルゴリズム テクスチャと滑らかさを区別するための注意ベースの単一画像超解像法 結論: テクスチャ領域と滑らかな領域を区別するための注意ベースの方法を提案しました。高周波の詳細の位置を特定する際、アテンション メカニズムは、高周波の特徴を強調し、滑らかな領域のノイズを抑制する特徴セレクターとして機能します。したがって、私たちの方法は高周波の詳細を盲目的に回復することを回避します。このメカニズムを SRResNet、VDSR、DRCN などの SISR ネットワークに統合すると、これらの SISR ネットワークのパフォーマンスが向上します。したがって、注意メカニズムの有効性が検証されます。特徴再構成ネットワークに関しては、低レベルの特徴と高レベルの特徴を組み合わせる効果的な方法を提供する DenseRes ブロックを提案します。複数の DenseRes ブロックのカスケードにより、ネットワークは大きな受容野を持ちます。したがって、LR 画像の広い領域における有用なコンテキスト情報がキャプチャされ、HR 画像の高周波詳細が復元されます。最先端の方法と比較すると、当社の方法は最高のパフォーマンスを実現します。今後は、視覚的にも定量的にも高品質な結果を生み出すために、ビデオの超解像における注意メカニズムの応用を検討していきます。

<<:  AR のヒント | 説明する時間はありません。今すぐ保存してください。

>>:  人工知能の台頭でIT業界やその他の分野は失業の波に直面するかもしれない

ブログ    
ブログ    

推薦する

...

モノのインターネット(IoT)がビジネスに活力を与える:5つのビジネス事例が示すもの

モノのインターネットはさまざまな分野に浸透しており、その魅力と需要は徐々に高まっています。このテクノ...

...

蜀のAI教育への道はどれほど危険か

19 世紀頃、イギリスの実証主義哲学者で社会学者の H. スペンサーは、「教育論」の中で、イギリスの...

2020 年の世界トップ 10 AI ガバナンス イベント

[[378054]]現在、新世代の人工知能技術は世界中で急速に発展し、ビッグデータ、ブロックチェーン...

Googleの上級研究員ネイチャーが記事を公開: 機械学習の3つの大きな「落とし穴」を避ける

アルゴリズム分析は科学研究の重要な方法となっている。生物学者、高エネルギー物理学者、病理学者など、多...

単一のニューロンでも DNN 機能を実現でき、画像分類の精度は 98% です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

プログラマーが知っておくべき 20 世紀の 10 大アルゴリズム

トップ10のアルゴリズムを発明したアルゴリズムの巨匠たち1. 1946年のモンテカルロ法[1946年...

米軍のAIブラックテクノロジー:暗闇でも正確に顔を認識できる。これに不安を感じる人はいるだろうか?

[[227002]]今日お話しするのは、「そんな手術があるの?」と第一印象でとても驚く内容ですが、...

今からAIについて学ぶのは遅すぎますか?

AI飽和私は、Google やハーバード大学のコース、YouTube の完全なチュートリアルなど、...

OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能

OpenAI の CLIP モデルは、画像とテキスト カテゴリのマッチングに非常に優れていますが、元...

AI探偵が事件を解決する3つの秘策

[[241150]]画像出典: Visual China今年のコナン映画は中国でも公開されるそうです...

...

...

AI を活用した検索と推奨はどれほど強力でしょうか?

著者 | ユン・チャオユーザーと情報の間には、検索か推奨のいずれかが存在します。百度の執行副社長であ...