[51CTO.com からのオリジナル記事] コンピューターで何か面白いものを見つけたときにスクリーンショットを撮りたいのですが、解像度が小さすぎて拡大してもはっきりと見えない、といった困った経験はありませんか?面白い画像や絵文字を保存したのに、使いたいときにぼやけてしまったことはありませんか?こういう状況に遭遇するたびに、私は800度の近視の人になったような気がします。メガネを外すとパニックになりますよね?心配しないで!今日は、この問題を解決し、高解像度で無修正の世界をお届けするお手伝いをします。 1.画像超解像再構成技術とは?簡単に言えば、1 枚 (または複数枚) の低解像度画像から、特定の技術的手段によって高解像度画像を生成することです。 たとえば、次のような表現画像です。
(図1) 解像度は125×75です。テキストの最初の行など、写真の細部は遠くからでは見えにくいです。はっきり見たい場合、まず考えられる方法は写真を拡大することです。 この画像をピクセル単位で拡大してみましょう。 描画ソフトウェア/ワード/ブラウザで表示比率を調整してこの画像を見ると、各ピクセルを 400% のサイズに拡大しますが、ピクセル数は増やしません (つまり、ピクセルを元の 1x1 の幅と高さから 4x4 の幅と高さに変更します)。画像を表示する効果は次のようになります。
(図2) 画像を 400% 拡大してスクリーンショットを撮ると、幅と高さが x4 の新しい画像を生成できます。対応する 4x4 = 16 ピクセルは、元の小さな画像の 1 ピクセルを表します。図 1 から図 2 を生成する (画像解像度の幅と高さが 4 倍になる) ことが、超解像度再構成です。しかし、効果は極めて悪いです! 実際、画像を拡大すると、次のように画像の詳細(グラフィックやフォントなどのエッジの輪郭)が鮮明になることが期待されます。
(図3) 図 1 から図 3 を生成できれば (画像解像度の幅と高さが 4 倍になります)、理想的な超解像度再構成になります。 2. 画像超解像再構成技術の応用上で、低解像度の表情画像を加工して、元の画像より幅と高さが 4 倍の新しい画像に変換する例を挙げました。ここではあまり意味がありませんが、実際には、画像超解像再構成技術は非常に役立ちます。 監視の分野では 映画やテレビ番組では、警察が監視カメラの画面をズームして容疑者の顔を確認する場面がよく見られます。この拡大プロセスは、実際にはそれほど単純ではありません。多くのカメラには光学ズーム機能がありません。カメラに光学ズーム機能があっても、多くの場合、監視画像は以前の録画から見るので、光学ズームは役に立ちません。このとき、超解像再構成技術を使用して、限られた領域のピクセルを拡大して鮮明な画像を形成することは非常に有意義です。 衛星画像およびその他のリモートセンシング分野 衛星は通常、地上数百キロメートル上空から地上のさまざまな画像を収集します。画像内の 2 つのピクセル間の実際の距離は、1 キロメートル (すでに比較的高解像度と見なされます) から数百キロメートル (低解像度) になる場合があります。衛星画像の超解像度再構成により、その後の処理の精度が大幅に向上します。 医療画像分野 医用画像の解像度は、X線装置やMRIスキャナなどの機器の物理的性能によって制限されます。超解像再構成技術によって医用画像の解像度を高めることで、医師の診断にさらに役立つようになります。 その他の一般的な画像処理分野
低解像度の映像を伝送に使用し、表示には超解像度再構成を使用して元の解像度を表示します。 3. 従来の画像超解像再構成技術の紹介補間ベースの技術 補間とは何ですか?初心者向けに説明するために、非常に小さな画像を使って説明しましょう。画像の解像度は3 x 2で、これを6 x 4に変換したいとします。 元の画像の各ピクセルの明るさの値は次のとおりです。 6 x 4 の画像を作成し、6 つの既知のポイントを新しい画像内の適切な場所に配置します。 新しい 6x4 イメージ内の 6 つの既知のポイント (緑) はすでにわかっているので、残りの 18 個のポイント (青) の値を見つける必要があります。 補間法とは、ある点の周囲のいくつかの既知の点の値と、周囲の点とこの点との位置関係を用いて、ある式に基づいて点の値を計算する方法です。 元の画像のポイントを新しい画像に配置する方法(特定の座標を決定する)。未知のポイントを計算する場合、参加する必要がある周囲のポイントの数はいくつですか、およびその式は何ですか。ソリューションの選択が異なれば、補間アルゴリズムも異なります。画像処理でよく使用される補間アルゴリズムには、最近傍法、双線形補間、三次補間などがあります。 しかし、実際には、これらの補間アルゴリズムによって改善される画像の詳細は限られているため、ほとんど使用されません。通常、再構成は複数の画像間の補間アルゴリズムを通じて行われます。さらに、ビデオの超解像再構成では、隣接する2つのフレーム間を補間して新しいフレームを追加することで、ビデオのフレームレートを上げ、画面のフリーズ感を軽減することができます。 再構築に基づく方法 以下は、確率論、集合論、その他の関連分野を含む、従来の再構成ベースの超解像アルゴリズムの一部です。ここでは、紹介なしでリストのみを示します。
再構成ベースの方法は通常、複数の画像フレームに基づいており、事前の知識(通常は滑らかさ)を組み込む必要があります。 学習ベースの方法(非ディープラーニング) 以下は、従来の学習ベースの超解像手法ですが、ここでは紹介せずにリストするだけです。
これらの方法はすべて機械学習の分野に属しますが、ディープラーニングの手法は使用しません。 4. ディープラーニングによる画像超解像再構成技術ディープラーニング入門 ディープラーニングは機械学習の一分野なので、まずは機械学習について紹介しましょう。 マシン(コンピュータ上のプログラム)に既知の入力と出力を与え、パターンを見つけるように要求します(知識発見)。次に、新しい入力を使用して、見つかったパターンに基づいて新しい出力を計算するように要求し、出力結果を評価します。結果が適切であれば、肯定的な奨励を与えます。結果が適切でない場合は、マシンにそれが間違っていることを伝え、パターンを再度見つけるように要求します。 実際、このプロセスは、新しい知識やスキルを習得し、既存の知識構造を再編成してパフォーマンスを継続的に向上させるための人間の学習行動をシミュレートまたは実現します。機械学習の本質は、機械が既存のデータを分析し、データの背後に隠されたルール(機能)を表すモデルを考案できるようにすることです。ディープラーニングは、人工ニューラルネットワークモデルを使用した機械学習の手法です。 人工ニューラル ネットワークは、いくつかの処理ノード (脳のニューロンをシミュレート) で人工的に構築されます。各ノードには機能があり、複数の入力を処理し、複数の出力を生成します。各ノードは他のノードと組み合わされてモデル (機能) を形成します。 左から右に、出力層、隠れ層、出力層です。入力層は入力の受信、出力層は結果の出力、隠れ層は中間計算プロセスを担当します。 隠れ層の各ノードは処理関数です。隠れ層の構造、つまり層の数、ノードの数、そして各ノードの機能によって、ニューラル ネットワーク全体の処理結果が決まります。 ディープラーニングによる画像超解像再構成の原理 ディープラーニングは、データとトレーニングを通じてモデルを見つけ、その背後にあるルールを記述できるため、画像超解像再構成の分野に応用できます。 プロセスは次のとおりです。
プロセスは次のとおりです。 ニューラル ネットワーク モデルとパラメータの選択によって異なるソリューションが形成されます。これについては以下で簡単に説明します。 ディープラーニングに基づく画像超解像再構成ソリューションディープラーニングに基づくソリューションは数多くあります。ここではそのうちのいくつかをリストし、最初と最後を簡単に紹介します。興味のある学生は、詳細な紹介、コード、および関連するトレーニング セットを自分で検索するか、自分で生成したトレーニング セットを使用できます。 SRCNN (画像超解像のための深層畳み込みネットワークの学習、ECCV2014) SRCNN は、超解像度再構成にディープラーニングを使用する先駆的な研究です。 SRCNN のネットワーク構造は非常にシンプルで、3 つの畳み込み層のみを使用します。ネットワーク構造を下図に示します。 SRCNN は、まずバイキュービック補間を使用して低解像度の画像をターゲット サイズに拡大し、次に 3 層畳み込みネットワークを介して非線形マッピングを適合させ、最後に高解像度の画像結果を出力します。著者は、3 層畳み込み構造を、画像ブロックの抽出と特徴の表現、特徴の非線形マッピング、最終的な再構築という 3 つのステップに分けて説明しています。 3 つの畳み込み層で使用される畳み込みカーネルのサイズは 9x9、1x1、5x5 であり、最初の 2 つの出力特徴の数はそれぞれ 64 と 32 です。トレーニングには、Timofte データセット (91 枚の画像を含む) と ImageNet 大規模データセットが使用されました。損失関数として平均二乗誤差 (MSE) を使用すると、より高い PSNR が得られます。 FSRCNN (超解像畳み込みニューラルネットワークの高速化、ECCV2016) ESPCN について (効率的なサブピクセル畳み込みニューラル ネットワークを使用したリアルタイム単一画像およびビデオ超解像度、CVPR2016) VDSR (非常に深い畳み込みネットワークを使用した正確な画像超解像、CVPR2016) ドミニカ共和国 (画像超解像のための深層再帰畳み込みネットワーク、CVPR2016) 赤 (対称スキップ接続による畳み込みオートエンコーダを使用した画像復元、NIPS2016) DRRN (ディープ再帰残差ネットワークによる画像超解像、CVPR2017) ラップSRN (高速かつ正確な超解像のためのディープラプラシアンピラミッドネットワーク、CVPR2017) エスアールデンスネット (高密度スキップ接続を用いた画像超解像、ICCV2017) DenseNetがCVPR2017の最優秀論文賞を受賞 SRGAN (SRResNet) (生成的敵対的ネットワークを使用したフォトリアリスティックな単一画像超解像、CVPR2017) この記事では、Generative Adversarial Network (GAN) を使用して超解像問題を解決します。 EDSR (単一画像超解像のための強化された深層残差ネットワーク、CVPRW2017) EDSR は、NTIRE2017 スーパー解像度チャレンジで優勝したソリューションです。論文に記載されているように、EDSR のモデル パフォーマンスにおける最も重要な改善点は、SRResNet から冗長モジュールを削除し、モデルのサイズを拡大して結果の品質を向上させたことです。 EDSR のネットワーク構造を下図に示します。 EDSR の構造は、バッチ正規化 (BN) 操作が削除されている点で SRResNet の構造と異なることがわかります。記事によると、元々の ResNet は、分類や検出などの高レベルのコンピューター ビジョンの問題を解決するために最初に提案されました。ResNet 構造を超解像度などの低レベルのコンピューター ビジョンの問題に直接適用するのは明らかに最善ではありません。バッチ正規化層は、その前の畳み込み層と同じ量のメモリを消費するため、このステップを削除すると、EDSR は同じコンピューティング リソースを使用して、より多くのネットワーク層をスタックしたり、各層でより多くの機能を抽出したりすることができ、より優れたパフォーマンスを実現できます。 EDSR は、L1 ノルム スタイルの損失関数を使用してネットワーク モデルを最適化します。トレーニング中は、まず低倍数アップサンプリング モデルをトレーニングし、次に低倍数アップサンプリング モデルのトレーニングから取得したパラメータを使用して高倍数アップサンプリング モデルを初期化します。これにより、高倍数アップサンプリング モデルのトレーニング時間が短縮され、トレーニング結果も向上します。 【著者プロフィール】Zeng Xiaowei 氏は現在、PP Cloud Technology の副所長を務めています。画像コーディングと高性能コンピューティングのバックグラウンドを持ち、AI (NLP) を副専攻としています。ストリーミング メディア サーバーの開発とアーキテクチャ設計で 10 年以上の経験があります。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
>>: ナレッジグラフは人気があります。今すぐ選んでみませんか。
[[208290]]概要: この記事では、海外の便利な自動データ サイエンスおよび機械学習ソフトウェ...
12月5日、Googleの研究者グループは、OpenAIの人工知能チャットボットChatGPTのトレ...
[[393467]]この記事はWeChatの公開アカウント「Shu Shixiong」から転載したも...
[[375015]]世界的な流行により、ほぼすべての大学が授業をオンライン学習プラットフォームに移行...
AI動画モデルSoraが人気を博して以降、MetaやGoogleなどの大手企業もOpenAIに追いつ...
機械学習の実験と成果の達成に関しては、持っている人と持っていない人の間の格差が拡大しています。先週ニ...
近代以降、ほぼすべての産業革命はさまざまな程度の自動化によって推進されてきました。これまでの産業革命...
ChatGPT は、翻訳、作詞作曲、リサーチ、コーディングなど、さまざまなスキルに優れています。しか...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2月18日に火星への着陸に成功したNASAの火星探査車パーサヴィアランスは、火星での2年間の探査ミッ...
AI テクノロジーと自動化ソリューションは、仕事を奪う諸悪の根源なのでしょうか、それとも新しいプラ...