間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

最近、アリババ・タオバオ・テクノロジーと上海交通大学画像通信・ネットワーク工学研究所(IGI)による「AdaInt:リアルタイム画像強化における3Dルックアップテーブルの適応間隔の学習」と題する共同論文がトップ国際会議CVPR2022に採択され、すべてのコードとモデルがオープンソース化されました。

CVPR は、コンピューター ビジョン分野の 3 大カンファレンスの 1 つであり、毎年学術界で重要なイベントの 1 つです。 CVPR は The Conference on Computer Vision and Pattern Recognition の略で、IEEE が主催する最高レベルの国際学術会議です。この会議は毎年世界中で開催され、画像やビデオのパターン抽出や認識に関連する幅広いトピックをカバーしています。一般的なトピックには、オブジェクト認識、ターゲット検出、画像セグメンテーション、画像復元、画像強化などがあります。今年の CVPR カンファレンスには、世界中から合計 8,161 件の有効な論文が提出されました。カンファレンス議長と多数の査読者の努力により、合計 2,067 件の論文がカンファレンスで受理され、総受理率は約 25.33% でした。

本論文では、ディープラーニングを用いて入力画像に対して不均一なレイアウトを持つ3次元カラールックアップテーブルを適応的に学習し、入力画像の色彩を効率的に強調する革新的な技術を初めて提案しています。学術界の公開シミュレーションデータセットで最高の客観指標(PSNR)を達成し、同時に現在最速の実行速度も達成しています。この記事で紹介した色彩強調技術は、優れた効果と高速性という特徴があり、4K 動画の効率的な処理を実現し、色の彩度とコントラストを向上させることができます。そのため、リアルタイム ストリーミングのシナリオに適しており、ライブ ブロードキャスト ルームの画質をより簡単に向上させることができます。

論文アドレス: https://arxiv.org/abs/2204.13983

プロジェクトアドレス: https://github.com/ImCharlesY/AdaInt

著者の所属: タオバオテクノロジー、上海交通大学、大連理工大学

背景

色彩強調は、画像処理の基本的な内容の 1 つであり、カメラ画像システムの中核コンポーネントの 1 つです。デジタル画像画像処理チェーンのさまざまな段階のアプリケーションに広く反映されています。その主な目的は、元の画像を処理して、人間の視覚特性や表示デバイスの表示要件とより一致するようにすることです。近年、主流のディープラーニングベースの色強調手法では、強調プロセスが単一の完全畳み込みネットワークに簡素化されています。このタイプの方法は、データ駆動型のエンドツーエンド学習を通じて、公開データセットで高度な色強調結果を実現できます。しかし、完全畳み込みパラダイムは、特に超高解像度画像(4K以上など)の場合、ネットワークの推論に高い時空間計算の複雑さをもたらすため、これらの方法の実際の適用が制限されます。

最新の研究[1]によると、ほとんどの色強調/美化演算子(ホワイトバランス、彩度制御、トーンマッピング、コントラスト調整、露出補正など)はポイント操作のカテゴリに属しています。変換演算子のパラメータは、画像の全体的または局所的な統計特性に応じて決定されますが、変換演算子自体による画像の操作と編集は、位置やピクセルに依存しません。それらのカスケードは、全体的な効果、つまり関数マッピング式の観点から、単一の 3 次元カラー変換とほぼ同等です。マッピングは、入力画像内のカラー ポイントを、同じカラー スペースまたは異なるカラー スペース内の別のカラー ポイントにマッピングします。直感的なアイデアとしては、一連の強調変換演算子を 1 つのカラー変換演算子に統合し、一連の変換操作によって発生する計算量を削減し、累積エラーが強調効果に与える影響を軽減することが挙げられます。

この場合、3D ルックアップ テーブル (3D LUT) は非常に貴重なデータ構造です。変換関数のすべての可能な入力色の組み合わせをトラバースし、対応する出力色の結果を記録することで、複雑な色変換関数を効率的にモデル化できます。コンピューター ハードウェア設計やカメラ イメージング システムで広く使用されています。ただし、入力空間全体を走査すると、メモリのオーバーヘッドが大きくなることが多く、より一般的に使用されるアプローチはスパース ルックアップ テーブルです。スパース ルックアップ テーブルでは、入力空間をスパースにサンプリングし、サンプリング ポイントの対応する出力のみを記録します。サンプリングされないポイントについては、最も近い隣接サンプリング ポイントの出力の線形補間によって、変換された出力が取得されます。したがって、スパース ルックアップ テーブルは、本質的には元の変換関数の非可逆近似であり、その変換機能の損失は、区分線形関数を通じて元の変換関数の潜在的な非線形部分を適合させることに反映されます。

仕事へのモチベーション

3D LUTの計算効率と安定した堅牢な色変換機能により、最新の研究作業[2]では、3D LUTの効率的な計算性能とディープニューラルネットワークの強力なデータ特徴抽出機能を組み合わせました。ディープネットワークを介して画像からスパースな3次元ルックアップテーブルを適応的に生成し、リアルタイムの色強調を実現し、ディープラーニングに基づく適応型色強調における3D LUTの実現可能性と有効性を実証しました。しかし、ディープ ネットワークを介してスパース 3D LUT を適応的に予測する場合、既存の研究では、3D LUT に記録された出力値の画像適応性のみを考慮し、すべての異なる画像に対して統一された均一なスパース ポイント サンプリング戦略 (3 次元入力色空間を等間隔の 3 次元グリッドに離散化) を採用しており、入力空間内のスパース 3D LUT のサンプリング ポイントの分布も画像の内容に応じて適応的に調整する必要があることを効果的に考慮していません。この重要なモデリング機能が欠如しているため、この方法で学習した 3D LUT ではスパース サンプリング ポイント割り当て戦略が最適ではなくなり、最終的な 3D LUT のモデル変換機能が制限されます。具体的には、サンプリング ポイントのスパース性と、3D LUT 変換で使用される線形補間によって引き起こされる非線形変換表現能力の損失により、均一サンプリング戦略では、同様の色の入力ピクセルが 3D LUT の同じグリッド間隔に量子化される可能性があります。これらの入力ピクセルの対応する出力値に高い非線形コントラストが必要な場合 (画像内の暗い光の条件下で色の違いが顕著なテクスチャ領域を強調する場合など)、単一の LUT グリッドでは線形カラー ストレッチ変換しか提供できず、変換結果の色が滑らかになる可能性があります。この現象は、下の左の図に示すように、デジタル信号処理の分野において、サンプリング周波数がナイキスト-シャノンのサンプリング定理を満たさないために発生する信号の歪みに例えることができます。理想的には、スパース サンプリング ポイントの数を増やすか、非線形補間を導入すると、非線形変換能力の不足の問題を効果的に軽減できますが、3D LUT 方式の計算とメモリの複雑さも大幅に増加し、LUT 方式のリアルタイム パフォーマンスが犠牲になります。さらに、下の右の図に示すように、均一サンプリング戦略でサンプリング ポイントの数を直接増やすと、フラットな色変換の領域 (出力色が入力色の単なる線形ストレッチなど) や、入力色空間にピクセルが少ない領域でも 3D LUT のオーバーサンプリングが悪化し、3D LUT モデルの容量とメモリ消費が無駄になります。  

方法の紹介

既存の研究では、入力空間内の均一な量子化間隔を持つ限られた数のスパースサンプリングポイントを通じて 3D LUT を構築しているため、ローカルな非線形色変換をモデル化する能力が不十分であるという課題に対処するために、サンプリング間隔の適応学習に基づく 3D LUT 手法を提案し、上記の課題に対する高度なソリューション、つまり Adaptive Intervals Learning (AdaInt) を提供します。具体的には、入力画像の内容に基づいて 3D LUT 内のスパース サンプリング ポイントの分布を適応的に予測する、3D LUT 方式のプラグ アンド プレイ モジュールとして、3D 色空間における軽量かつコンパクトにサポートされた動的サンプリング間隔予測メカニズムを提案し、設計します。モデルに3次元色空間で適応的かつ不均一にサンプリングする機能を持たせることで、より強い非線形変換を必要とする色空間により多くのサンプリングポイントを割り当てて3D LUTのローカルな非線形変換機能を向上させ、比較的平坦な変換を伴う領域に少ないサンプリングポイントを割り当てて3D LUTの容量冗長性を減らし、3D LUT方式の柔軟性と画像適応性を向上させることが期待されます。

提案手法の全体的なモデルフレームワークを上図に示します。美化対象となる画像をモデル入力として使用し、色彩強調を施した高品質な画像を自動的に出力し、出力画像と人工的に美化処理された対象画像間のMSE再構成損失を計算することで、手法フレームワーク全体のエンドツーエンドの学習を実現します。

具体的なモデル構造としては、軽量畳み込みニューラル ネットワークを使用して、固定解像度 (256 x 256 ピクセル) にダウンサンプリングされた入力画像を入力として取り込み、このネットワークを使用して、画像適応型 3D LUT の 2 つのコア コンポーネント (非均一な入力カラー サンプリング座標と対応する出力カラー値) を同時に予測します。

3D LUTの出力カラー値については、既存の研究[2]で採用されているアプローチを継続します。つまり、自動ネットワーク予測係数を介して各画像に対して複数の学習可能なBasis 3D LUTを動的に重み付けしてマージし、すべての出力カラー値を直接回帰することによって発生する多数のネットワークパラメータの導入と計算の複雑さを回避します。

非均一な入力カラー サンプリング座標の場合、ルックアップ プロセス中に 3D LUT の 3 つのカラー次元が互いに独立していると想定します。このようにして、各カラー次元の 1 次元サンプリング座標シーケンスを個別に予測し、デカルト積 (n 項デカルト積) を通じて対応する 3 次元サンプリング座標を取得できます。

これら2つのコンポーネントを組み合わせて、適応型の非均一な3Dレイアウトを備えた3D LUTを形成します。これは、慎重に設計された方法によって実現できます。   AiLUT変換 新しい微分可能演算子を使用して、元の入力画像を効率的に変換および強化します。具体的には、標準ルックアップテーブル変換のルックアッププロセスに低複雑度のバイナリ検索を導入することで、非均一レイアウトルックアップテーブル内で入力色が配置されているグリッドを決定し、エンドツーエンド学習の偏微分を導出することで、ネットワークによって自動的に予測された非均一カラーサンプリング座標に勾配を提供します。

実験結果

本論文で提案されている AdaInt モジュールは、下の図に示すように、パラメータと計算をほとんど増やさずに、ベースライン 3D ルックアップ テーブル方式の強化効果を大幅に向上させることができます。

3D LUT は、さまざまな入力画像に対するネットワーク学習を視覚化することで得られます。下の図に示すように、弱い露出 (左のサブ画像) と強い露出 (右のサブ画像) のさまざまな入力画像では、ネットワークによって予測されたサンプリング座標 (3 行目の垂直線で示される) が、それぞれ画像の異なるグレースケール値領域に集中していることがわかります。これは、提案手法が、予想どおり、大規模データの事前分布において、3次元色空間で3D LUTを適応的にサンプリングする能力をある程度学習したことを示しています。

2 つの公開画像強調/美化データセット、FiveK と PPR10K では、提案手法は、全体的に少ないパラメータ数とリアルタイム推論時間で、強調画像の客観的評価指標において既存の手法を上回り、高度なパフォーマンスを実現しました。

要約する

この論文では、学習可能な学習能力を強化するための新しい方法を簡単に紹介します。   3D LUT  リアルタイムの色彩強化のための学習メカニズム - AdaInt。中心的なアイデアは、画像適応サンプリング間隔を導入して、非均一な 3D LUT レイアウトを学習することです。 2 つの公開データセットでの実験結果は、パフォーマンスと効率の点で私たちの方法が他の最先端の既存の方法よりも優れていることを示しています。さらに、著者らは、私たちのアプローチの根底にあるアイデア、つまり複雑な基礎となる変換関数または表現の非均一サンプリングのアイデアは、3D LUT に限定されず、他のアプリケーションの改善につながると期待しており、これは今後の課題として残しています。

<<:  その場所を爆破しろ!ディープマインドによる汎用人工知能の新たなブレークスルー:重みのセットが視覚テキストと意思決定をカバー

>>:  Google が使用する 4 つのデータ指標モデル

ブログ    

推薦する

AIから本当に恩恵を受けるのは誰でしょうか?

人工知能の可能性は計り知れないものの、この技術革命から誰が最も恩恵を受けるのかについては議論が続いて...

2021年のスマートシティの変革と再構築のトレンド

現代では、混沌とした賑やかな都市がどんどん増え、実際に「スマートシティ」の称号を競い合っています。そ...

Googleを超えろ!世界最大の時間結晶が記録を破り、量子コンピューターが新たな奇跡を起こす

今日、タイムクリスタルは再び新しいスターを迎え、Sceinceサブマガジンに登場しました。 タイムク...

...

Python データ分析の基礎: 外れ値の検出と処理

機械学習において、異常検出と処理は比較的小さな分野、または機械学習の副産物です。一般的な予測問題では...

...

ボストンダイナミクスのロボット犬と一緒に散歩に行きました! 「すごい」って言い続ける…(車横転シーン添付)

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Google mBERT の秘密を解明: ディープラーニングは人間の言語をどのように処理するのか?

[[384615]]言語機能を備えたディープラーニングシステムは、人々の生活の中で広く利用されてき...

...

人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

コンピューティング能力の需要が高まり続けるにつれて、さまざまな環境への影響が生じ、人工知能 (AI)...

...

「激怒」するビッグモデルがレコメンデーションシステムと衝突したとき

ChatGPTに代表される大規模モデル技術の急速な発展により、レコメンデーションシステムは革命的な変...

IBMがWatson Healthの売却を計画しているが、AI医療はまだ手つかずのままか?

2月19日、IBMがWatson Health部門の売却を検討しており、会社を合理化してハイブリッ...

Python 機械学習チュートリアル

この機械学習チュートリアルでは、機械学習の基本および中級の概念について説明します。初心者の学生と働く...

2020 年に爆発的に増加する 9 つの AI マーケティング トレンド

マーケティングに AI を使用すると、代理店の専門家の作業がさまざまな点で楽になります。消費者に合わ...