髪の毛のような精度で画像を切り取り、Adobeは6000×6000の高解像度画像を処理します

多くのディープラーニング手法は優れたマッティング結果を実現しますが、高解像度の画像を適切に処理することはできません。現実世界では、切り抜き技術の使用を必要とする画像は、通常、解像度が 5000 × 5000 以上の高解像度画像です。ハードウェアの制限を克服し、高解像度の画像に切り抜き方法を適用するにはどうすればよいでしょうか? UIUC、Adobe Research、オレゴン大学の研究者が新しいアプローチを考案しました。

画像の切り取りは、画像やビデオの編集や合成において重要な技術です。通常、ディープラーニング手法では、入力画像全体と関連するトライマップを入力として受け取り、畳み込みニューラルネットワークを使用して前景マスク (アルファマット) を推測します。この方法は、画像マッティングの分野で SOTA 結果を実現します。ただし、ハードウェアの制限により、実際の切り抜きアプリケーションではこれらの方法が失敗する可能性があります。これは、現実世界で切り抜く必要がある入力画像のほとんどが非常に高解像度であるためです。

最近、イリノイ大学アーバナ・シャンペーン校 (UIUC)、Adobe Research、オレゴン大学の研究者らが、高解像度の入力画像を処理する初のディープラーニングマッティング手法である HDMatt という新しい手法を提案しました。

早くも2017年にAdobeなどの機関が「Deep Image Matting」という論文を発表しました。これは大規模なデータセットとディープニューラルネットワークを使用して画像の自然な構造を学習し、画像の前景と背景をさらに分離するものです。その論文の第一著者である Ning Xu 氏は、この論文の第二著者です。しかし、今回、研究者たちは高解像度の画像に焦点を当てました。

論文アドレス: https://arxiv.org/pdf/2009.06613.pdf

具体的には、HDMatt メソッドは、新しいモジュール設計を使用して、高解像度の入力画像に対してパッチベースの切り抜きとステッチの方法でマッティングを実行し、異なるパッチ間のコンテキスト依存性と一貫性の問題を解決します。元のパッチベースの推論方法では各パッチを個別に計算しますが、この研究では、クロスパッチのコンテキスト依存性をモデル化するために指定されたトライマップによってガイドされる新しいモジュール、CrossPatch Contextual module (CPC) を提案します。

広範囲にわたる実験により、この方法の有効性と高解像度の入力画像に対する必要性が実証されています。 HDMatt メソッドは、Adobe Image Matting と AlphaMatting の両方のベンチマークで新しい SOTA パフォーマンスを実現し、よりリアルな高解像度画像で優れた結果を実現します。

次の図は、高解像度画像を処理する際の HDMatt メソッドと以前のベストメソッド ContextNet の比較を示しています。

ContextNet は、それぞれダウンサンプリング (DS) とクロッピング (C) 戦略を適用します。図からわかるように、DS により細部がぼやけ、切り抜きによりパッチ間で不一致が生じます。

本研究で提案された HDMatt 法は、これら 2 つの欠陥を解決し、カットアウト効果が真値に最も近くなる (上図 c) ことから、この方法が細かい詳細に適合できることがわかります。

この研究の主な貢献は次のとおりです。

これはディープラーニングをベースとした初の高解像度画像マット化手法であり、ハードウェアリソースの制約下で現実世界での高品質な HR マット化を実現します。

パッチ間の長距離コンテキスト依存性を捕捉するために、新しいモジュール CPC が提案されています。 CPC 内では、新たに提案された Trimap ガイド付き非局所 (TGNL) 操作は、参照パッチのさまざまな領域からの情報を効率的に伝播することを目的としています。

定量的および定性的な実験の点では、HDMatt メソッドは、Adobe Image Matting (AIM)、AlphaMatting ベンチマーク、および実際の高解像度画像データセットで新しい SOTA パフォーマンスを実現します。

HDMattメソッド

高解像度画像のマッティング問題を解決するために、本研究では、まず入力画像とトライマップをパッチに切り取り、次に各パッチのアルファ値を推定する HDMatt 法を提案しました。 1 つのパッチの情報のみを使用すると、情報の損失や、異なるパッチ間の予測の不一致が発生します。そこで本研究では、各クエリパッチのクロスパッチ情報を効率的に活用するための新しいクロスパッチコンテキストモジュール（CPC）モジュールを提案する。最後に、各パッチの推定アルファ値が連結され、画像全体の最終的な前景マスクが出力されます。

下の図 2 は HDMatt メソッドの全体的なフレームワークを示しています。

下の図 3 は CPC モジュールのワークフローを示しています。

実験

Adobe 画像マッティングベンチマークデータセット

以下の表 1 は、Adobe Image Matting テストセットにおける HDMatt メソッドとその他の SOTA メソッドのパフォーマンス比較結果を示しています。 HDMatt メソッドは、すべての評価メトリックにおいて他のメソッドよりも優れています。

研究者らは、以下の図 4 に示すように、これらの方法 (IndexNet と ContextNet を含む) の実際の効果も比較しました。

HDMatt メソッドは、大きな未知の領域 (つまり、前景または背景の情報が少ない領域) の処理に適していることがわかります。

AlphaMatting ベンチマークデータセット

表 2 は、AlphaMatting ベンチマークデータセットで SAD 指標に関して最高のパフォーマンスを示した 4 つの方法を示しています。HDMatting 方法は、より大きなトライマップまたはユーザートライマップを持つ画像で優れたパフォーマンスを発揮します。これは、トライマップ内に多数の未知の領域がある場合でも、HDMatt メソッドが長距離のコンテキスト依存性を効果的にキャプチャできることをさらに裏付けています。

下の図は、AlphaMattingテストセットにおけるさまざまな方法のマッティング結果を示しています。左から右に、入力画像、Trimap、AdaMatting [1]、SampleNet [35]、GCA Matting [24]、HDMattです。図からわかるように、一番右の列の HDMatt 方式が最も細かい切り抜き効果が得られます。

実画像

これらのデータセットに加えて、研究者らはインターネット上で最大 6000 × 6000 の解像度を持つ高解像度画像も収集し、これらの実際の画像でテストしました。

下の図 5 は、画像全体を入力として使用した場合の IndexNet、ContextNet、および HDMatt メソッドのパフォーマンスを示しています。結果から、HDMatt メソッドはより細かく正確な詳細を抽出できると同時に、推論速度も速いことがわかります。ただし、このアプローチでは、依然として細かい詳細の一部が失われます。

コンテキストパッチに基づく注目度の可視化

下の図 7 は、特定のクエリパッチ上の選択されたコンテキストパッチに基づく注目マップを示しています。

制御変数研究

次の表は、制御変数調査の結果を示しています。

<<: 写真の中のキャラクターを動かしたり歌わせたりできます！このAIブラックテクノロジーは台無しになった

>>: 人工知能の発達により、親は子供たちに新しいエリートの考え方を教えざるを得なくなった