髪の毛のような精度で画像を切り取り、Adobeは6000×6000の高解像度画像を処理します

髪の毛のような精度で画像を切り取り、Adobeは6000×6000の高解像度画像を処理します

多くのディープラーニング手法は優れたマッティング結果を実現しますが、高解像度の画像を適切に処理することはできません。現実世界では、切り抜き技術の使用を必要とする画像は、通常、解像度が 5000 × 5000 以上の高解像度画像です。ハードウェアの制限を克服し、高解像度の画像に切り抜き方法を適用するにはどうすればよいでしょうか? UIUC、Adobe Research、オレゴン大学の研究者が新しいアプローチを考案しました。

画像の切り取りは、画像やビデオの編集や合成において重要な技術です。通常、ディープラーニング手法では、入力画像全体と関連するトライマップを入力として受け取り、畳み込みニューラル ネットワークを使用して前景マスク (アルファ マット) を推測します。この方法は、画像マッティングの分野で SOTA 結果を実現します。ただし、ハードウェアの制限により、実際の切り抜きアプリケーションではこれらの方法が失敗する可能性があります。これは、現実世界で切り抜く必要がある入力画像のほとんどが非常に高解像度であるためです。

最近、イリノイ大学アーバナ・シャンペーン校 (UIUC)、Adobe Research、オレゴン大学の研究者らが、高解像度の入力画像を処理する初のディープラーニング マッティング手法である HDMatt という新しい手法を提案しました。

早くも2017年にAdobeなどの機関が「Deep Image Matting」という論文を発表しました。これは大規模なデータセットとディープニューラルネットワークを使用して画像の自然な構造を学習し、画像の前景と背景をさらに分離するものです。その論文の第一著者である Ning Xu 氏は、この論文の第二著者です。しかし、今回、研究者たちは高解像度の画像に焦点を当てました。

論文アドレス: https://arxiv.org/pdf/2009.06613.pdf

具体的には、HDMatt メソッドは、新しいモジュール設計を使用して、高解像度の入力画像に対してパッチベースの切り抜きとステッチの方法でマッティングを実行し、異なるパッチ間のコンテキスト依存性と一貫性の問題を解決します。元のパッチベースの推論方法では各パッチを個別に計算しますが、この研究では、クロスパッチのコンテキスト依存性をモデル化するために指定されたトライマップによってガイドされる新しいモジュール、CrossPatch Contextual module (CPC) を提案します。

広範囲にわたる実験により、この方法の有効性と高解像度の入力画像に対する必要性が実証されています。 HDMatt メソッドは、Adobe Image Matting と AlphaMatting の両方のベンチマークで新しい SOTA パフォーマンスを実現し、よりリアルな高解像度画像で優れた結果を実現します。

次の図は、高解像度画像を処理する際の HDMatt メソッドと以前のベスト メソッド ContextNet の比較を示しています。

ContextNet は、それぞれダウンサンプリング (DS) とクロッピング (C) 戦略を適用します。図からわかるように、DS により細部がぼやけ、切り抜きによりパッチ間で不一致が生じます。

本研究で提案された HDMatt 法は、これら 2 つの欠陥を解決し、カットアウト効果が真値に最も近くなる (上図 c) ことから、この方法が細かい詳細に適合できることがわかります。

この研究の主な貢献は次のとおりです。

これはディープラーニングをベースとした初の高解像度画像マット化手法であり、ハードウェアリソースの制約下で現実世界での高品質な HR マット化を実現します。

パッチ間の長距離コンテキスト依存性を捕捉するために、新しいモジュール CPC が提案されています。 CPC 内では、新たに提案された Trimap ガイド付き非局所 (TGNL) 操作は、参照パッチのさまざまな領域からの情報を効率的に伝播することを目的としています。

定量的および定性的な実験の点では、HDMatt メソッドは、Adobe Image Matting (AIM)、AlphaMatting ベンチマーク、および実際の高解像度画像データセットで新しい SOTA パフォーマンスを実現します。

HDMattメソッド

高解像度画像のマッティング問題を解決するために、本研究では、まず入力画像とトライマップをパッチに切り取り、次に各パッチのアルファ値を推定する HDMatt 法を提案しました。 1 つのパッチの情報のみを使用すると、情報の損失や、異なるパッチ間の予測の不一致が発生します。そこで本研究では、各クエリパッチのクロスパッチ情報を効率的に活用するための新しいクロスパッチコンテキストモジュール(CPC)モジュールを提案する。最後に、各パッチの推定アルファ値が連結され、画像全体の最終的な前景マスクが出力されます。

下の図 2 は HDMatt メソッドの全体的なフレームワークを示しています。

下の図 3 は CPC モジュールのワークフローを示しています。

実験

Adobe 画像マッティングベンチマークデータセット

以下の表 1 は、Adobe Image Matting テスト セットにおける HDMatt メソッドとその他の SOTA メソッドのパフォーマンス比較結果を示しています。 HDMatt メソッドは、すべての評価メトリックにおいて他のメソッドよりも優れています。

研究者らは、以下の図 4 に示すように、これらの方法 (IndexNet と ContextNet を含む) の実際の効果も比較しました。

HDMatt メソッドは、大きな未知の領域 (つまり、前景または背景の情報が少ない領域) の処理に適していることがわかります。

AlphaMatting ベンチマーク データセット

表 2 は、AlphaMatting ベンチマーク データセットで SAD 指標に関して最高のパフォーマンスを示した 4 つの方法を示しています。HDMatting 方法は、より大きなトライマップまたはユーザー トライマップを持つ画像で優れたパフォーマンスを発揮します。これは、トライマップ内に多数の未知の領域がある場合でも、HDMatt メソッドが長距離のコンテキスト依存性を効果的にキャプチャできることをさらに裏付けています。

下の図は、AlphaMattingテストセットにおけるさまざまな方法のマッティング結果を示しています。左から右に、入力画像、Trimap、AdaMatting [1]、SampleNet [35]、GCA Matting [24]、HDMattです。図からわかるように、一番右の列の HDMatt 方式が最も細かい切り抜き効果が得られます。

実画像

これらのデータセットに加えて、研究者らはインターネット上で最大 6000 × 6000 の解像度を持つ高解像度画像も収集し、これらの実際の画像でテストしました。

下の図 5 は、画像全体を入力として使用した場合の IndexNet、ContextNet、および HDMatt メソッドのパフォーマンスを示しています。結果から、HDMatt メソッドはより細かく正確な詳細を抽出できると同時に、推論速度も速いことがわかります。ただし、このアプローチでは、依然として細かい詳細の一部が失われます。

コンテキストパッチに基づく注目度の可視化

下の図 7 は、特定のクエリ パッチ上の選択されたコンテキスト パッチに基づく注目マップを示しています。

制御変数研究

次の表は、制御変数調査の結果を示しています。

<<:  写真の中のキャラクターを動かしたり歌わせたりできます!このAIブラックテクノロジーは台無しになった

>>:  人工知能の発達により、親は子供たちに新しいエリートの考え方を教えざるを得なくなった

ブログ    
ブログ    

推薦する

...

アルゴリズムの力: プログラマーはデスクトップ コンピューターを使用して、スーパーコンピューターの世界記録を破ります

有名なフランス人プログラマー、ファブリス・ベラール氏は最近、普通のデスクトップコンピュータ(2,00...

人工知能は大腸がんを診断できる:精度は86%にも達する

AIは心臓病の予測やアルツハイマー病の検出など、医療分野で幅広い応用が期待されています。新たな研究に...

Google の最も強力な NLP モデル BERT はなぜこれほどクールで強力なのでしょうか?テンセントのプログラマーが最初から教えてくれる

1. 背景検索シナリオでは、ユーザーの検索クエリと思い出された記事のタイトルとの関連性は、ユーザーの...

戦争の太鼓はすでに鳴り響いています。人工知能に関して、あなたはどちらの陣営に属しますか?

[[240281]]人工知能が将来の技術の方向性であることは誰もが知っていますが、AIの学習に対す...

GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 はおそらく現在利用可能な最も強力な一般言語モデルです。リリースされると、さまざまなタスク...

CES 2024 優れた AI 製品

毎年開催されるコンシューマー・エレクトロニクス・ショー(CES)はテクノロジーの展示会として知られて...

農業における生成AI

農業業界は、生成型人工知能 (AI) がもたらす貴重な洞察と生産性の向上により、大きな変革の可能性を...

...

英国で新たな自動運転規制が導入され、ドライバーはもはや「集中」する必要がなくなった

自動運転は近年市場で最も活発なトピックの1つです。資金が継続的に流入し、大手企業が存在感を示そうと競...

AIは金融犯罪者と戦う技術である

犯罪の手法がより巧妙になるにつれ、マネーロンダリングとの戦いは世界中のすべての金融機関にとって大きな...

ビッグデータと人工知能を活用して英語教育の問題を解決する

1. 英語教育と学習の現状現在、我が国の英語教育は大きな進歩を遂げていますが、依然として我が国の発展...

医療の発展は自動化に向かっており、手術ロボットは急速に発展している。

社会の継続的な発展に伴い、わが国の医療・ヘルスケア産業は徐々に変化を迎え、医療機器のインテリジェント...

...

チップ大手がCESで新年の幕開けを飾る戦いを繰り広げる! AMD、インテル、NVIDIA、クアルコムの衝撃的な対決

毎年恒例のテクノロジー業界のオープニングショー「CES」が現在、米国ラスベガスで開催されています。 ...