髪の毛のような精度で画像を切り取り、Adobeは6000×6000の高解像度画像を処理します

髪の毛のような精度で画像を切り取り、Adobeは6000×6000の高解像度画像を処理します

多くのディープラーニング手法は優れたマッティング結果を実現しますが、高解像度の画像を適切に処理することはできません。現実世界では、切り抜き技術の使用を必要とする画像は、通常、解像度が 5000 × 5000 以上の高解像度画像です。ハードウェアの制限を克服し、高解像度の画像に切り抜き方法を適用するにはどうすればよいでしょうか? UIUC、Adobe Research、オレゴン大学の研究者が新しいアプローチを考案しました。

画像の切り取りは、画像やビデオの編集や合成において重要な技術です。通常、ディープラーニング手法では、入力画像全体と関連するトライマップを入力として受け取り、畳み込みニューラル ネットワークを使用して前景マスク (アルファ マット) を推測します。この方法は、画像マッティングの分野で SOTA 結果を実現します。ただし、ハードウェアの制限により、実際の切り抜きアプリケーションではこれらの方法が失敗する可能性があります。これは、現実世界で切り抜く必要がある入力画像のほとんどが非常に高解像度であるためです。

最近、イリノイ大学アーバナ・シャンペーン校 (UIUC)、Adobe Research、オレゴン大学の研究者らが、高解像度の入力画像を処理する初のディープラーニング マッティング手法である HDMatt という新しい手法を提案しました。

早くも2017年にAdobeなどの機関が「Deep Image Matting」という論文を発表しました。これは大規模なデータセットとディープニューラルネットワークを使用して画像の自然な構造を学習し、画像の前景と背景をさらに分離するものです。その論文の第一著者である Ning Xu 氏は、この論文の第二著者です。しかし、今回、研究者たちは高解像度の画像に焦点を当てました。

論文アドレス: https://arxiv.org/pdf/2009.06613.pdf

具体的には、HDMatt メソッドは、新しいモジュール設計を使用して、高解像度の入力画像に対してパッチベースの切り抜きとステッチの方法でマッティングを実行し、異なるパッチ間のコンテキスト依存性と一貫性の問題を解決します。元のパッチベースの推論方法では各パッチを個別に計算しますが、この研究では、クロスパッチのコンテキスト依存性をモデル化するために指定されたトライマップによってガイドされる新しいモジュール、CrossPatch Contextual module (CPC) を提案します。

広範囲にわたる実験により、この方法の有効性と高解像度の入力画像に対する必要性が実証されています。 HDMatt メソッドは、Adobe Image Matting と AlphaMatting の両方のベンチマークで新しい SOTA パフォーマンスを実現し、よりリアルな高解像度画像で優れた結果を実現します。

次の図は、高解像度画像を処理する際の HDMatt メソッドと以前のベスト メソッド ContextNet の比較を示しています。

ContextNet は、それぞれダウンサンプリング (DS) とクロッピング (C) 戦略を適用します。図からわかるように、DS により細部がぼやけ、切り抜きによりパッチ間で不一致が生じます。

本研究で提案された HDMatt 法は、これら 2 つの欠陥を解決し、カットアウト効果が真値に最も近くなる (上図 c) ことから、この方法が細かい詳細に適合できることがわかります。

この研究の主な貢献は次のとおりです。

これはディープラーニングをベースとした初の高解像度画像マット化手法であり、ハードウェアリソースの制約下で現実世界での高品質な HR マット化を実現します。

パッチ間の長距離コンテキスト依存性を捕捉するために、新しいモジュール CPC が提案されています。 CPC 内では、新たに提案された Trimap ガイド付き非局所 (TGNL) 操作は、参照パッチのさまざまな領域からの情報を効率的に伝播することを目的としています。

定量的および定性的な実験の点では、HDMatt メソッドは、Adobe Image Matting (AIM)、AlphaMatting ベンチマーク、および実際の高解像度画像データセットで新しい SOTA パフォーマンスを実現します。

HDMattメソッド

高解像度画像のマッティング問題を解決するために、本研究では、まず入力画像とトライマップをパッチに切り取り、次に各パッチのアルファ値を推定する HDMatt 法を提案しました。 1 つのパッチの情報のみを使用すると、情報の損失や、異なるパッチ間の予測の不一致が発生します。そこで本研究では、各クエリパッチのクロスパッチ情報を効率的に活用するための新しいクロスパッチコンテキストモジュール(CPC)モジュールを提案する。最後に、各パッチの推定アルファ値が連結され、画像全体の最終的な前景マスクが出力されます。

下の図 2 は HDMatt メソッドの全体的なフレームワークを示しています。

下の図 3 は CPC モジュールのワークフローを示しています。

実験

Adobe 画像マッティングベンチマークデータセット

以下の表 1 は、Adobe Image Matting テスト セットにおける HDMatt メソッドとその他の SOTA メソッドのパフォーマンス比較結果を示しています。 HDMatt メソッドは、すべての評価メトリックにおいて他のメソッドよりも優れています。

研究者らは、以下の図 4 に示すように、これらの方法 (IndexNet と ContextNet を含む) の実際の効果も比較しました。

HDMatt メソッドは、大きな未知の領域 (つまり、前景または背景の情報が少ない領域) の処理に適していることがわかります。

AlphaMatting ベンチマーク データセット

表 2 は、AlphaMatting ベンチマーク データセットで SAD 指標に関して最高のパフォーマンスを示した 4 つの方法を示しています。HDMatting 方法は、より大きなトライマップまたはユーザー トライマップを持つ画像で優れたパフォーマンスを発揮します。これは、トライマップ内に多数の未知の領域がある場合でも、HDMatt メソッドが長距離のコンテキスト依存性を効果的にキャプチャできることをさらに裏付けています。

下の図は、AlphaMattingテストセットにおけるさまざまな方法のマッティング結果を示しています。左から右に、入力画像、Trimap、AdaMatting [1]、SampleNet [35]、GCA Matting [24]、HDMattです。図からわかるように、一番右の列の HDMatt 方式が最も細かい切り抜き効果が得られます。

実画像

これらのデータセットに加えて、研究者らはインターネット上で最大 6000 × 6000 の解像度を持つ高解像度画像も収集し、これらの実際の画像でテストしました。

下の図 5 は、画像全体を入力として使用した場合の IndexNet、ContextNet、および HDMatt メソッドのパフォーマンスを示しています。結果から、HDMatt メソッドはより細かく正確な詳細を抽出できると同時に、推論速度も速いことがわかります。ただし、このアプローチでは、依然として細かい詳細の一部が失われます。

コンテキストパッチに基づく注目度の可視化

下の図 7 は、特定のクエリ パッチ上の選択されたコンテキスト パッチに基づく注目マップを示しています。

制御変数研究

次の表は、制御変数調査の結果を示しています。

<<:  写真の中のキャラクターを動かしたり歌わせたりできます!このAIブラックテクノロジーは台無しになった

>>:  人工知能の発達により、親は子供たちに新しいエリートの考え方を教えざるを得なくなった

ブログ    
ブログ    

推薦する

...

ロボティックプロセスオートメーションの開発展望

ロボティック プロセス オートメーション (RPA) は、今日のデジタル サポート エクスペリエンス...

于聖奇:顔認識技術のリスクと法的規制

デジタル時代の到来により、顔認識技術の開発は大きく進歩しました。顔認識技術は普及し、多くの分野で広く...

知識共有: 管理距離と最大ホップ数の違いに関するルーティングアルゴリズムの分析

管理距離は、ルーティング プロトコルの優先度を表す人工的に指定された数値です。数値が小さいほど、ルー...

...

シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか? Redditの男の魂を問う質問が白熱した議論を巻き起こす

シリコンバレーの大企業からのオファーは多くのプログラマーにとって依然として非常に魅力的であり、今年は...

今後30年間で、これらのスキルを子供たちに教えなければ、「人工知能」によって仕事を失うことになるだろう

[[225789]] 1970年代、80年代生まれの人たちは、どんな背景を持っていても、名門大学に進...

SMOTE アルゴリズムを使用せずに、マルチクラスの不均衡なデータをどのように処理できますか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

米軍のAIブラックテクノロジー:暗闇でも正確に顔を認識できる。これに不安を感じる人はいるだろうか?

[[227002]]今日お話しするのは、「そんな手術があるの?」と第一印象でとても驚く内容ですが、...

...

...

AI給与動向:給与が急上昇中!

AI プログラマーの平均給与は約 10 万ドルから 15 万ドルですが、大金を稼ぐには AI エン...

人工知能は依然として人気があり、大学入試では3年連続で最も人気のある選択肢となっている。

百度がこのほど発表した「百度人気検索・2022年大学入試ビッグデータ」レポートによると、人工知能は3...

ヘルスケアにおける人工知能の新たなフロンティア

[[262099]]医療機関が AI の導入を競う中、プロセス中心のアプローチを AI 戦略に組み込...

岐路に立つ交通:自動運転の未来はどうなるのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...