深層畳み込みニューラル ネットワークは、顕著なオブジェクトの検出に広く使用されており、最先端のパフォーマンスを実現しています。カナダのアルバータ大学の研究者らは、CVPR 2019の論文で、境界を考慮した顕著な物体検出ネットワークBASNetを提案し、一連の人気ツールを生み出しました。今年、チームはポートレート生成のためのディープネットワークアーキテクチャ U^2-Net を提案しました。これは、計算オーバーヘッドが少なくなるだけでなく、詳細が豊富なポートレートを生成します。この論文はICPR 2020会議に採択されました。 顔画像から芸術的な肖像画を生成する AI アプリケーションは数多くありますが、驚くべき結果を生み出すものは多くありません。上の図の入出力結果は、オープンソース化されて以来 1.7K 個のスターを獲得している人気の GitHub プロジェクト U^2-Net (U square net) からのものです。 この研究はアルバータ大学のチームによるもので、論文は国際パターン認識会議(ICPR)2020に採択されました。
最近、研究者たちはこれを顔写真の生成に応用し、APDrawingGAN データセットに基づいてこのタスク用の新しいモデルをトレーニングしました。子供の肖像画でも、成人男性や成人女性の肖像画でも、非常に詳細な生成結果を得ることができます。 近年、顕著な物体検出は、視覚追跡や画像セグメンテーションなどの分野で広く使用されています。深層畳み込みニューラル ネットワーク (CNN) の開発、特に画像セグメンテーションの分野における完全畳み込みネットワーク (FCN) の登場により、顕著な物体検出の技術が大幅に向上しました。 ほとんどの SOD ネットワークの設計には共通のパターンがあり、Alexnet、VGG、ResNet、ResNeXt、DenseNet などの既存の基本ネットワークによって抽出されたディープ フィーチャを最大限に活用することに重点を置いています。しかし、これらのバックボーン ネットワークは、もともと画像分類タスク用に設計されました。これらは、顕著なオブジェクトの検出に不可欠な、ローカルの詳細やグローバルなコントラスト情報ではなく、意味を表す特徴を抽出します。さらに、これらのネットワークは通常、ImageNet データで事前トレーニングする必要があり、これは比較的非効率的です。 この問題を解決するために、アルバータ大学の研究者は U^2-Net を提案しました。研究チームは論文の中で、U^2-Net は 2 層のネストされた U 字型構造を持つシンプルで強力なディープ ネットワーク アーキテクチャであると紹介しました。この研究で提案された ReSidual U-block (RSU) は、異なるサイズの受容野を混合することで、さまざまなスケールからより多くのコンテキスト情報を取得できます。さらに、RSU ではプーリング操作が使用されるため、計算コストを大幅に増加させることなく、アーキテクチャ全体の深さを増やすことができます。 方法 方法セクションでは、研究者らは、提案された残差 U ブロックと、U ブロックを使用して構築されたネストされた U 字型アーキテクチャについて詳しく説明しているだけでなく、ネットワークの監視戦略とトレーニング損失についても説明しました。 残留Uブロック U-Net ネットワークにヒントを得て、研究者らはステージ内のマルチスケールの特徴を捉える新しい残差 U ブロック (RSU) を提案しました。 RSU-Lの構造(C_in、M、C_out)を図2(e)に示します。ここで、Lはエンコーダーのレイヤー数、C_inとC_outはそれぞれ入力チャネルと出力チャネル、MはRSUの内部レイヤーのチャネル数を表します。 本研究で提案されたRSUの構造と他の既存の畳み込みブロックとの比較 具体的には、RSU には、入力畳み込み層、高さ L の U-Net のような対称エンコーダー/デコーダー構造、およびローカル機能とマルチスケール機能を合計して融合する残差接続という 3 つの主要コンポーネントがあります。 設計コンセプトをより深く理解するために、研究者は RSU と以下の図 3 の元の残差ブロックを比較しました。結果から、RSU と元の残差ブロックの最大の違いは、RSU が通常のシングル ストリーム畳み込みを U-Net のような構造に置き換え、元の機能を重みレイヤーによって変換されたローカル機能に置き換えることであることがわかります。 さらに注目すべきは、U 字型構造のおかげで、ほとんどの操作がダウンサンプリングされた特徴マップに対して適用されるため、RSU の計算オーバーヘッドが比較的小さくなることです。下の図 4 は、RSU とその他の特徴抽出モジュールの計算コスト曲線を示しています。 U^2-ネットアーキテクチャ 研究者らは、顕著な物体の検出のために、新しい積み重ねられたU字型構造U^n-Netを提案した。理論的には、n を任意の正の整数に設定して、単一レベルまたは複数レベルのネストされた U 字型構造を構築できます。研究者らは、次の図に示すように、n を 2 に設定して、2 レベルのネストされた U 字型構造 U^2-Net を構築しました。 具体的には、U^2-Netは主に3つの部分で構成されています:(1)6段階エンコーダ、(2)5段階デコーダ、(3)デコーダステージと最終エンコーダステージに接続されたサリエンシーマップ融合モジュール。 一般に、U^2-Net の設計では、豊富なマルチスケール機能と低い計算コストおよびメモリコストを備えたディープ アーキテクチャが構築されます。さらに、U^2-Net アーキテクチャは RSU ブロック上にのみ構築されており、画像分類に事前トレーニング済みのバックボーン ネットワークを使用しないため、U^2-Net はパフォーマンスをあまり損なうことなく、さまざまな作業環境に柔軟かつ便利に適応できます。 監督 トレーニングプロセス中、研究者らは、全体的ネストエッジ検出 (HED) に類似したディープスーパービジョンアルゴリズムを使用しました。トレーニング プロセスは次のように定義されます。 トレーニングプロセスでは、上記の式(1)の全体的な損失を最小限に抑えることを目指します。テストプロセス中に、研究者は最終的なサリエンシーマップとして融合出力 l_fuse を使用することを選択しました。 実験 研究者らは、現在最大かつ最も一般的に使用されている顕著な物体検出データセットである DUTS-TR (10,553 枚の画像を含むデータセット) で U^2-Net ネットワークをトレーニングしました。研究者らはデータを水平方向に反転し、合計21,106枚のトレーニング画像を取得しました。評価段階では、研究者は、一般的に使用されている 6 つのベンチマーク データセット (DUTOMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S、SOD) を使用して、その方法を評価しました。 制御変数研究 この実験では、U^2-Net の効果を基本ブロック、アーキテクチャ、バックボーン ネットワークの 3 つの側面から検証します。 表 2: 異なるモジュールの制御変数の実験結果。 「PLN」、「RES」、「DSE」、「INC」、「PPM」、「RSU」は、それぞれ通常の畳み込みブロック、残差ブロック、密ブロック、初期化ブロック、ピラミッドプーリングモデル、残差Uブロックを表します。太字で表示されているものは、パフォーマンスが最も優れた 2 つを表しています。 さまざまな方法のパフォーマンス比較 以下の表3は、DUT-OMRON、DUTS-TE、HKU-ISの3つのデータセットにおける提案手法と他の20のSOTA手法との比較を示しています。赤、緑、青はそれぞれ、パフォーマンスが最高、2 番目、3 番目であることを表します。 以下の表4は、ECSSD、PASCAL-S、SODデータセットにおける各手法の比較結果を示しています。 下の図 7 は、私たちの方法と他の 7 つの SOTA 方法との定性的な比較の結果を示しています。 (a)は元の画像、(c)は提案手法によって生成された結果です。 研究チーム この研究の第一著者は、現在カナダのアルバータ大学でコンピューターサイエンスの博士課程に在籍している Xuebin Qin 氏です。共著者には、Zichen Zhang、Chenyang Huang、Masood Dehghan、Osmar R. Zaiane、Martin Jagersand 氏が含まれます。
左から:秦雪斌、張子塵、黄晨陽。 以前、Machine Heart は Qin Xuebin 氏と他の研究者による顕著な物体検出に関する別の論文「BASNet: 境界を考慮した顕著な物体検出」も紹介しており、これは CVPR 2019 に採択されました。この研究が発表された後、業界では「テレキネシス」ツールの AR Cut & Paste やオンライン切り抜きプログラム「ObjectCut」など、BASNet ベースの画像処理ツールが数多く誕生しました。 |
<<: AIと機械学習、5G、IoTは2021年に重要な技術となる
今日の急速に変化するデジタル時代において、企業は効率を高め、運用コストを削減し、全体的な生産性を向上...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
7月6日、ChatGPTの人気が衰えの兆しを見せていると報じられた。分析会社Similarwebの...
翻訳者 | 李睿レビュー | Chonglou生成 AI は、ユニークなテキスト、サウンド、画像を作...
人工知能(AI)は日々驚異的な速度で成長しており、それに伴い、さまざまな業界を取り巻く統計も変化して...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
2019 年 10 月末時点で、HanLP と呼ばれる自然言語処理ライブラリが GitHub で ...
[[344159]]効果的なディープラーニング モデルを作成するには、モデルを効果的にトレーニング...
世界を席巻するデジタル変革は、あらゆる分野に大きな発展のチャンスをもたらしました。技術革新を推進する...
どのプログラミング言語が最適ですか?この質問には答えがないかもしれません。人によって好みは異なります...
傑作を作ろうとしている画家が、限られたパレットに制限されているところを想像してみてください。彼らは美...
8月26日、北京の中関村国家自主革新モデル区展示センターで、玲東科技マックスの新製品発表会およびチャ...
先週、コピーライターのパネルがAIによってコピーライターの必要性がなくなるかどうかを議論した。一部の...