オンライン学習によって引き起こされる壊滅的な忘却問題を解決するために、北京大学などの研究機関は、勾配調整モジュール (GRM) を使用して、トレーニング重みが特徴再構成とピクセルの空間位置事前分布に与える影響に基づいてバックプロパゲーション中に各重みの勾配を調整することでモデルのメモリを強化するスーパーピクセルセグメンテーションモデル LNSNet を提案しました。 この研究はCVPR 2021に採択されました。主にZhu Lei氏とShe Qi氏が議論・開発し、北京大学分子イメージング研究所のLu Yanye教授が指導しました。 論文リンク: プロジェクトのオープンソースコード: 研究室リンク: http://www.milab.wiki 1. はじめに画像セグメンテーションはコンピューター ビジョンの基本的なタスクの 1 つであり、自動運転、セキュリティ、インテリジェントな診断や治療などのタスクで重要な用途があります。画像セグメンテーションの分野であるスーパーピクセルセグメンテーションは、画像の色情報と空間関係情報に依存して、画像をターゲットの数をはるかに超えるスーパーピクセルブロックに効率的に分割し、画像内のすべてのターゲットのエッジ情報を可能な限り保持して、後続の視覚タスク(ターゲット検出、ターゲット追跡、セマンティックセグメンテーションなど)をより適切に支援することを目的としています。 従来の機械学習に基づくスーパーピクセルセグメンテーション法は、スーパーピクセルセグメンテーションをピクセルクラスタリング問題とみなし、探索空間を制限することでスーパーピクセル生成の効率を向上させます(SLIC、SNIC、MSLIC、IMSLICなどの方法など)。ただし、これらの方法のほとんどは、ピクセルをクラスタリングするために RGB または LAB カラー スペース情報に依存していますが、高レベルの情報が考慮されていません。 一部のスーパーピクセル分割方法 (LRW、DRW、ERS、LSC) では、グラフ モデルを構築して 4 近傍ノードまたは 8 近傍ノードの類似関係に基づいて元の 5 次元の色と空間情報を N 次元に拡張し、より優れた特徴表現を取得します。次に、ランダムウォークまたはスペクトルクラスタリングを使用してスーパーピクセルセグメンテーションを実行しますが、これらの方法は操作効率が低いです。 スーパーピクセルのセグメンテーションに使用される畳み込みニューラル ネットワークのほとんど (SEAL、SSN、S-FCN) は、従来のスーパーピクセル手法の教師なし一般化セグメンテーション モードを放棄し、代わりに多数の領域レベルのセグメンテーション注釈を使用して畳み込みニューラル ネットワークのオフライン トレーニングを実行し、スーパーピクセルの生成をガイドします。この注釈ベースのトレーニング モードでは、生成されたスーパーピクセルには通常、より高レベルの意味情報が含まれるため、スーパーピクセル分割方法の一般化と柔軟性が制限されます。 さらに、このスーパーピクセルセグメンテーションモードは、ターゲット追跡や弱教師付き画像セグメンテーションなど、セグメンテーション注釈がない視覚タスクには適切に適用できません。最近の研究 (RIM) では、ディープ クラスタリングのモデルを借用して、ニューラル ネットワークを教師なしで使用し、一般化されたスーパーピクセル セグメンテーションを行っています。ただし、この方法では、各入力画像に基づいてピクセル クラスタリングを行うための特定の畳み込みニューラル ネットワークをトレーニングする必要があり、スーパーピクセル セグメンテーションの計算時間が大幅に増加します。 したがって、本研究では、従来のスーパーピクセルセグメンテーション方法の高効率、柔軟性、強力な移植性を考慮しながら、スーパーピクセルセグメンテーションがディープラーニングをより効果的に使用して効果的な特徴抽出を実行できるようにするために、継続学習の観点からスーパーピクセルセグメンテーション問題を検討し、教師なしオンライントレーニングモード(オンライントレーニング)をより適切にサポートできる新しいスーパーピクセルセグメンテーションモデルを提案します。一般化されたセグメンテーション問題としてのスーパーピクセルセグメンテーションでは、画像の詳細情報にもっと注意を払う必要があることを考慮して、このモデルは、他のスーパーピクセルセグメンテーションネットワークで使用されるより深く複雑な畳み込みニューラルネットワーク構造を放棄し、より軽量な特徴抽出モジュール(FEM)を選択します。また、スーパーピクセルセグメンテーション法におけるクラスターセンターの反復更新を回避するためにシードノードを自動的に選択する非反復クラスタリングモジュール(NCM)を提案し、スーパーピクセルセグメンテーションの空間的および時間的複雑さを大幅に軽減します(SSNと比較して、パラメーターの数は20倍近く削減され、操作時間は4倍近く加速されます) 。 オンライン学習によって引き起こされる壊滅的な忘却問題を解決するために、このモデルは勾配調整モジュール (GRM) を採用しています。特徴再構成における重みの効果とピクセルの空間位置の事前情報をトレーニングすることで、バックプロパゲーション中の各重みの勾配が調整され、モデルのメモリと一般化が強化されます。 2. トレーニングフレームワークの設計一般に、特定の画像 Ii 上の一般化されたスーパーピクセルセグメンテーションの本質は、画像領域におけるピクセルクラスタリングタスク Ti とみなすことができます。したがって、n 枚の画像を含む画像セット I= の場合、この画像セット上のスーパーピクセル分割タスクはタスク セット T= と見なすことができます。このような状況では、現在のディープラーニングベースのスーパーピクセルセグメンテーション手法を次の 2 つの戦略として捉えることができます。 ①ディープクラスタリングパターンに基づくRIMスーパーピクセルセグメンテーション法は、シングルタスク学習戦略とみなすことができます。図 2B に示すように、この戦略はタスク セット内の特定のタスク Ti ごとに最適なパラメータ空間を見つけます。したがって、タスク セット T 全体に対して、このタスクをトレーニングして n 個の異なるパラメータ空間を取得し、クラスタリング機能を抽出する必要があります。このアプローチでは、モデルのトレーニングとストレージのコストが大幅に増加し、計算効率が極端に低下します。 ②他のスーパーピクセルセグメンテーションネットワーク(SEAL、SSN、S-FCN)のトレーニングモードは、マルチタスク学習戦略とみなすことができます。図 2A に示すように、この戦略は、セグメンテーション注釈のガイダンスの下で、タスク セット T 全体のユニバーサル パラメーター空間を取得します。この戦略ではパラメータ空間を取得するだけで済みますが、オフラインでのモデルトレーニングが必要であり、トレーニングプロセス中は画像セット I 全体を維持する必要があります。さらに、これらの方法ではセグメンテーション ラベルが必要なため、一般化されたスーパーピクセル セグメンテーションにとってより重要な低レベルの色特徴と空間特徴の融合に重点を置くのではなく、高レベルの意味特徴の抽出に重点を置きすぎて、畳み込みニューラル ネットワークの移植性と柔軟性が制限されます。 この論文では、これら 2 つの方法とは異なり、継続的な学習戦略を使用して、スーパーピクセル分割法が畳み込みニューラル ネットワークを使用してより効果的な特徴抽出を実行できるだけでなく、従来のスーパーピクセル分割法の高い効率、柔軟性、強力な機動性を考慮に入れることができるようにしたいと考えています。 図2Cに示すように、本論文で採用した継続学習戦略では、特定の画像Iiを1つずつトレーニングすることで、タスクセットT全体に適用できる普遍的なパラメータ空間が得られることを保証します。これには、畳み込みニューラルネットワークが過去のタスクを記憶する能力、つまり継続学習における壊滅的な忘却の問題を解決する能力が必要です。このモデルの具体的なトレーニング プロセスを図 3 に示します。トレーニングの i 回目のラウンドでは、モデルに適合させるために単一のタスク Ti のみを考慮します。このうち、特徴抽出モジュール FCM はクラスタリングに必要なクラスタリング特徴を生成するために使用され、非反復クラスタリングモジュール NCM はさらにクラスタリング特徴を使用してクラスタリングを実行し、スーパーピクセルセグメンテーション結果を取得します。勾配調整モジュール GRM は、バックプロパゲーション中に FCM パラメータの勾配を調整して、モデルが履歴タスク Ti-1、Ti-2、…、T1 をより適切に記憶できるようにするために使用されます。 3. モデル構造と損失関数の設計本論文で提案するモデル構造を図 3 に示します。これは、一般化されたセグメンテーション問題としてのスーパーピクセル セグメンテーションが、画像の詳細情報と空間情報の融合に重点を置くことを考慮したものです。したがって、このモデルでは、特徴抽出モジュール FEM (図 3A) 内の他のスーパーピクセル セグメンテーション ネットワークで使用される、より深く複雑な畳み込みニューラル ネットワーク構造を放棄し、代わりに、より軽量な特徴抽出モジュールを使用して、特徴抽出プロセス中の画像詳細情報の損失を減らします。具体的には、まず入力画像の色情報 RGB/LAB と空間情報 XY を連結して、5 次元の入力テンソル X を取得します。次に、マルチスケール特徴抽出に異なる膨張率 (d=1、3、5) を持つ 3 つの膨張畳み込みと、マルチスケール特徴融合に 2 つの 3x3 畳み込みモジュールを使用して、クラスタリング用の出力特徴マップ Z を取得します。 次に、プロセスの計算効率をさらに高めるために、非反復クラスタリングモジュール NCM を提案しました (図 3C)。グリッドの中心を基準としたシードノードの水平および垂直座標オフセットを生成することで、シードノードが強力な空間コンパクト性を持つことを保証し、対応するスーパーイメージブロックのシードノードを予測し、それらの間の T 類似度と各ピクセルのクラスタリング機能に基づいてピクセルクラスタリングを実行します。このモジュールは、まずスーパーピクセルの数に応じて画像をグリッドに分割し、次に同じグリッドに属する位置に対して空間プーリング操作を実行して、グリッドの特徴 Zk としてスーパーピクセルの数に等しい空間サイズの低解像度の特徴マップを取得します。次に、出力チャネルが 2 の 1x1 畳み込みに Zk を入力して、グリッドの中心に対するシード ノードの水平オフセットと垂直オフセット △r と △c を取得し、これをグリッドの中心座標 Sc にある最終スーパーピクセル シード ノードに重ね合わせます。 次に、T 分布カーネル関数を使用して、シード ノードの特徴と残りのピクセルの特徴との類似度を計算し、これに基づいて最終的なピクセル クラスタリング結果 L (出力スーパーピクセル ブロック) を取得します。 最後に、勾配調整モジュール GRM (図 3B) は、まずピクセル クラスタリング機能を使用して、入力画像とそのピクセルの空間情報を再構築します。勾配適応層(GAL)は、再構成結果に基づいて、現在のタスクに対するFEMの各チャネルの適合度g(W^r)を計算します。具体的には、再構成重みW^rに基づいて、色情報と空間位置復元におけるZの各特徴チャネルの重要度を判断し、2つの積を使用してチャネルの適合度を表します。 その後、トレーニング プロセス中に、GAL はメモリ マトリックス m を維持して、前のタスクにおける各チャネルの適合度を記憶します。 次に、バックプロパゲーションプロセスでは、前のタスクの重要度に応じて、各チャネルに対応するFEM内の重み行列の調整率φ^aを構築し、各チャネルに対応する重みの勾配を調整するために使用されます。 この調整率により、過去のタスクにより適合する重みの勾配が小さくなり、バックプロパゲーション プロセス中に、以前のタスクでは適合度が高く、現在のタスクでは適合度が低い重みの混入が回避され、FEM が現在のタスクに過剰適合して、以前のタスクが壊滅的に忘却されることが防止されます。さらに、GRM は、勾配双方向レイヤー (GBL) を使用してエッジの事前情報を活用し、滑らかな位置にあるスーパーピクセル ブロックが空間情報に重点を置く一方で、テクスチャが豊富な位置にあるスーパーピクセル ブロックが色情報をより考慮できるようにすることで、冗長なスーパーピクセル ブロックを減らし、エッジのフィッティングを強化します。 モデルトレーニングの損失関数は 2 つの部分で構成され、最初の部分は再構築損失 Lr です。この部分では、MSE 損失を使用して、クラスタリング機能が初期画像と各ピクセルに対応する空間位置情報を再構築できるようにします。これにより、クラスタリング機能は空間情報と色情報をより適切に統合できます。 2 番目の部分はクラスタリング損失 Lc であり、DEC クラスタリング損失に基づいて空間距離制約を追加します。この制約により、各スーパーピクセル ブロック内のピクセルの類似性が高くなり、各ピクセルが最も近い空間距離を持つシード ノードのスーパーピクセルに割り当てられる可能性が高くなり、セグメンテーション結果のスーパーピクセル ブロックのコンパクトさが保証されます。 IV. 実験一般的に、私たちの方法は、SOTA スーパーピクセルセグメンテーション方法よりも効率的で転送可能です。 まず、BSDS データセットで実験を行いました。私たちが提案したスーパーピクセル分割戦略は、ASA、BR、F などの一般的なスーパーピクセル評価指標において、他の教師なしスーパーピクセル分割方法 (従来の方法である SLIC、LSC、ERS、RIM を含む) よりもはるかに優れていることがわかります。さらに、セグメンテーション ラベルに依存する教師ありスーパーピクセル セグメンテーション方法 SSN と比較すると、この方法ではトレーニング プロセス中に高レベルの意味情報を認識できないため、セグメンテーション結果では比較的冗長なスーパーピクセル ブロックが生成され、その結果、この方法のセグメンテーション精度が低くなり、ASA および F 指標では SSN よりもわずかに低くなります。ただし、この機能により、モデルのセグメンテーション リコール率が向上し、複雑なシーンでのファジー エッジへの適合性も向上するため、この方法ではより高い BR インデックスを達成できます。 さらに、より軽量な特徴抽出器と反復のないクラスタリング モードを使用しているため、このモデルの時間と空間の複雑さは、畳み込みニューラル ネットワークに基づく他のスーパーピクセル セグメンテーション方法よりもはるかに低くなります。さらに、BSDS データセットでトレーニングされたスーパーピクセル セグメンテーション モデルを医療画像に適用し、各スーパーピクセル セグメンテーション モデルの移植性をテストする実験も行いました。眼底蛍光血管造影の眼底血管セグメンテーション データセット (DRIVE) の場合でも、OCT 画像の網膜層セグメンテーション データセット (DME) の場合でも、当社のモデルは他の畳み込みニューラル ネットワーク ベースのセグメンテーション モデルよりも優れた転送性を備えていることがわかります。 [編集者:張燕妮 TEL: (010) 68476606] |
<<: IBM Li Hongyan: 顧客の視点から「クラウドコンピューティングとデジタルインテリジェンスの活用」を考える
>>: MIT博士課程修了者で『太極拳』の著者胡淵明氏が中国に戻り、グラフィックスプログラミングに重点を置いたビジネスを始める
導入これらを習得することで、モデルをより効率的にして開発効率を向上させることができます。 [[343...
6月30日のニュースによると、今週、完全に人工知能によって設計された世界初の医薬品が人間の臨床試験段...
[[328922]]私自身の PyTorch の学習過程を思い出すと、最初はいろいろな情報を見つけ、...
編集者注: ビジネス旅行者にとって、ついに朗報が届きました。人工知能がついに旅行業界に浸透し、パーソ...
[[226485]]マイクロソフト アジア社長のラルフ ハウプター氏によると、AI が概念から現実の...
[[408715]] 1. はじめに1.1 研究の背景インターネットと個人用スマート端末の普及と幅広...
大規模言語モデル (LLM) の開発と応用により、人工知能の分野で LLM ベースの自律エージェント...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
機械は識別や配送などの一連の機能を統合した後、自然に俳優と「対話」します。相互作用のプロセスにおける...
[[405132]]序文キュー ライブラリは、マルチスレッド プログラミングに適した先入れ先出し (...
[[198733]]今年 3 月に開催された NVIDIA の GTC 2017 カンファレンスでは...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...