既存のディープ エッジ検出ネットワークは通常、マルチレベルの特徴をより適切に抽出するためのアップサンプリング モジュールとダウンサンプリング モジュールを含むエンコーダー/デコーダー アーキテクチャに基づいていますが、これにより、正確で詳細なエッジ検出結果を出力するネットワークの能力も制限されます。 この問題に対処するため、AAAI 2024 で発表された論文で新しい解決策が提案されました。
国立国防大学の iGRAPE ラボは、2 次元エッジ検出タスク用の初めての拡散確率モデル法を提案しました。エッジ結果マップは、反復的なノイズ除去プロセスを学習することによって得られます。ノイズ除去プロセスを図 1 に示します。最終的なパフォーマンスを維持しながらコンピューティング リソースの消費を削減するために、この方法では潜在空間でネットワークをトレーニングし、より優れた最適化のために不確実性蒸留モジュールを導入します。同時に、この方法では、ノイズ除去プロセスを高速化するために分離されたアーキテクチャも採用し、特徴を調整するための対応する適応型フーリエ フィルターを提案します。これらの設計に基づいて、私たちの方法は限られたリソースで安定的にトレーニングでき、より少ない強化戦略で明確で正確なエッジマップを予測できます。 4 つの公開ベンチマーク データセットに対する広範な実験により、提案された方法が精度と堅牢性の点で他の方法よりも優れていることが実証されました。 図1. 拡散確率モデルに基づくエッジ検出プロセスと利点の例 この論文の革新性は次のとおりです。 1. この分野でのエッジ検出タスク用の初めての拡散モデル DiffusionEdge が提案されました。このモデルは、後処理なしでより細かく正確なエッジ マップを予測できます。 2. 拡散モデルの適用の難しさに着目し、ピクセルレベルの不確実性の事前知識を保持し、フーリエ空間で潜在的な特徴を適応的にフィルタリングしながら、潜在空間で安定して学習できるようにするためのさまざまな手法が設計されています。 3. 4 つのエッジ検出公開ベンチマーク データセットで実施された広範な比較実験により、DiffusionEdge は精度と細かさの両方で優れたパフォーマンス上の利点があることが実証されました。 関連研究ディープラーニングベースの手法では、通常、アップサンプリングとダウンサンプリングを含むエンコーダー-デコーダー構造を使用して複数の層の特徴を統合したり[1-2]、複数の注釈からの不確実性情報を統合してエッジ検出の精度を向上させたりします[3]。ただし、このような構造の自然な制限により、生成されたエッジ結果マップは下流のタスクには厚すぎるため、後処理に大きく依存しており、これはまだ解決する必要があります。多くの研究では、ネットワークがより細かいエッジを出力できるようにするための損失関数[4-5]とラベル修正戦略[6]が検討されていますが、この論文では、追加モジュールの助けを借りず、後処理手順なしで、精度と細かさを直接満たすことができるエッジ検出器が依然として必要であると考えています。 拡散モデルは、マルコフ連鎖に基づく生成モデルの一種であり、学習ノイズ除去プロセスを通じてターゲット データ サンプルを徐々に復元します。拡散モデルは、コンピュータービジョン、自然言語処理、オーディオ生成などの分野で優れたパフォーマンスを示しています。さらに、画像やその他のモダリティを入力として追加条件として取り入れることで、画像セグメンテーション[7]、物体検出[8]、姿勢推定[9]などの知覚タスクにおいても大きな可能性を示しています。 方法の説明本論文で提案する DiffusionEdge 法の全体的なフレームワークを図 2 に示します。以前の研究にヒントを得たこの方法では、潜在空間内の分離構造を持つ拡散モデルをトレーニングし、画像を追加の条件付きキュー入力として受け取ります。この方法では、周波数分析に適応型フーリエ フィルターを導入し、複数の注釈者からのピクセル レベルの不確実性情報を保持してコンピューティング リソースの要件を削減するために、クロスエントロピー損失を直接使用して、蒸留方式で潜在空間を最適化します。 図2 DiffusionEdgeの全体構造 現在の拡散モデルは、サンプリングステップが多すぎる、推論時間が長すぎるなどの問題を抱えていることを考慮して、この方法はDDM [10]に触発されており、分離された拡散モデルアーキテクチャを使用してサンプリング推論プロセスを高速化します。分離された順方向拡散プロセスは、明示的な遷移確率と標準的なウィーナー過程の組み合わせによって制御されます。 ここで、およびはそれぞれ元のエッジとノイズエッジを表し、逆エッジ勾配の明示的な変換関数を指します。 DDM と同様に、提案された方法ではデフォルトで定数関数が使用され、対応する逆プロセスは次のように表現できます。 で。分離拡散モデルをトレーニングするには、データとノイズ成分の両方を監視する必要があるため、トレーニング目標は次のようにパラメータ化できます。 ノイズ除去ネットワークのパラメータはどこですか。拡散モデルは元の画像空間で訓練すると計算コストがかかりすぎるため、[11]のアイデアを参考にして、本論文で提案する方法では、訓練プロセスを4倍にダウンサンプリングされた空間サイズを持つ潜在空間に移します。 図 2 に示すように、この方法では、まずオートエンコーダとデコーダのネットワークのペアをトレーニングします。エンコーダはエッジ注釈を潜在変数に圧縮し、デコーダは潜在変数から元のエッジ注釈を復元するために使用されます。このように、この方法では、U-Net 構造に基づくノイズ除去ネットワークのトレーニング中に、オートエンコーダーとデコーダーのネットワークのペアの重みを固定し、潜在空間でノイズ除去プロセスをトレーニングします。これにより、優れたパフォーマンスを維持しながら、ネットワークのコンピューティング リソースの消費を大幅に削減できます。 ネットワークの最終的なパフォーマンスを向上させるために、本論文で提案する方法では、さまざまな周波数特性を適応的にフィルタリングできるモジュールを分離操作に導入します。図 2 の左下隅に示すように、この方法では、分離操作の前に適応型高速フーリエ変換フィルタ (適応型 FFT フィルタ) をノイズ除去 Unet ネットワークに統合し、周波数領域でエッジ マップとノイズ成分を適応的にフィルタリングして分離します。具体的には、エンコーダの特徴 が与えられた場合、この方法ではまず空間次元に沿って 2D フーリエ変換 (FFT) を実行し、変換された特徴を として表します。次に、この適応スペクトルフィルタリングモジュールをトレーニングするために、学習可能な重みマップ W が構築され、Fc で乗算されます。スペクトル フィルターは特定の周波数を全体的に調整でき、学習した重みはさまざまなデータセット内のターゲット分布のさまざまな周波数状況に適応できます。この方法では、不要なコンポーネントを適応的にフィルタリングし、逆高速フーリエ変換 (IFFT) 操作を通じて周波数領域の特徴を空間領域にマッピングします。最後に、からの残差接続を追加で導入することで、すべての有用な情報が完全にフィルタリングされることを回避します。上記のプロセスは次の式で説明できます。 ここで、 は出力機能であり、 o はアダマール積を表します。 エッジピクセルと非エッジピクセルの数は非常に不均衡であるため(ほとんどのピクセルは非エッジ背景)、以前の研究を参照して、トレーニング用の不確実性を考慮した損失関数も導入します。具体的には、i 番目のピクセルの真のエッジ確率を とし、j 番目のエッジ マップの i 番目のピクセルの値が である場合、不確実性を考慮した WCE 損失は次のように計算されます。 その中には、真値アノテーションにおける不確実なエッジピクセルを判定するためのしきい値があります。ピクセル値が 0 より大きく、このしきい値より小さい場合、信頼性が不十分なこのようなぼやけたピクセルサンプルは、後続の最適化プロセスで無視されます (損失関数は 0)。およびは、それぞれグラウンドトゥルースエッジマップ内のエッジピクセルと非エッジピクセルの数を示します。合計のバランスをとるために使用される重みです (1.1 に設定)。したがって、各エッジマップの最終的な損失関数は次のように計算されます。 最適化プロセス中にぼやけた信頼性の低いピクセルを無視すると、ネットワークの混乱を回避し、トレーニング プロセスをより安定させて収束させ、モデルのパフォーマンスを向上させることができます。しかし、数値的にも空間的にも整列していない潜在空間にバイナリクロスエントロピー損失を直接適用することはほぼ不可能です。特に、不確実性を考慮したクロスエントロピー損失では、画像空間で定義されるしきい値 (通常は 0 ~ 1) を使用してピクセルがエッジであるかどうかを判断しますが、潜在変数は正規分布に従い、範囲と実用的な意味がまったく異なります。さらに、ピクセルレベルの不確実性は、異なるエンコードおよびダウンサンプリング サイズの潜在的な特徴と調和させることが難しく、両者を直接互換性を持たせることは困難です。したがって、クロスエントロピー損失を直接適用して潜在変数を最適化すると、必然的に不確実性の認識が不正確になります。 一方、潜在変数を画像レベルにデコードして、不確実性を考慮したクロスエントロピー損失を使用して予測エッジ結果マップを直接監視することもできます。残念ながら、この実装では、逆伝播されたパラメータ勾配が冗長なオートエンコーダ ネットワークを通過するため、勾配を効果的に転送することが困難になります。さらに、オートエンコーダ ネットワークでの追加の勾配計算により、膨大な GPU メモリ消費コストが発生します。これは、実用的なエッジ検出器を設計するというこの方法の本来の目的に反しており、実際のアプリケーションに一般化することは困難です。そこで、この方法では、潜在空間の勾配を直接最適化できる不確実性蒸留損失を提案する。具体的には、再構成された潜在変数を、オートエンコーダネットワークのデコーダをD、デコードされたエッジ結果をeDとする。この方法では、連鎖律に基づいて不確実性を考慮したバイナリクロスエントロピー損失の勾配を直接計算することを検討している。具体的な計算方法は以下のとおりである。 オートエンコーダ ネットワークの悪影響を排除するために、この方法ではオートエンコーダを直接スキップして勾配を転送し、勾配計算方法を次のように調整します。 この実装により、計算コストが大幅に削減され、不確実性を考慮した損失関数を潜在変数に対して直接最適化できるようになります。このように、ステップ数 t に応じて適応的に変化する時間変動損失重みと組み合わせると、この方法の最終的なトレーニング最適化目標は次のように表現できます。 実験結果この方法は、現場で広く使用されているエッジ検出用の 4 つの公開標準データセット (BSDS、NYUDv2、Multicue、BIPED) で実験されています。エッジ検出データの注釈付けは難しく、注釈付けされたデータの量は比較的少ないため、従来の方法では通常、データセットを強化するためにさまざまな戦略が使用されます。たとえば、BSDS の画像は、水平反転 (2 倍)、拡大縮小 (3 倍)、回転 (16 倍) によって拡張され、元のバージョンの 96 倍のトレーニング セットが生成されます。他のデータセットに対して以前の方法で使用された一般的な強化戦略を表 1 にまとめます。ここで、F は水平反転、S はスケーリング、R は回転、C はクロッピング、G はガンマ補正を表します。違いは、私たちの方法では、すべてのデータをトレーニングするために、ランダムに切り取られた 320×320 の画像パッチのみを使用すればよいことです。 BSDS データセットでは、この方法はランダム反転とスケーリングのみを使用し、定量的な比較結果を表 2 に示します。 NYUDv2、Multiticue、BIPED データセットでは、この方法ではランダム反転トレーニングのみが必要です。この方法は、使用する強化戦略が少ないにもかかわらず、さまざまなデータセットや指標において以前の方法よりも優れたパフォーマンスを発揮します。図3-5の予測結果を観察すると、DiffusionEdgeはgt分布とほぼ同じエッジ検出結果マップを学習して予測できることがわかります。正確で明確な予測結果の利点は、要件が洗練された下流のタスクにとって非常に重要であり、後続のタスクに直接適用できる大きな可能性も示しています。 表1 4つのエッジ検出データセットにおける従来の手法で使用された強化戦略 表2 BSDSデータセットにおけるさまざまな手法の定量的比較 図3 BSDSデータセットにおける異なる手法の定性的な比較 図4 NYUDv2データセットにおける異なる手法の定性的な比較 図5 BIPEDデータセットにおける異なる手法の定性的な比較 |
<<: オープンソースの小規模モデルに基づく、GPT-4 を上回る 3 つのエージェント
>>: スタンフォード大学とOpenAIがメタプロンプティングを提案し、最も強力なゼロショットプロンプティング技術が誕生した。
評価基準の違いにより、統一基準に基づく既存の小規模学習法の公平な比較が大きく妨げられており、この分野...
デジタル経済の時代において、クラウド、5G、AI、ビッグデータ、人工知能などの新技術が社会の生産要素...
人工知能 (AI) は、現在人間が行っている意思決定やタスクを補強し、自動化する機能を備えているため...
翻訳者 |ブガッティレビュー | Chonglou ChatGPTは2020年6月にリリースされ、 ...
[[192649]]人工知能 (AI) は、今日最もエキサイティングで将来有望な最先端技術の 1 つ...
最近、Tesla AI のシニアディレクターである Andrej Karpathy 氏が、非常に興味...
[51CTO.comからのオリジナル記事] 近年、自然言語処理技術は徐々に最も広く使用されている人工...
ロボットが環境内を移動するための最も効率的な方法の 1 つは、比較的滑らかな地形上で車輪を動かすこと...
これら 5 つの組織は、自然言語処理 (NLP) を使用して、顧客へのサービスの向上、反復的なタスク...
意識のアップロードは、人間が将来の自分たちの存在を想像する方法として常に存在してきました。このアイデ...
[[263855]]人工知能について考えるとき、まず頭に浮かぶのは人間とのコミュニケーション、特に非...
今は少し理解できました。面接の過程で、面接官が私たちにコードを手書きで書くように頼むことがあります。...