オープンソース AI アルゴリズム 新しいスーパーピクセル サンプリング、ネットワーク ディープ フィーチャ推定 スーパーピクセル 概要: スーパーピクセルは、画像データの効率的な低/中レベル表現を提供し、後続のビジョン タスクの画像プリミティブの数を大幅に削減します。 既存のスーパーピクセル アルゴリズムではそれらを区別できないため、他のエンドツーエンドのトレーニング可能なディープ ニューラル ネットワークに統合することが困難です。 ディープ ネットワークを活用してスーパーピクセルのセグメンテーションを学習し、スーパーピクセル サンプリング用の新しい微分可能モデルを開発します。 結果として得られるスーパーピクセル サンプリング ネットワーク (SSN) はエンドツーエンドでトレーニング可能であり、柔軟な損失関数を使用してタスク固有のスーパーピクセルを学習でき、実行時間が短縮されます。 広範な実験分析により、SSN は従来のセグメンテーション ベンチマークで既存のスーパーピクセル アルゴリズムよりも優れているだけでなく、他のタスク用のスーパーピクセルを学習できることが実証されています。 さらに、SSN は下流のディープ ネットワークに簡単に統合できるため、パフォーマンスが向上します。 オープンソースAIアルゴリズム 新しいスーパーピクセルサンプリングネットワーク タスク固有のスーパーピクセルを推定するためのディープフィーチャ はじめに: スーパーピクセルは、低レベルの画像属性に基づいて画像をグループ化することによって形成される画像のオーバーセグメンテーションです[33]。これらは、画像コンテンツを知覚的に意味のある形で細分化することで、後続の画像処理における画像プリミティブの数を削減します。スーパーピクセルは、その代表性と計算効率により、低/中レベルの画像表現として確立されており、物体検出[35, 42]、セマンティックセグメンテーション[15, 34, 13]、顕著性推定[18, 30, 43, 46]、オプティカルフロー推定[20, 28, 37, 41]、深度推定[6]、追跡[44]などのコンピュータービジョンアルゴリズムで広く使用されています。スーパーピクセルは、少数の画像プリミティブによって最適化の複雑さが大幅に軽減される従来のエネルギー最小化フレームワークで特に広く使用されています。 近年、幅広いコンピューター ビジョンの問題に対するディープラーニングの採用が劇的に増加しています。いくつかの方法(例:[13、18、34])を除いて、スーパーピクセルは現代のディープネットワークと組み合わせて使用されることはほとんどありません。これには主に2つの理由があります。まず、ほとんどのディープ アーキテクチャの基礎となる標準的な畳み込み演算は、通常、規則的なグリッド上で定義されており、不規則なスーパーピクセル グリッド上で演算すると非効率的になります。第二に、既存のスーパーピクセル アルゴリズムは、エンドツーエンドのトレーニング可能なネットワーク アーキテクチャ内の微分可能なモジュールです。本研究では、スーパーピクセルセグメンテーションのための新しい深層差分アルゴリズムを提案することで、2 番目の問題を軽減します。まず、広く使用されている単純線形反復クラスタリング(SLIC)スーパーピクセルアルゴリズム[1]をレビューし、SLICの最近傍制約を緩和することで微分可能なアルゴリズムに変換します。この新しい微分可能アルゴリズムにより、エンドツーエンドのトレーニングが可能になり、従来の手作業による機能を使用する代わりに、強力なディープ ネットワークを活用してスーパーピクセルを学習できるようになります。 オープンソース AI アルゴリズム タスク固有のスーパーピクセル寄与を推定する新しいスーパーピクセル サンプリング ネットワークのディープ フィーチャ: このディープ ネットワークは微分可能な差分 SLIC と組み合わされ、エンドツーエンドのトレーニング可能なスーパーピクセル アルゴリズムを構成します。これをスーパーピクセル サンプリング ネットワーク (SSN) と呼びます。図1は提案されたSSNの概要を示しています。与えられた入力画像は、まずディープ ネットワークを通過して、各ピクセルの特徴が生成されます。これらの深層特徴は微分可能な SLIC に渡され、反復的なクラスタリングが実行され、目的のスーパーピクセルが生成されます。ネットワーク全体をエンドツーエンドでトレーニング可能です。 SSN の微分可能性により、柔軟な損失関数を使用してタスク固有のスーパーピクセルを学習できます。図 1 は、SSN によって生成されたスーパーピクセルのサンプルを示しています。 BSDS500 [4]、Cityscapes [10]、PascalVOC [11]を含む3つの異なるセグメンテーションベンチマークデータセットでの実験結果によると、提案されたスーパーピクセルサンプリングネットワーク(SSN)は、既存の主要なスーパーピクセルアルゴリズムよりも高速でありながら、パフォーマンスが優れていることが示されています。また、スーパーピクセルを使用した既存のセマンティックセグメンテーションネットワーク[13]にSSNフレームワークを統合するだけでパフォーマンスが向上することも実証しました。さらに、他の視覚タスクのスーパーピクセルの学習における SSN の柔軟性を実証します。具体的には、Sintelオプティカルフローデータセット[7]の概念実証実験で、標準的なオブジェクト境界ではなくオプティカルフロー境界とよりよく一致するスーパーピクセルを学習する方法を示します。 既存のスーパーピクセル アルゴリズムと比較して、提案された SSN には次の利点があります。 - エンドツーエンドでトレーニング可能: SSN はエンドツーエンドでトレーニング可能であり、他のディープ ネットワーク アーキテクチャに簡単に統合できます。私たちの知る限り、これは初めてのエンドツーエンドでトレーニング可能なスーパーピクセル アルゴリズムです。 - 柔軟かつタスク固有: SSN を使用すると、柔軟な損失関数を学習し、タスク固有のスーパーピクセルを学習できます。 - 最先端のパフォーマンス: さまざまなベンチマーク データセットでの実験により、SSN が既存のスーパーピクセル アルゴリズムよりも優れていることが示されています。 - 有利な実行時間: SSN は実行時間の点でも著名なスーパーピクセル アルゴリズムに有利であり、大規模なデータセットでの学習に適しており、実用的なアプリケーションにも効果的です。 オープンソース AI アルゴリズム タスク固有のスーパーピクセルを推定するための新しいスーパーピクセル サンプリング ネットワークの深層特徴 関連作業: スーパーピクセル アルゴリズム。従来のスーパーピクセル アルゴリズムは、グラフベースの方法とクラスタリング ベースの方法に大別できます。グラフベースの方法では、スーパーピクセルのセグメンテーションをグラフ分割問題として定式化します。グラフ ノードはピクセルで表され、エッジは隣接するピクセル間の接続強度を表します。通常、グラフの分割は離散最適化問題を解決することによって実行されます。このカテゴリでは、広く使用されているアルゴリズムとして、正規化カット[33]、フェルゼンスワルブとハッテンロッチャー(FH)[12]、エントロピーレートスーパーピクセル(ERS)[26]などがあります。離散最適化には離散変数が含まれ、最適化の目的は通常微分不可能であるため、グラフベースの方法では深いネットワークを活用することは困難です。一方、クラスタリング ベースの方法では、スーパーピクセルのセグメンテーションに k-means などの従来のクラスタリング手法を利用します。広く使用されているアルゴリズムとしては、SLIC [1]、LSC [25]、Manifold-SLIC [27]などがあります。これらの方法は主に k-means クラスタリングを実行しますが、特徴表現は異なります。 SLIC[1]は各ピクセルを5次元の位置とLab色特徴(XY Lab特徴)として表現しますが、LSC[25]法はこれらの5次元特徴を10次元空間に投影し、投影された空間内でクラスタリングを実行します。一方、Manifold-SLIC[27]はスーパーピクセルクラスタリングに2次元マニフォールド特徴空間を使用する。これらのクラスタリングアルゴリズムは反復更新を必要とするが、スーパーピクセルセグメンテーションのための非反復クラスタリング方式がSNIC法[2]で提案されている。提案された方法もクラスタリングベースのアプローチです。ただし、既存の技術とは異なり、エンドツーエンドのトレーニング フレームワークを通じて、ディープ ネットワークを利用してスーパーピクセル クラスタリングの機能を学習します。最近の調査論文[36]に詳述されているように、スーパーピクセルセグメンテーションには、ウォーターシェッド変換[29]、幾何学的フロー[24]、グラフカット[39]、平均シフト[9]、ヒルズなどの他の技術も使用されています。 - 登山[5]ただし、これらの方法はすべて手作業で作成された機能に依存しており、これらの手法にディープ ネットワークを組み込むのは簡単ではありません。最新のSEAL技術[38]は、微分不可能なスーパーピクセルアルゴリズムを通じて勾配をバイパスすることで、スーパーピクセルセグメンテーションのための深層特徴を学習する方法を提案した。当社の SSN フレームワークとは異なり、SEAL はエンドツーエンドで区別できません。 ディープクラスタリング。教師ありタスクにおけるディープラーニングの成功に触発されて、いくつかのアプローチで、教師なしデータ クラスタリングにおけるディープ ネットワークの使用が研究されてきました。最近、Greff et al.人々。 [17]はニューラル期待最大化フレームワークを提案し、深層ネットワークを使用してクラスターラベルの事後分布をモデル化し、エンドツーエンドのトレーニングのためのEM手順の反復ステップを展開しました。別の研究[16]では、ラダーネットワーク[31]を使用してクラスタリングのための階層的潜在変数モデルをモデル化しました。ハーシーら[19]は、オーディオ信号を分離およびセグメント化するための深層学習ベースのクラスタリングフレームワークを提案した。皆様ありがとうございました。 [40]は、特徴表現とクラスタ割り当てを同時に学習するための深層埋め込みクラスタリングフレームワークを提案した。最近の調査報告書で、Aljalbout らは、人々。 [3]は深層学習に基づくクラスタリング手法の分類を示した。本稿では、ディープラーニングに基づくクラスタリングアルゴリズムも提案します。これまでの研究とは異なり、私たちのアルゴリズムは、画像固有の制約を使用するスーパーピクセルセグメンテーションタスクに合わせて調整されています。さらに、当社のフレームワークは、他の視覚目的関数と簡単に組み合わせて、タスク固有のスーパーピクセル表現を学習できます。 前処理:SSNの中核は、SLIC [1]スーパーピクセルアルゴリズムにヒントを得た微分可能なクラスタリング技術です。ここでは、次のセクションで SSN テクニックについて説明する前に、SLIC について簡単に説明します。 SLIC は、最もシンプルで広く使用されているスーパーピクセル アルゴリズムの 1 つです。実装が簡単で、実行時間が短く、コンパクトで均一なスーパーピクセルを生成することもできます。 SLICアルゴリズムにはいくつかの異なるバリエーションがありますが[25, 27]、元の形式では、SLICは5次元の位置と色空間(通常はスケールされたXY Lab空間)内の画像ピクセルに対して実行されるk平均法クラスタリングです。正式には、n ピクセルに 5 次元 XY Lab 特徴を持つ画像 I Rn×5 が与えられた場合、スーパーピクセル計算のタスクは、各ピクセルを m 個のスーパーピクセルの 1 つに割り当てること、つまり、ピクセル - スーパーピクセル関連マップ H 0,1,...,m 1 n×1 を計算することです。 SLIC アルゴリズムは次のように動作します。まず、5次元空間で初期クラスター(スーパーピクセル)中心S0 Rm×5をサンプリングします。このサンプリングは通常、画像の勾配に基づいていくつかのローカルな摂動を加えてピクセル グリッド上で均一に実行されます。これらの初期スーパーピクセル中心 S0 が与えられると、SLIC アルゴリズムは各反復 t で次の 2 つのステップを反復的に実行します。 オープンソース AI アルゴリズム タスク固有のスーパーピクセル ネットワーク アーキテクチャを推定するための新しいスーパーピクセル サンプリング ネットワークの深層特徴: 図 3 は SSN ネットワーク アーキテクチャを示しています。特徴抽出に使用されるCNNは、バッチ正規化[21](BN)とReLU活性化がインターリーブされた一連の畳み込み層で構成されています。最大プーリングを使用し、2番目と4番目の畳み込み層の後で入力を係数2でダウンサンプリングして、受容野を拡大します。 4 番目と 6 番目の畳み込み層の出力を双線形アップサンプリングし、2 番目の畳み込み層の出力と連結して、最終畳み込み層に渡します。 3 × 3 畳み込みフィルターを使用し、k × 5 チャネルを出力する最後の CNN レイヤーを除き、各レイヤーの出力チャネル数は 64 に設定されています。この k 個の 5 チャネル出力を指定された画像の XY Lab と連結すると、k 次元のピクセル機能が生成されます。この CNN アーキテクチャを選んだのは、そのシンプルさと効率性のためでした。他のネットワーク アーキテクチャも考えられます。結果として得られる k 次元の特徴は、微分可能な SLIC の 2 つのモジュールに渡され、ピクセルとスーパーピクセルの関連付けとスーパーピクセルの中心が v 回の反復で反復的に更新されます。ネットワーク全体をエンドツーエンドでトレーニング可能です。 タスク固有のスーパーピクセルの学習: エンドツーエンドでトレーニング可能な SSN の主な利点の 1 つは、損失関数に関する柔軟性であり、これを使用してタスク固有のスーパーピクセルを学習できます。他の CNN と同様に、SSN を任意のタスク固有の損失関数と組み合わせて、下流のコンピューター ビジョン タスクに最適化されたスーパーピクセルを学習できます。この研究では、スーパーピクセルの表現効率を最適化すること、つまり、セマンティックラベル、オプティカルフロー、深度などのシーンの特徴を効果的に表現できるスーパーピクセルを学習することに焦点を当てています。たとえば、下流のセマンティック セグメンテーション タスクで使用するスーパーピクセルを学習する場合、セマンティック境界に従うスーパーピクセルを生成することが望ましいです。表現効率を最適化するには、タスク固有の再構築損失とコンパクトネス損失を組み合わせると効果的であることがわかりました。タスク固有の再構築損失。スーパーピクセルによって効率的に表現されるピクセル属性をR Rn×lと表します。たとえば、R はセマンティック ラベル (ワンホット エンコーディングとして) またはオプティカル フロー マップになります。テスト時間中は R にアクセスできないことに注意することが重要です。つまり、SSN は画像データを使用してスーパーピクセルを予測するだけです。 SSN が R を表すのに適したスーパーピクセルを予測することを学習できるように、R はトレーニング中にのみ使用します。セクション4.1で述べたように、列正規化された入射行列Q、R˘= QTR(ここでR˘Rm×l)を使用して、ピクセル属性をスーパーピクセルにマッピングできます。結果として得られるスーパーピクセル表現R 6は、行正規化された相関行列Q 1,R* = Q ˜ Sを使用してピクセル表現R*にマッピングされます。ここで、R*はRn×1です。 オープンソース AI アルゴリズム タスク固有のスーパーピクセルを推定する新しいスーパーピクセル サンプリング ネットワークの深層特徴 結論: エンドツーエンドのトレーニングを通じて学習した深層特徴を活用して、タスク固有のスーパーピクセルを推定する新しいスーパーピクセル サンプリング ネットワーク (SSN) を提案します。私たちの知る限り、これはエンドツーエンドでトレーニング可能な初のディープ スーパーピクセル予測技術です。いくつかの実験ベンチマークでは、SSN が最先端のスーパーピクセル技術よりも一貫して優れており、さらに高速であることが示されています。 SSNをセマンティックセグメンテーションネットワーク[13]に統合することでもパフォーマンスが向上し、下流のコンピュータビジョンタスクにおけるSSNの実用性が示されました。 SSN は高速で実装が簡単で、優れた実験的パフォーマンスを備えた他のディープ ネットワークに簡単に統合できます。 SSN は、スーパーピクセルをディープ ネットワークに組み込む際の主な障害の 1 つである、既存のスーパーピクセル アルゴリズムの微分不可能な性質に対処します。ディープ ネットワークでスーパーピクセルを使用すると、いくつかの利点が得られます。スーパーピクセルは、特に高解像度の画像を処理するときに、計算の複雑さを軽減できます。スーパーピクセルはセグメンテーション不変仮定を強制するためにも使用でき、長距離情報伝播にも役立ちます[13]。この研究は、ディープ ネットワークでスーパーピクセルを活用するための新しい道を切り開き、スーパーピクセルを使用した新しいディープラーニング手法に刺激を与えるものと考えています。謝辞。評価スクリプトを提供してくださった Wei-Chih Tu 氏に感謝します。補足ビデオの作成に協力してくれた Ben Eckart 氏に感謝します。 |
<<: 機械学習を使用して、GPU と TPU で高速化できる O(N) 複雑度のソート アルゴリズムを構築します。
>>: ディープラーニングと比較すると、この新しいアルゴリズムの方が優れているようですね?
私たちは長年にわたり、機械学習プロジェクトで何が機能し、何が機能しないかを特定するために、さまざまな...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
テクノロジーが支配する急速に進化する世界では、人間の創造性と人工知能 (AI) の魅力的な融合が中心...
本日、VRの第一人者でありOculusのCTOであるジョン・カーマック氏はFacebookにメッセー...
データが組織の生命線となっている今日のデジタル時代では、サイバーセキュリティが極めて重要になっていま...
導入画像分類は、コンピューター ビジョンの最も重要なアプリケーションの 1 つです。その応用範囲は、...
現在、開発者は AI によって生成されたデータをひそかに使用して AI モデルをトレーニングしていま...
[[415155]]未成年者のゲームプレイの問題に関しては、依存症防止システムが厳しすぎると不満を言...
[51CTO.comより引用] モバイルインターネットの発展に伴い、あらゆるものの相互接続が可能に...
近年、消費者向けインターネットが深化し、産業向けインターネットが徐々に向上するにつれて、さまざまな業...
[51CTO.com クイック翻訳] 現在、Python は人気があり広く使用されているプログラミ...
音声アシスタントからチャットボットまで、人工知能 (AI) はテクノロジーとのやり取りの方法に革命を...
「インチキ医者」 GPT-4は再び患者の治療に呼ばれ、若い男のガールフレンドのアレルゲンを見つけるこ...