信号解析の観点から畳み込みニューラルネットワークの複雑なメカニズムを理解するにはどうすればよいでしょうか?

信号解析の観点から畳み込みニューラルネットワークの複雑なメカニズムを理解するにはどうすればよいでしょうか?

複雑かつ効率的なニューラル ネットワーク アーキテクチャの出現により、畳み込みニューラル ネットワーク (CNN) のパフォーマンスは、SIFT や SURF などの従来のデジタル画像処理手法を超えています。コンピュータービジョンの分野では、学者たちは研究の焦点を CNN に移し始め、CNN がこの分野の将来のトレンドであると信じていました。しかし、CNN の驚異的な成功の背後にあるメカニズムについては、あまり理解されていません。 CNN の動作メカニズムの研究は、現在注目されている話題です。基本的に、1>最適化、2>近似、3>信号という3つの主流のビューがあります。最初の 2 つの観点は主に、ニューラル ネットワークの統計特性と収束を分析しようとする純粋な数学的分析に焦点を当てていますが、3 番目の観点は、次の質問に対処しようとする試みを示しています。1) 非線形活性化関数がすべての中間層のフィルター出力に不可欠なのはなぜですか? 2) 単層システムに対する 2 層カスケード システムの利点は何ですか?

球面上の補正相関 (RECOS)

周知のとおり、フィードフォワード ニューラル ネットワーク (FNN) は、有限数のニューロンを含む単一の隠し層を与えられた任意の連続関数を近似できる汎用近似器として考えることができます。 FNN の特別な点は、ニューロンの非線形活性化関数です。一部のニューラル ネットワークは大規模で深いですが、非線形活性化関数がなければ、その複雑なアーキテクチャの効果は、入力を別の出力空間にマッピングする単純な単層線形モデルと変わりません。具体的には、非線形活性化関数によって学習された入力表現のセットは、実用的な問題を解決するのにより適しています。

CNN は、FNN または MLP (多層パーセプトロン) の別のタイプです。 CNN の非線形性を分析するために、著者らは CNN の動作を理解するための数学モデルを提案しました。このモデルでは、CNN は「球面の補正相関 (RECOS)」を計算する基本的なオペレーティング ユニットで構成されたネットワークとして見られます。そのため、RECOS モデルと呼ばれます。 CNN のトレーニング中、カーネルの重みは最初に初期化され、次に勾配降下法とバックプロパゲーション アルゴリズムによって調整されます。 RECOS モデルでは、重みは入力データのクラスタリングにおける役割を示すためにアンカー ベクトルと呼ばれます。つまり、入力ベクトルとアンカーベクトル間の相関を計算し、それらの類似性を測定しようとします。

非線形活性化関数を使用する理由は何ですか?

すべてのピクセルの相互作用を 1 つのステップでのみ考慮する MLP とは異なり、CNN は入力画像を特定のレイヤーのノードの受容野と呼ばれる小さなパッチに分解します。アルゴリズムは、より大きな画像をカバーできるように受容野のサイズを徐々に拡大します。ニューロンは入力ベクトルとそのア​​ンカー ベクトル間の相関を計算し、それらの類似性を測定します。各 RECOS ユニットには K 個のニューロンがあります。モデルは Y = AX として表されます。ここで、X は入力ベクトル、Y は出力ベクトル、A はアンカー ベクトル (カーネル フィルターの重み行列) です。この式は、CNN が入力を別の空間にマッピングする方法を表します。 RECOS モデルを研究することで、学習されたカーネルの重みは類似のオブジェクトを同じ領域にマッピングする傾向があることがすぐにわかります。たとえば、x_i と x_j のユークリッド距離が近い場合、対応する出力 y_i と y_j も新しい空間内で近い必要があります。猫の特徴を捉えるために使用されるフィルターの場合、学習されたアンカー ベクトル A は、猫の特徴を表すすべてのベクトル X_cat を Y_cat にマッピングしますが、犬の特徴を表すその他のベクトル X_dog や車の特徴を表す X_car はこの領域には決して表示されません。これが、CNN がさまざまなオブジェクトの識別に効果的である理由です。

しかし、なぜ非線形活性化関数を使用する必要があるのでしょうか? 上の 2 つの画像 (左) は元の猫の画像、(右) は左の画像のネガです。人間の視点から判断すると、2 つの画像は同一である場合もありますが、異なる場合もあります。両方の写真の猫は同じ猫であり、負の相関関係にあると結論付けることができます。黒猫は単純に白猫の画像のピクセル値から255を引いたものだからです。それで、CNN はこの 2 匹の猫をどうやって理解したのでしょうか?

上の図から、非線形活性化関数を使用する必要性がわかります。 X は入力ベクトル、a_1、a_2、a_3 はそれぞれ異なる学習されたアンカー ベクトルです。 RECOS モデルでは、線形演算 Y = AX を使用して、入力ベクトルとアンカー ベクトル間の類似性を測定します。したがって、アンカー ベクトル a_1 と a_3 の場合、x と 2 つのアンカー ベクトルの類似性は大きさは同じですが、符号が反対であることがわかります。この時点で、猫は CNN とは異なります。しかし、たとえば 2 つの畳み込み層を持つ LeNet5 では、元の入力 x が 2 つの層を通過した後、最終的な出力結果が混乱します。非線形活性化関数のないシステムでは、次の 2 つのケースを正しく区別できません。1) 最初の層の正の応答が 2 番目の層の負のフィルター重みに遭遇する。2) 最初の層の負の応答が 2 番目の層の正のフィルター重みに遭遇する。ただし、非線形活性化関数を使用することで、CNN は負の値の影響を簡単に排除できるため、堅牢なシステムを実現できます。

さらに、著者は興味深い実験を行い、その結果は以下のとおりです。

MNIST トレーニング セットを使用して LeNet-5 ネットワークをトレーニングし、MNIST テスト セットで 98.94% の正しい認識率を達成しました。次に、図 5 に示すように、この LeNet-5 ネットワークをグレースケール反転テスト画像に適用します。正解率は37.36%に低下しました。次に、ネットワークの残りの部分は変更せずに、conv1 内のすべてのフィルターの重みを負の値に変更します。わずかに修正された LeNet-5 ネットワークは、グレースケール反転テスト セットで 98.94% の正しい認識率を達成しましたが、元のテスト セットの精度は 37.36% に低下しました。

ご覧のとおり、最初の畳み込み層のすべてのフィルター重みを変更すると、対称的な結果が得られます。この結果は、活性化関数の導入により負の相関が排除されることを示しています。グレースケール反転画像の特徴を学習する際に、元の画像のアンカーベクトルを保持するだけでなく、グレースケール反転画像のアンカーベクトルも追加すると、両方のテストセットで高い認識結果を達成できます。

カスケードレイヤーの利点は何ですか?

一般的に言えば、CNN レイヤーの数が深くなるにつれて、カーネル関数は以前のすべてのカーネル関数の出力に基づいて独自の抽象的な特徴を構築しようとします。したがって、浅いレイヤーと比較して、深いレイヤーはグローバルなセマンティクスと高レベルの機能をキャプチャできます。 RECOS モデルでは、CNN は類似性の測定に類似した一連の非線形変換を使用して、類似の入力データをレイヤーごとにクラスタ化します。出力層は、すべての可能な決定の可能性(オブジェクトのクラスなど)を予測します。トレーニング サンプルには、画像とその決定ラベルの関係が含まれており、CNN がより適切なアンカー ベクトルを生成し (より優れたクラスタリングを形成)、最終的にクラスタリング データを決定ラベルにリンクするのに役立ちます。

上の図はディープネットワークの有効性を示しています。実験の詳細は次のとおりです。

これを例で説明してみましょう。まず、MNIST データセット内の元の手書き数字に 10 種類の異なる背景をランダムに追加して、MNIST のトレーニング セットとテスト セットを変更します。上記の 3 行の画像では、各行の左端の列には 3 つのデジタル画像入力が示され、中央の列にはそれぞれ畳み込み層と ReLU 層からの 6 つのスペクトル画像出力が示され、右端の 2 列にはそれぞれ畳み込み層と ReLU 層からの 16 のスペクトル画像出力が示されます。背景の多様性のため、最初のレイヤーに適したアンカー ベクトル マトリックスを見つけるのは困難です。ただし、これらの画像の背景は空間領域では一貫していませんが、前景の数は一貫しています。

さまざまな変形された背景に対して、CNN は代表的なパターンをうまくキャプチャします。最初のレイヤーには冗長で無関係な情報が多数含まれていることに注目してください。カスケード レイヤーで特徴抽出を適用することで、CNN はローカルの詳細ではなくグローバルなスタイルを学習します。つまり、入力ベクトル x に対して、RECOS 変換は K 次元の出力ベクトルとして、K 個の非負相関値のセットを生成します。このアプローチでは、レイヤーごとに繰り返しクラスタリングを実現します。最後に、トレーニング画像のラベルは、CNN が異なる背景の画像内で同じパターンを見つけるのに役立ちます。

上記の分析から、畳み込み層モデルは特徴を自動的に選択するのに非常に有用であることがわかります。人間の介入なしに、入力データの類似性を測定し、異なる領域にクラスタリングできます。

では、完全に接続された層の役割は何でしょうか?

通常、CNN は、特徴抽出 (FE) サブネットワークと意思決定 (DM) サブネットワークの 2 つのサブネットワークに分解されます。 FE サブネットワークは複数の畳み込み層で構成され、DM サブネットワークは複数の完全接続層で構成されます。つまり、FE サブネットワークは一連の RECOS 変換を経て、クラスタリングのための新しい表現を形成します。 DM サブネットワークはデータ表現と決定ラベルをリンクし、その役割は分類における MLP の役割に似ています。

この時点で、CNN はコンピューター ビジョンにおける従来の機械学習アルゴリズムよりもはるかに優れていると結論付けることができます。 CNN は自動的に特徴を抽出し、その特徴に基づいて入力データを分類することを学習できますが、ランダム フォレスト (RF) とサポート ベクター マシン (SVM) は操作が難しいことが多い特徴エンジニアリングに大きく依存しているためです。

結論は

要約すると、RECOS モデルは、信号解析の観点から畳み込みニューラル ネットワークを分析します。この観点から、活性化関数とディープアーキテクチャの有効性がわかります。ただし、ネットワーク アーキテクチャの設計、弱教師あり学習、誤ったラベルに対する堅牢性、データ セットのバイアスと過剰適合の問題など、次の側面については、まだ詳細に研究する必要があります。

<<:  ディープラーニングを専門家以外の人に説明するにはどうすればよいでしょうか?

>>:  触覚を感知し、自己治癒するロボットが現実になりつつある

ブログ    
ブログ    

推薦する

2023 年のネットワーク パーティション: AI と自動化が状況をどのように変えるか

ネットワーク セグメンテーションは、企業の攻撃対象領域を減らし、横方向の移動を防ぐ基本的な予防的セキ...

今年の機械学習研究で最もホットな分野は何ですか?幾何学的ディープラーニングの最大の勝者、Redditは混乱に陥っている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ChatGPT は IT ネットワーク エンジニアの代わりになるのでしょうか?

現代の IT ネットワークは、ファイアウォール、ルーター、スイッチ、サーバー、ワークステーション、そ...

グラフ分野における初のユニバーサルフレームワークが登場しました。 ICLR'24 Spotlightに選ばれ、あらゆるデータセットと分類問題を解決できる

普遍的なグラフモデルはありますか?分子構造に基づいて毒性を予測するだけでなく、ソーシャル ネットワー...

AIの未来: 汎用人工知能

人工知能を真に理解するために、研究者は、環境に対する人間のような理解を再現できる基礎的な AGI 技...

...

人工知能は「最優先事項」として挙げられていますが、高等教育機関はこの責任をどのように担うことができるのでしょうか?

人工知能は未来をリードする戦略的技術であり、産業変革の中核的な原動力であり、経済発展の新たな原動力で...

AI技術の自立を実現するために、国内のディープラーニングフレームワークは3つの大きな課題に直面している

「ディープラーニングフレームワークは人工知能技術システムの真ん中にあり、下のチップと上のアプリケーシ...

ImageNetに匹敵するこのデータセットは、MITによって腹立たしい理由で緊急に削除されました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

3分で振り返る!2021年9月のロボット分野の重要な動向を概観

2021年9月に北京で開催された世界ロボットコンテストでは、さまざまな企業がロボット技術の研究開発に...

科学研究ビッグデータにおける人工知能技術の応用

数十年にわたる技術開発を経て、人工知能は新たな時代、つまり人工知能の時代に入りました。新しい時代を迎...

重複ページの検索エンジンアルゴリズム分析

検索エンジンは一般的に、各 Web ページに対して一連の情報フィンガープリントが計算されるという考え...

人工知能は10の新たな雇用を生み出す

25秒で何ができるでしょうか?人間の記者たちがまだショックを受けている間に、ロボットはデータマイニン...

...