信号解析の観点から畳み込みニューラルネットワークの複雑なメカニズムを理解するにはどうすればよいでしょうか?

複雑かつ効率的なニューラルネットワークアーキテクチャの出現により、畳み込みニューラルネットワーク (CNN) のパフォーマンスは、SIFT や SURF などの従来のデジタル画像処理手法を超えています。コンピュータービジョンの分野では、学者たちは研究の焦点を CNN に移し始め、CNN がこの分野の将来のトレンドであると信じていました。しかし、CNN の驚異的な成功の背後にあるメカニズムについては、あまり理解されていません。 CNN の動作メカニズムの研究は、現在注目されている話題です。基本的に、1>最適化、2>近似、3>信号という3つの主流のビューがあります。最初の 2 つの観点は主に、ニューラルネットワークの統計特性と収束を分析しようとする純粋な数学的分析に焦点を当てていますが、3 番目の観点は、次の質問に対処しようとする試みを示しています。1) 非線形活性化関数がすべての中間層のフィルター出力に不可欠なのはなぜですか? 2) 単層システムに対する 2 層カスケードシステムの利点は何ですか?

球面上の補正相関 (RECOS)

周知のとおり、フィードフォワードニューラルネットワーク (FNN) は、有限数のニューロンを含む単一の隠し層を与えられた任意の連続関数を近似できる汎用近似器として考えることができます。 FNN の特別な点は、ニューロンの非線形活性化関数です。一部のニューラルネットワークは大規模で深いですが、非線形活性化関数がなければ、その複雑なアーキテクチャの効果は、入力を別の出力空間にマッピングする単純な単層線形モデルと変わりません。具体的には、非線形活性化関数によって学習された入力表現のセットは、実用的な問題を解決するのにより適しています。

CNN は、FNN または MLP (多層パーセプトロン) の別のタイプです。 CNN の非線形性を分析するために、著者らは CNN の動作を理解するための数学モデルを提案しました。このモデルでは、CNN は「球面の補正相関 (RECOS)」を計算する基本的なオペレーティングユニットで構成されたネットワークとして見られます。そのため、RECOS モデルと呼ばれます。 CNN のトレーニング中、カーネルの重みは最初に初期化され、次に勾配降下法とバックプロパゲーションアルゴリズムによって調整されます。 RECOS モデルでは、重みは入力データのクラスタリングにおける役割を示すためにアンカーベクトルと呼ばれます。つまり、入力ベクトルとアンカーベクトル間の相関を計算し、それらの類似性を測定しようとします。

非線形活性化関数を使用する理由は何ですか?

すべてのピクセルの相互作用を 1 つのステップでのみ考慮する MLP とは異なり、CNN は入力画像を特定のレイヤーのノードの受容野と呼ばれる小さなパッチに分解します。アルゴリズムは、より大きな画像をカバーできるように受容野のサイズを徐々に拡大します。ニューロンは入力ベクトルとそのアンカーベクトル間の相関を計算し、それらの類似性を測定します。各 RECOS ユニットには K 個のニューロンがあります。モデルは Y = AX として表されます。ここで、X は入力ベクトル、Y は出力ベクトル、A はアンカーベクトル (カーネルフィルターの重み行列) です。この式は、CNN が入力を別の空間にマッピングする方法を表します。 RECOS モデルを研究することで、学習されたカーネルの重みは類似のオブジェクトを同じ領域にマッピングする傾向があることがすぐにわかります。たとえば、x_i と x_j のユークリッド距離が近い場合、対応する出力 y_i と y_j も新しい空間内で近い必要があります。猫の特徴を捉えるために使用されるフィルターの場合、学習されたアンカーベクトル A は、猫の特徴を表すすべてのベクトル X_cat を Y_cat にマッピングしますが、犬の特徴を表すその他のベクトル X_dog や車の特徴を表す X_car はこの領域には決して表示されません。これが、CNN がさまざまなオブジェクトの識別に効果的である理由です。

しかし、なぜ非線形活性化関数を使用する必要があるのでしょうか? 上の 2 つの画像 (左) は元の猫の画像、(右) は左の画像のネガです。人間の視点から判断すると、2 つの画像は同一である場合もありますが、異なる場合もあります。両方の写真の猫は同じ猫であり、負の相関関係にあると結論付けることができます。黒猫は単純に白猫の画像のピクセル値から255を引いたものだからです。それで、CNN はこの 2 匹の猫をどうやって理解したのでしょうか?

上の図から、非線形活性化関数を使用する必要性がわかります。 X は入力ベクトル、a_1、a_2、a_3 はそれぞれ異なる学習されたアンカーベクトルです。 RECOS モデルでは、線形演算 Y = AX を使用して、入力ベクトルとアンカーベクトル間の類似性を測定します。したがって、アンカーベクトル a_1 と a_3 の場合、x と 2 つのアンカーベクトルの類似性は大きさは同じですが、符号が反対であることがわかります。この時点で、猫は CNN とは異なります。しかし、たとえば 2 つの畳み込み層を持つ LeNet5 では、元の入力 x が 2 つの層を通過した後、最終的な出力結果が混乱します。非線形活性化関数のないシステムでは、次の 2 つのケースを正しく区別できません。1) 最初の層の正の応答が 2 番目の層の負のフィルター重みに遭遇する。2) 最初の層の負の応答が 2 番目の層の正のフィルター重みに遭遇する。ただし、非線形活性化関数を使用することで、CNN は負の値の影響を簡単に排除できるため、堅牢なシステムを実現できます。

さらに、著者は興味深い実験を行い、その結果は以下のとおりです。

MNIST トレーニングセットを使用して LeNet-5 ネットワークをトレーニングし、MNIST テストセットで 98.94% の正しい認識率を達成しました。次に、図 5 に示すように、この LeNet-5 ネットワークをグレースケール反転テスト画像に適用します。正解率は37.36%に低下しました。次に、ネットワークの残りの部分は変更せずに、conv1 内のすべてのフィルターの重みを負の値に変更します。わずかに修正された LeNet-5 ネットワークは、グレースケール反転テストセットで 98.94% の正しい認識率を達成しましたが、元のテストセットの精度は 37.36% に低下しました。

ご覧のとおり、最初の畳み込み層のすべてのフィルター重みを変更すると、対称的な結果が得られます。この結果は、活性化関数の導入により負の相関が排除されることを示しています。グレースケール反転画像の特徴を学習する際に、元の画像のアンカーベクトルを保持するだけでなく、グレースケール反転画像のアンカーベクトルも追加すると、両方のテストセットで高い認識結果を達成できます。

カスケードレイヤーの利点は何ですか?

一般的に言えば、CNN レイヤーの数が深くなるにつれて、カーネル関数は以前のすべてのカーネル関数の出力に基づいて独自の抽象的な特徴を構築しようとします。したがって、浅いレイヤーと比較して、深いレイヤーはグローバルなセマンティクスと高レベルの機能をキャプチャできます。 RECOS モデルでは、CNN は類似性の測定に類似した一連の非線形変換を使用して、類似の入力データをレイヤーごとにクラスタ化します。出力層は、すべての可能な決定の可能性（オブジェクトのクラスなど）を予測します。トレーニングサンプルには、画像とその決定ラベルの関係が含まれており、CNN がより適切なアンカーベクトルを生成し (より優れたクラスタリングを形成)、最終的にクラスタリングデータを決定ラベルにリンクするのに役立ちます。

上の図はディープネットワークの有効性を示しています。実験の詳細は次のとおりです。

これを例で説明してみましょう。まず、MNIST データセット内の元の手書き数字に 10 種類の異なる背景をランダムに追加して、MNIST のトレーニングセットとテストセットを変更します。上記の 3 行の画像では、各行の左端の列には 3 つのデジタル画像入力が示され、中央の列にはそれぞれ畳み込み層と ReLU 層からの 6 つのスペクトル画像出力が示され、右端の 2 列にはそれぞれ畳み込み層と ReLU 層からの 16 のスペクトル画像出力が示されます。背景の多様性のため、最初のレイヤーに適したアンカーベクトルマトリックスを見つけるのは困難です。ただし、これらの画像の背景は空間領域では一貫していませんが、前景の数は一貫しています。

さまざまな変形された背景に対して、CNN は代表的なパターンをうまくキャプチャします。最初のレイヤーには冗長で無関係な情報が多数含まれていることに注目してください。カスケードレイヤーで特徴抽出を適用することで、CNN はローカルの詳細ではなくグローバルなスタイルを学習します。つまり、入力ベクトル x に対して、RECOS 変換は K 次元の出力ベクトルとして、K 個の非負相関値のセットを生成します。このアプローチでは、レイヤーごとに繰り返しクラスタリングを実現します。最後に、トレーニング画像のラベルは、CNN が異なる背景の画像内で同じパターンを見つけるのに役立ちます。

上記の分析から、畳み込み層モデルは特徴を自動的に選択するのに非常に有用であることがわかります。人間の介入なしに、入力データの類似性を測定し、異なる領域にクラスタリングできます。

では、完全に接続された層の役割は何でしょうか?

通常、CNN は、特徴抽出 (FE) サブネットワークと意思決定 (DM) サブネットワークの 2 つのサブネットワークに分解されます。 FE サブネットワークは複数の畳み込み層で構成され、DM サブネットワークは複数の完全接続層で構成されます。つまり、FE サブネットワークは一連の RECOS 変換を経て、クラスタリングのための新しい表現を形成します。 DM サブネットワークはデータ表現と決定ラベルをリンクし、その役割は分類における MLP の役割に似ています。

この時点で、CNN はコンピュータービジョンにおける従来の機械学習アルゴリズムよりもはるかに優れていると結論付けることができます。 CNN は自動的に特徴を抽出し、その特徴に基づいて入力データを分類することを学習できますが、ランダムフォレスト (RF) とサポートベクターマシン (SVM) は操作が難しいことが多い特徴エンジニアリングに大きく依存しているためです。

結論は

要約すると、RECOS モデルは、信号解析の観点から畳み込みニューラルネットワークを分析します。この観点から、活性化関数とディープアーキテクチャの有効性がわかります。ただし、ネットワークアーキテクチャの設計、弱教師あり学習、誤ったラベルに対する堅牢性、データセットのバイアスと過剰適合の問題など、次の側面については、まだ詳細に研究する必要があります。

<<: ディープラーニングを専門家以外の人に説明するにはどうすればよいでしょうか?

>>: 触覚を感知し、自己治癒するロボットが現実になりつつある