位相データ解析を使用して畳み込みニューラルネットワークモデルの動作プロセスを理解する

1. はじめに

ニューラルネットワークは、画像、テキスト、時系列などのさまざまなデータの処理において大きな成功を収めています。しかし、学界と産業界の両方が直面している問題は、動作プロセスを詳細に理解できず、その効果を合理的な説明なしに実験でしかテストできないことです。関連する問題として、特定のデータセットに過剰適合することが多く、敵対的な行動の可能性につながることが挙げられます。これらの理由から、ニューラルネットワークの内部状態をある程度理解するための方法を開発することは、試してみる価値が非常にあります。ネットワーク内のニューロンの数が非常に多いため、特に教師なしデータ分析ではデータ分析が困難になります。

この記事では、トポロジカルデータ分析を使用して畳み込みニューラルネットワーク (CNN) の動作を理解する方法について説明します。この記事の例は、画像データセットでトレーニングされたネットワークのみを対象としていますが、トポロジカルモデリングによって、他の多くの分野での畳み込みネットワークの動作を簡単に説明できると確信しています。

まず、ニューラルネットワークは一般にノードと有向エッジで構成されます。一部のノードは入力ノードとして指定され、他のノードは出力ノードとして指定され、残りのノードは内部ノードとして指定されます。入力ノードはデータセットの特徴です。たとえば、画像を処理する場合、入力ノードは特定の画像形式のピクセルになります。テキスト分析では、単語になる場合があります。手書き数字の MNIST データセットなどのデータセットと分類問題が与えられ、各画像を 0 から 9 までの数字のいずれかに分類しようとしているとします。ネットワークの各ノードは変数値（活性化値）に対応します。したがって、各データポイントは、ニューラルネットワーク内の各内部ノードと出力ノードに対して値を生成します。ネットワークの各ノードの値は、各エッジに割り当てられた重みのシステムによって決定されます。ノード Z の値は、それに接続されているノード A、B、C、および D の活性化関数によって決まります。

図1. ニューラルネットワークノードの例

4 つのエッジに割り当てられた重みに基づいて、右端のノード Z のアクティベーション値が計算されます。考えられる関数形式は

ここで、wA、wB、wC、wD はエッジ AZ、BZ、CZ、DZ の重み値であり、xA、xB、xC、xD はそれぞれノード A、B、C、D でのアクティブ化値です。値は通常 0 から 1 の範囲で、通常は単調です。重みの選択は出力関数を通じて最適化されます。入力に対して特定の出力関数 (コスト関数または損失関数) が指定されると、最適化プロセスを使用して、指定された出力関数に最も適合するようにすべての重みが選択されます。この点に関心のある読者は、勾配降下アルゴリズムとバックプロパゲーションアルゴリズムに関する関連情報を参照してください。

2. トレーニングネットワークの重みを理解する

画像処理の分野で大きな成果を上げているニューラルネットワークの一種に、畳み込みニューラルネットワークがあります。この場合、入力ノードは、画像を構成するデータのピクセルマトリックスに対応する正方グリッドに配置されます。ネットワークモデルは一連の層で構成され、各層は接続されています。つまり、i 番目の層のノードは (i + 1) 番目の層のノードに接続されています。一般的なニューラルネットワークとは異なり、典型的な畳み込みニューラルネットワークは、畳み込み層、プーリング層、および全結合層で構成されています。畳み込み層は主に画像の特徴を抽出するために使用され、プーリング層は特徴の次元を削減するために使用され、全結合層は分類の目的で使用されます。層間の処理により、特徴マップはますます小さくなります。これは図からもわかります。

図2 畳み込みニューラルネットワークの典型的な構造

畳み込みニューラルネットワークの基本的な動作を理解するには、重み行列を理解する必要があります。各データポイントが、非表示層のニューロンに関連付けられた重み行列であるデータセットを想定します。固定レイヤーのすべてのグリッドからデータを収集し、同じデータセットで同じネットワークモデルを何度もトレーニングします。 ***、重み行列に対してトポロジカルデータ分析を実行します。

重み行列に対して TDA を実行することで、畳み込みニューラルネットワークの動作を直接理解し、畳み込みニューラルネットワークが自然画像に発生する潜在分布を完全に表現していることを独自に実証できます。これはどのように行われるのでしょうか?

まず、位相的な観点から有用な構造を見つける必要があります。この目標を達成するには、十分に高い密度を持つポイントのみが考慮されます。まず、図 3 に示すトポロジモデルを生成する 2 層畳み込みニューラルネットワークの最初の畳み込み層を見てみましょう。

図3 フィルターの密度に応じて色分けされたTDA Mapperモデル

図からわかるように、モデルは循環的です。右側に表示されるバーコードは永続的な相同性バーコードであり、これはトポロジ形状のシグネチャであり、データセットが実際にこの形状を持ち、Mapper を使用してモデルを構築した構造ではないことを示しています。形状の解釈は、モデルの各部分に、対応する重みマトリックスの平均値のラベルを付けることによって、画像にも表示されます。さらに、このモデルの興味深い点は、グレースケールの自然画像で 3×3 のパッチを数える研究で発見されたものが、いわゆる一次視覚野で発見されたものとまったく同じであることです。

もっと簡単に言えば、トポロジカルモデルは、CNN が人間の世界の見方と一致し、自然画像の密度分析と一致することを独立して確認できるような方法で CNN を記述します。

図 3 の分析は MNIST データセットに対して実行され、CIFAR 10 データセットに対して実行された関連分析では次の図が得られました。

図 4: CIFAR 10 データセットの追加の複雑さが水平線と垂直線で示されています。

上の図は、最初の畳み込み層を分析しています。モデルには、領域の中央と端に線が含まれています。これらの線ブロックが観察されるニューロンは哺乳類の一次視覚皮質にも存在し、視覚に関連する質的側面に関する定量的な視点を提供します。

3. トレーニング中に重量がどのように変化するかを理解する

上記の調査結果から、TDA を使用すると、畳み込みニューラルネットワークが自然画像内のデータセットの分布を模倣できるため、学習プロセス中に何が起こるかを研究することに注意を向けることができることがわかります。図 5 は、CIFAR10 データセット上の畳み込みニューラルネットワークの第 1 層と第 2 層のトポロジモデルを計算し、異なる学習反復回数でモデルの第 1 層と第 2 層を表示することによって得られます。

図5 ニューラルネットワークモデルの各段階のトポロジカルモデル

モデルが何を実行しているかに関する情報を得るために、モデルは色分けされています。色はノード内のデータポイントの数を反映しているため、赤い部分は実際のモデルと見なすことができ、残りの部分には発生頻度の低い重みマトリックスが含まれています。

画像の最初の行は最初のレイヤーの情報を反映しており、最適化アルゴリズムが 400 回と 500 回の反復後に上記の円形モデルをすばやく見つけていることがわかります。しかし、反復が進むにつれて、円は水平パッチと垂直パッチに対応するパッチを含めてより複雑になり、1000 回の反復後にはモデルの中心がより複雑になりました。一方、2 番目のレイヤーについては、最初の反復ラウンドでは弱いパターンしか存在しないことがわかりますが、2000 回の反復後には、明確に定義された円形モデルが存在するように見えます。私たちは、第 2 層が第 1 層を「引き継いで」、より複雑なパッチをキャプチャするようになったと仮定しています。これは、将来の研究の可能性がある領域です。これは、トポロジカルデータ分析を使用してニューラルネットワークの学習プロセスを監視し、そのプロセスに関する洞察を提供する能力も実証しています。

4. 高レベルの重み行列

このアプローチは、人間や霊長類の視覚経路の構成に似た方法で構成されたより深いネットワークにも有効です。この経路には、網膜を含む多くの構成要素と、さまざまな高次構成要素があることが理解されるであろう。一次視覚野はエッジと線の検出器として機能し、より高次の構成要素はより抽象的で複雑な形状を検出するために使用されます。下の図は、トレーニングされた VGG 16 ネットワークの各レイヤーを調査した結果を示しています。ここでは、2番目から13番目の畳み込み層のトポロジカルデータ解析を示し、対応するトポロジカルモデルを示します。

図6 トポロジカルデータ分析によって表現された13層ニューラルネットワーク

2 番目と 3 番目のレイヤーは、MNIST データセットでトレーニングされたモデルで取得された円形パターンと明らかに非常に類似していることに注意してください。 4 番目のレイヤーには円形のモデルがありますが、背景にはいくつかの線も含まれています。しかし、より高いレベルでは、線の交差や「ブルズアイ」など、非常に興味深いパターンが発生します。

これらのトポロジモデルから、畳み込みニューラルネットワークは現実世界のデータセットの分布を模倣できるだけでなく、哺乳類の視覚皮質の発達をシミュレートできることがわかります。

畳み込みニューラルネットワークは理解するのが難しいブラックボックスのようなものですが、トポロジカルデータ分析により、ニューラルネットワークでの計算がマクロスケールでどのように実行されるかを理解できるようになります。この研究は画像データセットに適用されますが、他の分野のニューラルネットワークの計算を説明するためにトポロジカルデータ分析を使用することも同様に適用できます。

トポロジカルデータ分析は、多数の状態をより小さく理解しやすいモデルに圧縮することで、さまざまなニューラルネットワークの動作と機能を理解するために使用できます。

著者: Gunnar Carlsson、機械学習研究者

<<: ロボットもこのように遊べるのでしょうか？自分の目で確認したら、これが私の欲しいロボットだ！

>>: 一貫性のあるハッシュは難しいですか?これを読んで全て理解できました