この記事では、ニューラルネットワークBPアルゴリズムの原理とPythonでの実装について説明します。

私は最近、BP アルゴリズムを体系的に研究し、この研究ノートを書きました。私の能力が限られているため、明らかな間違いがある場合は、ご指摘ください。

勾配降下法と連鎖律とは何か

以下に示すような関数 J(w) があるとします。

勾配降下図

ここで、w がどの値に等しくなると J(w) が最小値に達するかを知りたいと思います。図から、最小値は初期位置の左側にあることがわかります。つまり、J(w) を最小化するには、w の値を減らす必要があります。初期位置での接線の傾きはa > 0（つまり、この位置に対応する導関数は0より大きい）であり、w = w – aはwの値を減らすことができます。J(w)が最小値に達するまで、導関数を繰り返してwを更新します。関数J(w)に複数の変数が含まれている場合、異なる変数の値を更新するために、異なる変数の偏微分を個別に計算する必要があります。

いわゆる連鎖律は、合成関数の導関数を求めることです。

チェーンルール

わかりやすくするために例を挙げてみましょう。

連鎖導出の例

ニューラルネットワークの構造

ニューラルネットワークは、左端の入力層、隠し層 (実際のアプリケーションでは複数の層があります)、右端の出力層の 3 つの部分で構成されます。層は線で接続されており、各接続線には対応する重み値 w があります。入力層を除いて、一般的に、各ニューロンには対応するバイアス b もあります。

入力層のニューロンを除いて、各ニューロンは加重和によって得られる入力値zと、シグモイド関数（活性化関数とも呼ばれる）を介してzが非線形変換された後の出力値aを持ちます。それらの計算式は次のとおりです。

ニューロン出力値aの計算式

式中の変数 l と j は l 層目の j 番目のニューロンを表し、ij は i 番目のニューロンから j 番目のニューロンへの接続を表し、w は重みを表し、b はバイアスを表します。以下の記号の意味はここで説明したものと大体同じなので、再度説明はしません。以下のGIFは、各ニューロンの入力値と出力値がどのように計算されるかをより明確にすることができます（ここでのGIFはバイアスを追加していませんが、使用中に追加されることに注意してください）

計算されたニューロン出力値を示すアニメーション

活性化関数を使用する理由は、線形モデル（線形不可分な状況を処理できない）では表現力が不十分であるため、通常はここでシグモイド関数を追加して非線形要素を追加し、ニューロンの出力値を取得する必要があります。

シグモイド関数の範囲は (0,1) であることがわかります。マルチ分類タスクの場合、出力層の各ニューロンはその分類の確率を表すことができます。もちろん、他にも活性化関数は存在し、それぞれに独自の用途、利点、欠点があります。

BPアルゴリズム実行のプロセス（順方向パスと逆方向更新）

BP アルゴリズムは、ニューラルネットワーク層の数、各層のニューロン数、および学習率 η (後述) を手動で設定した後、まず各接続線の重みとバイアスをランダムに初期化します。次に、トレーニングセット内の各入力 x と出力 y に対して、BP アルゴリズムはまず順方向伝送を実行して予測値を取得し、次に真値と予測値の誤差に基づいて逆方向フィードバックを実行して、ニューラルネットワーク内の各接続線の重みと各層の優先度を更新します。停止条件に達しない場合は上記のプロセスが繰り返されます。

停止条件は次の 3 つになります。

● 重量更新が一定の閾値を下回った場合
● 予測誤差率が一定の閾値を下回っている
● 事前に設定した反復回数に達する

たとえば、手書きの数字認識では、手書きの数字 1 の画像には 28*28 = 784 ピクセルが格納され、各ピクセルにはグレースケール値 (範囲は [0,255]) が格納されます。つまり、入力層には 784 個のニューロンがあり、出力層には 0 から 9 までの数字を表す 10 個のニューロンがあります。各ニューロンは 0 から 1 までの値を取り、画像がこの数字である確率を表します。

画像（つまりインスタンス）が入力されるたびに、ニューラルネットワークは順方向転送を実行し、出力層のニューロンの値を層ごとに計算し、どの出力ニューロンが最大の値を持っているかに基づいて、入力画像によって表される手書きの数字を予測します。

そして、出力ニューロンの値に基づいて予測値と真の値との誤差を計算し、逆フィードバックを使用してニューラルネットワーク内の各接続ラインの重みと各ニューロンの優先度を更新します。

フィードフォワード

入力層=>隠れ層=>出力層と、層ごとに全てのニューロンの出力値を計算する処理。

バックプロパゲーション

出力層の値と真の値の間には誤差があるため、平均二乗誤差を使用して予測値と真の値の間の誤差を測定することができます。

平均二乗誤差

逆フィードバックの目標は、E関数の値をできるだけ小さくすることです。各ニューロンの出力値は、ポイントの接続線に対応する重み値とレイヤーに対応する優先度によって決まります。したがって、エラー関数を最小化するには、wとbの値を調整してエラー関数を最小化する必要があります。

重みとバイアスの式を更新する

目的関数 E の w と b の偏微分を取ることで、w と b の更新された値を得ることができます。ここで、導出の例として w の偏微分を取り上げます。

ここで、η は学習率であり、通常は 0.1 ～ 0.3 の範囲にあり、各勾配が取るステップとして理解できます。 w_hj の値は、まず j 番目の出力層ニューロンの入力値 a に影響し、次に出力値 y に影響することに注意してください。連鎖律によれば、

連鎖律を使用して重みの偏微分を展開する

ニューロン出力値aの定義によれば、

関数zに対するwの偏微分を求める

シグモイド導関数の式は次のようになります。これを見ると、コンピューターで実装するのも非常に便利であることがわかります。

シグモイド関数の微分

それで

重みwの更新量は次のようになります。

同様に、b の更新量は次のとおりです。

しかし、この 2 つの式では、出力層と前の層の間の接続線の重みと出力層のバイアスしか更新できません。その理由は、δ 値は真の値 y に依存しますが、出力層の真の値しかわかっておらず、各隠れ層の真の値はわからないため、各隠れ層の δ 値を計算することができません。したがって、l+1 層の δ 値を使用して l 層の δ 値を計算したいと考えています。これは、一連の数学的変換を通じて実行できます。これが逆フィードバックという名前の由来です。式は次のとおりです。

この式から、前の層の δ 値を計算するには、次の層の重みとニューロン出力層の値を知るだけでよいことがわかります。上記の式を継続的に使用することで、隠れ層の重みとバイアスをすべて更新できます。

導出する前に、次の図を確認してください。

まず、層 l の i 番目のニューロンは層 l+1 のすべてのニューロンに接続されているので、δ を次の式に展開できます。

つまり、Eはl+1層のすべてのニューロンの入力値のz関数とみなすことができ、上式のnはl+1層のニューロンの数を表します。簡略化すると、上式が得られます。

ここでの導出プロセスでは重要な部分のみを説明します。また、機械学習におけるニューラルネットワークの部分や、周志華著の「ニューラルネットワークとディープラーニング」も参考にしました。

Pythonソースコード分析

ソースコードは、Michael Nielsen のディープラーニングオンラインチュートリアルから取得しました。

Python で実装したニューラルネットワークのコード行数は多くありません。Network クラスのみが含まれています。まずは、このクラスの構築方法を見てみましょう。

 def __init__( self 、 sizes ):
 「」
        :param sizes: リスト型。ニューラルネットワークの各層のニューロンの数を格納します。
                      例えば、sizes = [2, 3, 2]は入力層に2つのニューロンがあることを意味します。
                      隠れ層には3つのニューロンがあり、出力層には2つのニューロンがある。
        「」  
 # ニューラルネットワークの層は何層ありますか 
 self .num_layers = len(サイズ)
自己.sizes = サイズ
# 入力層を削除し、各層のyニューロンのバイアス値（0 - 1）をランダムに生成します 
 self.biases = [np.random.randn(y, 1 ) yがsizes[ 1 :]の場合]
 # 各接続ラインの重み値をランダムに生成します（0 - 1）  
自己重み = [np.random.randn(y, x)
 x, y がzip(sizes[:- 1 ], sizes[ 1 :])]の場合

FreedForward コード

defフィードフォワード( self , a):
 「」
        フォワードパスは各ニューロンの値を計算する
        :param a: 入力値
        :return: 計算後の各ニューロンの値
        「」  
 b、wがzip( self .biases、 self .weights) の場合:
 # 加重合計とバイアス 
            a = シグモイド(np.dot(w, a)+b)
返す

ソースコードでは、勾配降下法と同様の原理を持つ確率的勾配降下法 (SGD) を使用しています。違いは、確率的勾配降下法アルゴリズムでは、データセット内のサンプルの一部のみを使用して、各反復で w と b の値を更新することです。勾配降下法よりも高速ですが、必ずしも局所的最小値に収束するわけではなく、局所的最小値付近で推移する場合があります。

 def SGD( self , トレーニングデータ, エポック, ミニバッチサイズ, eta,
            test_data =なし):
 「」
        確率的勾配降下法
        :param training_data: 入力トレーニングセット
        :param epochs: 反復回数
        :param mini_batch_size: 小さなサンプルの数
        :param eta: 学習率
        :param test_data: テストデータセット
        「」  
 test_dataの場合: n_test = len(test_data)
        n = len(トレーニングデータ)
 xrange(エポック)内のjの場合:
 # トレーニングセットをシャッフルしてソート順を変更します 
            ランダムシャッフル(トレーニングデータ)
 # 小さなサンプルの数に応じてトレーニングセットを分割する 
            ミニバッチ = [
                トレーニングデータ[k:k+ミニバッチサイズ]
 kがxrange( 0 , n, mini_batch_size ) の場合]
 mini_batches内のmini_batchの場合:
 # 各小サンプルに基づいて w と b を更新します。コードは次の段落にあります。  
自己.update_mini_batch(mini_batch, eta)
 # 各テストラウンドの後にニューラルネットワークの精度を出力する 
 test_dataの場合:
印刷  "エポック {0}: {1} / {2}" .format(
                    j、自己評価(test_data)、n_test)
それ以外：
印刷  「エポック {0} が完了しました」 .format(j)

バックプロパゲーション法で得られた偏微分に応じてwとbの値を更新します。

 def update_mini_batch( self , mini_batch, eta):
 「」
        wとbの値を更新する
        :param mini_batch: サンプルの一部
        :param eta: 学習率
        「」  
 # バイアスと重みの行と列の数に応じて、すべての要素の値が0に設定された空の行列を作成します 
        nabla_b = [np.zeros(b.shape) bの場合 自己偏見]
        nabla_w = [np.zeros(w.shape) wの場合 自己重み]
 mini_batchのx、yについて:
 # サンプル内の各入力xに対する出力yに基づいてwとbの偏微分を計算する 
            delta_nabla_b、delta_nabla_w = self.backprop (x, y)
 # 偏微分 delta_nabla_b と delta_nabla_w を累積して保存します 
            nabla_b = [nb+dnb (nbの場合、dnbはzip(nabla_b、delta_nabla_b)]
            nabla_w = [nw+dnw (nwの場合、dnwは zip内)(nabla_w、delta_nabla_w)]
 # 累積偏微分に従ってwとbを更新します。ここでは小さなサンプルを使用しているため、  
 # したがって、ηは小さなサンプルの長さで割る必要があります 
自己.weights = [w-(eta/len(mini_batch))*nw
 w 、nwをzip( self .weights、 nabla_w)]
自己バイアス = [b-(eta/len(mini_batch))*nb
 bの場合、nbはzip( self .biases, nabla_b)]

次のコードはソースコードのコア部分であり、順方向伝送と逆方向フィードバックを含む BP アルゴリズムの実装です。順方向伝送には、ネットワーク内の単一のメソッド (上記のフィードフォワードメソッド) があり、トレーニングされたニューラルネットワークの精度を検証するために使用されます。このメソッドについては、以下で説明します。

 def backprop( self , x, y):
 「」
        :パラメータx:
        :パラメータy:
        ：戻る：
        「」  
        nabla_b = [np.zeros(b.shape) bの場合 自己偏見]
        nabla_w = [np.zeros(w.shape) wの場合 自己重み]
 # 前方送信 
        活性化 = x
 # 各層のニューロンの値を格納する行列。次のループは各層のニューロンの値を追加します 
        アクティベーション = [x]
 # シグモイド計算の前に各ニューロンの値を保存します 
        zs = []
 b、wがzip( self .biases、 self .weights) の場合:
            z = np.dot(w, 活性化)+b
            zs.append(z)
            活性化 = シグモイド(z)
            アクティベーション.append(アクティベーション)
 # δの値を求める 
        デルタ =自己.cost_derivative(アクティベーション[- 1 ], y) * \
            シグモイドプライム(zs[- 1 ])
        nabla_b[- 1 ] = デルタ
# 前のレイヤーの出力値を掛ける 
        nabla_w[- 1 ] = np.dot(デルタ、アクティベーション[- 2 ].transpose())
 xrange( 2 , self.num_layers )内のlの場合:
 # 最後から **l** 番目のレイヤーから更新を開始します。**-l** は、最後から l 番目のレイヤーから計算を開始することを示す Python の特別な構文です。  
 # ここでは**l+1**層のδ値を使用して**l**のδ値を計算します 
            z = zs[-l]
            sp = シグモイドプライム(z)
            デルタ = np.dot( self .weights[-l+ 1 ].transpose(), デルタ) * sp
            nabla_b[-l] = デルタ
            nabla_w[-l] = np.dot(デルタ、アクティベーション[-l- 1 ].transpose())
戻り値(nabla_b, nabla_w)

次のステップは、評価を実装し、フィードフォワードメソッドを呼び出して、トレーニングされたニューラルネットワークの出力層ニューロン値 (つまり、予測値) を計算し、正しい値と予測値を比較して精度を取得することです。

 defevaluate ( self , test_data):自己を評価する:
 # 予測結果を取得する 
       test_results = [(np.argmax( self .feedforward(x)), y)
 (x, y)が test_dataにある場合]
 # 正しく識別された数を返す 
 test_results内の(x, y)に対して、 int( x == y ) の合計を返します。

最後に、このソースコードを使用して、手書き数字認識用のニューラルネットワークをトレーニングし、評価結果を出力します。コードは次のとおりです。

 mnist_loaderをインポートする
インポートネットワーク
 
トレーニングデータ、検証データ、テストデータ = mnist_loader.load_data_wrapper()
ネット = ネットワーク.ネットワーク([ 784 , 30 , 10 ])
 net.SGD (トレーニングデータ、 30、10、3.0 、テストデータ =テストデータ)
 # 出力結果 
 # エポック 0: 9038 / 10000  
 # エポック 1: 9178 / 10000  
 # エポック 2: 9231 / 10000  
 # ...  
 # エポック 27: 9483 / 10000  
 # エポック 28: 9485 / 10000  
 # エポック 29: 9477 / 10000