わずか6ステップで機械学習アルゴリズムをゼロから実装

機械学習アルゴリズムをゼロから作成することで、多くの経験が得られます。ようやく読み終えたとき、嬉しい驚きを感じ、何が起こっているのか理解できます。

一部のアルゴリズムはより複雑なので、単純なアルゴリズムから始めるのではなく、単層パーセプトロンなどの非常に単純なアルゴリズムから始める必要があります。

この記事では、パーセプトロンを例に、アルゴリズムをゼロから作成するための次の 6 つの手順を説明します。

アルゴリズムの基礎知識を持っている
さまざまな学習リソースを見つける
アルゴリズムをチャンクに分割する
簡単な例から始めましょう
信頼できる実装で検証する
プロセスを書き留める

1. 基本的な理解

基礎を理解しなければ、アルゴリズムをゼロから取り組むことはできません。少なくとも、次の質問に答えられる必要があります。

それは何ですか？
一般的にどこで使われていますか?
いつ使用してはいけないのでしょうか?

パーセプトロンの観点から見ると、これらの質問に対する答えは次のようになります。

単層パーセプトロンは最も基本的なニューラルネットワークであり、通常はバイナリ分類問題 (1 または 0、「はい」または「いいえ」) に使用されます。
これは、感情分析 (肯定的な反応または否定的な反応)、ローンのデフォルト予測 (「デフォルトする」、「デフォルトしない」) などの簡単な場所に適用できます。どちらの場合も、決定境界は線形です。
決定境界が非線形の場合、パーセプトロンは使用できず、別のアプローチを使用する必要があります。

2. さまざまな学習リソースを活用する

モデルの基本を理解したら、調査を開始できます。教科書でよりよく学習できる人もいれば、ビデオでよりよく学習できる人もいます。個人的には、いろいろなところを動き回って、さまざまなリソースから学ぶのが好きです。

数学的な詳細を学びたい場合、書籍は非常に効果的です（参照：

https://www.dataoptimal.com/data-science-books-2018/ などですが、より実践的な例については、ブログや YouTube 動画をお勧めします。

パーセプトロンに関する優れたリソースをいくつか紹介します。

本：

統計学習の要素、セクション 4.5.1 (https://web.stanford.edu/~hastie/Papers/ESLII.pdf)
「機械学習の理解: 原理からアルゴリズムまで」、セクション 21.4 (https://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/understanding-machine-learning-theory-algorithms.pdf)

ブログ:

Jason Brownlee による Python でパーセプトロンアルゴリズムをゼロから実装する方法
Sebastian Raschka による「単層ニューラルネットワークと勾配降下法」(https://sebastianraschka.com/Articles/2015_singlelayer_neurons.html)

ビデオ：

パーセプトロントレーニング
パーセプトロンアルゴリズムの仕組み (https://www.youtube.com/watch?v=1XkjVl-j8MM)

3. アルゴリズムをチャンクに分割する

材料が集まったので、学習を始めましょう。章やブログの投稿を最初から読むのではなく、まず章の見出しやその他の重要な情報をざっと読みます。要点を書き留めて、アルゴリズムの概要を説明してください。

この資料を読んだ後、私はパーセプトロンを次の 5 つのモジュールに分割しました。

重みを初期化する
入力と重みを掛け合わせて合計する
上記の結果を閾値と比較し、出力（1または0）を計算します。
重みを更新
繰り返す

次に、各モジュールの内容について詳しく説明します。

1. 重みを初期化する

（１）まず重みベクトルを初期化する必要がある。

重みの数は特徴の数と同じである必要があります。 3 つの特徴があり、重みベクトルが以下に示すとおりであるとします。重みベクトルは通常 0 に初期化され、この例ではこの初期化値が使用されます。

（２）入力と重みを掛け合わせて合計する

次に、入力と重みを掛け合わせて合計する必要があります。理解しやすくするために、最初の行の重みとそれに対応する特徴を色分けしました。

特徴と重みを掛け合わせた後、その積を合計します。これは一般にドット積と呼ばれます。

最終結果は 0 であり、この一時的な結果を表すために「f」が使用されます。

（３）閾値と比較する

ドット積を計算した後、それをしきい値と比較します。しきい値を 0 に設定しましたが、このしきい値を使用することも、他の値を試すこともできます。

以前に計算されたドット積「f」は 0 であり、しきい値 0 より大きくないため、推定値も 0 になります。

推定値に「y ハット」というラベルを付けます。ここで、y ハットの下付き文字 0 は最初の行に対応します。もちろん、最初の行を表すために 1 を使用することもできますが、どちらでも構いません。私は 0 から開始することを選択しています。

この結果を実際の値と比較すると、現在の重みでは実際の出力を正しく予測していないことがわかります。

予測が間違っていたため、重みを更新する必要があります。これが次のステップにつながります。

（4）重みを更新する

次の式を使用します。

基本的な考え方は、反復「n」で現在の重みを調整して、次の反復「n+1」で新しい重みを取得することです。

重みを調整するには、ギリシャ文字の「エータ（η）」で表される「学習率」を設定する必要があります。学習率は 0.1 に設定しましたが、しきい値と同様に、異なる値を使用できます。

このチュートリアルでは現在、次の内容を取り上げています。

ここで、反復 n = 2 の新しい重みの計算に進みます。

パーセプトロンアルゴリズムの最初の反復を正常に完了しました。

（５）繰り返し

アルゴリズムが正しい出力を計算できなかったため、続行する必要があります。

通常、多数の反復が必要になります。データセットの各行を反復処理し、各反復で重みを更新します。一般的に、データセットの完全な走査は「エポック」と呼ばれます。

データセットには 3 行あるため、1 エポックを完了するには 3 回の反復が必要です。 30 回の反復 (または 10 エポック) を指定するなど、アルゴリズムを実行するための反復またはエポックの合計数を設定することもできます。しきい値や学習率と同様に、エポックは自由に使用できるパラメーターです。

次の反復では、2 行目の機能を使用します。

計算プロセスはここでは繰り返されません。次の図は、次のドット積の計算を示しています。

次に、このドット積をしきい値と比較して新しい推定値を計算し、重みを更新して続行できます。データが線形に分離可能な場合、パーセプトロンは最終的に収束します。

5. 簡単な例から始める

アルゴリズムを細分化したので、コードで実装を開始できます。

物事をシンプルにするために、私は通常、非常に小さな「おもちゃのデータセット」から始めます。この種の問題に適した、線形に分離可能な小さなデータセットは NAND ゲートです。これはデジタル回路でよく使われる論理ゲートです。

このデータセットは小さいので、手動で Python に入力できます。モデルがバイアスを計算できるように、値が 1 のダミー特徴量「x0」の列を追加しました。バイアス項は、モデルが正しく分類することを促す傾向がある切片項と考えることができます。

データを入力するためのコードは次のとおりです。

 # ライブラリのインポート
# NANDゲート
# 注: x0 はバイアス項のダミー変数です
# x0 x1 x2
 x = [[1., 0., 0.],
     [1., 0., 1.],
     [1., 1., 0.],
     [1.、1.、1.]] 
 
 y =[1.,
    1.、
    1.、
    0.]

前の章と同様に、アルゴリズムをステップごとに実行し、コードを記述してテストします。

1. 重みを初期化する

最初のステップは重みを初期化することです。

 # 重みを初期化する
numpyをnpとしてインポートする
w = np .zeros(len(x[0]))

外：
 [ 0. 0. 0.]

重みベクトルの長さは特徴の長さと一致する必要があることに注意してください。 NAND ゲートを例にとると、その長さは 3 です。

2. 重みと入力を掛け合わせて合計する

この操作は、Numpy の .dot() メソッドを使用して簡単に実行できます。

重みベクトルと特徴の最初の行のドット積から始めます。

 # ドット積
f = np .dot(w, x[0])
印刷f

外：
 0.0

予想通り、結果は0です。前の注記との一貫性を保つために、ドット積を変数「f」とします。

3. 閾値と比較する

前のテキストとの一貫性を保つために、しきい値「z」は 0 に設定されています。ドット積「f」が 0 より大きい場合、予測値は 1 になり、それ以外の場合、予測値は 0 になります。予測値を変数yhatに設定します。

 # 活性化関数
0.0 ...
 f > zの場合:
 yhat = 1 です。
それ以外：
 yhat = 0 です。 
 
印刷する

外：
 0.0

予想通り、予測値は 0 です。

上記のコード内のコメントでは、このステップが「アクティベーション関数」と呼ばれていることに気付いたかもしれません。このセクションの内容についてのより正式な説明は次のとおりです。

NAND 出力の最初の行から、実際の値は 1 であることがわかります。予測値が間違っているため、重みをさらに更新する必要があります。

4. 重みを更新する

予測が行われたので、重みを更新する準備が整いました。

 # 重みを更新する
η = 0.1
 w[0] = w[0] + eta*(y[0] - yhat)*x[0][0]
 w[1] = w[1] + eta*(y[0] - yhat)*x[0][1]
 w[2] = w[2] + eta*(y[0] - yhat)*x[0][2] 
 
印刷w

外：
 [ 0.1 0. 0. ]

学習率を前と同じように設定します。前のテキストと一貫性を保つために、学習率 η の値は 0.1 に設定されています。読みやすくするために、各重みの更新をハードコードします。

重量の更新が完了しました。

5. 繰り返し

各ステップが完了したので、それらをまとめることができます。

まだ説明していない最後のステップは損失関数です。これを最小化する必要があります。この場合は、二乗誤差項の合計です。

これを使用してエラーを計算し、モデルのパフォーマンスを確認します。

すべてをまとめると、完全な関数は次のようになります。

 numpyをnpとしてインポートする
 
 
 # パーセプトロン関数
パーセプトロンの定義(x, y, z, eta, t):
    '''
    入力パラメータ:
        x: 入力特徴のデータセット
        y: 実際の出力
        z: 活性化関数の閾値
        eta: 学習率
        t: 反復回数
    ''' 
 
    # 重みの初期化
w = np .zeros(len(x[0]))
 0の場合                          
 
    # 二乗誤差の合計を計算するための追加パラメータを初期化する
yhat_vec = np .ones(len(y)) # 予測用のベクトル
errors = np .ones(len(y)) # エラーのベクトル (実際 - 予測)
 J = [] # SSEコスト関数のベクトル
 
    一方、n <   t: for i in xrange(0, len(x)): # ドット積f = np .dot(x[i], w) # 活性化関数 if f > = z:
 yhat = 1 です。
            それ以外：
 yhat = 0 です。
            yhat_vec[i] = yhat 
 
            # 重みの更新
            xrange(0, len(w))内のjの場合:
                w[j] = w[j] + η*(y[i]-yhat)*x[i][j] 
 
        1 + = 1
        # 二乗誤差の合計を計算する
        iがxrange(0,len(y))内にある場合:
           エラー[i] = (y[i]-yhat_vec[i])**2
        J.append(0.5*np.sum(エラー)) 
 
    w, Jを返す

完全なパーセプトロンコードを記述したので、実行してみましょう。

 # x0 x1 x2
 x = [[1., 0., 0.],
     [1., 0., 1.],
     [1., 1., 0.],
     [1.、1.、1.]] 
 
 y =[1.,
    1.、
    1.、
    0.] 
 
 0.0 ...
 η = 0.1
 t = 50   
 
 print "重みは次のとおりです:"
パーセプトロン(x, y, z, eta, t)[0]を印刷する
 
 print "エラーは次のとおりです:"
パーセプトロン(x, y, z, eta, t)[0]を印刷する

6 回目の反復でエラーが 0 に近づき、残りの反復では 0 のままであることがわかります。誤差が 0 に近づき、0 のままになると、モデルは収束したことになります。これは、モデルが適切な重みを正しく「学習」したことを示しています。

次の部分では、計算された重みを使用して、より大きなデータセットで予測を行います。

5. 信頼できる実装で検証する

これまで、さまざまな学習リソースを見つけ、アルゴリズムを手動で実行し、簡単な例でアルゴリズムをテストしてきました。

ここで、モデルを信頼できる実装と比較してみましょう。 scikit-learnのパーセプトロンを使用します

(http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html)。

次の手順で比較します。

データのインポート
データをトレーニングセットとテストセットに分割する
パーセプトロンのトレーニング
パーセプトロンのテスト
scikit-learn パーセプトロンとの比較

1. データのインポート

まずデータをインポートします。ここで

データセットのコピーを取得します。これは、パーセプトロンが機能することを確認するために作成した線形分離可能なデータセットです。確認のため、データもプロットしました。

グラフから、データを直線で分離できることが簡単にわかります。

 pandasをpdとしてインポートする
numpyをnpとしてインポートする
matplotlib.pyplot を plt としてインポートします。 
 
 df = pd .read_csv("データセット.csv")
 plt.scatter(df.values[:,1], df.values[:,2], c = df ['3'],アルファ= 0 .8)

文章

先に進む前に、描画のコードについて説明します。私は Pandas を使用して csv をインポートしました。これにより、データが自動的に DataFrame に格納されます。データをプロットするには、DataFrame から値を取得する必要があるため、.values メソッドを使用します。特徴は 1 列目と 2 列目にあるので、散布図機能でこれらの特徴を使用しました。列 0 は、切片を計算できるように値が 1 のダミー機能です。これは、前のセクションの NAND ゲート操作に似ています。 ***、散布図関数でc = df['3']、alpha = 0.8として2つのクラスに色を付けます。出力はデータの 3 番目の列 (0 または 1) なので、関数に列 "3" を使用して 2 つのクラスに色を付ける様に指示します。

Matplotlib 散布図関数の詳細については、こちらをご覧ください。

2. データをトレーニングセットとテストセットに分割する

データが線形に分離可能であることが確認できたので、次はデータをセグメント化します。

過剰適合を避けるために、テストセットとは異なるデータセットでモデルをトレーニングすることをお勧めします。さまざまなアプローチがありますが、簡単にするために、トレーニングセットとテストセットを使用します。まずデータをシャッフルします。

 df df = df.値
 
 np.ランダムシード(5)
 np.ランダム.シャッフル(df)

まず、データを DataFrame から numpy 配列に変換します。これにより、.shuffle などの numpy 関数が使いやすくなります。結果の再現性を確保するために、ランダムシード（5）を設定しました。それが完了したら、ランダムシードを変更して結果がどのように変化するかを確認してみました。次に、データの 70% をトレーニングセットに、30% をテストセットに分割します。

トレーニング= df [0:int(0.7*len(df))]
テスト= df [int(0.7*len(df)):int(len(df))]

最後のステップは、トレーニングセットとテストセットの特徴と出力を分離することです。

 x_train = 列車[:, 0:3]
 y_train = 列車[:, 3] 
 
 x_test = テスト[:, 0:3]
 y_test = テスト[:, 3]

この例では、データの 70% をトレーニングセットとして使用し、データの 30% をテストセットとして使用しました。k 分割交差検証などの他の方法を検討することもできます。

3. パーセプトロンのトレーニング

前の章で作成したコードを再利用できます。

パーセプトロンの訓練(x, y, z, eta, t)を定義します。
    '''
    入力パラメータ:
        x: 入力特徴のデータセット
        y: 実際の出力
        z: 活性化関数の閾値
        eta: 学習率
        t: 反復回数
    ''' 
 
    # 重みの初期化
w = np .zeros(len(x[0]))
 0の場合                          
 
    # 二乗誤差の合計を計算するための追加パラメータを初期化する
yhat_vec = np .ones(len(y)) # 予測用のベクトル
errors = np .ones(len(y)) # エラーのベクトル (実際 - 予測)
 J = [] # SSEコスト関数のベクトル
 
    一方、n <   t: for i in xrange(0, len(x)): # ドット積f = np .dot(x[i], w) # 活性化関数 if f > = z:
 yhat = 1 です。
            それ以外：
 yhat = 0 です。
            yhat_vec[i] = yhat 
 
            # 重みの更新
            xrange(0, len(w))内のjの場合:
                w[j] = w[j] + η*(y[i]-yhat)*x[i][j] 
 
        1 + = 1
        # 二乗誤差の合計を計算する
        iがxrange(0,len(y))内にある場合:
           エラー[i] = (y[i]-yhat_vec[i])**2
        J.append(0.5*np.sum(エラー)) 
 
    w, Jを返す
 
 0.0 ...
 η = 0.1
 t = 50   
 
パーセプトロンの訓練(x_train, y_train, z, eta, t)

次に、重みと二乗誤差項の合計を確認します。

 w =パーセプトロン_train (x_train, y_train, z, eta, t)[0]
 J =パーセプトロン_train (x_train, y_train, z, eta, t)[1] 
 
印刷w
印刷J

外：
 [-0.5 -0.29850122 0.35054929]
 [4.5、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、0.0、 0.0]

重みは今のところあまり意味がありませんが、パーセプトロンをテストし、モデルを scikit-learn モデルと比較するときにこれらの値を再度使用します。

二乗誤差の合計は、データが線形に分離可能であるため予想通り、パーセプトロンが収束したことを示しています。

4. パーセプトロンのテスト

次はパーセプトロンをテストします。モデルをテストするために、小さな perceptron_test 関数を作成します。前回の記事と同様に、この関数は、perceptron_train 関数と特徴および活性化関数を使用して以前に計算した重みのドット積を取り、予測を行います。これまで見たことがないのは、scikit-learn の評価メトリック関数である acceleration_score だけです。

これらすべてをまとめると、コードは次のようになります。

 sklearn.metricsからaccuracy_scoreをインポートする
 
 w =パーセプトロン_train (x_train, y_train, z, eta, t)[0] 
 
パーセプトロンテストの定義(x, w, z, eta, t):
 y_予測値= []
    iがxrange(0, len(x-1))の範囲内にある場合:
 f = np .dot(x[i], w) 
 
        # 活性化関数
        f > zの場合:
 yhat = 1                                 
        それ以外：
 yhat = 0  
        y_pred.append(yhat)
    y_predを返す
 
 y_pred =パーセプトロンテスト(x_test,w,z,eta,t) 
 
 print "精度スコアは次のとおりです:"
精度スコア(y_test, y_pred)を印刷する

スコア 1.0 は、モデルがすべてのテストデータに対して正しい予測を行ったことを意味します。データセットは明確に分離可能なので、結果は予想どおりになります。

5. scikit-learnパーセプトロンとの比較

最後のステップは、パーセプトロンを scikit-learn のパーセプトロンと比較することです。次のコードは、scikit-learn パーセプトロンのコードです。

 sklearn.linear_model から Perceptron をインポートします
 
 # sklearn パーセプトロンのトレーニング
clf =パーセプトロン( random_state = None 、 eta0 = 0.1 、 shuffle = False 、 fit_intercept = False )
 clf.fit(x_train, y_train)
 y_predict = clf.predict (x_test)

モデルをトレーニングしたので、このモデルの重みをモデルによって計算された重みと比較できます。

外：
 sklearn 重み:
 [-0.5 -0.29850122 0.35054929]
私のパーセプトロンの重み:
 [-0.5 -0.29850122 0.35054929]

scikit-learn モデルの重みは、私たちのモデルの重みとまったく同じです。これは、モデルが正しく動作していることを意味しており、良いニュースです。

最後にいくつか質問があります。 scikit-learn モデルでは、ランダム状態を None に設定し、データをシャッフルしませんでした。これは、すでにランダムシードを設定し、データをスクランブルしているため、再度行う必要がないためです。また、学習率 eta0 をモデルと同じ 0.1 に設定する必要があります。最後のポイントはインターセプトです。ダミーの特徴列に値 1 を設定しているため、モデルは自動的に切片を適合させることができるため、scikit-learn パーセプトロンでこれをオンにする必要はありません。

これらは小さな詳細のように思えるかもしれませんが、これらがなければ、私たちのモデルは同じ結果を再現できません。これが重要なポイントです。モデルを使用する前に、ドキュメントを読んで、さまざまな設定が何をするのかを理解することが重要です。

6. プロセスを書き留める

これはプロセスの最後のステップであり、おそらく最も重要なステップです。

ここまでは、勉強し、メモを取り、アルゴリズムをゼロから書き、信頼できる実装と比較するというプロセスを経てきました。これらの努力を無駄にしないでください!

プロセスを書き留める理由は 2 つあります。