ベイジアン機械学習: 古典的なモデルとコード実装!

[[420350]]

ベイズの定理は確率モデルにおける最も有名な理論の 1 つであり、機械学習でも広く使用されています。ベイズ理論に基づく一般的な機械学習確率モデルには、ナイーブベイズとベイジアンネットワークがあります。この論文では、ベイズ理論の紹介に基づいて、ナイーブベイズ理論とベイズネットワーク理論を詳細に導き、対応するコード実装を示します。ナイーブベイズモデルについては、この論文では NumPy と sklearn の実装方法を示し、ベイズネットワークは pgmpy の助けを借りて実装します。

ベイズ理論入門

トーマス・ベイズが1763年に有名な論文「偶然の問題の解決について」を発表して以来、ベイズの公式を中核とするベイズ理論が発展してきました。ベイズ理論では、あらゆる未知の量はランダム変数とみなすことができ、その未知の量の記述は確率分布によって要約できるとされています。これがベイズ学派の最も基本的な考え方です。この確率分布がフィールドテストやサンプリングの前に決定される場合、それは事前分布と呼ばれることがあります。与えられたデータセットXから計算されたサンプルの尤度関数を組み合わせた後、ベイズの公式を適用して未知の量の事後確率分布を計算できます。古典的なベイズの公式は次のように表現されます。

上記の式の左側は事後分布であり、右側の分母は未知の量に関する情報を除外した周辺分布であるため、ベイズの式の同等の形式は次のように記述できます。

上記の式をまとめると、ベイズの式の本質は事前分布と尤度関数に基づく統計的推論であると言えます。事前分布の選択と事後分布の推論は、ベイズ統計分野における 2 つの中心的な問題です。現在、事前分布の選択には統一された基準がありません。事前分布の違いは事後計算の精度に大きな影響を与え、これはベイズ分野でも注目されている研究テーマの 1 つです。事後分布は、複雑な数学的形式と高次元の数値積分のため、推測が非常に困難でした。その後、コンピューター技術の発展に伴い、コンピューターソフトウェアに基づく数値手法によってこれらの問題が解決され、ベイズ理論は再び活力を取り戻しました。

機械学習との組み合わせは、ベイズ理論の主な応用方向です。ナイーブベイズ理論はベイズ理論に基づいた確率分類モデルであり、ベイジアンネットワークはベイズ理論を確率グラフに適用した分類モデルです。

ナイーブベイズ

ナイーブベイズの原理と導出

ナイーブベイズは、ベイズの定理と特徴の条件付き独立性の仮定に基づいた分類アルゴリズムです。具体的には、与えられたトレーニングデータに対して、ナイーブベイズはまず特徴条件付き独立性仮説に基づいて入力と出力の結合確率分布を学習し、次に新しいインスタンスに対してベイズの定理を使用して最大事後確率を計算します。ナイーブベイズは、入力と出力の結合確率分布を直接学習するのではなく、クラスの事前確率とクラスの条件付き確率を学習します。ナイーブベイズの確率計算式を図1に示します。

図1 ナイーブベイズの基本式

ナイーブベイズのナイーブの意味は、特徴の条件付き独立性仮定です。条件付き独立性仮定とは、分類に使われる特徴が、クラスが決定されるという条件の下では条件付きで独立していることを意味します。この仮定により、ナイーブベイズの学習が可能になります。入力特徴ベクトルが X、出力がクラスラベル付きランダム変数 Y、P(X,Y) が X と Y の結合確率分布、T が指定されたトレーニングデータセットであると仮定します。ナイーブベイズは、トレーニングデータセットに基づいて結合確率分布 P(X,Y) を学習します。具体的には、クラス事前確率分布とクラス条件付き確率分布を学習することで実現します。

ナイーブベイズ学習の手順は次のとおりです。まずクラスの事前確率分布を計算します。

ここで、Ck は k 番目のカテゴリを表し、yi は i 番目のサンプルのクラスラベルを表します。クラスの事前確率分布は、最大尤度推定によって取得できます。

次に、クラスの条件付き確率分布を計算します。

パラメータの数が多すぎるため、P(X=x|Y=Ck)を直接推定することは不可能です。しかし、ナイーブベイズの最も重要な仮定の 1 つは、条件付き独立仮定です。

条件付き独立性の仮定により、クラスの条件付き確率は最大尤度推定に基づいて計算できます。

クラスの事前確率分布とクラスの条件付き確率分布を計算した後、ベイズの式に基づいてクラスの事後確率を計算できます。

クラス条件計算式に代入すると、次のようになります。

上記の式に基づいて、単純ベイズ分類モデルを学習できます。新しいデータサンプルが与えられた場合、その最大事後確率を計算します。

これらのうち、分母はすべてのに対して同じなので、上記の式はさらに次のように簡略化できます。

上記は、単純ベイズ分類モデルの簡単な導出プロセスです。

NumPy に基づく Naive Bayes 実装

このセクションでは、NumPy に基づく単純な単純ベイズ分類器を実装します。ナイーブベイズの条件付き独立性の仮定は単純化されているため、実装のアイデアも比較的単純です。ここでは実装のマインドマップは示しません。上記の導出によれば、鍵となるのは、最大尤度推定法を使用して、クラスの事前確率分布とクラスの条件付き確率分布を計算することです。

コード 1 に示すように、単純ベイズモデルのトレーニングプロセスを直接定義します。

 nb_fit(X, y)を定義します。
    クラス = y[y.columns[ 0 ]].unique()
    クラスカウント = y[y.列[ 0 ]].値カウント()
    クラス_prior = クラス_count/len(y)
    事前 = dict()
 X.columns の列の場合:
クラス内のjの場合:
            p_x_y = X[(y==j).値][col].値の数()
 p_x_y.index内のiの場合:
                事前[(列, i, j)] = p_x_y[i]/クラス数[j]
クラスを返す、class_prior、prior

コード 1 では、データ入力と出力の両方が Pandas データフレーム形式であるため、最初にラベルカテゴリの数をカウントし、最大尤度推定に基づいてクラスの事前分布を計算します。次に、データの特徴とカテゴリがループされ、クラスの条件付き確率が計算されます。

式(10)はNaive Bayesの核となる式です。次に、式(10)とnb_fit関数によって返されるクラス事前確率とクラス条件付き確率に基づいてNaive Bayesの予測関数を記述する必要があります。 Naive Bayes の予測関数はコード 2 に示されています。

 def 予測(X_test):
    解像度 = []
クラス内のcの場合:
        p_y = クラス_prior[c]
        p_x_y = 1
 X_test.items() 内の iについて:
            p_x_y *= 事前[タプル(リスト(i)+[c])]
        res.append(p_y*p_x_y)
クラスを返す[np.argmax(res)]

Naive Bayes の予測関数はコード 2 で定義されています。テストサンプル X_test を入力として、結果リストを初期化し、現在のクラスの事前確率を取得し、テストサンプル辞書を走査し、最初にクラス条件付き確率の乗算を計算し、次に事前確率とクラス条件付き確率の積を計算します。最後に、式(21.10)に従ってargmaxをとり、最大事後確率が属するカテゴリを取得します。

最後に、データサンプルを使用して作成した Naive Bayes コードをテストします。コード 3 に示すように、バイナリ分類サンプルデータを手動で作成し、nb_fit を使用してトレーニングします。

 ### データセットを作成してトレーニングする
# 特集X1
 x1 = [ 1 , 1 , 1 , 1 , 2 , 2 , 2 , 2 , 2 , 3 , 3 , 3 , 3 ]
 # 特集X2
 x2 = [ 'S' 、 'M' 、 'M' 、 'S' 、 'M' 、 'M ' 、 ' L' 、 ' L' 、 ' M' 、 'M' 、 'L' 、 'M' 、 'M' 、 'L' ]
 # タグリスト
y = [- 1 ,- 1 , 1 ,- 1 ,- 1 ,- 1 ,- 1 , 1 , 1 , 1 , 1 , 1 , 1 , - 1 ]
 # パンダデータフレームを作成する
df = pd.DataFrame({ 'x1' :x1, 'x2' :x2, 'y' :y})
 # トレーニングの入力と出力を取得する
x, y = df[[ 'x1' , 'x2' ]], df[[ 'y' ]]
 # ナイーブベイズモデルのトレーニング
クラス、class_prior、prior_condition_prob = nb_fit(X, y)
 print(クラス、クラスの事前情報、事前条件確率)

図2 コード21-3の出力のスクリーンショット

コード 3 では、リストに基づいて Pandas データフレーム形式のデータセットを構築し、トレーニング入力と出力を取得して、それらを Naive Bayes トレーニング関数に渡します。出力結果を図 21.2 に示します。データラベルには1/-1のバイナリ分類データセットが含まれており、クラスの事前確率分布は{1：0.6、-1：0.4}であり、各カテゴリの条件付き確率が図に示されていることがわかります。

最後に、テストサンプルを作成し、以下に示すように nb_predict 関数に基づいてクラス予測を行います。

 ### ナイーブベイズモデル予測
X_test = { 'x1' : 2 、 'x2' : 'S' }
 print( 'テストデータの予測カテゴリは次のとおりです:' , nb_predict(X_test))

出力：

テストデータの予測カテゴリは次のとおりです: - 1

最後に、モデルはテストサンプルを負のクラスとして予測します。

sklearn に基づく Naive Bayes 実装

sklearn は、Naive Bayes アルゴリズムの実装方法も提供します。sklearn は、さまざまな尤度関数分布に対する Naive Bayes アルゴリズムの実装方法を提供します。たとえば、ガウス単純ベイズ、ベルヌーイ単純ベイズ、多項式単純ベイズなどです。ガウスナイーブベイズを例に挙げてみましょう。ガウスナイーブベイズは、尤度関数が正規分布していると仮定するナイーブベイズモデルです。ガウスナイーブベイズの尤度関数を以下に示します。

sklearn の Gaussian Naive Bayes の呼び出しインターフェースは sklearn.naive_bayes.GaussianNB です。アイリスデータセットを例にとると、コード 4 に示すように呼び出し例が示されます。

 ### sklearn ガウスナイーブベイズの例
# 関連ライブラリをインポートする
sklearn.datasetsからload_irisをインポートする
sklearn.model_selection から train_test_splitをインポートします
sklearn.naive_bayes から GaussianNBをインポートします
sklearn.metricsからaccuracy_scoreをインポートする
# データセットをインポート
X, y = load_iris(return_X_y=True)
 # データセット分割
X_train、X_test、y_train、y_test =
 train_test_split(X, y, テストサイズ= 0.5 、ランダム状態= 0 )
 # ガウスナイーブベイズインスタンスを作成する
gnb = ガウスNB()
 # モデルを当てはめて予測する
y_pred = gnb.fit(X_train, y_train).predict(X_test)
 print( "アイリスデータテストにおけるGaussianNBの精度:" , acceleration_score(y_test, y_pred))

出力：

虹彩データテストにおけるGaussianNBの精度： 0.94666666666666667

コード 4 では、まず sklearn に Naive Bayes 関連モジュールをインポートし、iris データセットをインポートして、それをトレーニングとテストに分割します。次に、ガウスナイーブベイズモデルインスタンスが作成され、トレーニングセットに基づいて適合され、テストセットで予測され、最終的な精度は 0.947 になります。

ベイジアンネットワーク

ベイジアンネットワークの原理と導出

ナイーブベイズの最大の特徴は、特徴量の条件付き独立性の仮定ですが、実際には、条件付き独立性の仮定は通常厳しすぎて、実際に保持するのが困難です。特徴間の相関関係は単純ベイズのパフォーマンスを制限するため、このセクションでは、条件付き独立性の仮定を緩和するベイズアルゴリズム、つまりベイジアンネットワークを引き続き紹介します。

例から始めましょう。アバターの信憑性、ファンの数、動的更新の頻度に基づいて、Weibo アカウントが実際のアカウントであるかどうかを判断する必要があるとします。各フィーチャ属性間の関係を図 3 に示します。

図3 Weiboアカウントの属性関係

図3は有向非巡回グラフ（DAG）です。各ノードは特徴またはランダム変数を表し、特徴間の関係は矢印で表されます。たとえば、動的な更新頻度、ファンの数、アバターの信憑性はWeiboアカウントの信憑性に影響を与え、アバターの信憑性はファンの数に一定の影響を与えます。ただし、特徴間の関係性だけではベイズ分析には不十分です。さらに、ベイジアンネットワークの各ノードには対応する確率テーブルがあります。アカウントが本物であるかどうか、アバターが本物であるかどうかの確率表が次のようになっていると仮定します。

図4 ベイジアンネットワーク確率表

FIG4 は、アバターとアカウントが本物かどうかを示す確率表です。最初の確率表は、アカウントが本物かどうかを示します。このノードには親ノードがないため、アカウントが本物かどうかの確率を示す事前確率で直接表すことができます。 2 番目の確率表は、アバターの信頼性に対するアカウントの信頼性の条件付き確率を示しています。たとえば、アバターが本物のアバターであるという条件下では、アカウントが本物である確率は 0.88 です。 DAG と確率表を使用すると、ベイズの公式を使用して定量的な因果推論を行うことができます。 Weibo アカウントが偽のプロフィール写真を使用していることがわかっていると仮定すると、そのアカウントが偽アカウントである確率は次のように推測できます。

ベイズの公式を使用すると、偽のプロフィール写真の場合、そのアカウントが偽アカウントである確率は 0.345 であることがわかります。

上記の例を通して、ベイジアンネットワークの使い方を直感的に感じることができます。ベイジアンネットワークは通常、有向非巡回グラフと各ノードに対応する確率テーブルで構成されます。 DAG はノードと有向エッジで構成されます。ノードは特徴属性またはランダム変数を表し、有向エッジは変数間の依存関係を表します。ベイジアンネットワークの重要な特性は、ノードの親ノードの確率分布が決定されると、そのノードはすべての間接的な親ノードから条件付きで独立していることです。この特性により、変数間の結合確率分布を簡単に計算できます。

一般に、多変量非独立ランダム変数の結合確率分布は次のように計算されます。

ノードの条件付き独立性プロパティを使用すると、上記の式は次のように簡略化できます。

DAG で表されるノード関係と確率表が決定されると、関連する事前確率分布と条件付き確率分布を決定できます。その後、ベイズの公式に基づいて、ベイジアンネットワークを使用して推論を行うことができます。

pgmpy によるベイジアンネットワークの実装

このセクションでは、ベイジアンネットワークを構築し、pgmpy に基づいてモデリングトレーニングを実行します。 pgmpy は Python ベースの確率的グラフィカルモデルパッケージであり、主にベイジアンネットワークやマルコフモンテカルロなどの一般的な確率的グラフィカルモデルの実装と推論方法が含まれています。

学生が取得した推薦状の品質の例を使用して、ベイジアンネットワークを構築します。関連する特徴間の DAG と確率表を図 5 に示します。

図5 推薦状の質のDAGと確率表

図5に示すように、試験の難易度と個人の知能は個人のパフォーマンスに影響を与えます。また、個人の才能もSATスコアに影響を与え、個人のパフォーマンスの質は推薦状の質に直接影響します。次に、pgmpy を使用して上記のベイジアンネットワークモデルを実装します。

（１）モデルの枠組みを構築し、変数間の関係を特定する。コード5に示すように。

 # pgmpy関連モジュールをインポートする
pgmpy.factors.discrete から TabularCPDをインポート
pgmpy.models から BayesianModelをインポートします
文字モデル = ベイジアンモデル([( 'D' , 'G' ),
                               （ 「私」 、 「G」 ）、
                               （ 'G' 、 'L' ）、
                               （ 'は' ）]）

（２）各ノードの条件付き確率分布を構築するには、コード６に示すように、関連するパラメータと入力確率表を指定する必要があります。

 # 生徒の成績の条件付き確率分布
grade_cpd = 表形式CPD(
    変数 = 'G' 、# ノード名
    variable_card= 3 , # ノード値の数
    values=[[ 0.3 , 0.05 , 0.9 , 0.5 ], # このノードの確率表
    [ 0.4 , 0.25 , 0.08 , 0.3 ],
    [ 0.3 , 0.7 , 0.02 , 0.2 ]],
    evidence=[ 'I' , 'D' ], # このノードの依存ノード
    evidence_card=[ 2 , 2 ] # ノードに依存する値の数
）
 # 試験難易度の条件付き確率分布
難易度_cpd = 表形式CPD(
            変数= 'D' 、
            変数カード = 2 ,
            値=[[ 0.6 ], [ 0.4 ]]
 ）
 # 個人の才能の条件付き確率分布
intel_cpd = 表形式CPD(
            変数= 'I' 、
            変数カード = 2 ,
            値=[[ 0.7 ], [ 0.3 ]]
 ）
 # 推薦状の質の条件付き確率分布
letter_cpd = 表形式CPD(
            変数= 'L' 、
            変数カード = 2 ,
            値=[[ 0.1 , 0.4 , 0.99 ],
            [ 0.9 , 0.6 , 0.01 ]],
            証拠=[ 'G' ],
            証拠カード=[ 3 ]
 ）
 # SAT テストスコアの条件付き確率分布
sat_cpd = 表形式CPD(
            変数= 'S' 、
            変数カード = 2 ,
            値=[[ 0.95 , 0.2 ],
            [ 0.05 , 0.8 ]],
            証拠=[ '私' ],
            証拠カード=[ 2 ]
 ）

（３）各ノードをモデルに追加し、ベイジアンネットワークを構築する。コード7に示すように。

 # 各ノードをモデルに追加してベイジアンネットワークを構築します
文字モデル.cpdsを追加します(
    グレード_cpd、
    難易度_cpd、
    インテル_cpd、
    文字_cpd、
    sat_cpd さん
）
 # pgmpyベイズ推論モジュールをインポートする
pgmpy.inference から VariableEliminationをインポートします
# ベイジアンネットワーク推論
letter_infer = 変数除去(letter_model)
 # 学生の才能が優れており、試験が難しくない場合は、学生が取得した推薦状の質を推測します
prob_G = letter_infer.query(
            変数=[ 'G' ],
            証拠={ 'I' : 1 , 'D' : 0 })
印刷(prob_G)

出力は図6に示されています。

図 6 の出力結果から、賢い学生がより簡単な試験に遭遇した場合、一級の成績を取得する確率は 90% にも達することがわかります。

まとめ

ベイズの定理は古典的な確率モデルの 1 つです。ベイズの核となる理論であり、事前情報とデータ観察に基づいて対象変数の事後分布を取得する方法です。ベイズ理論は機械学習の分野でも広く使用されています。最も一般的に使用されるベイズ機械学習モデルには、ナイーブベイズモデルとベイジアンネットワークモデルがあります。

ナイーブベイズモデルは、データから結合確率分布を学習して事後確率分布を計算する生成学習法です。特徴の条件付き独立性の仮定により、ナイーブベイズアルゴリズムの学習と予測のプロセスが大幅に簡素化されるため、ナイーブベイズと名付けられましたが、精度がある程度低下することもあります。

さらに、ナイーブベイズの条件付き独立性の仮定を緩和し、特徴量間に相関関係があると仮定したベイズモデルがベイジアンネットワークモデルです。ベイジアンネットワークは、有向グラフと確率表を通じてベイジアン確率モデルを構築する確率的無向グラフィカルモデルです。有向グラフで表されるノード関係と確率表が決定されると、関連する事前確率分布と条件付き確率分布を決定できます。その後、ベイズの公式に基づいて、ベイジアンネットワークを確率推論に使用できます。

この記事の参照コードアドレス:

https://github.com/luwill/Machine_Learning_Code_Implementation/tree/master/charpter21_Bayesian_models

<<: AI 主導の DevOps はどのようにビジネス変革を実現できるのでしょうか?

>>: インターネットの価値観を修正するガバナンスアルゴリズム