機械学習: Python でベイズ分類器をゼロから実装する

ナイーブベイズアルゴリズムはシンプルで効率的であり、分類問題を扱う際に最初に検討すべき方法の 1 つです。

このチュートリアルでは、Naive Bayes アルゴリズムの原理と、Python バージョンの段階的な実装を学習します。

更新: ナイーブベイズを使用するためのヒントに関する私のフォローアップ記事をご覧ください: より優れたナイーブベイズ: ナイーブベイズアルゴリズムを最大限に活用するための 12 のヒント

[[194741]]

ナイーブベイズ分類器、一部の著作権は Matt Buck が保有しています

ナイーブベイズについて

ナイーブベイズアルゴリズムは、各属性が特定のクラスに属する確率を使用して予測を行う直感的な方法です。この教師あり学習アプローチを使用して、予測モデリングの問題に対して確率モデリングを実行できます。

クラスが与えられた場合、ナイーブベイズでは、各属性がこのクラスに属する確率は他のすべての属性から独立していると想定され、確率の計算が簡素化されます。この強力な仮定により、高速かつ効率的な方法が実現します。

属性値が与えられた場合に、それが特定のクラスに属する確率を条件付き確率と呼びます。特定のクラス値に対して、各属性の条件付き確率を掛け合わせると、データサンプルが特定のクラスに属する確率が得られます。

これは、サンプルが各クラスに属する確率を計算し、最も高い確率を持つクラスを選択することで実行できます。

通常、比率を使用して説明および計算するのが簡単なため、Naive Bayes を説明するためにカテゴリデータを使用します。私たちの目的にとって有用なアルゴリズムは、数値属性をサポートし、各数値属性が正規分布（ベル曲線上に分布）に従うと仮定する必要があります。これはもう 1 つの強力な仮定ですが、それでも堅牢な結果が得られます。

糖尿病の発症を予測する

この記事で使用されているテスト問題は、「ピマ・インディアン糖尿病問題」です。

この号には、ピマ・インディアンの患者768人に対する医学的観察の詳細が掲載されており、患者の年齢、妊娠、血液検査の回数など、行われた瞬間的な測定値を記した記録がある。すべての患者は 21 歳以上の女性であり、すべての属性は数値であり、属性の単位は異なります。

各レコードは、測定時点から 5 年以内に患者が糖尿病と診断されたかどうかを示すクラスに属します。はいの場合は 1、そうでない場合は 0 です。

この標準データセットは機械学習の文献で何度も研究されており、予測精度は 70% ～ 76% と良好です。

以下は、使用するデータの概要を示す pima-indians.data.csv ファイルのサンプルです。

注意: ファイルをダウンロードし、.csv 拡張子で保存します (例: pima-indians-diabetes.data.csv)。ファイル内のすべてのプロパティの説明を表示します。

 6,148,72,35,0,33.6,0.627,50,1 
 
 1,85,66,29,0,26.6,0.351,31,0 
 
 8,183,64,0,0,23.3,0.672,32,1 
 
 1,89,66,23,94,28.1,0.167,21,0 
 
 0,137,40,35,168,43.1,2.288,33,1

ナイーブベイズアルゴリズムのチュートリアル

チュートリアルは次の手順に分かれています。

1. データを処理する: CSV ファイルからデータを読み込み、トレーニングセットとテストセットに分割します。

2. データの特徴を抽出する: 確率を計算して予測を行えるように、トレーニングデータセットの属性の特徴を抽出します。

3. 単一の予測: データセットの特徴を使用して単一の予測を生成します。

4. 複数の予測: 指定されたテストデータセットと、抽出された特徴を含むトレーニングデータセットに基づいて予測を生成します。

5. 評価精度: テストデータセットの予測精度を予測の正確さとして評価します。

6. 結合されたコード: すべてのコードを使用して、Naive Bayes アルゴリズムの完全なスタンドアロン実装を提示します。

1. データ処理

まずデータファイルをロードします。 CSV 形式のデータにはヘッダー行と引用符がありません。 csv モジュールの open 関数を使用してファイルを開き、 reader 関数を使用して行データを読み取ることができます。

また、文字列として読み込まれた属性を、使用できる数値に変換する必要があります。以下は、ピマ族のデータセットをロードするために使用される loadCsv() 関数です。

 csvをインポート
 
 def loadCsv(ファイル名): 
 
行 = csv.reader( open (ファイル名、 "rb" )) 
 
データセット = リスト(行) 
 
 i が範囲(len(データセット))内にある場合: 
 
データセット[i] = [ float (x)データセット[i]内のx ] 
 
データセットを返す

この関数をテストするには、Pima Indians データセットをロードし、データサンプルの数を出力します。

ファイル名 = 'pima-indians-diabetes.data.csv'   
 
データセット = loadCsv(ファイル名) 
 
 print( '{1} 行のデータ ファイル {0} がロードされました' ).format(filename, len(dataset))

テストを実行すると、次の結果が表示されます。

 150行のデータファイルiris.data.csvをロードしました

次に、データを Naive Bayes 予測用のトレーニングデータセットとモデルの精度を評価するためのテストデータセットに分割します。データセットを、67% を含むトレーニングセットと 33% を含むテストセットにランダムに分割する必要があります (これは、このデータセットでアルゴリズムをテストする場合の通常の比率です)。

以下は、指定された分割比率でデータセットを 2 つの部分に分割する splitDataset() 関数です。

ランダムにインポート
 
 def splitDataset(データセット、分割比率): 
 
    トレーニングサイズ = int (len(データセット) * 分割比率) 
 
    トレーニングセット = [] 
 
    コピー = リスト(データセット) 
 
    len(trainSet) < trainSize の場合: 
 
インデックス= random.randrange(len(コピー)) 
 
        trainSet.append(コピー.pop(インデックス)) 
 
 [trainSet, コピー]を返す

テスト用に 5 つのサンプルを含むデータセットを定義できます。まず、トレーニングデータセットとテストデータセットに分割し、各データサンプルが最終的にどのデータセットに分類されるかを確認するために印刷します。

データセット = [[1], [2], [3], [4], [5]] 
 
分割比率 = 0.67 
 
トレーニング、テスト = splitDataset(データセット、splitRatio) 
 
 print( '{0} 行を {1} でトレーニングし、{2} でテストする' ).format(len(dataset), train, test)

テストを実行すると、次の結果が表示されます。

 5行に分割  [[4]、[3]、[5]]で訓練し、 [[1]、[2]]でテストする

データ特徴の抽出

Naive Bayes モデルは、トレーニングデータセット内のデータの機能を組み込み、このデータ機能を使用して予測を行います。

収集されたトレーニングデータの特徴には、各クラスに関する各属性の平均と標準偏差が含まれます。たとえば、クラスが 2 つあり、数値属性が 7 つある場合、属性 (7) とクラス (2) の各組み合わせの平均と標準偏差、つまり 14 個の属性機能が必要になります。

これらの特徴は、特定の属性が各クラスに属する確率を計算および予測するときに使用されます。

データ特徴の取得を次のサブタスクに分割します。

データをカテゴリ別に分ける
平均を計算する
標準偏差を計算する
データセットから特徴を抽出する
カテゴリ別に属性特徴を抽出する

データをカテゴリ別に分ける

まず、トレーニングデータセット内のサンプルがカテゴリに分割され、各クラスの統計が計算されます。カテゴリからそのカテゴリに属する例のリストへのマッピングを作成し、データセット全体の例を対応するリストに分類できます。

次の SeparateByClass() 関数はこのタスクを実行できます。

 def SeparateByClass(データセット): 
 
    区切る = {} 
 
 i が範囲(len(データセット))内にある場合: 
 
        ベクトル = データセット[i] 
 
        if (vector[-1]ではない 分離して): 
 
            分離された[ベクトル[-1]] = [] 
 
        分離された[ベクトル[-1]].append(ベクトル) 
 
分離して返す

この関数は、サンプル内の最後の属性 (-1) がカテゴリ値であると想定し、カテゴリ値からデータサンプルのリストへのマッピングを返すことがわかります。

次のようにサンプルデータを使用してこれをテストできます。

データセット = [[1,20,1], [2,21,0], [3,22,1]] 
 
分離された = クラスごとに分離(データセット) 
 
 print( '分離されたインスタンス: {0}' ).format(separated)

テストを実行すると、次の結果が表示されます。

分離されたインスタンス: {0: [[2, 21, 0]], 1: [[1, 20, 1], [3, 22, 1]]}

平均を計算する

各クラスの各属性の平均を計算する必要があります。平均はデータの中間点または中心傾向であり、確率を計算するときにガウス分布の中央値として使用されます。

また、各クラス内の各属性の標準偏差を計算する必要があります。標準偏差は、データ分布の偏差を表します。確率を計算するときは、ガウス分布の各属性の予想される分散を特徴付けるために使用します。

標準偏差は分散の平方根です。分散は、各属性値の平均からの偏差の二乗の平均です。 N-1 メソッドを使用することに注意してください。つまり、分散を計算するときに、属性値の数が 1 減少します。

インポート数学
 
 def 平均(数値): 
 
戻る 合計(数値) /浮動小数点数 (長さ (数値)) 
 
  
 
 def stdev(数値): 
 
平均= 平均(数値) 
 
    分散 = sum ([pow(x- avg ,2) for x in numbers])/ float (len(numbers)-1) 
 
 math.sqrt(variance)を返す

1 から 5 までの 5 つの数字の平均を計算して関数をテストします。

数字 = [1,2,3,4,5] 
 
 print( '{0} の概要: 平均={1}、標準偏差={2}' ).format(numbers, 平均(numbers), 標準偏差(numbers))

テストを実行すると、次の結果が表示されます。

 [1, 2, 3, 4, 5]の要約: 平均=3.0、標準偏差=1.58113883008

データセットから特徴を抽出する

これでデータセットから特徴を抽出できるようになりました。特定のクラスに対応するサンプルのリストに対して、各属性の平均と標準偏差を計算できます。

zip 関数は、データサンプルを属性に応じてリストにグループ化し、各属性の平均と標準偏差を計算します。

 def 要約(データセット): 
 
要約 = [(平均(属性)、標準偏差(属性)) 、 zip(*データセット)]内の属性
 
要約[-1] 
 
返品概要

最初のデータ属性と 2 番目のデータ属性の平均と標準偏差に大きな差があることを示すテストデータを使用して、この summary() 関数をテストできます。

データセット = [[1,20,0], [2,21,1], [3,22,0]] 
 
 summary = 要約(データセット) 
 
 print( '属性サマリー: {0}' ).format(summary)

テストを実行すると、次の結果が表示されます。

属性の概要: [(2.0, 1.0), (21.0, 1.0)]

カテゴリ別に属性特徴を抽出する

コードをマージします。まずトレーニングデータセットをカテゴリに分割し、次に各属性の概要を計算します。

 def summaryByClass(データセット): 
 
    分離された = クラスごとに分離(データセット) 
 
    要約 = {} 
 
 classValueの場合、 separated.iteritems()内のインスタンス: 
 
        summaries[classValue] = 要約(インスタンス) 
 
返品概要

小さなテストデータセットを使用して、summaryByClass() 関数をテストします。

データセット = [[1,20,1], [2,21,0], [3,22,1], [4,22,0]] 
 
 summary = summaryByClass(データセット) 
 
 print( 'クラス値による要約: {0}' ).format(summary)

テストを実行すると、次の結果が表示されます。

クラス値による概要: 
 
 {0: [(3.0, 1.4142135623730951), (21.5, 0.7071067811865476)], 
 
 1: [(2.0, 1.4142135623730951), (21.0, 1.4142135623730951)]}

予測する

これで、トレーニングデータから取得した要約を使用して予測を行うことができます。予測を行うには、特定のデータサンプルについて、各クラスに属する確率を計算し、最も高い確率を持つクラスを予測結果として選択する必要があります。

この部分は次のタスクに分けることができます。

ガウス確率密度関数を計算する
対応するクラスの確率を計算する
単一の予測
評価精度

ガウス確率密度関数を計算する

トレーニングデータからの属性の既知の平均と標準偏差が与えられた場合、ガウス関数を使用して特定の属性値の確率を推定できます。

各属性の属性特性とクラス値が与えられると、特定のクラス値の条件下で特定の属性値の条件付き確率を取得できます。

ガウス確率密度関数については参考文献を参照してください。要約すると、既知の詳細 (属性値、平均、標準偏差) をガウス関数に組み込み、属性値が特定のクラスに属する尤度 (翻訳者注: 可能性) を取得する必要があります。

calculateProbability() 関数では、まず指数部分を計算し、次に方程式の幹を計算します。これにより、2 行にきれいに整理されます。

インポート数学
 
 def calculateProbability(x, 平均, 標準偏差): 
 
指数= math.exp (-(math.pow(x-mean,2)/(2*math.pow(stdev,2)))) 
 
    (1 / (math.sqrt(2*math.pi) * stdev)) * 指数を返す

次のように簡単なデータを使用してテストします。

 x = 71.5 
 
平均 = 73 
 
標準偏差 = 6.2 
 
確率 = calculateProbability(x, 平均, 標準偏差) 
 
 print( 'このクラスに属する確率: {0}' ).format(確率)

テストを実行すると、次の結果が表示されます。

このクラスに属する確率: 0.0624896575937

クラスに属する確率を計算する

属性が特定のクラスに属する確率を計算できるため、データサンプル内のすべての属性の確率を組み合わせて、最終的にデータサンプル全体が特定のクラスに属する確率を取得できます。

確率を組み合わせるには乗算を使用します。以下の calculClassProbilities() 関数では、データサンプルが与えられると、その属性の確率を乗算することで、それが属する各カテゴリの確率を取得できます。結果は、クラス値から確率へのマッピングです。

 def calculateClassProbabilities(要約、入力ベクトル): 
 
    確率 = {} 
 
 summaries.iteritems()内のclassValue、classSummariesの場合: 
 
        確率[クラス値] = 1 
 
 i が範囲(len(classSummaries))内である場合: 
 
            平均、標準偏差 = classSummaries[i] 
 
            x = 入力ベクトル[i] 
 
            確率[classValue] *= calculateProbability(x, 平均, 標準偏差) 
 
リターン確率

calculateClassProbabilities() 関数をテストします。

要約 = {0:[(1, 0.5)], 1:[(20, 5.0)]} 
 
入力ベクトル = [1.1, '?' ] 
 
確率 = calculateClassProbabilities(要約、入力ベクトル) 
 
 print( '各クラスの確率: {0}' ).format(確率)

テストを実行すると、次の結果が表示されます。

各クラスの確率: {0: 0.7820853879509118, 1: 6.298736258150442e-05}

単一の予測

データサンプルが各クラスに属する確率を計算できるようになったので、最大確率値を見つけて、関連するクラスを返すことができます。

次の predict() 関数は上記のタスクを実行できます。

 def predict(要約、入力ベクトル): 
 
    確率 = calculateClassProbabilities(要約、入力ベクトル) 
 
    bestLabel、bestProb = なし、-1 
 
 classValueの場合、 probabilities.iteritems()の確率: 
 
        bestLabelがNoneまたは確率> bestProbの場合: 
 
            bestProb = 確率
 
            ベストラベル = クラス値
 
ベストラベルを返す

次のようにpredict()関数をテストします。

要約 = { 'A' :[(1, 0.5)], 'B' :[(20, 5.0)]} 
 
入力ベクトル = [1.1, '?' ] 
 
結果 = 予測(要約、入力ベクトル) 
 
 print( '予測: {0}' ).format(result)

テストを実行すると、次の結果が得られます。

予測: A

複数の予測

最後に、テストデータセット内の各データサンプルに対して予測を行うことで、モデルの精度を評価できます。 getPredictions() 関数はこれを実行し、各テストサンプルの予測のリストを返します。

 def getPredictions(サマリー、テストセット): 
 
    予測 = [] 
 
 i が範囲(len(testSet))内にある場合: 
 
        結果 = 予測(要約、テストセット[i]) 
 
        予測.append(結果) 
 
リターン予測

getPredictions() 関数を次のようにテストします。

要約 = { 'A' :[(1, 0.5)], 'B' :[(20, 5.0)]} 
 
テストセット = [[1.1, '?' ], [19.1, '?' ]] 
 
予測 = getPredictions(要約、テストセット) 
 
 print( '予測: {0}' ).format(予測)

テストを実行すると、次の結果が表示されます。

予測: [ 'A' 、 'B' ]

計算精度

予測値をテストデータセット内のカテゴリ値と比較することで、分類精度として 0% ～ 100% の精度を計算できます。 getAccuracy() 関数はこの精度を計算できます。

 def getAccuracy(テストセット、予測): 
 
    正解 = 0 
 
 xが範囲内(len(testSet))の場合: 
 
        testSet[x][-1] == predictions[x]の場合: 
 
            正解 += 1 
 
戻り値(正しい / float (len(testSet))) * 100.0

次の簡単なコードを使用して、getAccuracy() 関数をテストできます。

テストセット = [[1,1,1, 'a' ], [2,2,2, 'a' ], [3,3,3, 'b' ]] 
 
予測 = [ 'a' , 'a' , 'a' ] 
 
精度 = getAccuracy(テストセット、予測) 
 
 print( '精度: {0}' ).format(精度)

テストを実行すると、次の結果が得られます。

精度: 66.6666666667

コードをマージする

最後に、コードを連結する必要があります。

以下は、Python で Naive Bayes を段階的に実装するための完全なコードです。

例を実行すると、次の出力が得られます。

 768行を分割 トレーニング=514行、テスト=254行  
 
精度: 76.3779527559%

拡張機能の実装

このセクションでは、実装した Python コードを使用して応用研究を実施するためのチュートリアルの一部として使用できる拡張のアイデアを提供します。

この時点で、Python を使用して、Naive Bayes のガウスバージョンを段階的に完了しました。

アルゴリズムの実装をさらに拡張することができます。

クラスに属する確率を計算します。データサンプルが各クラスに属する確率を比率として更新します。計算的には、サンプルデータが特定のクラスに属する確率を、各クラスに属する確率の合計で割ったものです。たとえば、サンプルがクラス A に属する確率は 0.02、クラス B に属する確率は 0.001 です。この場合、サンプルがクラス A に属する可能性は (0.02/(0.02+0.001))*100 となり、約 95.23% になります。

対数確率:特定の属性値に対して、各クラスの条件付き確率は小さくなります。これらを掛け合わせると結果が小さくなるため、浮動小数点オーバーフロー（値が小さすぎて Python で表現できない）が発生する可能性があります。一般的な修正方法は、それらの確率の対数を組み合わせることです。この改善は研究され、実装することができます。

名詞属性:名詞属性をサポートするためにアルゴリズムの実装を改善します。これも非常によく似ており、各属性について収集する概要情報は、各クラスのクラス値の比率です。詳細については参考資料をご覧ください。

さまざまな密度関数 (ベルヌーイまたは多項式):ガウスナイーブベイズを試しましたが、他の分布を試すこともできます。属性値の分布やクラス値との関係について異なる仮定を行う、多項式、ベルヌーイ、カーネルナイーブベイズなどの異なる分布を実装します。

学習リソースと参考文献

このセクションでは、アルゴリズムの理論や仕組み、コード実装における実際的な問題など、Naive Bayes アルゴリズムについてさらに詳しく学習するためのリソースをいくつか提供します。

質問

糖尿病の問題を予測するためのさらなるリソース

ピマ族インディアン糖尿病データセット: このページではデータセットファイルを提供し、さまざまなプロパティについて説明し、このデータセットを使用している論文を一覧表示します。
データセットファイル: データセットファイル
データセットの概要: データセット属性の説明
糖尿病データセットの結果: このデータセットにおける多くの標準アルゴリズムの精度

コード

このセクションには、一般的な機械学習ライブラリにおける Naive Bayes のオープンソース実装が含まれています。実用化のために独自のバージョンを実装することを検討している場合は、これらを確認してください。

Scikit-Learn の Naive Bayes: scikit-learn ライブラリでの Naive Bayes の実装
Naive Bayes ドキュメント: scikit-learn ライブラリの Naive Bayes に関するドキュメントとサンプルコード
Weka でのシンプルな Naive Bayes: Weka での Naive Bayes の実装

本

応用機械学習に関する本をいくつか用意しておく必要があります。このセクションでは、人気の機械学習書籍から、Naive Bayes に関する章を紹介します。

応用予測モデリング、353ページ
データマイニング: 実用的な機械学習ツールとテクニック、94 ページ
ハッカーのための機械学習、78ページ
統計学習入門：R での応用、138 ページ
機械学習：アルゴリズムの観点、171 ページ
機械学習の実践、61 ページ (第 4 章)
機械学習、177 ページ (第 6 章)

<<: 人工知能の歴史 - チューリングテストからビッグデータまで

>>: 滴滴出行の米国研究責任者：インテリジェント運転は間違いなく未来を変えるだろうが、そのプロセスは単純ではない

ブログ

機械学習: Python でベイズ分類器をゼロから実装する

大規模なモデル開発スタックが準備完了です。

時間変換に基づく初のビデオ移行攻撃アルゴリズム、復旦大学の研究がAAAI 2022に選出

新しい人工筋肉、応用シナリオの範囲が極めて広い！マイクロロボット：非常に必要

マイクロソフトは、Power Platform 向け Copilot サービスの開始を正式に発表しました。これにより、AI によるアプリ開発が一文で可能になります。

ChatGPTがついにオンラインになり、回答のソースを提供できるようになりました

テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか？

推薦する

わかりやすい言葉で解説：人工知能（AI）とは何か？小学生でもわかる

レポートの解釈: 企業の 91% が 2023 年に AI がビジネスの成長を促進すると予想

将来、音声認識はどのような商業シナリオに適用される可能性がありますか?

微分方程式と機械学習: 類似点と相違点の例

ウェブデザインに人工知能を活用する10の方法

ディープラーニングを理解する

人工知能は人間の精神的健康を評価できる

機械学習プロジェクトにおけるデータの前処理とデータラングリング

人工知能はどうすれば大衆に届くのでしょうか?最も価値のある AI テクノロジーは何ですか?

人工知能に置き換えられる可能性が最も高い職業トップ10。今年の転職ではこの罠に陥らないように！

人工知能は 5 大製造業にどのような変化をもたらすのでしょうか? AIプロジェクトを成功に導く5つのステップ