機械学習アルゴリズムの実践: ナイーブベイズ

[[197761]]

序文

前回の記事「機械学習アルゴリズムの実践: 決定木」では、決定木の実装についてまとめました。この記事では、単純ベイズ分類器を段階的に実装し、SMS スパムコーパスのデータを使用してモデルをトレーニングし、スパムメッセージをフィルタリングし、最後に分類エラー率を計算します。

文章

決定木分類や k 最近傍分類アルゴリズムとは異なり、ベイズ分類は主に確率論の知識に依存して、各タイプに属する提供されたデータの条件付き確率を比較し、それらを個別に計算し、条件付き確率が最も高いカテゴリが最適なカテゴリであると予測します。もちろん、サンプルの数が増えれば増えるほど、カウントできるさまざまな種類の特徴値の分布がより正確になり、この分布を使用して行われる予測もより正確になります。

ベイズ基準

単純ベイズ分類器の中核となるのはベイズ基準であり、次の式で表されます。

この式は、結合確率によってリンクされた 2 つの交換可能な条件付き確率の関係を表しており、p(B|A) がわかっている場合に p(A|B) を計算できます。ベイジアンモデルは、ベイジアン基準を使用して、さまざまなカテゴリ条件下でのサンプルの条件付き確率を計算し、最も高い条件付き確率を持つタイプを分類予測結果として取得します。

分類に条件付き確率を使用する

ここで、条件付き確率による分類方法を簡単に紹介します。ある人物の背中を見て、その特徴（データ）に基づいて性別（カテゴリ）を判断したいとします。その特徴とは、髪が長いかどうか、身長が170cm以上かどうか、足が細いかどうか、スカートを履いているかどうかなどです。後ろの図を見ると、上記の特徴を記述する特徴ベクトルが得られます（1ははい、0はいいえを意味します）：ω=[0,1,1,0]

ベイズ分類は、次の 2 つの条件付き確率を比較します。

p(男性|ω)は、ωが[0,1,1,0に等しい条件下で、その人が男性である確率である。
p(girl|ω))、ωが[0,1,1,0]に等しい条件下でその人が女の子である確率

p(boy|ω)>p(girl|ω)の場合、その人は男の子とみなされ、そうでない場合は女の子とみなされます。

では、p(男|ω)をどのように見つけるのでしょうか? これにはベイズ基準が必要です。

ベイズの基準によれば、

もっと分かりやすく言うと、

特徴が互いに独立している場合（条件付き独立仮定）、上記の条件付き確率は次のように書き直すことができます。

このようにして、現在の後ろ姿が男の子か女の子かの条件付き確率を計算できます。

独自のベイズ分類器を実装する

ベイズ分類器の実装は非常に簡単です。以下では、テキスト分類を目的とした単純ベイズテキスト分類器を Python を使用して実装します。

条件付き確率を計算するには、異なるカテゴリにおける各特徴の条件付き確率と、そのタイプの周辺確率を計算する必要があります。そのためには、大量のトレーニングデータの統計を通じて近似値を取得する必要があります。これは、ナイーブベイズモデルをトレーニングするプロセスです。

さまざまなテキストについて、データ特徴ベクトルとして表示されるすべての単語を取得し、各テキストに表示される用語の数（または特定の用語が表示されるかどうか）をデータベクトルとしてカウントできます。このようなテキストは整数のリストに処理することができ、その長さはすべてのエントリの数になります。このベクトルは非常に長くなる可能性があります。この記事で使用されているデータセット内のテキストメッセージエントリの合計は 3,000 語を超えます。

 def get_doc_vector(単語、語彙): 
 
 '' ' 文書内の用語を語彙に従って文書ベクトルに変換する
 
  
 
    :param words: 文書内の単語のリスト
 
    :type words:文字列のリスト
 
  
 
    :param vocabulary: 総語彙リスト
 
    :type 語彙:文字列のリスト
 
  
 
    : doc_vectを返す: ベイズ分析のための文書ベクトル
 
    :type doc_vect:リスト 整数  
 
 '' ' 
 
    doc_vect = [0]*len(語彙) 
 
  
 
単語内の単語: 
 
        語彙内の単語: 
 
            idx =語彙.インデックス(単語) 
 
            doc_vect[idx] = 1 
 
  
 
 doc_vectを返す

統計トレーニングプロセスのコード実装は次のとおりです。

 def train(自分自身、データセット、クラス): 
 
 '' 'ナイーブベイズモデルのトレーニング
 
  
 
    :param データセット: すべてのドキュメントデータベクトル
 
    :type dataset:すべてのドキュメントベクトルを含む MxN 行列。 
 
  
 
    :param クラス: すべてのドキュメントタイプ
 
    :type クラス: 1xN リスト
 
  
 
    : return cond_probs: トレーニングで得られた条件付き確率行列
 
    :type cond_probs: 辞書
 
  
 
    : cls_probsを返す: さまざまなタイプの確率
 
    :type cls_probs: 辞書
 
 '' ' 
 
    # メモリの種類別に分類
 
    サブデータセット = defaultdict(lambda: []) 
 
    cls_cnt = デフォルト辞書(ラムダ: 0) 
 
  
 
 doc_vect、clsをzip(データセット、クラス)に格納する場合: 
 
        サブデータセット[cls].append(doc_vect) 
 
        cls_cnt[cls] += 1 
 
  
 
    # タイプ確率を計算する
 
    cls_probs = {k: v/len(classes) 、k、v の場合、cls_cnt.items()内} 
 
  
 
    # さまざまな条件付き確率を計算する
 
    条件問題 = {} 
 
    データセット = np.array(データセット) 
 
 clsの場合、 sub_datasets.items()内のsub_dataset: 
 
        サブデータセット = np.array(サブデータセット) 
 
        # 分類器を改善します。 
 
        cond_prob_vect = np.log(( np.sum (sub_dataset, axis=0) + 1)/(np.sum ( dataset) + 2)) 
 
        条件問題[cls] = 条件問題ベクトル
 
  
 
 cond_probs、cls_probsを返す

ここでは、条件付き確率の基本的な直接乗算に 2 つの改善が加えられていることに注意してください。

各特徴の確率の初期値は 1 であり、分母にある特定のタイプのサンプルの総数の初期値も 1 です。これは、特徴の確率が 0 の場合、結合確率も 0 になるという状況を回避するためです。これは当然意味がありません。トレーニングサンプルが十分に大きい場合、比較結果には影響しません。
各独立特徴の確率は 1 未満であるため、累積すると必然的にブックが小さくなり、浮動小数点アンダーフローの問題が発生します。したがって、ここではすべての確率の対数を取り、損失がないことを確認しながらアンダーフローの問題を回避します。

統計的確率情報を取得したら、ベイズ基準を使用してデータのタイプを予測できます。ここでは、各状況の確率を直接計算するのではなく、統計ベクトルとデータベクトルの内積を実行して条件付き確率の相対値を取得し、相対比較を行って決定を下しました。

 def classify(self, doc_vect, cond_probs, cls_probs): 
 
 '' ' Naive Bayes を使用して doc_vect を分類します。 
 
 '' ' 
 
    予測確率 = {} 
 
 cls、 cls_probs.items()内のcls_probの場合: 
 
        条件問題ベクトル = 条件問題[cls] 
 
        pred_probs[cls] = np.sum (cond_prob_vect*doc_vect) + np.log(cls_prob) 
 
戻る 最大(pred_probs、キー= pred_probs.get)

SMSメッセージを分類する

Naive Bayes モデルを構築したので、これを使用して統計を収集し、予測を行うことができます。ここでは、SMS スパムコーパスからスパムデータを使用し、データの 90% をトレーニングデータとしてランダムに抽出し、残りの 10% のデータをテストデータとして抽出して、ベイジアンモデル予測の精度をテストしました。

もちろん、モデルを構築する前に、モデルが処理できる形式にデータを処理する必要があります。

エンコーディング = 'ISO-8859-1'   
 
トレーニングの割合 = 0.9 
 
  
 
 def get_doc_vector(単語、語彙): 
 
 '' ' 文書内の用語を語彙に従って文書ベクトルに変換する
 
  
 
    :param words: 文書内の単語のリスト
 
    :type words:文字列のリスト
 
  
 
    :param vocabulary: 総語彙リスト
 
    :type 語彙:文字列のリスト
 
  
 
    : doc_vectを返す: ベイズ分析のための文書ベクトル
 
    :type doc_vect:リスト 整数  
 
 '' ' 
 
    doc_vect = [0]*len(語彙) 
 
  
 
単語内の単語: 
 
        語彙内の単語: 
 
            idx =語彙.インデックス(単語) 
 
            doc_vect[idx] = 1 
 
  
 
 doc_vectを返す
 
  
 
 def parse_line(行): 
 
 '' ' データセット内の各行を解析し、用語ベクトルと SMS タイプを返します。 
 
 '' ' 
 
    cls = 行を分割します( ',' )[-1].strip() 
 
    コンテンツ = ',' . join (line.split( ',' )[: -1]) 
 
    word_vect = [ word.lower () 、 wordの場合re.split (r '\W+' 、 content) 、 word の場合] 
 
 word_vect、clsを返す
 
  
 
 def parse_file(ファイル名): 
 
 '' ' ファイル内のデータを解析する
 
 '' ' 
 
    語彙、単語ベクトル、クラス = []、[]、[] 
 
と  open (filename, 'r' , encoding=ENCODING)をf:として開きます。 
 
 fの行の場合: 
 
            行の場合: 
 
                word_vect, cls = parse_line(行) 
 
                語彙を拡張します(word_vect) 
 
                word_vects.append(word_vect) 
 
                クラス.append(cls) 
 
    語彙 = リスト(セット(語彙)) 
 
  
 
語彙、word_vects、クラスを返す

上記の 3 つの関数を使用すると、テキストをモデルに必要なデータベクトルに直接変換できます。その後、データセットを分割し、統計用のベイジアンモデルにトレーニングデータセットを渡すことができます。

 # トレーニングデータとテストデータ
 
 ntest = int (len(クラス)*(1-TRAIN_PERCENTAGE)) 
 
  
 
テストワードベクトル = [] 
 
テストクラス = [] 
 
 i が範囲内(ntest)の場合: 
 
    idx = ランダム.randint(0, len(word_vects)-1) 
 
    test_word_vects.append(word_vects.pop(idx)) 
 
    test_classes.append(classes.pop(idx)) 
 
  
 
 train_word_vects = 単語ベクトル
 
 train_classes = クラス
 
  
 
 train_dataset = [ train_word_vects内の単語のget_doc_vector(words, vocabulary)]

モデルをトレーニングします。

 cond_probs、cls_probs = clf.train(train_dataset、train_classes)

次に、テストデータを使用して、ベイズモデルの予測精度をテストします。

 # モデルをテストする
 
エラー = 0 
 
 zip(test_word_vects, test_classes)内のtest_word_vect、test_clsの場合: 
 
    test_data = get_doc_vector(test_word_vect、語彙) 
 
    pred_cls = clf.classify(テストデータ、条件問題、cls_probs) 
 
    test_cls != pred_cls の場合: 
 
        print( '予測: {} -- 実際: {}' .format(pred_cls, test_cls)) 
 
        エラー += 1 
 
  
 
 print( 'エラー率: {}' .format(error/len(test_classes)))

4つのグループをランダムにテストしたところ、エラー率は0、0.037、0.015、0でした。平均エラー率は1.3%でした。

テストの後、さまざまな種類のテキストメッセージにおける各用語の確率分布がどのようになっているかを確認してみましょう。

 # さまざまな種類の確率分布曲線を描く
 
図 = plt.figure() 
 
 ax = fig.add_subplot(111) 
 
 cond_probs.items ()のcls、probsの場合: 
 
    ax.scatter(np.arange(0, len(probs)), 
 
               確率*cls_確率[cls], 
 
               ラベル=cls、 
 
               アルファ=0.3) 
 
    ax.凡例() 
 
  
 
 plt.show()

決定木を試す

前回の記事では、ID3アルゴリズムに基づいて決定木を実装しました。これも分類問題です。テキストデータを使用して、テキストメッセージを分類するための決定木を構築することもできます。もちろん、唯一の厄介なことは、ベイズと同じベクトルをデータとして使用すると、属性が多くなる可能性があることです。決定木を構築すると、ツリー構造の各レイヤーが属性を再帰的にトラバースし、情報ゲインに応じてツリー分割に最適な属性を選択します。このように、多くの属性は決定木を構築するプロセスに時間がかかる可能性があります。それでは試してみましょう...

 # 決定木を生成する
 
 os.path.exists( 'sms_tree.pkl' )が存在しない場合は: 
 
    clf.create_tree(トレーニングデータセット、トレーニングクラス、語彙) 
 
    clf.dump_tree( 'sms_tree.pkl' ) 
 
それ以外： 
 
    clf.load_tree( 'sms_tree.pkl' ) は、 
 
  
 
 # モデルをテストする
 
エラー = 0 
 
 zip(test_word_vects, test_classes)内のtest_word_vect、test_clsの場合: 
 
    test_data = get_doc_vector(test_word_vect、語彙) 
 
    pred_cls = clf.classify(テストデータ、feat_names=語彙) 
 
    test_cls != pred_cls の場合: 
 
        print( '予測: {} -- 実際: {}' .format(pred_cls, test_cls)) 
 
        エラー += 1 
 
  
 
 print( 'エラー率: {}' .format(error/len(test_classes)))

ランダムに2回テストしたところ、エラー率は0.09、0.0でした。

効果はかなり良いです

Graphviz を使って、決定木によって判断基準としてどのような用語が選択されているかを可視化してみましょう（このとき決定木のメリットが反映されます）。

決定木の深さがあまり深くないことがわかります。分類の種類が多い場合、深さが増すと決定木が面倒になる可能性があると推測されます。

要約する

この記事では、Python を使用して Naive Bayes 分類器を段階的に実装し、スパムテキストメッセージをフィルタリングします。また、同じデータに対する決定木の分類効果との簡単な比較も行います。この記事に関連するコード実装: https://github.com/PytLab/MLBox/tree/master/naive_bayes 。スパムメッセージをフィルタリングする決定木スクリプトは https://github.com/PytLab/MLBox/tree/master/decision_tree にあります。

参照する