Pythonで完全な異常検出アルゴリズムをゼロから実装する

確率を用いた異常検出アルゴリズム

異常検出は、外れ値分析の統計タスクとして扱うことができます。しかし、機械学習モデルを開発すれば、自動化が可能になり、通常通り多くの時間を節約できます。異常検出には多くのユースケースがあります。クレジットカード詐欺の検出、異常な機能に基づく故障した機械やハードウェアシステムの検出、医療記録に基づく病気の検出などがその良い例です。他にも多くのユースケースがあります。そして、異常検出の使用は増加するばかりです。

この記事では、Python で異常検出アルゴリズムをゼロから開発するプロセスを説明します。

[[346860]]

公式と手順

これは、前に説明した他の機械学習アルゴリズムに比べてはるかに簡単です。アルゴリズムは平均と分散を使用して各トレーニングデータの確率を計算します。

トレーニング例の確率が高い場合、それは正常です。トレーニング例の確率が低い場合、それは異常です。トレーニングセットが異なれば、高確率と低確率の定義も異なります。これをどのように決定するかについては後で説明します。

異常検出の仕組みを説明すると、非常に簡単です。

（１）次の式を用いて平均値を計算する。

ここで、m はデータセットの長さまたはトレーニングデータの数であり、xi はトレーニング例です。複数のトレーニング機能がある場合、ほとんどの場合、各機能の平均を計算する必要があります。

（２）次の式を用いて分散を計算する。

ここで、mu は前のステップから計算された平均値です。

（３）次に、この確率式を使用して各トレーニング例の確率を計算します。

この式のプラス記号に惑わされないでください。これは実際には対角線の形状の変化です。

後でアルゴリズムを実装すると、これがどのように見えるかがわかります。

（４）次に確率の閾値を見つける必要がある。前に述べたように、トレーニング例の確率が低い場合、それは異常な例です。

低確率とはどの程度の確率でしょうか?

一般的な制限はありません。トレーニングデータセットの答えを見つける必要があります。

ステップ3で得られた出力から一連の確率値を取得します。それぞれの確率について、データが異常か正常かを示すラベルを見つけます。

次に、さまざまな確率の精度、再現率、および f1 スコアを計算します。

精度は次の式で計算できます。

リコール率は次の式で計算できます。

ここで、「真陽性」とは、アルゴリズムが例を異常として検出し、実際に異常であったケースの数を指します。

アルゴリズムが例を異常として検出したが、実際には異常ではない場合に、誤検知が発生します。

False Negative は、アルゴリズムによって検出された例が異常な例ではないが、実際には異常な例であることを意味します。

上記の式から、精度と再現率が高いほど、より多くの肯定的なエッジがあることを意味するため、常に良いことがわかります。しかし同時に、式からわかるように、偽陽性と偽陰性も重要な役割を果たします。そこにはバランスが必要です。あなたが属する業界に応じて、どれを許容できるかを決める必要があります。

良いアプローチは平均を取ることです。平均を求めるための独自の公式があります。これはF1スコアです。 F1 スコアの計算式は次のとおりです。

ここで、P と R はそれぞれ精度と再現率です。

この式がなぜそれほどユニークなのかについては詳しく説明しません。この記事は異常検出に関するものです。精度、再現率、F1 スコアについて詳しく知りたい場合は、このトピックに関する詳細な記事をこちらでご覧ください。

精度、再現率、Fスコアの概念を完全に理解する

機械学習における偏ったデータセットの扱い方

f1 スコアに基づいて、しきい値確率を選択する必要があります。

1 は完全な f スコアであり、0 は最悪の確率スコアです。

異常検出アルゴリズム

2 つのトレーニング機能を備えた Andrew Ng の機械学習コースのデータセットを使用します。このデータセットは学習に最適であるため、この記事の実際のデータセットは使用しませんでした。機能は2つだけです。現実世界のデータセットでは、特徴が 2 つだけである可能性は低いです。

ミッションを始めましょう！

まず、必要なパッケージをインポートします

pandasをpdとしてインポートする
numpyをnpとしてインポートする

データセットをインポートします。これは Excel データセットです。ここでは、トレーニングデータとクロス検証データは別々のテーブルに保存されます。それでは、トレーニングデータを導入しましょう。

 df = pd .read_excel('ex8data1.xlsx', sheet_name = 'X' , header =なし)
 df.head()

列 0 と列 1 をプロットしてみましょう。

 plt.figure()
 plt.scatter(df[0], df[1])
 plt.show()

このグラフを見ると、どのデータが異常であるかがわかるかもしれません。

このデータセットにトレーニング例がいくつあるか確認します。

 m =長さ(自由度)

各特徴の平均を計算します。ここでは、0 と 1 の 2 つの特徴のみがあります。

 s = np .sum(df,軸= 0 )
 mu = s /mmu

出力：

 0 14.1122261 14.997711
データ型: float64

分散は、上記の「式と手順」セクションで説明した式を使用して計算されます。

 vr = np .sum((df - mu)**2、軸= 0 )
分散= vr /m分散

出力：

 0 1.8326311 1.709745
データ型: float64

今度は斜めの形にします。確率の公式に続く「公式と手順」のセクションで説明するように、合計の符号は実際には分散の対角線です。

 var_dia = np .diag(分散)
 var_dia

出力：

配列([[1.83263141, 0. ], [0. , 1.70974533]])

確率を計算します。

 k =長さ(μ)
 X =自由度- ミュー
p = 1 /((2*np.pi)**(k/2)*(np.linalg.det(var_dia)**0.5))*np.exp(-0.5*np.sum([email protected](var_dia) * X、軸= 1 ))
 p

トレーニング部分は完了です。

次のステップは閾値確率を見つけることです。確率が閾値確率より低い場合、サンプルデータは異常です。しかし、私たちの特殊なケースではその閾値を見つける必要があります。

このステップでは、ラベルとともにクロス検証データを使用します。このデータセットでは、クロス検証データとラベルが別のワークシートに含まれています。

あなたの場合、相互検証のために元のデータの一部のみを保持する必要があります。

次に、クロス検証データとラベルをインポートします。

 cvx = pd .read_excel('ex8data1.xlsx', sheet_name = 'Xval' , header =なし)
 cvx.head()

タグは次のとおりです:

 cvy = pd .read_excel('ex8data1.xlsx', sheet_name = 'y' , header =なし)
 cvy.head()

私は配列を扱うのが好きなので、「cvy」を NumPy 配列に変換しました。 DataFramesでも大丈夫です。

 y = np .array(cvy)

出力：

 #配列の一部
配列([[0], [0], [0], [0], [0], [0], [0], [0], [0],

ここで、y 値が 0 の場合はこれが正常な例であることを示し、y 値が 1 の場合はこれが異常な例であることを示します。

さて、しきい値をどのように選択するのでしょうか?

確率のリストからすべての確率を単にチェックしたいわけではありません。それはおそらく不必要です。もう一度オッズを確認してみましょう。

 p.describe()

出力：

 3.070000e+02を数える
平均5.905331e-02
標準 2.324461e-02
最小 1.181209e-2325% 4.361075e-0250% 6.510144e-0275% 7.849532e-02
最大 8.986095e-02
データ型: float64

画像からわかるように、外れ値のデータはあまりありません。したがって、75% の値から始めれば、問題なく進むはずです。しかし、念のため、平均値から始めます。

したがって、平均値から下限値までの確率の範囲をとります。この範囲内の各確率の f1 スコアを確認します。

まず、真陽性、偽陽性、偽陰性を計算する関数を定義します。

 tpfpfn(ep)を定義します:
 tp、 fp 、 fn = 0、0、0
 iが範囲(len(y))内にある場合:
   p[i] < = ep かつ y[i][0] == 1 の場合:
    tp += 1
   p[i] < = ep かつ y[i][0] == 0 の場合:
    関数p += 1
   p[i] > ep かつ y[i][0] == 1 の場合:
    関数n+=1
 tp、fp、fn を返す

平均確率以下の確率をリストします。

 eps = [i が i 内にある場合、i < = p.mean()]

リストの長さを確認してください。

長さ(eps)

出力：

先ほど説明した式に従って、f1 スコアを計算する関数を定義します。

 f1(ep)を定義します。
 tp、fp、 fn = tpfpfn (ep)
 prec = tp /(tp + fp)
 rec = tp /(tp + fn)
 f1 = 2 *prec*rec/(prec + rec)
 f1を返す

すべての機能が準備完了です!

ここで、すべての ε または先ほど選択した確率値の範囲の f1 スコアを計算します。

 f = []
 i が eps の場合:
 f.append(f1(i))
ふ

出力：

 , 0.14285714285714285, 0.14035087719298248, 0.1927710843373494, 0.1568627450980392, 0.208955223880597, 0.41379310344827586, 0.15517241379310345, 0.28571428571428575, 0.19444444444444445, 0.5217391304347826, 0.19718309859154928, 0.19753086419753085、0.29268292682926833、0.14545454545454545、

これは f スコアリストの一部です。長さは133になります。

f スコアは通常 0 から 1 の間であり、1 が完全な f スコアです。 F1スコアが高いほど良いです。したがって、計算した「f」スコアのリストから最高の f スコアを取得する必要があります。

ここで、「argmax」関数を使用して最大 f スコア値のインデックスを決定します。

 np.array(f).argmax()

出力：

このインデックスを使用して、しきい値確率を取得します。

 e = eps [131]
 e

出力：

 6.107184445968581e-05

珍しい例を見つける

閾値確率があります。そこからトレーニングデータのラベルを見つけることができます。

確率値が閾値以下の場合、データは異常であり、それ以外の場合は正常です。正常データと異常データはそれぞれ 0 と 1 で表します。

ラベル= []
 iが範囲(len(df))内にある場合:
 p[i] < = eの場合:
ラベル.追加(1)
それ以外：
ラベル.追加(0) 
 
ラベル

出力：

 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

これはタグリストの一部です。

この計算されたラベルを上記のトレーニングデータセットに追加します。

 df['ラベル'] = np.array(ラベル)
 df.head()

赤いラベルを 1、黒いラベルを 0 としてデータをプロットしました。これがあらすじです。

それは意味がありますか?

本当ですか？赤字のデータは明らかに異常です。

結論は

異常検出アルゴリズムの開発プロセスを段階的に説明してみました。ここでは手順を隠していません。これが理解できることを願います。読んだだけでは理解しにくい場合は、各コードをノートブックで自分で実行することをお勧めします。こうすると非常に明確になります。

<<: ローコード機械学習ツール

>>: 人工知能、自動化、新興技術のトレンドが4.6兆ドルの通貨市場に混乱をもたらしている

Pythonで完全な異常検出アルゴリズムをゼロから実装する

AIとIoTの統合が加速

LEACH プロトコルアルゴリズムの簡単な紹介

ロボットインテリジェント把持システム：いくつかの主流ソリューション

ロボットは感染症の蔓延を抑制するためにどのように役立つのでしょうか?

「未来ロボット」が1億元の資金調達を完了。自動物流が次の「阿修羅場」となるか？

TCP輻輳制御とGoogleのBBRアルゴリズムとは何か

フランスのヒューマノイドロボット Reachy は、オープンソース + モジュール式で、最も複雑な Raspberry Pi ロボットの 1 つです。

日常生活における人工知能の応用トップ 10

推薦する

IBMのレポートは、ショッピングにおけるAIへの消費者の関心を強調している

「怠け者」を助ける掃除ロボットの規模は600億台を超える

医療従事者を守ってください！ロボットは薬を届け、病気を治療し、消毒し、医師や看護師を感染から守ることができる。

中国をターゲットに！米国はドローンや衛星画像を含むAIソフトウェアの輸出を緊急制限

2019年自然言語処理フロンティアフォーラム: 機械による「読む、書く、話す、翻訳する」に焦点を当て、自然言語処理の未来を探る

P-Careは人間の知的生活の新たなトレンドをリードしています。中瑞富寧と世界をリードする科学者たちが2018年世界ロボット会議（WRC）に輝かしい登場を果たしました。

クアルコムとインテルはAIをデータセンターから移行したいと考えている

この履歴書は人気があります：14nmコーヒーを手で挽き、マイクロソフトで性感染症を広め、90％の企業が和解の手を差し伸べる

BingチャットAIの品質に問題があるとユーザーが報告、マイクロソフトはエクスペリエンスの改善を約束

人工知能とソフトウェア開発の未来

Google、写真を撮るだけで皮膚疾患を検出するAIツールの新機能を発表

WeChatロボットの長期無料導入、初心者でも簡単にAIを始められる