IDSにおける機械学習アルゴリズムの応用

[[267184]]

[51CTO.com クイック翻訳] 近年の機械学習技術の急速な発展により、ネットワークセキュリティシステムの強化に、拡張予測機能を備えたさまざまな自動化技術が応用されています。

周知のとおり、ネットワークセキュリティに対する最も一般的なリスクは、ブルートフォースクラッキング、サービス拒否、ネットワーク侵入などの侵入から生じます。今日、ネットワークの動作パターンが変化するにつれて、業界では一般的に、静的なデータセット戦略だけではトラフィックの特定の構成を捕捉して傍受することはできないと考えています。したがって、さまざまな侵入を検出し防御するための動的なアプローチを採用する必要があります。

言い換えれば、従来の侵入検知システム (IDS) を簡単に回避できる複雑な攻撃ベクトルを学習して処理するには、変更可能で、繰り返し可能で、スケーラブルなデータセットが必要です。次に、機械学習が侵入検知にどのように役立ち、より強力で堅牢な IDS を構築できるかについて説明します。

IDSに関連する機械学習関連の概念

さまざまな機械学習アルゴリズムの中で、教師なし学習アルゴリズムは、ネットワークからさまざまな典型的なパターンを「学習」し、ラベル付けされたデータセットなしで異常を報告できます。さまざまな新しいタイプの侵入を検出できますが、誤検知が発生しやすくなります。したがって、ここでは教師なし K 平均法クラスタリングアルゴリズムについてのみ説明します。さらに、誤検知を減らすために、ラベル付けされたデータセットを導入し、教師あり機械学習モデルを構築して、ネットワーク内の通常のデータパケットと攻撃トラフィック間の特性の違いをトレーニングすることができます。このような教師ありモデルは、さまざまな既知の攻撃を巧みに処理し、そのような攻撃の亜種を識別することができます。したがって、以下で説明する標準的な教師ありアルゴリズムには、ベイジアンネットワーク、ランダムフォレスト、ランダムツリー、MLP、決定表が含まれます。

データセット

機械学習モデルの開始時に、最も重要かつ面倒なプロセスは、さまざまな信頼できるデータを取得することです。ここでは、KDD Cup 1999 のデータを使用して、侵入攻撃と本当に価値のあるトラフィック接続を区別するための予測モデルを構築します。 KDD Cup 1999 は、軍事ネットワーク環境でシミュレートされたさまざまな介入モデルを含む標準データセットです。4,898,431 個のインスタンスと 41 個の属性で構成されています。

次の 4 つの攻撃タイプを追跡し、各接続は正常または攻撃的としてマークされます。また、各接続レコードは約 100 バイトで構成されます。

サービス拒否
R2L: リモートマシンからの不正アクセス
U2R: ローカルルート権限からの不正アクセス
検出: 監視と再度の検査の要求

下表の通り、各タイプにはそれぞれ特有の攻撃形態があり、合計21種類あります。

KDDコレクション

次の表に示すように、TCP/IP プロトコルに基づく接続セットの基本的な分類特性をまとめます。

データを機械学習アルゴリズムで使用するには、まず特徴選択によって処理する必要があります。いくつかの要素の特徴は簡単に見つけることができますが、他の要素の特徴を見つけるには実験とテストが必要です。もちろん、一部の機能は冗長であり、異なるカテゴリを区別することに意味がない場合があるため、IDS でデータセットのすべての機能を使用することで必ずしも最高のパフォーマンスが達成されるわけではなく、場合によってはシステムの計算コストとエラー率が増加することもあります。

ここで、データセットの主な貢献は、上記の基本機能（DoS の検出、プロービング、R2L、U2R）を含む、専門家が提案する属性を導入することで、システムがさまざまな種類の攻撃動作を理解できるようにすることです。次の表は、さまざまな分野のナレッジベースによって提供されるコンテンツ機能のリストです。

機械学習アルゴリズムの簡単な紹介

K平均法クラスタリング

前述したように、K-means クラスタリングは教師なし学習手法です。これは最もシンプルで最も人気のある機械学習アルゴリズムの 1 つです。データ内の個別のグループを検索します。グループの数は変数 K で表されます。アルゴリズムは、データセットの特性に基づいて、異なるデータポイントを K グループの 1 つに割り当てます。さまざまな機能の類似性に基づいて、各データポイントがクラスター化されます。

ベイジアンネットワーク

ベイジアンネットワークは確率的なグラフィカルモデルです。その原理は、有向グラフのエッジに依存関係を描き、条件の依存関係を最大限に活用することです。エッジで接続されていないすべてのノードは条件付きで独立していると想定します。そして、有向非巡回グラフを作成するときにこの事実を利用します。

ランダムフォレスト分類器

ランダムフォレストは、複数のアルゴリズムを組み合わせて分類を実現する統合分類器です。これらのアルゴリズムは、データのランダムなサブセットに対して複数の決定木を作成し、各木からの合計投票を集計してテストのクラスを決定します。同時に、個々のツリーの貢献度に重み値も割り当てます。

多層知覚 (MLP)

MLP はフィードフォワードニューラルネットワークです。少なくとも入力層、隠れ層、出力層の 3 つの層で構成されます。トレーニング中に、さまざまな重みやパラメータを調整することで、分類のエラーを最小限に抑えることができます。このアルゴリズムは、各隠しノードに非線形性を導入します。バックプロパゲーションは、エラーを参照して重みとバイアスを調整するために使用されます。

成し遂げる

以下では、Python とその広範なライブラリを使用して IDS を実装します。もちろん、事前に Pandas (Python ベースの大規模データセット分析ライブラリ)、NumPy (Python のオープンソース数値計算拡張機能)、Scipy (数学、科学、工学で使用できる一般的なソフトウェアパッケージで、Numpy 行列の計算によく使用され、Numpy と連携できます) をインストールする必要があります。 Ubuntu を使用している場合、対応するシェルコマンドは次のようになります。

 sudo pip インストール numpy scipy pandas

まず、データセットを前処理する必要があります。つまり、データセットをダウンロードして、プログラムに対応するフォルダーに抽出する必要があります。同時に、Python の読み取りを容易にするために、データセットは .csv 形式にする必要があります。したがって、具体的なコマンドは次のようになります。

 # パンダをインポートする
pandasをpdとしてインポートする 
 # csv の読み取り
ファイルデータセット = pd.read_csv( "filename.csv" )

上で説明したさまざまな機械学習アルゴリズムは、「魔法の」Scipy ライブラリに保存する必要があります。以下の手順に従って、さまざまなモデルを使用してターゲットデータセットをすばやく実行できます。

K平均法

numpyをnpとしてインポートする 
 sklearn.clusterから 
 KMeansをインポートする 
印刷(データセット.describe())  
 ＃に 読み込まれたデータセットの概要を表示する 
 kmeans = KMeans(n_clusters=2)  
 # 脅威を 5つに分類します: Normal、DOS、PROBE、R2L 、 U2R  
 kmeans.fit(X)  
予測 = kmeans.predict(データセット[0])  
 #最初のエントリのタイプを予測します 
ランダムフォレスト
#ランダムフォレストモデルのインポート 
 sklearn.ensembleより 
 RandomForestClassifierをインポートする 
 #ガウス分布を作成する 
分類器 clf=RandomForestClassifier(n_estimators=50)  
 #トレーニングを使用してモデルをトレーニングする 
データセット clf.fit(データセット,データセット[:,LAST_COLUMN])  
 #LAST_COLUMNはインデックスです 列の 脅威または通常のラベル付き 
 pred = clf.predict(データセット)

ナイーブベイジアンネットワーク

sklearn.naive_bayesより 
 GaussianNBをインポートする 
 #ガウス単純ベイズ分類器を作成する 
 gnb = ガウスNB()  
 gnb.fit(データセット,データセット[:,LAST_COLMN])  
 pred = 予測(gnb, データセット[0])

多層的な認識

sklearn.neural_networkより 
 MLPClassifierをインポートする 
 #多層パーセプトロンを作成する 
 clf = MLPClassifier(ソルバー= 'lbfgs' 、アルファ=1e-5、隠しレイヤーサイズ=(5, 2)、ランダム状態=1)  
 clf.fit(データセット,データセット[:,LAST_COLMN])  
データセット[0]を予測します。

結果

機械学習モデルの精度を測定するために、平均精度、偽陽性率、偽陰性率など、さまざまな測定次元の参照指標を紹介します。 K-means は教師なしアルゴリズムであるため、このメトリックからは除外されます。

以下の式に示すように、平均精度は、正しく分類されたデータポイントの総数に対する比率として定義されます。

明らかに、ここでの「誤検知」とは、脅威であると判断されるが実際にはそうではないデータトラフィックを指します。同様に、「偽陰性」とは、実際には脅威であるが、IDS によって検出および報告されていないトラフィックを指します。

参照および測定できるその他の指標には、精度と真陽性が含まれます。で：

精度は、検出された脅威の数と脅威の総数の比率です。
真陽性とは、識別および判断できるすべてのパケットのうち、脅威パケットとして正常に識別できるパケットの比率を指します。

申請の意義

ある程度、現在のすべての IDS は、増大するネットワークセキュリティの脅威に対処するために機械学習テクノロジを導入する必要があります。機械学習を活用した IDS は、きめ細やかで高精度な自動検出を実現します。その結果、企業はさまざまな検出結果を使用して攻撃元を追跡し、さらなる侵入を防ぎ、自社のネットワークを最適化することができます。さらに、ユーザー企業は脅威シグネチャを注文して新たな攻撃を特定するために時間と競争する必要がなくなります。もちろん、さまざまな機械学習アルゴリズムは、さまざまなアプリケーションや検出シナリオで独自の強みを持っています。ネットワークとユーザートラフィックの特性に基づいて、環境に最適な機械学習ベースの IDS ソリューションを選択する必要があります。

原題: 侵入検知システム向け ML アルゴリズムの評価、著者: Aman Juneja

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: 初心者必読！畳み込みニューラルネットワークの始め方

>>: 家のドアをロックするChuangmi Technologyは、スマートホームセキュリティブランドをリードするスマートドアロックC1を発売しました。