IDSにおける機械学習アルゴリズムの応用

IDSにおける機械学習アルゴリズムの応用

[[267184]]

[51CTO.com クイック翻訳] 近年の機械学習技術の急速な発展により、ネットワークセキュリティシステムの強化に、拡張予測機能を備えたさまざまな自動化技術が応用されています。

周知のとおり、ネットワーク セキュリティに対する最も一般的なリスクは、ブルート フォース クラッキング、サービス拒否、ネットワーク侵入などの侵入から生じます。今日、ネットワークの動作パターンが変化するにつれて、業界では一般的に、静的なデータ セット戦略だけではトラフィックの特定の構成を捕捉して傍受することはできないと考えています。したがって、さまざまな侵入を検出し防御するための動的なアプローチを採用する必要があります。

言い換えれば、従来の侵入検知システム (IDS) を簡単に回避できる複雑な攻撃ベクトルを学習して処理するには、変更可能で、繰り返し可能で、スケーラブルなデータセットが必要です。次に、機械学習が侵入検知にどのように役立ち、より強力で堅牢な IDS を構築できるかについて説明します。

IDSに関連する機械学習関連の概念

さまざまな機械学習アルゴリズムの中で、教師なし学習アルゴリズムは、ネットワークからさまざまな典型的なパターンを「学習」し、ラベル付けされたデータセットなしで異常を報告できます。さまざまな新しいタイプの侵入を検出できますが、誤検知が発生しやすくなります。したがって、ここでは教師なし K 平均法クラスタリング アルゴリズムについてのみ説明します。さらに、誤検知を減らすために、ラベル付けされたデータセットを導入し、教師あり機械学習モデルを構築して、ネットワーク内の通常のデータパケットと攻撃トラフィック間の特性の違いをトレーニングすることができます。このような教師ありモデルは、さまざまな既知の攻撃を巧みに処理し、そのような攻撃の亜種を識別することができます。したがって、以下で説明する標準的な教師ありアルゴリズムには、ベイジアン ネットワーク、ランダム フォレスト、ランダム ツリー、MLP、決定表が含まれます。

データセット

機械学習モデルの開始時に、最も重要かつ面倒なプロセスは、さまざまな信頼できるデータを取得することです。ここでは、KDD Cup 1999 のデータを使用して、侵入攻撃と本当に価値のあるトラフィック接続を区別するための予測モデルを構築します。 KDD Cup 1999 は、軍事ネットワーク環境でシミュレートされたさまざまな介入モデルを含む標準データセットです。4,898,431 個のインスタンスと 41 個の属性で構成されています。

次の 4 つの攻撃タイプを追跡し、各接続は正常または攻撃的としてマークされます。また、各接続レコードは約 100 バイトで構成されます。

  • サービス拒否
  • R2L: リモートマシンからの不正アクセス
  • U2R: ローカル ルート権限からの不正アクセス
  • 検出: 監視と再度の検査の要求

下表の通り、各タイプにはそれぞれ特有の攻撃形態があり、合計21種類あります。

KDDコレクション

次の表に示すように、TCP/IP プロトコルに基づく接続セットの基本的な分類特性をまとめます。

データを機械学習アルゴリズムで使用するには、まず特徴選択によって処理する必要があります。いくつかの要素の特徴は簡単に見つけることができますが、他の要素の特徴を見つけるには実験とテストが必要です。もちろん、一部の機能は冗長であり、異なるカテゴリを区別することに意味がない場合があるため、IDS でデータセットのすべての機能を使用することで必ずしも最高のパフォーマンスが達成されるわけではなく、場合によってはシステムの計算コストとエラー率が増加することもあります。

ここで、データセットの主な貢献は、上記の基本機能(DoS の検出、プロービング、R2L、U2R)を含む、専門家が提案する属性を導入することで、システムがさまざまな種類の攻撃動作を理解できるようにすることです。次の表は、さまざまな分野のナレッジベースによって提供されるコンテンツ機能のリストです。

機械学習アルゴリズムの簡単な紹介

K平均法クラスタリング

前述したように、K-means クラスタリングは教師なし学習手法です。これは最もシンプルで最も人気のある機械学習アルゴリズムの 1 つです。データ内の個別のグループを検索します。グループの数は変数 K で表されます。アルゴリズムは、データセットの特性に基づいて、異なるデータ ポイントを K グループの 1 つに割り当てます。さまざまな機能の類似性に基づいて、各データ ポイントがクラスター化されます。

ベイジアンネットワーク

ベイジアン ネットワークは確率的なグラフィカル モデルです。その原理は、有向グラフのエッジに依存関係を描き、条件の依存関係を最大限に活用することです。エッジで接続されていないすべてのノードは条件付きで独立していると想定します。そして、有向非巡回グラフを作成するときにこの事実を利用します。

ランダムフォレスト分類器

ランダムフォレストは、複数のアルゴリズムを組み合わせて分類を実現する統合分類器です。これらのアルゴリズムは、データのランダムなサブセットに対して複数の決定木を作成し、各木からの合計投票を集計してテストのクラスを決定します。同時に、個々のツリーの貢献度に重み値も割り当てます。

多層知覚 (MLP)

MLP はフィードフォワードニューラルネットワークです。少なくとも入力層、隠れ層、出力層の 3 つの層で構成されます。トレーニング中に、さまざまな重みやパラメータを調整することで、分類のエラーを最小限に抑えることができます。このアルゴリズムは、各隠しノードに非線形性を導入します。バックプロパゲーションは、エラーを参照して重みとバイアスを調整するために使用されます。

成し遂げる

以下では、Python とその広範なライブラリを使用して IDS を実装します。もちろん、事前に Pandas (Python ベースの大規模データセット分析ライブラリ)、NumPy (Python のオープンソース数値計算拡張機能)、Scipy (数学、科学、工学で使用できる一般的なソフトウェア パッケージで、Numpy 行列の計算によく使用され、Numpy と連携できます) をインストールする必要があります。 Ubuntu を使用している場合、対応するシェル コマンドは次のようになります。

  1. sudo pip インストール numpy scipy pandas

まず、データセットを前処理する必要があります。つまり、データセットをダウンロードして、プログラムに対応するフォルダーに抽出する必要があります。同時に、Python の読み取りを容易にするために、データセットは .csv 形式にする必要があります。したがって、具体的なコマンドは次のようになります。

  1. # パンダをインポートする
  2. pandasをpdとしてインポートする 
  3. # csv の読み取り
  4. ファイルデータセット = pd.read_csv( "filename.csv" )

上で説明したさまざまな機械学習アルゴリズムは、「魔法の」Scipy ライブラリに保存する必要があります。以下の手順に従って、さまざまなモデルを使用してターゲット データセットをすばやく実行できます。

K平均法

  1. numpyをnpとしてインポートする 
  2. sklearn.clusterから 
  3. KMeansをインポートする 
  4. 印刷(データセット.describe())  
  5.  読み込まれたデータセット概要を表示する 
  6. kmeans = KMeans(n_clusters=2)  
  7. # 脅威を 5つに分類します: Normal、DOS、PROBE、R2L U2R  
  8. kmeans.fit(X)  
  9. 予測 = kmeans.predict(データセット[0])  
  10. #最初エントリタイプを予測します 
  11. ランダムフォレスト
  12. #ランダムフォレストモデルのインポート 
  13. sklearn.ensembleより 
  14. RandomForestClassifierをインポートする 
  15. #ガウス分布を作成する 
  16. 分類器 clf=RandomForestClassifier(n_estimators=50)  
  17. #トレーニングを使用してモデルをトレーニングする 
  18. データセット clf.fit(データセット,データセット[:,LAST_COLUMN])  
  19. #LAST_COLUMNインデックスです  脅威または通常ラベル付き 
  20. pred = clf.predict(データセット)

ナイーブベイジアンネットワーク

  1. sklearn.naive_bayesより 
  2. GaussianNBをインポートする 
  3. #ガウス単純ベイズ分類器を作成する 
  4. gnb = ガウスNB()  
  5. gnb.fit(データセット,データセット[:,LAST_COLMN])  
  6. pred = 予測(gnb, データセット[0])

多層的な認識

  1. sklearn.neural_networkより 
  2. MLPClassifierをインポートする 
  3. #多層パーセプトロンを作成する 
  4. clf = MLPClassifier(ソルバー= 'lbfgs' 、アルファ=1e-5、隠しレイヤーサイズ=(5, 2)、ランダム状態=1)  
  5. clf.fit(データセット,データセット[:,LAST_COLMN])  
  6. データセット[0]を予測します。

結果

機械学習モデルの精度を測定するために、平均精度、偽陽性率、偽陰性率など、さまざまな測定次元の参照指標を紹介します。 K-means は教師なしアルゴリズムであるため、このメトリックからは除外されます。

以下の式に示すように、平均精度は、正しく分類されたデータ ポイントの総数に対する比率として定義されます。

明らかに、ここでの「誤検知」とは、脅威であると判断されるが実際にはそうではないデータ トラフィックを指します。同様に、「偽陰性」とは、実際には脅威であるが、IDS によって検出および報告されていないトラフィックを指します。

参照および測定できるその他の指標には、精度と真陽性が含まれます。で:

  • 精度は、検出された脅威の数と脅威の総数の比率です。
  • 真陽性とは、識別および判断できるすべてのパケットのうち、脅威パケットとして正常に識別できるパケットの比率を指します。

申請の意義

ある程度、現在のすべての IDS は、増大するネットワーク セキュリティの脅威に対処するために機械学習テクノロジを導入する必要があります。機械学習を活用した IDS は、きめ細やかで高精度な自動検出を実現します。その結果、企業はさまざまな検出結果を使用して攻撃元を追跡し、さらなる侵入を防ぎ、自社のネットワークを最適化することができます。さらに、ユーザー企業は脅威シグネチャを注文して新たな攻撃を特定するために時間と競争する必要がなくなります。もちろん、さまざまな機械学習アルゴリズムは、さまざまなアプリケーションや検出シナリオで独自の強みを持っています。ネットワークとユーザー トラフィックの特性に基づいて、環境に最適な機械学習ベースの IDS ソリューションを選択する必要があります。

原題: 侵入検知システム向け ML アルゴリズムの評価、著者: Aman Juneja

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  初心者必読!畳み込みニューラルネットワークの始め方

>>:  家のドアをロックするChuangmi Technologyは、スマートホームセキュリティブランドをリードするスマートドアロックC1を発売しました。

ブログ    
ブログ    

推薦する

28歳で普通のエンジニアからAIに転職すべきか?

[[275552]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

...

米連邦取引委員会は、ChatGPTによるデータ漏洩と回答の捏造を含むOpenAIに対する徹底的な調査を開始した。

ワシントンポスト紙によると、7月13日、米国連邦取引委員会(FTC)はサンフランシスコに拠点を置くO...

「公平性」、人工知能はこれを達成できるのか?

2020年の東京オリンピックはこれまで以上に盛り上がっています。 7月28日に行われた男子体操個人...

人工知能画像生成技術:わずか5年でなぜ急速な発展を遂げたのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ロボットは人間と機械の協働チームの「リーダー」になれるでしょうか?どのように機能しますか?

ロボット技術の発展により、ロボットは実生活においてますます重要な役割を果たすようになるでしょう。人間...

企業が生産性向上のためにAIを活用しようとする中、最高AI責任者の必要性が高まっている。

Foundry の 2023 年 AI 優先事項調査では、組織内で AI および AIGC テクノ...

AGI(汎用人工知能)は数年のうちに実現されるでしょうか? 3つのテクノロジー大手が判決を下す

2011年、Google DeepMindの共同創設者であるシェーン・レッグは、2028年までにAI...

...

Java データ構造とアルゴリズム分析 (VIII) - スプレー ツリー

ストレッチツリーの紹介スプレー ツリーは特殊な二分探索ツリーです。特別なのは、バイナリ検索ツリーであ...

...

百度文心ビッグモデル4.0速報:万華訓練史上最大のパラメータ、早くても来週にお会いしましょう

昨日10月9日、財連社は、百度の文心ビッグモデル4.0が集中的なトレーニングを受けており、リリースの...

...

24時間365日対応のAI教師は生徒にどのような影響を与えるのでしょうか?

伝統的な教育方法は、過去 1 世紀か 2 世紀の間にあまり変わっていません。通常、生徒は教室で教師の...

...