IDSにおける機械学習アルゴリズムの応用

IDSにおける機械学習アルゴリズムの応用

[[267184]]

[51CTO.com クイック翻訳] 近年の機械学習技術の急速な発展により、ネットワークセキュリティシステムの強化に、拡張予測機能を備えたさまざまな自動化技術が応用されています。

周知のとおり、ネットワーク セキュリティに対する最も一般的なリスクは、ブルート フォース クラッキング、サービス拒否、ネットワーク侵入などの侵入から生じます。今日、ネットワークの動作パターンが変化するにつれて、業界では一般的に、静的なデータ セット戦略だけではトラフィックの特定の構成を捕捉して傍受することはできないと考えています。したがって、さまざまな侵入を検出し防御するための動的なアプローチを採用する必要があります。

言い換えれば、従来の侵入検知システム (IDS) を簡単に回避できる複雑な攻撃ベクトルを学習して処理するには、変更可能で、繰り返し可能で、スケーラブルなデータセットが必要です。次に、機械学習が侵入検知にどのように役立ち、より強力で堅牢な IDS を構築できるかについて説明します。

IDSに関連する機械学習関連の概念

さまざまな機械学習アルゴリズムの中で、教師なし学習アルゴリズムは、ネットワークからさまざまな典型的なパターンを「学習」し、ラベル付けされたデータセットなしで異常を報告できます。さまざまな新しいタイプの侵入を検出できますが、誤検知が発生しやすくなります。したがって、ここでは教師なし K 平均法クラスタリング アルゴリズムについてのみ説明します。さらに、誤検知を減らすために、ラベル付けされたデータセットを導入し、教師あり機械学習モデルを構築して、ネットワーク内の通常のデータパケットと攻撃トラフィック間の特性の違いをトレーニングすることができます。このような教師ありモデルは、さまざまな既知の攻撃を巧みに処理し、そのような攻撃の亜種を識別することができます。したがって、以下で説明する標準的な教師ありアルゴリズムには、ベイジアン ネットワーク、ランダム フォレスト、ランダム ツリー、MLP、決定表が含まれます。

データセット

機械学習モデルの開始時に、最も重要かつ面倒なプロセスは、さまざまな信頼できるデータを取得することです。ここでは、KDD Cup 1999 のデータを使用して、侵入攻撃と本当に価値のあるトラフィック接続を区別するための予測モデルを構築します。 KDD Cup 1999 は、軍事ネットワーク環境でシミュレートされたさまざまな介入モデルを含む標準データセットです。4,898,431 個のインスタンスと 41 個の属性で構成されています。

次の 4 つの攻撃タイプを追跡し、各接続は正常または攻撃的としてマークされます。また、各接続レコードは約 100 バイトで構成されます。

  • サービス拒否
  • R2L: リモートマシンからの不正アクセス
  • U2R: ローカル ルート権限からの不正アクセス
  • 検出: 監視と再度の検査の要求

下表の通り、各タイプにはそれぞれ特有の攻撃形態があり、合計21種類あります。

KDDコレクション

次の表に示すように、TCP/IP プロトコルに基づく接続セットの基本的な分類特性をまとめます。

データを機械学習アルゴリズムで使用するには、まず特徴選択によって処理する必要があります。いくつかの要素の特徴は簡単に見つけることができますが、他の要素の特徴を見つけるには実験とテストが必要です。もちろん、一部の機能は冗長であり、異なるカテゴリを区別することに意味がない場合があるため、IDS でデータセットのすべての機能を使用することで必ずしも最高のパフォーマンスが達成されるわけではなく、場合によってはシステムの計算コストとエラー率が増加することもあります。

ここで、データセットの主な貢献は、上記の基本機能(DoS の検出、プロービング、R2L、U2R)を含む、専門家が提案する属性を導入することで、システムがさまざまな種類の攻撃動作を理解できるようにすることです。次の表は、さまざまな分野のナレッジベースによって提供されるコンテンツ機能のリストです。

機械学習アルゴリズムの簡単な紹介

K平均法クラスタリング

前述したように、K-means クラスタリングは教師なし学習手法です。これは最もシンプルで最も人気のある機械学習アルゴリズムの 1 つです。データ内の個別のグループを検索します。グループの数は変数 K で表されます。アルゴリズムは、データセットの特性に基づいて、異なるデータ ポイントを K グループの 1 つに割り当てます。さまざまな機能の類似性に基づいて、各データ ポイントがクラスター化されます。

ベイジアンネットワーク

ベイジアン ネットワークは確率的なグラフィカル モデルです。その原理は、有向グラフのエッジに依存関係を描き、条件の依存関係を最大限に活用することです。エッジで接続されていないすべてのノードは条件付きで独立していると想定します。そして、有向非巡回グラフを作成するときにこの事実を利用します。

ランダムフォレスト分類器

ランダムフォレストは、複数のアルゴリズムを組み合わせて分類を実現する統合分類器です。これらのアルゴリズムは、データのランダムなサブセットに対して複数の決定木を作成し、各木からの合計投票を集計してテストのクラスを決定します。同時に、個々のツリーの貢献度に重み値も割り当てます。

多層知覚 (MLP)

MLP はフィードフォワードニューラルネットワークです。少なくとも入力層、隠れ層、出力層の 3 つの層で構成されます。トレーニング中に、さまざまな重みやパラメータを調整することで、分類のエラーを最小限に抑えることができます。このアルゴリズムは、各隠しノードに非線形性を導入します。バックプロパゲーションは、エラーを参照して重みとバイアスを調整するために使用されます。

成し遂げる

以下では、Python とその広範なライブラリを使用して IDS を実装します。もちろん、事前に Pandas (Python ベースの大規模データセット分析ライブラリ)、NumPy (Python のオープンソース数値計算拡張機能)、Scipy (数学、科学、工学で使用できる一般的なソフトウェア パッケージで、Numpy 行列の計算によく使用され、Numpy と連携できます) をインストールする必要があります。 Ubuntu を使用している場合、対応するシェル コマンドは次のようになります。

  1. sudo pip インストール numpy scipy pandas

まず、データセットを前処理する必要があります。つまり、データセットをダウンロードして、プログラムに対応するフォルダーに抽出する必要があります。同時に、Python の読み取りを容易にするために、データセットは .csv 形式にする必要があります。したがって、具体的なコマンドは次のようになります。

  1. # パンダをインポートする
  2. pandasをpdとしてインポートする 
  3. # csv の読み取り
  4. ファイルデータセット = pd.read_csv( "filename.csv" )

上で説明したさまざまな機械学習アルゴリズムは、「魔法の」Scipy ライブラリに保存する必要があります。以下の手順に従って、さまざまなモデルを使用してターゲット データセットをすばやく実行できます。

K平均法

  1. numpyをnpとしてインポートする 
  2. sklearn.clusterから 
  3. KMeansをインポートする 
  4. 印刷(データセット.describe())  
  5.  読み込まれたデータセット概要を表示する 
  6. kmeans = KMeans(n_clusters=2)  
  7. # 脅威を 5つに分類します: Normal、DOS、PROBE、R2L U2R  
  8. kmeans.fit(X)  
  9. 予測 = kmeans.predict(データセット[0])  
  10. #最初エントリタイプを予測します 
  11. ランダムフォレスト
  12. #ランダムフォレストモデルのインポート 
  13. sklearn.ensembleより 
  14. RandomForestClassifierをインポートする 
  15. #ガウス分布を作成する 
  16. 分類器 clf=RandomForestClassifier(n_estimators=50)  
  17. #トレーニングを使用してモデルをトレーニングする 
  18. データセット clf.fit(データセット,データセット[:,LAST_COLUMN])  
  19. #LAST_COLUMNインデックスです  脅威または通常ラベル付き 
  20. pred = clf.predict(データセット)

ナイーブベイジアンネットワーク

  1. sklearn.naive_bayesより 
  2. GaussianNBをインポートする 
  3. #ガウス単純ベイズ分類器を作成する 
  4. gnb = ガウスNB()  
  5. gnb.fit(データセット,データセット[:,LAST_COLMN])  
  6. pred = 予測(gnb, データセット[0])

多層的な認識

  1. sklearn.neural_networkより 
  2. MLPClassifierをインポートする 
  3. #多層パーセプトロンを作成する 
  4. clf = MLPClassifier(ソルバー= 'lbfgs' 、アルファ=1e-5、隠しレイヤーサイズ=(5, 2)、ランダム状態=1)  
  5. clf.fit(データセット,データセット[:,LAST_COLMN])  
  6. データセット[0]を予測します。

結果

機械学習モデルの精度を測定するために、平均精度、偽陽性率、偽陰性率など、さまざまな測定次元の参照指標を紹介します。 K-means は教師なしアルゴリズムであるため、このメトリックからは除外されます。

以下の式に示すように、平均精度は、正しく分類されたデータ ポイントの総数に対する比率として定義されます。

明らかに、ここでの「誤検知」とは、脅威であると判断されるが実際にはそうではないデータ トラフィックを指します。同様に、「偽陰性」とは、実際には脅威であるが、IDS によって検出および報告されていないトラフィックを指します。

参照および測定できるその他の指標には、精度と真陽性が含まれます。で:

  • 精度は、検出された脅威の数と脅威の総数の比率です。
  • 真陽性とは、識別および判断できるすべてのパケットのうち、脅威パケットとして正常に識別できるパケットの比率を指します。

申請の意義

ある程度、現在のすべての IDS は、増大するネットワーク セキュリティの脅威に対処するために機械学習テクノロジを導入する必要があります。機械学習を活用した IDS は、きめ細やかで高精度な自動検出を実現します。その結果、企業はさまざまな検出結果を使用して攻撃元を追跡し、さらなる侵入を防ぎ、自社のネットワークを最適化することができます。さらに、ユーザー企業は脅威シグネチャを注文して新たな攻撃を特定するために時間と競争する必要がなくなります。もちろん、さまざまな機械学習アルゴリズムは、さまざまなアプリケーションや検出シナリオで独自の強みを持っています。ネットワークとユーザー トラフィックの特性に基づいて、環境に最適な機械学習ベースの IDS ソリューションを選択する必要があります。

原題: 侵入検知システム向け ML アルゴリズムの評価、著者: Aman Juneja

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  初心者必読!畳み込みニューラルネットワークの始め方

>>:  家のドアをロックするChuangmi Technologyは、スマートホームセキュリティブランドをリードするスマートドアロックC1を発売しました。

ブログ    
ブログ    
ブログ    

推薦する

コンテンツ マーケティングにおいて自然言語処理はどのように機能しますか?

[[417909]] [51CTO.com クイック翻訳]自然言語処理 (NLP) はコンテンツ ...

...

...

Apache IoTDB: 産業用 IoT シナリオに適した新しいデータベース。保存、クエリ、使用はもはや問題ではありません。

インダストリー4.0の時代に入り、デジタル化と自動化の導入により生産環境はより効率的になりました。同...

AI技術がピカソの隠された絵画の発見を助ける

[[429170]]最近、外国メディアの報道によると、有名になる前のパブロ・ピカソは、必ずしも画材を...

これは私が今まで読んだ TensorFlow を説明する最も徹底的な記事です。

はじめに: 「私の名前はジェイコブです。Google AI Residency プログラムの奨学生で...

...

劉烈宏:中国の中核人工知能産業の規模は今年上半期に770億元に達した

[[354052]] 11月24日、工業情報化部の劉烈宏副部長は人工知能サブフォーラム「人工知能:新...

自動運転車は本当に人間が運転する車よりも安全でしょうか?

自動運転車は、人工知能技術の最もエキサイティングで影響力のある応用例の 1 つです。米国だけでも、毎...

データが人工知能の基盤となる理由

データ注釈とは何ですか?ほとんどのデータはラベル付けされておらず、非構造化データですが、人工知能のト...

新しい研究:医療AIが新たな統合失調症患者の治療効果をほぼ盲検で評価

1月12日、新たな研究により、統合失調症患者の治療で医師を支援するために使用されるコンピューターアル...

グラフ最適化のためのエンドツーエンドの転送可能な深層強化学習

[[425806]]多様なアクセラレータ セットでトレーニングされた大規模で複雑なニューラル ネット...

ビル・ゲイツ氏:GPT-5はGPT-4よりそれほど良くはならない、生成AIは限界に達した

ビル・ゲイツ氏の暴露は機械学習コミュニティで話題となっている。 「GPT-5 は GPT-4 よりそ...

ワークフローをよりスマートにする 5 つの AI ツール

生成 AI の流行は、昨年の ChatGPT の登場から始まりました。わずか 1 年で、このテクノロ...