[51CTO.com からのオリジナル記事] 現在、インターネット上には機械学習 (ML)、人工知能 (AI)、ディープラーニング (DL)、ネットワークセキュリティ保護に関する記事がたくさんあります。
誇大宣伝を排除し、機械学習をサイバーセキュリティに実際に適用する方法に焦点を当てるにはどうすればよいでしょうか? まず、悪いニュースがあります。画像認識や自然言語処理などのアプリケーションと比較すると、ネットワーク セキュリティ分野における機械学習の応用は、「特効薬」のレベルにはほど遠いということです。 ハッカーは、既存のセキュリティメカニズムを回避するために、ターゲットシステムの機械学習アルゴリズムの弱点を見つけるために懸命に取り組んでいます。さらに悪いことに、ハッカーは機械学習テクノロジーの助けを借りて、攻撃レベルと効率を絶えず向上させています。 2 つ目の朗報は、機械学習が回帰、予測、分類などの一般的なタスクを支援できることです。これは間違いなく、今日のデータ爆発とサイバーセキュリティ人材不足の時代に対する良い解決策です。 この記事は、ネットワーク セキュリティ分野における機械学習アプリケーションの現状と将来の開発方向を技術実務者に紹介することを目的としています。 機械学習の用語 「AI」という用語と混同しないように、それに関連する用語を見てみましょう。
AI(人工知能):幅広い概念です。機械を賢くする、つまり、視覚認識や自然言語処理などのさまざまなタスクを人間に代わって機械が処理できるようにする科学です。 AI は完全に機械学習や総合的な知能ではないことに注意してください。それは、コーナーまでの距離を測定するために掃除ロボットにインストールされた基本的なプログラムにすぎないかもしれません。 ML (機械学習): システムに AI を適用して経験から学習する方法 (または方法のセット)。 目標は、人間の行動を再現するだけでなく、株価の予測など複雑で多様なタスクに費やされる時間と労力を削減することです。 言い換えれば、機械学習はプログラミングやアルゴリズムに頼るのではなく、サンプルを使用してデータに基づいてパターンを識別し、決定を下します。 DL (ディープラーニング): 機械学習を使用してサンプルを識別する一連のテクノロジです (画像認識など)。システムは主に、オブジェクトのエッジ、構造、タイプ、およびオブジェクト自体を認識します。 ディープラーニングは、Deep Q-Learning (DQN) などの深層強化ニューラル ネットワークと完全に同一視することはできません。 上記の定義によれば、サイバーセキュリティにおける自動化された作業のほとんどは人間の労働を必要としないため、この分野では人工知能ではなく機械学習が主な応用となるでしょう。つまり、取得したデータに基づいて、いくつかの方法を使用して特定のタスクを処理します。 機械学習手法とサイバーセキュリティ さまざまな機械学習の方法、アプリケーションの例、そしてそれらが解決できるサイバーセキュリティの問題について議論しましょう。 戻る 回帰(または予測)とは、既存のデータに関する関連知識を通じて新しいデータを予測することです。たとえば、住宅価格の動向を予測するために使用できます。 サイバーセキュリティでは、これにより、疑わしい取引の数や場所などの特性の確率に基づいて、さまざまな不正行為を検出することができます。 回帰技術に関しては、機械学習とディープラーニングの 2 つのカテゴリに分けることができます。もちろん、この区分は、以下で説明する他の方法にも適用されます。 機械学習の復活 機械学習の回帰手法は、大まかに次のカテゴリに分類でき、それぞれに長所と短所があります。
各方法の詳細については、以下のリンクをご覧ください。
ディープラーニングの復活 ディープラーニング モデルで使用されるさまざまな回帰手法は次のとおりです。
分類 分類とは、2 セットの写真を犬と猫という 2 つのカテゴリに分類するなど、画像を区別するプロセスです。ネットワーク セキュリティの観点から、これを使用して、スパム フィルターを通じてさまざまな電子メールから実際のスパムを識別できます。 すべての分類定義を事前に準備し、既知のサンプルをグループ化した後、分類に教師あり学習法を使用できます。 機械学習の分類:
業界では一般的に、サポート ベクター マシンとランダム フォレストが最良の方法であると考えています。覚えておいてください、すべての人に当てはまるアプローチは存在せず、「ある人にとっての毒は、別の人にとっては蜂蜜かもしれない」のです。 ディープラーニングの分類:
より多くのデータを入力するほど、ディープラーニング手法はより効果的に機能しますが、生産時やシステムの定期的な再トレーニングで消費されるリソースも増加します。 クラスタリング クラスタリングと分類の唯一の違いは、前者が直面するクラス情報が未知であること、つまり、データが分類可能かどうかがわからないため、教師なし学習に属することです。 セキュリティインシデントの原因、プロセス、結果には不確実性が多く、手がかりを見つけるにはすべての動作を分類する必要があるため、業界では一般的にクラスタリングがフォレンジック分析に最も適していると考えています。 たとえば、さまざまなマルウェア対策や電子メール セキュリティ ゲートウェイなどのソリューションでは、さまざまな異常な情報を分析して、法医学的証拠に関連するファイルを見つけることができます。さらに、クラスタリングは、ユーザーの行動を分析し、ユーザーをさまざまなグループに分割するためにも使用できます。 通常、クラスタリングはネットワーク セキュリティの問題を単独で解決するために使用されるのではなく、処理タスクのパイプラインに配置されます。たとえば、ユーザーを異なるグループに分割してリスク値を調整します。 機械学習のためのクラスタリング:
ディープラーニングのためのクラスタリング:
連想ルール学習(推薦システム) Netflix や SoundCloud がユーザーの映画や音楽の好みに基づいておすすめを表示するのと同じように、この原則をサイバーセキュリティにおけるインシデント対応に適用できます。 企業は多数のセキュリティ インシデントに対処するためにさまざまな種類の対応戦略を採用しているため、システムを使用して特定のインシデント対応タイプを学習し、誤検知にフラグを立て、対応するリスク値を変更して調査を容易にすることができます。 さらに、リスク管理ソリューションは、事前に定義された特性に基づいて、新しい脆弱性や誤った構成にリスク値を自動的に割り当てることができます。 機械学習の関連ルール:
ディープラーニングの相関ルール:
次元削減 次元削減 (または一般化) は分類ほど一般的には使用されませんが、ラベルのないデータや多くの潜在的な機能を扱う複雑なシステムには不可欠です。 次元削減は、不要な特徴を除外するために役立ちます。しかし、クラスタリングと同様に、これは通常、より複雑なモデルの単なるサブタスクです。ネットワーク セキュリティの観点から、次元削減は、顔認識の全体的なソリューションにおいて iPhone などのデバイスでよく使用されます。 機械学習のための次元削減:
次元削減の詳細については、以下のリンクを参照してください。
生成モデル 上記の方法は既存の情報に基づいて決定を下しますが、生成モデルは過去の決定に基づいて実際のデータをシミュレートします。 ネットワーク セキュリティの観点では、入力パラメータを含むリストを生成することで、特定のアプリケーションに対してさまざまなインジェクション型の脆弱性をテストします。 さらに、Web アプリケーションの脆弱性スキャン ツールを使用して不正アクセスをテストすることもできます。原則として、ファイル名を変更することで新しいファイルを識別します。 たとえば、生成されたモデル内の「クローラー」は login.php という名前のファイルを検出し、login_1.php、login_backup.php、login.php.2017 など、可能性のあるバックアップやコピー内で類似のファイル名を検索します。 機械学習のための生成モデル:
ディープラーニングのための生成モデル:
サイバーセキュリティと機械学習の必要性 上記では、機械学習手法の観点からネットワーク セキュリティに適用できるさまざまなシナリオについて説明しました。 それでは、一般的なサイバーセキュリティのニーズから始めて、なぜ、何を、どのようにという 3 つのレベルから機械学習を使用する機会を探ってみましょう。 最初のレベル: Why、つまり目標または要求 (脅威の検出や攻撃の予測など) に対応します。 Gartner の PPDR (ポリシー保護検出応答) モデルによると、すべてのセキュリティ要件は次の 5 つのカテゴリに分類できます。
第 2 レベル: テクノロジーを使用して「何を」という質問に答えます (例: どの側面で問題を監視するか)。 一般的には、次の側面が含まれます。
上記の各レベルには異なるサブカテゴリがあります。たとえば、ネットワーク セキュリティには、有線、無線、クラウド環境が含まれます。注: データの依存関係が異なるため、レイヤー間で同じアルゴリズムを使用しないことをお勧めします。 3 番目のレベルは、「方法」の問題 (たとえば、特定のエリアのセキュリティを確認する方法) を扱います。 一般的には、次の側面が含まれます。
端末保護に関しては、侵入検知の考え方に従い、実行可能ファイルのさまざまなプロセスを監視し、静的バイナリ分析を使用して、対象端末の履歴動作の詳細な分析を行うことができます。 もちろん、ここですべてを網羅することはできませんので、技術的な観点からネットワーク セキュリティのさまざまなソリューションを検討してみましょう。 サイバー防衛における機械学習 ネットワーク防御には、イーサネット、ワイヤレス、SCADA (監視制御およびデータ収集)、仮想ネットワークなどのソリューションが含まれます。
ネットワーク防御において最も有名なのは侵入検知システム (IDS) です。それらのほとんどはシグネチャ方式に基づいていますが、近年、検出精度を向上させるために機械学習を採用する試みが行われています。 ネットワーク セキュリティにおける機械学習の応用例の 1 つが、ネットワーク トラフィック分析 (NTA) です。あらゆるレベルでネットワーク トラフィックを詳細に分析し、さまざまな攻撃や異常を検出します。 具体的な応用例は以下の通りです。
これについては、次の 10 件の学術論文でさらに詳しく知ることができます。
エンドポイント保護における機械学習 新世代のウイルス対策ソフトウェアは Endpoint Detection And Response であり、さまざまな実行可能ファイルとその内部プロセスの動作特性を学習するのに適しています。
機械学習を使用してエンドポイント レベルのセキュリティ問題に対処する場合、エンドポイントの違いに応じて具体的なアプローチを変える必要があります。 一般的に、ワークステーション、サーバー、コンテナ、クラウドインスタンス、モバイル端末、PLC(プログラマブルロジックコントローラー)、IoTデバイスについては、具体的な状況は異なりますが、方法論的には次のような共通点が挙げられます。
エンドポイント保護とマルウェアの詳細については、次の 3 つの学術記事を参照してください。
アプリケーションセキュリティにおける機械学習 アプリケーション セキュリティは、Web アプリケーション ファイアウォールやコード分析だけではなく、データベース、ERP システム、SaaS アプリケーション、マイクロサービスなどの静的および動的な側面も含まれます。 したがって、一般的な機械学習モデルを構築しても、すべての脅威に効果的に対処することはできません。
いくつかの典型的なシナリオを通じて、機械学習をアプリケーション セキュリティに適用する方法について説明してみましょう。
これについては、次の 3 つの学術論文でさらに詳しく知ることができます。
ユーザー行動における機械学習 この分野での最も初期の応用例は、セキュリティ情報およびイベント管理 (SIEM) です。適切に構成すると、SIEM はユーザーの行動の検索と機械学習を通じてログを相関させて分析できます。 しかし、ユーザーおよびエンティティの行動分析 (UEBA) の理論では、SIEM は、より新しく高度な攻撃タイプやユーザー行動の継続的な変化に実際には対応できないとされています。
UEBA ツールが監視する必要があるユーザーの種類には、ドメイン ユーザー、アプリケーション ユーザー、SaaS ユーザー、ソーシャル ネットワーク ユーザー、インスタント メッセージング ユーザーなどがあります。 一般的な攻撃に基づいて分類子をトレーニングするだけのマルウェア検出とは異なり、ユーザーの行動はより複雑なレイヤーであり、教師なし学習を伴います。 このようなデータセットにはラベルが付けられておらず、明確な検索方向もないため、すべてのユーザー行動に対応する統一されたアルゴリズムを作成することもできません。 企業でよく使用される機械学習の手法には次のようなものがあります。
これについては、次の 2 つの学術論文でさらに詳しく知ることができます。
プロセス動作における機械学習 企業によって業務プロセスは大きく異なる場合があり、銀行、小売システム、製造業におけるさまざまな不正行為の検査も異なります。 したがって、ある程度の業界の背景知識があればこそ、機能モデリングにおけるプロセスの動作や機械学習のアルゴリズム選択をより的確に行うことができます。
以下は、産業用制御システム (ICS) および監視制御およびデータ収集 (SCADA) の分野で使用される一般的なアプローチです。
これについては、次の 3 つの学術論文でさらに詳しく知ることができます。
機械学習に関するサイバーセキュリティ書籍 もちろん、サイバーセキュリティにおける機械学習についてさらに詳しく知りたい場合は、次の書籍も参照してください。 ①「サイバーセキュリティにおけるAI」(2017年)--サイランスパブリッシング はじめに: この本は厚くはありませんが、ネットワーク セキュリティにおける機械学習の基礎知識をうまく紹介しており、さまざまな実用的な例も備えています。 リンク:
②「機械学習とセキュリティ」(2018/01)-- O'Reilly出版 概要: 機械学習の例が多く、深層学習の例が少ない、この分野では今のところ最高の本です。 リンク:
③「侵入テストにおける機械学習」(2018/07)-- Packt Publishing はじめに:前 2 冊よりも知識の難易度が高く、より詳細な学習方法が提供されています。 リンク:
④「マルウェアのデータサイエンス:攻撃検知と属性」(2018/09) はじめに: この本はマルウェアに焦点を当てています。ごく最近出版されたため、まだレビューはありませんが、エンドポイント保護チームにとって必携の書籍となることは間違いありません。 リンク:
結論は 上で説明したのは、サイバーセキュリティにおける機械学習の応用の氷山の一角にすぎません。企業データの量が増加し、システムが複雑になり、ディープラーニングアプリケーションが進化し続けるにつれて、実践を通じてセキュリティ防御をよりインテリジェントにし続ける必要があります。 もちろん、悪魔は常に善よりも強いです。ハッカーもあらゆるところで機械学習を通じて攻撃能力を向上させるために努力しています。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: マイクロソフトとフェイスブックが共同で人工知能ソフトウェアを開発し、グーグルの主導的地位に挑戦
>>: 人工知能認識により、物流会社はダブルイレブンの注文に簡単に対応できます。
[[207884]]序文:最近、アンサンブル学習における持続可能性に関する研究に関する非常に興味深い...
リアルタイムで実行され、単一の NVIDIA RTX 2080 TI GPU を使用して HD 60...
[[263282]]機械学習分野の学生、研究者、企業の開発者は、より高い精度/AUC/mAP など...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[351468]]機械学習 (ML) は、一連のデータに基づいて予測を行うようにコンピューター シ...
IT Homeは11月16日、韓国銀行が最近、人工知能(AI)が労働市場に与える影響に関する調査報告...
[[333587]]重み制約は、ディープラーニング ニューラル ネットワーク モデルのトレーニング ...
私たちは情報過多の世界に住んでおり、情報を追跡したり、他の人のために手動でキュレートしたりすることが...
[[375039]]人工知能の歴史は、アラン・チューリングがチューリングテストを発明した 1950...
ここ数年、AIチップの新興企業が雨後の筍のように出現した。現在、初期の参加者グループは、優れたチップ...
勉強すると、学んだことを忘れてしまい、忘れた後にまた学ぶという悪循環に陥ってしまう、そんな気持ちにな...