SIEM&AIからSIEM@AIまで、AIが次世代のエンタープライズセキュリティの頭脳を構築

[51CTO.com からのオリジナル記事] SIEM はエンタープライズセキュリティの中核ハブであり、すべてのデータを収集して集約し、脅威インテリジェンスを組み合わせて危険を正確に判断して警告する役割を担っています。しかし、従来の SIEM は手動でカスタマイズされたセキュリティポリシーに大きく依存しており、人件費が増加するだけでなく、SIEM 全体の認識精度と有効性が大幅に低下します。現在、AI 機能を備えた SIEM システムは、AI をアルゴリズムプラグインとしてのみ統合しており、セキュリティ担当者の介入なしに独立して動作することはできません。

この記事では、まず従来の SIEM コンポーネントの構成から始め、次世代 SIEM における AI の適用性と重要性を紹介し、現在主流の SIEM&AI プラットフォームと新世代の SIEM@AI プラットフォームの違いに焦点を当てます。次に、実際のケースを組み合わせながら、SIEM@AI の 2 つの中核技術原則であるデータ分析とデータ相関について詳しく説明し、最後のセクションでは、SIEM@AI の開発と研究の方向性を探ります。

SIEM の簡単な歴史

SIEM は Security Information Event Management の略称で、セキュリティ情報イベント管理プラットフォームとも呼ばれます。企業のセキュリティ頭脳として、セキュリティデータの収集、統合、分析、関連付け、廃棄、提示などの機能を企業に提供し、企業のビジネスセキュリティ運用の中核と基盤となります。

SIEM の概念は 10 年前に提案されました。 SIEM は、企業内のセキュリティ関連のログ管理プラットフォームとして、ログの収集、保存、分析、クエリ機能を提供します。 10年以上の開発期間を経て、SIEM製品形態は、多次元データソース入力、脅威インテリジェンスセンター（Threat Intelligence）、ポリシースクリプトライブラリ（Playbook）などのサポートを含めて充実・拡張されてきました。同時に、外部脅威データの共有・取得により、SIEMシステムの継続的な改善も可能になりました。

図 1: SIEM 市場規模予測 (Gartner 2017 レポートより)

SIEMは米国で急速な発展を続けています。ガートナーの関連市場レポートによると、SIEMは最近、世界（主に米国）で年間10％の成長率を維持しており、2020年には市場規模が200億人民元に達すると予想されています。しかし、中国ではSIEMはまだ初期段階にあり、多くの企業が自社のセキュリティ問題を体系的に管理していません。 2017年の中国市場全体の規模はわずか3億1,700万人民元で、これは世界経済に占める中国経済の割合と一致しない数字です。しかし、良いニュースとしては、SIEM の中国市場は最近、年間 20% 近くの成長率を維持しており、ますます多くの中国企業が SIEM の重要性を認識していることを示しています。

ただし、すべての企業が SIEM を必要とするわけではありません。発展の初期段階にある企業は、データフローとビジネスボリュームが単純で、セキュリティの脅威が少なく、セキュリティ機器やソフトウェアに対する需要が比較的小さいため、基本的なニーズを満たすために独立したセキュリティ製品に頼ることができます。企業が中規模、大規模に成長すると、事業ライン数が増加し、社内外のネットワークセキュリティ環境が複雑化し、初期段階で利用されるセキュリティ製品の数も一定レベルに達します。このとき、統一的なセキュリティ運用管理を実現するために、SIEM との接続が必要となります。

SIEM の解体

図2: SIEMの全体アーキテクチャ図

SIEM プラットフォームの主なアーキテクチャは、次の 5 つのレイヤーで構成されています。

収集層:システムデータ入力。ほとんどの SIEM は複数のデータ入力をサポートしています。これらのデータは、エンドユーザーデバイス、ネットワークデバイス、サーバー、ストレージデバイスなどのソースから分類され、OSI モデルからは、データリンク層、ネットワーク層、トランスポート層、アプリケーション層のネットワークトラフィックが含まれ、システムの役割からは、さまざまなビジネスシステム、ミドルウェアシステム、負荷分散システムなどが含まれます。これらのデータはプッシュまたはプルのいずれかの方法で SIEM プラットフォームに配信され、SIEM がその後の分析と計算を実行します。

取得層で使用されるテクノロジーは、「侵襲的」と「非侵襲的」の 2 つの主要なカテゴリに分けられます。「侵入型」方式では、通常、エージェントプログラムを展開するか、ユーザー独自のコードロジックにプログラムプローブを追加することによってデータを収集します。一方、「非侵入型」方式では、通常、ミラートラフィックをバイパスするか、ログを入力することによってデータを収集します。 2 つのモードにはそれぞれ長所と短所があります。「侵入型」モードは、企業がカスタマイズされた機能を追加し、SIEM プラットフォームの多次元特性を統合してビジネスに適合させるのに役立ちます。ただし、プラグインエージェントが不安定になると、ユーザー自身のビジネスに影響を及ぼし、システムがクラッシュする可能性もあります。メーカーの組み込み SDK によってサービスが不安定になったと苦情を言う顧客を何人か見かけました。「非侵入型」は、業務システムへの影響を完全に回避し、一方でシステムの安定性を向上させ、他方でシステムデータのセキュリティを保護します。技術が成熟するにつれて、「非侵襲的」な収集方法が明らかによりユーザーフレンドリーになります。

ストレージ層:収集されたデータは、後続の計算や分析に使用されるだけでなく、保存されます。ストレージ層には 2 つの目的があります。1 つは収集された元のデータを保存すること、もう 1 つは計算と分析の結果を保存することです。

選択できるストレージテクノロジスタックには、一般的に、データパイプライン (中間データ転送)、ホットストレージ (頻繁に使用されるデータのクエリと更新のストレージ)、コールドストレージ (あまり使用されないデータのストレージ) が含まれます。厳密に言えば、データパイプラインはストレージとはみなされませんが、実際には、バックエンドのデータの損失や蓄積を防ぐために、パイプラインを通過するデータは一時的に保存されるのが一般的です。たとえば、インターネット企業で最もよく使用される Kafka キューは、中間データをディスクに保存します。

ホットおよびコールド階層化ストレージの目的は、ホットデータの動作速度を確保しながら、企業のストレージコストをある程度削減することです。コールドストレージの場合、パフォーマンスよりも信頼性と可用性の方が技術的な課題となります。複数の IDC や複数のゾーンをサポートする大規模な分散ストレージテクノロジシステムが、企業にとって第一の選択肢となります。ホットストレージの場合、読み取りと書き込みの速度やコンピューティングユニットによる使用方法に重点が置かれるため、通常はシャーディング機能を備えた分散ストレージが選択されます。

コンピューティング層: SIEM プラットフォームの中核。分析が正確で、完全で、高速であるかどうかは、このレイヤーのコンピューティングユニットによって決まります。現在主流のコンピューティングモデルには、リアルタイムコンピューティングプラットフォームとオフラインコンピューティングプラットフォームが含まれます。

大量データ用のオフラインコンピューティングプラットフォームは、10 年以上前に Google の MapReduce システムに登場したのが起源です。基盤となる MapReduce は、まず GFS を使用して大量データをシャードに保存し、単一ポイントデバイスの IO スループットのボトルネックを解決しました。その後、各コンピューティングノードはスケジューラに依存して Map タスクまたは Reduce タスクを実行し、大量のコンピューティングタスクを継続的に分解およびマージして、最終的に期待されるコンピューティング結果を出力します。リアルタイムコンピューティングプラットフォームは、Storm に代表されるリアルタイムストリーム処理と Spark ストリーム処理に代表されるマイクロバッチ処理という 2 つの技術的実装方法を含む、大量データコンピューティングの新星です。

リアルタイムパフォーマンスの点では、リアルタイムストリーム処理モードの方が高速ですが、実際の使用経験からすると、このモードではより高度な技術的な操作と保守の経験も必要になります。一部のホストがクラッシュした場合でも計算がスムーズに完了できるように、リアルタイムコンピューティングプラットフォームとオフラインコンピューティングプラットフォームの両方でタスクの分割をサポートする必要があります。

コンピューティングプラットフォームの中核となるのは、コンピューティングフレームワークではなく、アルゴリズム部分のコンピューティングロジックです。計算ロジックは、トラフィック、ユーザー要求、システム相互作用情報など、さまざまな種類のデータを計算します。現在、ほとんどの SIEM プラットフォームは Drools などのルールエンジンに基づいて実装されており、ユーザーは大量のルールを策定する必要があります。ユーザーが策定したルールに誤りや抜けがあると、誤った判断や判断漏れが発生します。

出力層:計算層の解析結果は最終的に出力層に送信されます。従来の SIEM には、表示レベル、レポートレベル、アラーム通知レベル、リアルタイムブロックレベルなど、多くの出力方法があります。企業は、さまざまな業務部門のさまざまなニーズに応じて適切な出力方法を選択できます。 SIEM の出力結果は、セキュリティ部門やビジネス部門に関連するだけでなく、資産管理、組織管理など、他のビジネスユニットにも関係する場合があります。

イベント処理ライフサイクルの観点から、処理方法は自動と手動に分けられます。自動方法では、コンピューティング層で分析されたセキュリティ脅威イベントを、通知、警告、報告、さらにはブロックまで自動的に処理できます。自動処理ができない状況では、手動の方法が必要です。このとき、作業指示システムを使用して後続の処理と追跡を行い、最終的にセキュリティ脅威に対処できるようにします。

インテリジェンスセンター:インテリジェンスセンターは、SIEM コンピューティングレイヤーに追加のデータサポートを提供し、脅威や異常な動作の識別精度を向上させます。インテリジェンスセンターは、一般的に 3 つのチャネルからデータを取得します。1 つ目は、X-Force Exchange、ThreatBook、Shodan などの公開されているソースからの脅威インテリジェンスです。2 つ目は、ハニーポット収集、API 取得、または Exchange 購入を通じて取得された貴重な脅威インテリジェンスなど、独自に収集した脅威インテリジェンスデータです。3 つ目は、ユーザー登録情報、企業資産情報、組織情報など、ビジネス自体に関連する補助データです。これらの情報はセキュリティ脅威とはあまり関係がないように見えますが、複数のデータを共同で分析すると、最終的な出力結果の有効な参照を提供できます。

インテリジェンスセンターデータの内容には、IP ライブラリ、デバイスフィンガープリントライブラリ、ブラックカードライブラリ、脆弱性ライブラリなど、さまざまな形式が含まれます。インテリジェンスセンターを使用したり、依存したりする場合は、インテリジェンスのリアルタイム性に注意する必要があります。クラウドコンピューティングやシェアリングエコノミーの普及により、多くのリソースは排他的ではなく、一定期間後にリサイクルされ、他の目的に使用されます。この場合、インテリジェンスがタイムリーに更新されないと、逆効果になります。

3. SIEM、状況認識、SOC セキュリティオペレーションセンター

SIEM、状況認識、SOC セキュリティオペレーションセンターは密接に関連しています。状況認識の範囲は非常に広く、主に過去の認識、現在の理解、将来の予測という 3 つのレベルに焦点を当てています。これは、SIEM の収集、計算、分析、および認識と予測を行う結果と非常に一致しています。一部の企業がリリースしている状況認識システムは、実際には簡略化された SIEM または SIEM のスーパーセットです。 SOC セキュリティオペレーションセンターは、SIEM を基盤として人の役割に着目し、人、プラットフォーム、ソフトウェアの連携を重視しています。チケットシステムと同様のタスク追跡メカニズムと、SIEM が提供するデータ分析結果を組み合わせ、人を活用してビジネスと資産の包括的なセキュリティ管理を行います。

つまり、SIEM は企業の全体的なセキュリティ分析にとって非常に重要です。SIEM を通じて、複数のデータストリームからの情報を接続して、セキュリティ脅威の前処理、中処理、後処理を形成し、最終的に企業の資産とビジネスセキュリティ全体を保証できます。

4. AIとSIEMの融合

IT技術にホットスポットがあるとすれば、AIは間違いなく最も最先端かつ実用的なものです。AIの全体的な発展は、3つの段階に分けられます。

1. 認識段階では、最も基本的なAIの問題である「何」という問題を解決する必要があります。現在の AI は、大量の教師あり学習を使用して、ラベル付けされたサンプルの外観または固有の特徴を抽出し、1 つ以上の分類器を形成します。分類器はサンプルデータの特徴を学習してトレーニングし、最終的に新しい入力を正確に識別することで、何が何であるかという問題を解決します。たとえば、子犬とは何か、ポルノ画像とは何か、などです。

代表的なアプリケーションとしては、検証コードの認識、音声認識、スパム認識などがあります。有名な AlphaGo も認識問題です。ディープラーニングは、勝敗がはっきりしている数千のチェスゲームでトレーニングされています。ニューラルネットワークの最初の数層を使用して、表面的な特徴を超えて、人間が理解しにくい深い特徴を掘り出します。チェスゲームを「感知」する能力を形成し、特定のチェスゲームが黒側と白側のどちらに有利かを判断します。αβ 検索や MCTS などのアルゴリズムと組み合わせると、次の動きの最適なソリューションが得られます。認識はAIの応用において最も成熟した分野であると言えます。

2. 理解段階では、識別に基づくさらなる AI の問題である「なぜ」の問題を解決します。たとえば、テキストはどのような感情を表現したいのでしょうか?映画はどんな物語を語るのでしょうか？音声メッセージ内の質問は、質問の内容などです。最も典型的なアプリケーションシナリオは、人間とコンピュータの対話であり、その基礎は、人が何を言っているのか、何を表現したいのかを理解することです。

理解の問題に対する最も原始的な解決策は、感情ラベル付けのためのさまざまな意味テンプレートを構築し、それによって理解の問題を偽装した認識の問題に変換することです。しかし、ディープラーニングの普及に伴い、テンプレート定義の限界を打ち破り、内部の意味を真に理解しようとする新しい技術が数多く登場しました。しかし、AppleのSiriの例からもわかるように、現在のAIの問題理解能力はまだまだ成熟には程遠い。

3. フィードバックフェーズでは、方法の問題を解決します。 Howの本質は、識別に基づいて相手の情報内容を理解した上で適切なフィードバックを行うことです。フィードバックは AI の最高レベルであり、真の人間とコンピューターのインタラクションを実現するための鍵です。フィードバックインタラクションの機能により、AI は実際の人間と同じように、一部の領域で部分的に人間を置き換えたり、完全に置き換えたりすることができます。しかし、AI 開発の現段階では、この目標にはまだ程遠いことは明らかです。

AIの発展の3つの段階から判断すると、AIはまだ「認識」と「理解」の初期段階にあり、本当に「人間に取って代わる」までにはまだまだ長い道のりがあります。現在成熟して使用されている技術は、基本的に「認識」の問題に集中しています。同時に、セキュリティ分野を観察すると、セキュリティ分野の問題はまさに典型的な「識別」の問題であることがわかります。SIEM のさまざまな入力データを分析することで、このイベントまたはこのユーザーが脅威をもたらすかどうかを識別するだけで済みます。プロセス全体は、理解やフィードバックとはまったく関係がありません。

図3: 主流のSIEMシステムにおけるAIツールの例

現在の新しい SIEM には AI 機能が統合されていることに留意する必要があります。たとえば、一部の SIEM プラットフォームには、異常検出や線形予測など、一般的に使用される AI アルゴリズムが統合されています。これらのアルゴリズムはプラグインの形でプラットフォームに統合されており、ユーザーはこれらのアルゴリズムに基づいて独自のデータを分析できます。

5. SIEM&AIからSIEM@AIへ

現在主流の SIEM プラットフォームの最大の欠点は、SIEM&AI (AI をツールとして使用) のみであり、SIEM プラットフォーム全体を AI 技術に基づいて構築するのではなく、AI を SIEM プラットフォームの補助的なプラグインまたはツールとしてのみ扱っていることです。この影響として、企業が SIEM を使用する場合、これらの AI ツールを学習、構成、使用するために多くの時間、エネルギー、人材を費やす必要があります。さらに、SIEM と AI では、企業が特定の機能エンジニアリングの経験を持っていることも必要になりますが、これは多くの企業にとって非現実的です。私は多くの企業顧客に会ってきましたが、SIEM&AI製品のAI部分の使用経験について尋ねると、彼らは皆、まるで大金をかけて高級なおもちゃを買ったのに、それで遊べないかのように困惑した表情をしていました。

企業が本当に必要としているのは、AI 技術を使用して、多大なコストや学習コストをかけずに、大量の入力データストリーム情報から脅威イベントを検出し、AI 技術を使用してさまざまなビジネスやディメンションからのデータをインテリジェントに関連付け、内部接続を確立し、最終的に脅威イベントを自動的に処理できる SIEM@AI (AI をプラットフォームとして使用) です。

6. AIがデータ分析を強化

データラベル付けの課題

前述のように、セキュリティ分野では、ほとんどの問題が「識別」の問題ですが、データ分析の観点から見ると、最終的には分類の問題として分類できます。アルゴリズムモデルを確立することで、進行中のイベントやまだ発生していないイベントが脅威となるかどうかを予測し、脅威となるイベントと脅威とならないイベントの 2 つのカテゴリに分類することができます。しかし、セキュリティ分野でAIを活用するには、サンプルのラベル付けが難しいという大きな難しさがあります。従来の画像認識問題の場合、企業はより低い労働コストでラベル付きサンプルを一括生成し、それをディープニューラルネットワークのトレーニングに送ることができます。しかし、セキュリティの問題は異なります。大量の乱雑な情報データから脅威があるかどうか、またどのような脅威であるかを特定するには、専門のセキュリティ担当者や、部門間の連携も必要です。

教師なし学習はラベル付け問題を解決する

ラベル付けの問題は解決可能でしょうか?答えは「はい」です。つまり、教師なし学習を使用するということです。教師なし学習では、通常のイベントをクラスタリングできるだけでなく、異常なイベントもクラスタリングできるため、アルゴリズムが異常な脅威を識別しやすくなります。脅威識別プロセス全体ではサンプルのラベル付けは不要であり、人間の関与のレベルが大幅に削減されます。

教師なし学習は、機械学習の非常に重要な分野です。分類器が学習するために大量のラベル付きサンプルを必要とする教師あり学習とは異なり、教師なし学習では、分類器がラベル付きサンプルなしで独立して学習できます。しかし、現在市場に出回っているほとんどの製品は教師あり学習に重点を置いており、教師なし学習は長い間無視されてきました。

図4: クラスタリング図

Baishan ATD (Advanced Threat Detection、新世代の SIEM@AI システム) 製品は、教師なし学習技術を広範に活用して脅威イベントを識別します。教師なし学習の本質はデータをクラスタリングすることであり、クラスタリングの実装プロセスの違いに応じて、主に距離クラスタリング、カーネル密度クラスタリング、階層クラスタリングの 3 つのアルゴリズムに分けられます。

距離クラスタリング

距離クラスタリングは最も一般的なクラスタリングアルゴリズムであり、本質的には EM アルゴリズムです。中心点までの距離を継続的に反復して修正することで、すべてのイベントが最終的に分類されます。その後、脅威となるイベントは自然に 1 つまたは複数のクラスターに分類され、通常のイベントも距離が近いため 1 つまたは複数のクラスターに分類されます。もちろん、これは理想的な状況です。実際のシナリオでアルゴリズムを実装するには、まだ多くの処理作業を行う必要があります。距離クラスタリングにおける最大の難しさは、距離計算方法の選択とクラスタの数です。

距離計算の選択には、主に次の 2 つの側面が含まれます。

イベント境界を定義する方法: 複雑で大量のデータ入力において、イベントの境界はどこから始まり、どこで終わり、どのようなデータが含まれているのでしょうか。これには、さまざまなアプリケーションシナリオに応じた異なる処理が必要です。一般的な方法としては、期間別やイベントのセグメント化ポイント別などがあります。

イベント間の距離を定式化する方法: イベントにはさまざまな記述次元があります。最も一般的な次元である時間と場所では、記録された時間は UNIX タイムスタンプ、記録された場所は GEO IP または MAC アドレスである可能性があります。したがって、距離を比較するために UNIX タイムスタンプと IP アドレスをベクトル空間モデルに配置する方法が問題となります。ここで、ATD は距離マッピングに Z スコアアルゴリズムを使用するため、マッピングされたデータは完全に正規分布特性を持ちます。

クラスターの数の選択は、教師なし学習アルゴリズムの有効性にとって非常に重要です。初期クラスターの数が適切に選択されないと、クラスタリングの結果が完全に間違ったものになる可能性があります。

図5: クラスタリング図

上の図に示すように、赤い異常が識別する必要があるものです。明らかに、2 つのクラスターでクラスタリングする方が、3 つのクラスターでクラスタリングするよりも効果があります。これは、3 つのクラスターでは通常のイベントポイントも 2 つのカテゴリに分割されるためです。 ATD は一連のアルゴリズムを使用してクラスタリングの前に正確なクラスタ数を予測し、最良の場合クラスタリング効果を 200% 向上させることができます。

カーネル密度クラスタリング

カーネル密度クラスタリングでは、クラスターの数を事前に指定する必要はありません。代わりに、初期密度値に基づいてクラスターの選択が行われます。カーネルから遠すぎるすべてのイベントは外れ値としてマークされ、セキュリティの観点から脅威となるイベントになる可能性があります。

密度クラスタリングの前提は、適切な初期密度値を選択することです。選択が不適切であれば、外れ値エラーが発生し、最終的には脅威イベントの誤判断につながります。一方、実際の生産環境では、多数の離散点が実際には正常なイベントである可能性が高いため、外れ値の数と純度を制御することも最終的な認識効果にとって重要です。したがって、最初のクラスタリング後にイベントの特徴選択アルゴリズムを調整し、外れ値に対して 2 次クラスタリングを実行する必要がある場合があります。

階層的クラスタリング

階層的クラスタリングの原理は、まずすべてのイベントをツリーのリーフノードと見なし、各リーフノードはそれ自体がクラスであり、次にそれらの相互距離に応じて下から上へレイヤーごとにマージし、最終的にルートを形成することです。

階層的クラスタリングは、必要に応じて、最終的なクラスタリング内のクラスターの数に応じてレイヤーごとにマージできます。最終的に形成された小さなクラスターは、ある種の外れ値と見なすことができます。つまり、脅威となるイベントである可能性があります。階層的クラスタリングの中核は、依然として距離計算モデルの選択にあることがわかります。

インテリジェントなリスク分析

教師なし学習を使用することで、ラベル付けされたサンプルや人間の介入を必要とせずに、多くの異常な脅威リスクを発見できます。次の図は、ATD システムによって認識される実際の例です。

図6: ATD教師なし学習の例の結果

これは、ATDのエンタープライズ電子商取引ビジネスにおける教師なし学習の実例です。このケースでは、ほとんどのユーザーのアクセスパスが集中していることがわかります。

ログインページ == 認証ページ == 注文ページへのアクセス傾向を使用して、教師なし学習を通じて通常のユーザー行動をグループ化できます。一方、偽の注文という悪質な行為は、認証ページを迂回して注文ページに直接アクセスするため、教師なし学習プロセスでは自然に外れ値が形成されます。このようにして、企業が偽の注文の脅威リスクを特定できるように支援できます。

7. AIがデータの関連付けを強化

水平的関連

AI 脅威データ分析は、垂直データ分析と水平データ関連付けに分かれています。

図7: データの縦断的分析と水平的相関

縦断的分析とは、既存の脅威を特定し、将来の状況を認識するために、タイムラインに沿ってイベントグループのパターンを学習することを指します。水平相関とは、空間的に直接関連していないさまざまなイベントグループ間の深いレベルの相関関係をマイニングするためのアルゴリズムの使用を指し、最終的には脅威の特定をより正確にしたり、脅威イベントのより包括的な追跡を容易にしたりすることにつながります。

ほとんどの SIEM 製品では、AI ツール機能が搭載されていれば、異常検出や傾向予測などのタスクを実行できます (ただし、そのほとんどは教師あり学習であるため、顧客はラベル付けされた脅威イベントと通常のイベントサンプルを大量に提供する必要があります)。ただし、これらのタスクは垂直分析であり、水平相関ではありません。したがって、新世代の SIEM@AI システムでは、教師なし学習による縦断的分析を実行することよりも困難なタスクは、一見無関係な大量のデータに潜在的な相関関係を確立し、真に深い脅威の識別を実現することです。

イベント関連業務

一般的なイベント関連付けシナリオは、基本的に次の 2 つのタイプに分けられます。

A、特定の範囲（特定の期間など）内の一連のイベント。次のようなイベント間の相関関係をマイニングします。

上の図は、完全に異なるシステムによって統計的に出力された 2 つのイベントを示しています。相関関係があるかどうかを分析するには、アルゴリズムを使用する必要があります。このプロセスは、実際には行ごとに相関関係を分析することに置き換えられます。

B. 同じ種類のイベントについて、次のような構成要素間に相関関係があるかどうかを調べます。

上図に示すように、すべての「ERP システムにアクセスできない」イベントにおいて、さまざまな要因の間に相関関係があるかどうかは、このプロセスによって実際に次のように変換できます。列ごとに相関関係を分析する。

このことから、異なるイベントの相関分析であっても、同じタイプのイベントの内部要因の相関であっても、本質的にはマトリックスの行相関または列相関に変換できることがわかります。列相関の場合、行列を転置することで行相関に変換することもできます。つまり、次のようになります。

K1 と K2 がある程度関連しているかどうかを分析するだけで済みます。

この種の相関分析では、2 つのイベント要素間の角度を計算して相関を判断するために、同様の KNN アルゴリズムを使用するのが最も一般的な方法です。

θ=acos(K1⋅K2/(|K1||K2|))

角度が小さいほど、2 つのイベントの関連性が高く、角度が互いに垂直 (直交) である場合は、2 つのイベントがまったく無関係であることを意味します。

もちろん、Jaccard 距離などの他の方法を使用して相関を計算することもできます。

J(K1,K2)=|K1⋂K2|/|K1⋃K2|

J 値が大きいほど、2 つのイベントの関連性が高まり、逆もまた同様です。

角度距離計算方法は数値イベントベクトルに適していますが、Jaccard 距離計算方法は列挙文字列型イベントベクトルに適しています。もちろん、実際には、word2vec や simhash などのアルゴリズムを使用して、任意の文字列型イベントを数値イベントベクトルに変換し、角度計算を実行することができます。

ビールとおむつ

データの関連付けに関して言えば、私たちが言及しなければならない古典的な話は「ビールとおむつ」です。ウォルマートがデータの関連付け分析を行っていたとき、ビールとおむつが買い物リストで関連していることが分かりました。何が起こったのでしょうか?妻は仕事が終わった後に夫に子供のおむつを買って来るように頼むことが多いようです。夫はおむつを買った後、大好きなビールも買うので、ビールとおむつの販売行動は相関関係にある。

データ関連付けアルゴリズムの複雑さの観点から見ると、ビールとおむつの関連付けは比較的単純で直接的な関連付けです。Apriori アルゴリズムは、この問題を解決するためのシンプルで実装可能なアルゴリズムの 1 つです。 Apriori アルゴリズムは、頻繁に出現する項目を継続的にスクリーニングして新しい関連ルールを生成し、最終的に最も相関の強いイベント要素を取得します。

図8: Aprioriアルゴリズムの概略図

Apriori アルゴリズムをさらに詳しく調べると、Apriori の計算プロセス全体が計算イベント間の Jaccard 距離と非常によく似ていることがわかります。本質的には、どちらも 2 つのイベントの類似要素を比較し、スクリーニングを実行します。ただし、Apriori アルゴリズムは、範囲を狭めるためのプルーニングプロセスを伴うため、ペア比較よりも実装が効率的です。

より曖昧なつながり

実際、ATD が顧客サービスを提供する実際のアプリケーションシナリオでは、前述の「ビール、おむつ」はまだ比較的単純なイベント関連モデルです。さらに複雑なのは、人間の知覚の観点からはそれほど直接的ではない相関関係をどのように発見するかということです。たとえば、大気ヘイズ指数と都市の電力消費量の関係。人間の知覚の観点から見ると、この2つは特に直接的な相関関係はありません。しかし、2 つのイベントの間に橋、つまり屋内にいる人の割合を導入すると、次の確率関係が見つかります。

P (電力消費量/スモッグ) => P (屋内の人数増加/スモッグ) * P (電力消費量増加/屋内の人数増加)、ここで P (A/B) はイベント B が発生したときにイベント A が発生する確率を表します。

スモッグによって引き起こされる主要なイベントをすべてリストアップできれば、総確率の式を使用してスモッグと電力消費の関係を推測できます (そのため、ここでは等号 = ではなく => を使用しました)。

脅威識別の観点から、この中間ブリッジイベントを通じて、一見無関係に見える 2 つのイベント間の関係を構築することもできます。たとえば、家電メーカーに ATD を導入したとき、バックエンドのビジネスラインでのデータベース変更操作に実際に関連した CC 攻撃の疑いがあることがわかりました。

P（CC攻撃の疑い/ビジネスラインデータベースの変更）=> P（CC攻撃/インターフェイスアクセスサージの疑い） * P（インターフェイスアクセスサージ/504パーセンテージ） * P（504パーセント/リクエストブロッキング） * P（リクエストブロッキング/データベースブロック） * P（データベースブロッキング/データベースの変更）

この複雑であいまいなイベント相関を解決するための前提条件は、最初にすべての情報を収集することです（関連すると見なされるかどうかに関係なく）（これは、記事の冒頭で言及されたSIEMコレクションレイヤーが解決する必要があるものでもあります）、データを収集することによってのみ、相関を確立できるため、できるだけ多くのデータを収集することです。大量のデータが収集されると、関連分析の次のステップを実行する際に問題が発見されることがよくあります。つまり、データが多すぎるため、分析パフォーマンスは非常に低くなります。脅威イベントがタイムリーに分析されない場合、それは後続の処理に影響を与える可能性が高いため、分析プロセス全体の遅延が低いことが重要です。

データの次元削減

処理速度を確保する方法は？次に、コンピューティングスペースを減らすためにデータを分解する必要があります。

1。監視された次元削減

エンタープライズ自体がラベル付けされたデータを大量に持っている場合、最も古典的な監視された次元削減はPCAです（主成分分析）。

2。教師なしの次元削減

監視されていない次元削減を使用すると、ATDが使用するデータの次元削減方法であるラベル付きデータが大量にない場合に使用できます。監視されていない次元削減を実行できる多くのアルゴリズムがあります。

ここでは、データの次元を減らす別の方法を紹介したいと思います。

図9：脅威イベントのSVD分解

上記の図に示すように、最初に大規模なイベントセットで分解します。その後、3つのマトリックスの積は、イベントクラスター全体の複雑さを減らし、関連するイベントと関連要因を同じインパリティテーマの下で見つけることができます。暗黙のトピックの数は、本質的にイベントマトリックスのランクです。

LDAであろうとSVDであろうと、より深い観点から、イベントマトリックスのランクを見つけ、たとえば侵入イベントを構成するコア要因を見つけることです。非批判的な要因としてのアルゴリズムと無視されます。このようにして、膨大な量の情報に重要な要因が見つかるため、その後のイベント関連の計算量を大幅に削減します。

要するに、データの水平な相関は非常に困難な作業です。最も重要な前提条件は、SIEMコレクションレイヤーを介して十分なデータを収集し、その後、データを処理するための適切なアルゴリズムを選択し、最終的にAIアルゴリズムを介してデータの相関分析を実行することです。 ATDの顧客が実際に使用して、外部ネットワークインターフェイス攻撃と内部ネットワークデータベースの変更との関係をうまく発見し、特定のメールシステムのExchangeログイベントと内部ネットワークSSHイベントとの関係も発見しました。この種の相関分析は、既知の脅威を追跡するのに役立つだけでなく、将来のセキュリティ状況の認識にとって重要な重要性を持っています。

8。将来の方向性の探索

SIEM＆AIモデルからSIEM@AIモデルまで、AIはプラグインまたはツールと見なされることはありませんが、システムはAIによって完全に駆動されるインテリジェントなプラットフォームで実行される必要があります。このプラットフォームでは、データにラベルを付ける必要がありません。代わりに、監視されていない学習が支配する機械学習アルゴリズムが異常な脅威イベントを自動的に識別し、複雑なイベント間の精度を自動的に確立します。およびイントラネット。

セキュリティ分野の破壊的な技術として、AIはSIEMを組み合わせて、完全にインテリジェントであり、人間の介入の固有のモードを変更し、エンタープライズセキュリティの脳の新世代になるように、完全にインテリジェントに基づいている新世代のSIEM@AIプラットフォームを構築します。

【著者について】

[[225779]]

バイシャンパートナーおよびエンジニアリングコングレイ担当副社長

Baishan Cloudのエンジニアリング担当パートナー兼副社長、Cong Lei。彼は2016年にバイシャンに入社し、主にクラウド集約製品のR＆D管理とクラウドチェーン製品システムの建設を担当しています。彼は2006年から2015年にかけてSINAで働いていました。彼はSAE（Sinaappengine）の創設者であり、2010年以来、Sinaのクラウドコンピューティングチームを主導しています。彼は現在、産業情報技術省の信頼できるクラウドサービスの認定裁判官を務めています。

【今月のトップ10ランキング】