機械学習に基づくユーザーエンティティ行動分析技術のアカウント異常検知への応用

機械学習に基づくユーザーエンティティ行動分析技術のアカウント異常検知への応用

企業ビジネスの継続的な拡大と電子化の発展に伴い、企業独自のデータや負荷データが急増し始めています。しかし、企業の中核資産の一つである内部データは、ますます深刻なセキュリティの脅威に直面しています。長いサイクル、低い頻度、強力な隠蔽性という典型的な特徴を持つ、目立たない攻撃がますます増え、従来のセキュリティ検出方法を回避し、大量のデータに損害を与えています。

[[325918]]

現在、ユーザーおよびエンティティの行動分析 (UEBA) システムは、新興の異常ユーザー検出システムとして徐々に従来の防御方法を覆し、「受動的な防御」から「能動的な攻撃」へのネットワーク セキュリティ保護の新たな章を開いています。したがって、この記事では、主に企業における異常ユーザー検出における UEBA の応用について紹介します。

まず、ユーザー、エンティティ、および動作の関連付けを通じて、ユーザー動作のベースラインを反映できるさまざまな種類のデータが統合されます。次に、4 種類の特徴抽出ディメンションが定義され、ユーザーの異常を最もよく反映する数十の基本特徴が効果的に抽出されます。最後に、3 つの異常検出アルゴリズムが、アンサンブル学習法による異常なユーザー モデリングに使用されます。最後に、異常スコアリングを通じて、最も異常リスクの高いユーザー グループが特定されます。

実際に、異常ユーザー上位10名をチェックしたところ、Ahnheng InformationのUEBA実装方法が異常ユーザーの検出に非常に効率的であることが証明されました。インターネット技術の発展と国によるビッグデータ戦略の徹底的な推進により、データ収集端末はますます増加し、収集されるデータの種類もますます豊富になっています。データは企業にとって重要な、さらには中核的な資産の1つになっています。

データの価値が高く評価される一方で、企業が直面するさまざまなデータセキュリティの脅威はますます深刻化しており、情報セキュリティ保護は徐々にデータセキュリティ保護に重点が置かれるようになっています。一般的に、外部からの攻撃にはさまざまな種類があり、頻繁に発生します。企業は、外部からの攻撃に抵抗するために、セキュリティ要塞を構築するためにリソースを展開することに慣れています。しかし、外部のハッカーによる攻撃だけでなく、内部の人間が情報売買に関与し、第三者と情報を共有するケースも数多くあります。

調査によると、セキュリティ上の脅威の約 75% は組織内部から発生しています。退職した従業員が独自のデータを持ち去る場合であれ、不満を持った従業員が故意にシステムを妨害する場合であれ、度重なるセキュリティ インシデントによって、要塞を突破する最も簡単な方法は多くの場合、内部の脅威から来ることが証明されています。この脅威に直面して、内部と外部の両方向のセキュリティニーズが高まり、ユーザーおよびエンティティの行動分析 (UEBA) が生まれました。内部的には、従来の脅威防御対策では不十分です。問題の緊急性を認識している企業にとって、従来のセキュリティ技術の使用は、社内のセキュリティ問題を効果的に解決するのに役立っていません。

その理由は、従来の方法は、ほとんどが散発的で事後的であり、具体的ではないためです。セキュリティの最も弱い部分は人です。ユーザーを中核とした分析システムを構築することによってのみ、内部の脅威をよりタイムリーに発見して排除し、情報漏洩を未然に防ぐことができます。外部的には、市場の需要が技術の更新を推進します。

高度なネットワーク脅威検出方法として、UEBA は急速に発展しており、元の市場構造を覆すほどになっています。 UEBA は、ビッグデータによって駆動され、ユーザー中心で、物理資産に関連付けられたフレームワークとシステムであり、機械学習アルゴリズムを使用して異常分析を実行し、内部の脅威を発見して解決します。

セキュリティインシデントに焦点を当てた従来の方法と比較して、UEBA は人により注目します。ユーザープロファイリングとアセットプロファイリングを通じて、アカウント侵害、ホスト侵害、データ漏洩、権限の乱用などのリスクを検出し、異常なユーザーを非常に高い精度で特定します。

1 企業従業員アカウントの関連付け

UEBA は本質的に、大量の広範なユーザー行動データの収集を必要とするデータ駆動型のセキュリティ分析テクノロジーです。ビッグデータの時代では、データはすべての分析の基礎となります。入力が少量であったり、質が低いと、必然的に出力の価値は低くなります。ただし、データが多ければ多いほど良いというわけではありません。シナリオに関係のないデータを過剰に収集すると、システムの負担が増加するだけです。

したがって、行動分析の基礎はデータであり、データ収集の前提はシナリオであり、収集されたデータは分析の具体的なシナリオと一致する必要があり、高品質で多様なデータがユーザーエンティティの行動分析の中核となります。ユーザー エンティティの動作分析に使用できるデータには、セキュリティ ログ、ネットワーク トラフィック、脅威インテリジェンス、ID アクセス関連のログなどがあります。VPN ログ、OA ログ、従業員カード消費ログ、アクセス制御の顔認識ログなど、ユーザー シナリオに関連するデータに可能な限りアクセスする必要があります。

これらのデータは、ユーザー ID データ、エンティティ ID データ、ユーザー行動データの 3 つのタイプに大まかに分類できます。ユーザー ID データは、人事部門から提供される従業員情報などの実際の ID データと、インターネット上のユーザーの登録情報などの仮想 ID データの 2 つのカテゴリに分けられます。 UEBA は高品質のデータに大きく依存するため、企業は基本的なデータ ガバナンス機能と統合されたデータ ディクショナリを備えている必要があります。

データ辞書を統合することで、異なるログのフィールド情報を統合し、異なるログのユーザー情報を関連付けることができます。実際の ID と仮想 ID を関連付けることで、特定のユーザーを見つけるという目標を達成できます。エンティティ ID データは、IP アドレス、MAC アドレスなど、ネットワーク上のユーザーの一意の ID です。ユーザー行動データは、ネットワーク行動情報と端末行動情報に分類できます。

2. 従業員アカウントと物理的資産の関連付け

従業員アカウントと物理資産の関連付け、つまりユーザー ID データとエンティティ ID データの関連付けは、ユーザー行動データを通じて実現されます。たとえば、ユーザーが VPN にログインすると、ログイン ログのユーザー情報関連フィールドを通じてユーザーの ID 情報が見つかります。ユーザーが VPN を使用して会社のイントラネットにアクセスすると、ログ内のターゲット アドレス情報の関連フィールドにアクセスすることで、物理資産の ID 情報を特定し、セッション中に端末ログ情報を取得できます。これにより、従業員アカウントと物理資産の関連付けも可能になります。

アクセス ログは、VPN デバイス自体によって記録されたログ、またはディープ パケット インスペクション (DPI) システム ログなどの他のセキュリティ デバイスによって記録されたログなど、さまざまな形式で取得できます。いわゆる「深さ」は、通常のメッセージ分析レベルと比較されます。

「通常メッセージ検出」では、送信元アドレス、宛先アドレス、送信元ポート、宛先ポート、プロトコル タイプなど、IP パケットの第 4 層 (物理層、データ リンク層、ネットワーク層、トランスポート層) 以下の内容のみを分析します。 DPI は、最初の 4 つのレイヤーの分析に加えて、アプリケーション レイヤーなどの他のレイヤーの分析も追加して、さまざまなアプリケーションとそのコンテンツを識別します。 DPI システムが提供する監査情報、アプリケーション セッション識別情報、アプリケーション セッション トラフィック統計情報、ネットワーク トランスポート層トラフィック統計情報、アプリケーション層トラフィック統計情報などにより、ユーザーのネットワーク動作情報が大幅に充実します。端末ログは、エンドポイント検出および応答 (EDR) システムを通じて取得できます。

EDR ログは、端末のメモリ操作、ディスク操作、ファイル操作、システム コール、ポート コール、ネットワーク操作、レジストリ操作などを収集し、プロセス動作、アプリケーション動作、サービス動作を分析することで、ユーザー端末の動作情報を完成させるのに役立ちます。ユーザーのネットワーク行動や端末行動などの情報を統合することで、ユーザーとエンティティの関連付けを完了することができます。同時に、ユーザーのネットワークセッションとセッション中のユーザー行動を完全に復元することができ、その後の行動分析のための高品質のデータ資料を提供します。

3 基本的な特徴抽出

ユーザー行動の特徴抽出は、ユーザー行動分析モデリング全体の基礎であり、実際のビジネスニーズを組み合わせ、関連するデータエンティティを見つけ出し、データエンティティを中心に据え、データディメンションの種類と関連性を調整し、実際のビジネス状況に適合するモデリングシステムを形成する必要があります。一般的な特徴抽出手順には、ユーザー データとエンティティ データの分解と対応、エンティティ間の関連関係の分解、ユーザー特徴ディメンションの分解、およびユーザー動作特徴の抽出が含まれます。

アルゴリズム レベルでの改善と比較すると、データ機能を効果的に抽出すると、より直接的なメリットが得られることが多く、データの基本的なプロパティとビジネス ロジックの特性を実証でき、単純なモデルのみを使用しても良好な結果を達成できます。冗長で非論理的な機能は、モデリングに役立たないだけでなく、分析の精度と速度を低下させる可能性もあります。特徴抽出の設計には専門知識が不可欠です。経験は結果を達成するための近道となることが多いですが、実際の状況では、なじみのないシナリオや経験と知識の不足に常に遭遇します。このとき、論理と方法論はより普遍的なものになります。

通常、ユーザー行動の特徴を抽出するために、ユーザー間の行動ベースラインの比較、ユーザー グループ間の行動ベースラインの比較、ユーザー自身の行動ベースラインの比較に基づく離散データ特徴抽出、およびユーザー自身の行動ベースラインの比較に基づく連続データ特徴抽出という 4 つの共通次元が使用されます。最初の次元は、ユーザー間の行動ベースラインの比較です。

ほとんどのユーザー行動は正常であるという原則に基づいて、ユーザー間の行動ベースラインを比較することで、クラスター ベースラインから逸脱する少数のユーザーを見つけることができます。ある特徴次元では、これらの少数のユーザーは異常であると疑われます。典型的なイベントは、勤務時間外の異常なユーザー行動です。

一般的に言えば、従業員が社内リソースにアクセスするのは勤務時間中に限られ、勤務時間外の行動は注意の対象となるべきです。では、非労働時間をどのように定義するのでしょうか? 労働時間は、業種や性質の異なる企業間で大きく異なる場合があります。国有企業と民営企業、伝統産業と新興産業の間では労働時間に比較的大きな差がある。

また、同業他社でも残業文化は企業ごとに異なり、通常業務の出勤時間外に多くの社員がVPN経由でイントラネットにアクセスしている可能性も否定できません。そこで、全従業員の過去の行動記録に基づいて、カーネル密度推定(KDE)により、1日24時間の各時点でのユーザーのリソースへのアクセスの確率密度を計算し、動的閾値よりも確率が低い時点を非勤務時間と定義することで、非勤務時間帯の従業員の行動を異常な特徴として抽出します。

図 1 は、企業の従業員アカウントの 24 時間オンライン確率密度分布図です。日中の勤務時間中にアカウントがオンラインになる確率が最も高いことがわかります。動的しきい値が 0.01 の場合、会社の従業員が午前 3 時から午前 6 時の間にオンラインになる可能性が最も低いことがわかります。午前0時から午前3時の間、同社の一部の従業員がVPNを使用して残業しており、同社は残業が深刻で、午前1時または2時まで残業するのが当たり前だったことがわかった。

午後 10 時から午前 6 時までを非勤務時間と直接定義すると、誤検知が多く発生します。しかし、このような特徴量を使用することで、企業の実際の非勤務時間を適応的に学習できます。

図1. 24時間オンラインのユーザーアカウントの確率密度分布

2 番目の次元は、ユーザー グループ間の行動ベースラインの比較です。一般的に言えば、企業内の同じ部門の同様の役職の従業員は、同様の行動基準を持つはずです。技術部門と営業部門など、異なる部門間では仕事に大きな違いがあり、それは間違いなくネットワークの動作と端末の動作に大きな違いとして反映されます。理解しやすいイベントは、異なるロール属性を持つ従業員がアクセスする Uniform Resource Locator (URL) レコードのクラスタリングです。

当然のことながら、同じ役割属性を持つ従業員や同じ部門の従業員は、より共通のアクセス オブジェクトとアクセス目的を持つ必要があります。ログ情報に基づいて、一定期間内に頻繁にアクセスされる URL やビジネスに関連する URL とユーザー間の関連マトリックスを作成します。マトリックス要素は、訪問回数、訪問期間、または平均訪問期間です。ユークリッド距離は、顧客間の距離を計算し、クラスタリング操作を実行するために使用されます。

役割が属する部門グループから遠く離れたユーザーを異常としてマークし、同時にユーザーとグループの中心間の距離に基づいて逸脱度を付与します。異常の逸脱度に応じて、アクセス異常の特徴を抽出できます。偏差の計算式は以下のとおりです。

式では、

i番目のユーザーの逸脱度を表す。

i 番目のユーザーとクラスター中心間の距離を表します。

同じグループ内のユーザーとクラスター中心間の平均距離を表します。図2は、技術部門と営業部門の訪問回数と訪問時間のクラスター図です。円は技術部門、三角形は営業部門、五芒星は2つのグループのクラスター中心を表しています。2つのクラスターの間に散在する数人のユーザーは明らかに異常であることがわかります。ユーザー グループを区別しない場合は、円内の三角形が通常のユーザーと見なされますが、ユーザー グループが区別されてクラスター化されたため、円内に混在するこれらの三角形は実際のクラスターの中心から遠く離れており、最も異常なユーザーであることが明確にわかります。

図2 ユーザーグループのクラスタリング結果

3 番目の次元は、ユーザー自身の行動ベースラインとの比較に基づいて個別のデータ機能を抽出することです。大量の過去の行動データを学習して正常なユーザーベースラインを確立した後、過去のベースラインから逸脱したユーザー行動から異常な特徴を抽出できます。典型的なイベントは、ユーザーが新しい IP アドレスを使用する場合です。履歴に IP アドレスが表示されないということは、ユーザーのアクティビティのベースラインが本来の軌跡から外れていることを意味します。もちろん、ユーザーが出張中であるなどの客観的な理由によって発生する場合もあります。

しかし、新しい IP アドレスと新しい MAC アドレスなどの他の情報を組み合わせると、ユーザーがログイン アドレスだけでなくログイン デバイスも変更したことを意味し、疑いが高まります。他の補助情報がある場合、またはユーザーの新しい IP アドレスが継続的に表示される場合は、そのような現象を異常の疑いとして分類する必要があります。

そのため、いくつかのシナリオを想定することで、ユーザー自身の行動ベースラインに基づいて離散データの異常な特徴を抽出することができます。 4 番目の次元は、ユーザー自身の行動ベースラインとの比較に基づく継続的なデータ特徴抽出です。ユーザーの継続的なデータの行動ベースラインを学習することで、履歴ベースラインから逸脱したユーザー行動から異常な特徴を抽出できます。たとえば、ユーザーの通常のネットワーク動作では、受信トラフィックと送信トラフィックが一定の範囲内で変動しますが、DPI システムは、ターゲットへの各訪問のトラフィック状況を記録するのに役立ちます。

ユーザーの受信トラフィックと送信トラフィックは連続変数であり、特定の分布を満たす必要があります。ユーザーのアクセス トラフィックが過去の分布から大幅に逸脱し続ける場合、ユーザーの使用習慣が変化したと疑う理由があり、これに注意を払う必要があります。 RPCA-SST や ARIMA などのアルゴリズムを使用して、このような連続時系列データの異常を検出することで、異常な特徴を抽出できます。

図3は、6月のあるユーザーのトラフィック時系列図です。実線は実際のトラフィック時系列、影は時系列異常検出アルゴリズムによって適合された正常範囲です。予測範囲外の点は異常としてマークされ、図 3 では円で示されています。異常点の数と程度に応じて、ユーザーの異常な特徴を抽出することができます。

図3 タイミング異常検出

4 アンサンブル学習に基づく異常ユーザー検出

ユーザーの異常行動モデリングの 3 つの主要要素は、ユーザー、エンティティ、および行動特性です。アクセス関係を関連付けることで、3 つの主要要素がコア ユーザー ビヘイビアにマッピングされます。第 3 章で紹介した 4 つの次元を分解した後、数十の有効なユーザー行動の特徴が抽出されました。特徴を取得した後、機械学習アルゴリズムを使用して異常なユーザーを検出できます。

内部攻撃は頻繁に発生しないため、ラベル付けされたデータが不足しており、ほとんどの場合、UEBA は教師なし学習アルゴリズムを使用します。一方、攻撃に関する事前の知識に依存しないことで、システムはまれな、これまで発見されていなかった脅威を発見できるようになります。異常検出の主なタスクは、通常のユーザー データ セットから確率の低い異常なデータ ポイントを抽出することです。これらの異常はランダムな偏差によって発生するのではなく、障害、脅威、侵入などのまったく異なるメカニズムによって発生します。

これらの異常なイベントの頻度は、多数の正常なイベントと比較するとほんのわずかです。異常検出アルゴリズムは数多く存在します。いずれも、正常なデータと異常なデータを可能な限り分離することを目指していますが、原理はそれぞれ異なります。データ ソースが異なる場合、どのタイプのアルゴリズムが最良の結果を達成できるかを保証することは困難です。 Isolation Forest、One Class SVM、Local Anomaly Factor の 3 つのアルゴリズムを統合して、システムに最も影響を与える可能性のあるさまざまな異常なユーザーを包括的に識別および評価します。

これら 3 つの異常検出アルゴリズムを使用することで、すべてのユーザーの異常スコアを取得できます。 3 つのアルゴリズムの結果を重み付けして正規化することで、すべてのユーザーの最終的な異常スコアのランキングを取得できます。この情報を使用することで、企業は既存の脅威に対して適切な対策を論理的な順序で講じ、修復策に優先順位を付けることができます。

UEBA 全体のコアシステムフレームワークを図 4 に示します。各アルゴリズムは、ユーザー i に対して独立した異常スコアを計算します。分離フォレスト、ワンクラスSVM、ローカル異常係数の3つのアルゴリズムはそれぞれ次のように表される。

、そしてそれに対応する重みは

最終的な異常スコアは次のようになります。

図4 UEBAコアシステムフレームワーク

5 実験結果の分析と事例

表1は、異常なユーザー上位20名のスコアといくつかの特徴値を示しています。ユーザー名はハッシュ化を使用して匿名化されています。異常度上位のユーザーを順次検証したところ、上位10名のユーザーのうち、第三者とのアカウント共有、ホストポイズニング、悪意あるスキャン、元従業員のイントラネットへの侵入、機密情報の不正取得などの問題が確認され、アカウントリスクの正確率は90%に達した。表1 異常ユーザー上位20名のスコアと特徴値

異常ランキング1位はユーザー446983413。異常特性を確認した結果、アカウントブラスト、リモートログイン、ポートスキャン、OAシステムからのファイルダウンロード、過度の送信トラフィックなどの異常が判明。最終的にセキュリティ運用保守担当者は、VPNアカウントのブラストによる機密情報漏洩事件と判断した。タイムライン上で発生する順序は図 5 に示されています。

図5 ユーザー446983413に関連するイベントのタイムライン

6 結論

本稿では、企業における異常ユーザー検出における UEBA (ユーザー行動エンティティ分析) の応用について紹介します。ユーザー、エンティティ、行動の 3 つの要素を関連付けることで、ユーザー行動のベースラインを反映できるさまざまな種類のデータを統合し、ユーザー行動の特徴を抽出して 4 つの次元に分配し、ユーザーの異常を最もよく反映する数十の基本特徴を効果的に抽出します。

アンサンブル学習法による異常ユーザーモデリングには、3 つの異常検出アルゴリズムが使用されます。異常スコアリングによって、最も異常である可能性の高いユーザーが特定されます。上位 10 人の異常ユーザーがチェックされ、問題の存在を証明する精度は 90% に達します。企業が初めて UEBA システムを導入する場合、基本的にユーザー アカウントのラベルは存在しません。

一定期間の使用とトラブルシューティングを経て、ユーザー アカウントのラベルが徐々に蓄積され、システム全体のアルゴリズムが徐々に非監視型から監視型に移行し、精度がさらに向上します。このような正のフィードバックループの強化を通じて、最終的には強固なセキュリティラインが構築されます。

<<:  スポーツイベントではロボットが人間に取って代わるのでしょうか?

>>:  Omdia、2019年の世界IoT分野における重要な投資をまとめる

ブログ    

推薦する

ターゲット検出にはこの記事で十分です! 2019年版オブジェクト検出の総合ガイド

[[272485]]ビッグデータダイジェスト制作編纂者:張瑞怡、寧静コンピュータ ビジョンは、デジタ...

びっくり! 7万時間の訓練を経て、OpenAIのモデルは「Minecraft」で木材の設計を学習した。

最近、GPTを忘れてしまったかのようなOpenAIが新たなアイデアを思いつきました。大量のラベルなし...

毎日のアルゴリズム: 完全順列問題

[[435870]]繰り返しのない数字のシーケンスが与えられた場合、そのシーケンスのすべての可能な順...

調査と市場:2025年までに世界のヘルスケア人工知能市場は272億ドルに達する

市場調査会社リサーチ・アンド・マーケッツが最近発表したレポートによると、人工知能の世界のヘルスケア市...

自動生成された小さなデータセットを使用してエンコーディング LLM をトレーニングする方法

翻訳者 |李睿レビュー | Chonglou GPT-4 のような大規模言語モデル (LLM) はソ...

李蘭娟氏との対話:人工知能は流行病を「すべて捕捉」し、医療をより正確にする

[[353851]] 「新型コロナウイルス感染症の突然の発生は、厳しい課題、不確実性、状況の進展の複...

国内AI企業500社のビッグデータ分析:業界レイアウトと資金調達・投資動向

[[204973]]序文:今月、テンセント研究所とIT Juziは共同で「2017年中米人工知能ベン...

DeepMindは、オートエンコーダに「自己修正」を教える「SUNDAE」と呼ばれる言語モデルを提案している。

[[440946]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

EasyDLコンピューティング機能:10種類以上のチップをサポートし、速度が数倍速く、ワンクリックで展開可能

科学研究、金融、小売から工業、農業まで、ますます多くの業界やビジネス シナリオで、効率の向上とコスト...

NVIDIA、端末デバイスへのディープラーニングの導入を加速する高性能Jetson TX2を発表

人工知能と機械学習はユーザーからますます注目を集めており、AIの応用は徐々に世間の注目を集め始めてい...

マイクロソフトが新たな特許を取得: 移動中のダイナミックなドローン配達システム

海外メディアNeowinによると、マイクロソフトが取得した最新の一連の特許の中に、潜在的な新しい配信...

...

JavaScript チュートリアル: Web アプリケーションに顔検出機能を追加する

[51CTO.com クイック翻訳] 先週、annyang を使用してマップ インターフェースに音声...

...