データセキュリティ認識システムにおける機械学習の応用

私たちは情報過多の世界に住んでおり、情報を追跡したり、他の人のために手動でキュレートしたりすることがますます難しくなっています。幸いなことに、現代のデータサイエンスは、この大量の情報を整理し、私たちにとって関連性のある情報を浮かび上がらせてくれます。

機械学習アルゴリズムは、ユーザーの知識とデータ内で観察されたパターンに基づいて、ユーザーが好む可能性のあるコンテンツや興味を持つ可能性のあるコンテンツに関する推論や推奨を行います。機械学習技術が開発者にとってより利用しやすくなるにつれ、企業はこれらのアルゴリズムを活用して自社製品やユーザーエクスペリエンスを向上させるよう求められています。

Holographic Network Defenseの研究開発実践では、セキュリティの観点から各業界のモバイルデータのビジネス共通性を深く分析し、モバイルデータを中核とするOnFireデータセキュリティリスク認識システムプラットフォームを抽象化し、AIインテリジェント機械学習の使用を組み合わせて、「ユーザー-デバイス-アプリケーション-データ」の4つの次元のリアルタイム相関分析を構築します。これにより、モバイルデータの評価監視、早期警告/警報、追跡可能性監査の連携メカニズムを確立するための基礎が提供され、データセキュリティリスクを認識し、視覚的、制御可能、追跡可能なデジタル空間セキュリティ状況認識および保護システムが形成されます。

ユーザーおよびエンティティの行動分析 (UEBA) は、エンティティの行動に基づいたネットワークリスク分析です。統計や機械学習などのアルゴリズムを使用した適応型分析です。ビッグデータセキュリティ分析に基づくネットワークの異常な行動の検出とセキュリティ状況の認識です。以下では、アルゴリズムとアーキテクチャの 2 つの側面から、OnFire システムにおけるこれらのアルゴリズムの適用について説明します。

1. 概要

OnFire システムは、ネットワークトラフィック収集システム (HoloFlow)、エンティティ動作分析システム (HoloML)、管理システム (HoloVision) の 3 つの部分で構成されています。ネットワークトラフィックコレクターは、通常は集約スイッチからの主要なネットワークデバイスノードからの元のネットワークトラフィックを受信して処理し、ネットワーク内のデバイス、アプリケーション、データ (ファイルと Web ページ)、およびユーザーのネットワーク動作ログを生成して、データウェアハウスに保存します。

分析プラットフォームは、これらのログを、ユーザーエンティティ、デバイスエンティティ、アプリケーションエンティティ、データエンティティの 4 種類のエンティティ動作にマッピングします。次に、エンティティ間の動作の論理関係、時間関係、地理的位置関係に基づいて、動的に関連付けられたネットワークホログラムが生成されます。同時に、数理統計、機械学習、その他のアルゴリズムを使用して、各エンティティポートレートの通常の動作ベースラインを構築します。最後に、異常な動作が識別され、エンティティの通常の動作のポートレートと比較され、管理者は異常な動作をタイムリーに追跡およびトレースするように通知されます。

OnFire システムの階層構造は、図 1 に示すように 5 つの層に分かれています。

ログ収集レイヤー:さまざまなネットワークプロトコルからデータを収集し、サードパーティのログ情報のインポートをサポートします。

コンバージェンスレイヤー:データのクリーニング、データの変換、データの集約を完了し、ユーザー、デバイス、アプリケーション、およびデータエンティティ情報を抽出します。

ポートレートレイヤー:エンティティの履歴情報に基づいて、数学的統計、機械学習などのアルゴリズムを使用して各エンティティのポートレートを作成し、通常の動作のベースラインを確立して視覚化します。

異常動作検出レイヤー:エンティティの各動作と通常の動作プロファイルの差異を計算し、異常動作を識別して視覚化します。

プレゼンテーション層:セキュリティシステムアナリストがその後の追跡とトレースを容易に行えるように、人間とコンピューターのインターフェイスをわかりやすく提供します。

2. エンティティの行動分析

1. 行動プロファイリング

ポートレートレイヤーでは、ユーザー、データ、アプリケーション、デバイスの 4 つの次元でエンティティの動作を分析およびマイニングして、エンティティ間の関係を理解し、通常の動作パターンを識別し、エンティティ間の通常の動作ベースラインを確立します。教師なし機械学習アルゴリズムを使用します。後続の検出層では、システムは通常の動作ベースラインと現在の動作の差を計算し、この動作が異常かどうかを判断します。

通常、特徴エンジニアリングでは、エンティティの動作から特徴を抽出し、これらの特徴を学習アルゴリズムへの入力として使用して、エンティティの動作のパターンを識別します。このプラットフォームは、さまざまなアルゴリズムを使用して、正常な動作のパターンを識別します。以下に 2 つのアルゴリズムについて簡単に説明します。

（１）カーネル密度推定

カーネル密度推定は、エンティティの動作特徴の密度を構築するための推定関数です。私たちの UEBA ソリューションでは、そのような厳密な仮定を必要とせず、カーネル密度推定が一般的に使用される方法の 1 つであるため、ノンパラメトリック密度推定を使用します。

データ密度分布推定関数を計算する際、アルゴリズムはデータを長方形で分割する代わりに、ガウスカーネルを使用してデータのヒストグラムを作成します。つまり、各ビンの中心にガウス分布が描かれます。この方法により、ヒストグラムを滑らかにし、特徴空間内の各ポイントのデータ密度の連続的な推定値を取得できます。異常検出の通常の方法は、各データポイントの密度を推定し、密度が最も小さいポイントを異常と呼ぶことです。

図 2 は、1 日のログイン行動を示しています。X 軸は時間、Y 軸はログイン確率です。図から、高密度期間は 6 から 20 であることがわかります。 0 から 6 の間にログインすると、異常な動作をします。

（２）特徴エンジニアリング

OnFire システムでは、ほとんどのアクティビティは時間に依存します。時系列データの場合、時間、統計、スペクトルの 3 つの側面からデータの特徴を抽出します。時間に関連する機能には、異なる時間の粒度、自己相関、ピークからの距離、正と負の転換点などが含まれます。統計的特徴には、移動平均、標準偏差、傾向測定、季節性、周期性、連続相関、歪度、尖度、自己相似性などがあります。スペクトル機能には、FFT 平均係数、最大周波数、中央周波数、スペクトル中心、スペクトル拡張が含まれます。

2. 行動異常の分析

OnFire システムの動作異常分析には、静的ルールに基づくものと、統計および機械学習アルゴリズムに基づくものの 2 つのカテゴリがあります。以下では、システムで使用される統計アルゴリズムと機械学習アルゴリズムに焦点を当てます。

（１）統計アルゴリズム

統計アルゴリズムは、計算コストが低く、しきい値を手動で設定する必要がないため、1 次元または 2 次元のデータによく使用されます。重要指標の異常動作警報に適用可能です。たとえば、ユーザーによる商用ファイルのダウンロード量、サーバーによるファイルのダウンロード量などです。

指数加重移動平均（EWMA）は、一般的に使用される統計手法です。ユーザーとエンティティの行動データの特定の次元の毎日の集計値に異なる重みを割り当て、異なる重みに従って移動平均を計算し、最終的な移動平均に基づいて予測値を決定します。 EWMA では、各値の加重係数は時間の経過とともに指数関数的に減少し、値が現在の瞬間に近いほど、加重係数が大きくなります。

EWMA の表現は次のとおりです。

 〖EWMA〗_t〗_t = 〖λY〗_t + ( 1 - λ ) EWMA_ ( t - 1 ) t = 1,2 , … , n の場合
s_ewma ^ 2 = λ / ( 2 - λ ) s ^ 2
 UCL = 〖EWMA〗_0 + 〖ks〗_ewma

で：

〖EWMA〗_t:時刻 t における指数加重移動平均。
Y_t:時刻 t における実際のデータ。
k、λはどちらも定数（0<λ≤1）であり、履歴データが現在のデータに与える影響の度合いを決定します。
s: EWMA統計量の分散
UCL: 管理図の上限

エンティティ動作解析システムでは、1次元の動作データの異常検出に指数加重移動平均法が使用されます。たとえば、ユーザーが毎日ダウンロードするファイルの量は、作業の性質に応じて、比較的安定したベースラインと変動範囲を持ちます。ある日のダウンロード量が UCL より大幅に大きい場合、ダウンロードファイルの動作が異常であると考えられます。

（２）機械学習アルゴリズム

エンティティ動作分析システムは、iForest アルゴリズムとクラスタリングアルゴリズムを使用して、ユーザーグループ内外の異常動作分析を実行します。これにより、アカウント侵害分析機能とホスト侵害分析機能が完了するようになります。これは、同じグループ内のユーザーはより類似した行動をとるという仮定に基づいています。実装原理：管理者が提供するユーザーグループ情報と、ユーザー行動データに基づいてクラスター分析モジュールが計算したグループ情報を比較することで、グループから逸脱したユーザーを見つけることができます。

管理者が入力したグループの数に応じて、クラスター分析システムは異常検出アルゴリズムまたはクラスタリングアルゴリズムの使用を選択します。管理者がグループを入力すると、システムは異常検出アルゴリズムを選択して外れ値ユーザーを計算します。管理者が 2 つ以上のグループを入力すると、システムはクラスタリングアルゴリズムを使用してユーザーをグループ化します (グループの数は管理者が入力したグループの数と同じになります)。次に、計算されたグループ関係が管理者が入力したグループ関係と比較され、外れ値のユーザーが取得されます。

①データ

ユーザーのネットワーク行動情報は毎日計算されます。ホログラムの特殊機能に基づいて、ここでのユーザー情報には、ユーザーの 1 つのアプリケーションまたは 1 つのデバイスのみに基づいて収集された情報ではなく、同じユーザーが使用するすべてのデバイス、すべてのアプリケーション、およびすべてのファイル/データに関する包括的な情報が含まれます。

A. グローバルネットワークトラフィック情報

ネットワークにアクセスするユーザーのトラフィック量
ユーザーがアクセスしたアプリケーションの数

B. 内部サービスアプリケーション情報

特定のアプリケーションサービスにアクセスするユーザーの数
特定のアプリケーションサービスでユーザーが訪問したウェブページの数

C. ファイルの種類と機密情報

すべてのファイルタイプについて、ユーザーが使用した各タイプのファイルの数
すべてのファイル機密タイプについて、ユーザーが使用した各機密タイプのファイルの数

②異常検知アルゴリズム

管理者がグループまたはネットワークセグメントを選択すると、異常検出アルゴリズムを使用して外れ値の動作が計算され、現在は孤独な森アルゴリズムが適用されます。

孤独な森アルゴリズムは、まばらに分布し、人口密度の高いグループから遠く離れた外れ値を見つけるのに適しています。特徴空間において、まばらに分布している領域は、その領域でイベントが発生する確率が非常に低いことを示しているため、これらの領域に含まれるデータは異常であると見なすことができます。

③ クラスタリングアルゴリズム

管理者が N (N>=2) 個のグループまたはネットワークセグメントを選択すると、ユーザーの動作データに基づくクラスタリングアルゴリズムを使用して N 個の新しいグループが計算されます。現在、K-Mean、階層的クラスタリング、混合ガウスアルゴリズムが適用されており、システムはデフォルトで K-Mean アルゴリズムを選択します。

④ グループ関係比較アルゴリズム

クラスタリングアルゴリズムによって計算されたグループ関係は、管理者が選択したグループ関係と比較され、どのユーザーの行動が元のグループ関係から逸脱しているかが調べられます。

3. システムアーキテクチャ

エンティティ動作解析システム（HoloML システム）は、図 3 に示すように、イベント駆動型アーキテクチャを採用しています。管理者は HoloVision を通じて分析タスクを作成および管理します。 HoloML は HoloVision から分析要求イベントを受信し、インテリジェントな分析タスクを開始し、分析結果をデータウェアハウスに保存します。 Pub/Sub チャネルを通じてタスクの実行状況を HoloVision に通知した後、HoloVision はデータウェアハウス内の分析結果を読み取り、管理者に表示します。

<<: 何凱明氏のグループによる新しい論文：ViTをバックボーンとして単独で使用しても、ターゲット検出に優れたパフォーマンスを発揮できる

>>: 機械学習が通信業界にもたらすメリット