1. 背景 インターネットとモバイルインターネットの発展に伴い、企業の伝統的なネットワーク境界は徐々に消えつつあります。産業分野の企業、特に大手インターネット企業には、1日平均数千万人のアクティブユーザーがいます。各アプリケーションシステムのログは数百ギガバイトにまで達し、Tレベルに達することもあります。同時に、グレーとブラックの業界に代表される悪意のあるアクセスの割合は依然として高いままです。そのため、特に金融、通信などの業界の大手インターネット企業に対する悪意のある攻撃は、一日中いつでも発生しており、攻撃手段は絶えず革新されていると言っても過言ではありません。 対照的に、従来の受動的な防御技術は、ファイアウォール、Web アプリケーション ファイアウォール (WAF)、侵入防止システム、侵入防止システム (IPS)、侵入検知システム (IDS) のいずれであっても、基本的には、発見された攻撃から要約されたホワイトリストまたはルールに基づいて機能します。つまり、従来の防御技術は、既知の脅威に対する防御に限定されています。したがって、従来の防御技術では、未知の脅威が何であるかがわからないため、それを検出することはおろか、効果的にブロックすることもできません。 HanSiは、機械学習を情報セキュリティに応用するという新たな観点からログ情報マイニングを再検討し、リアルタイムのオンラインログベースのシーケンス異常検出アルゴリズムを提案しました。このアルゴリズムは、オンライン上の未知の異常行動を検出でき、国内トップ10の証券会社で導入されています。 2. シーケンス異常とは何ですか? シーケンス異常は、個別の異常な時系列イベントの検出であり、産業機器の検出、生物界におけるアミノ酸配列やゲノム配列の検出、ユーザーの行動分析などでよく使用されます。例えば、冷蔵庫の操作ログでは、「冷蔵庫のドアを開け、冷蔵庫内のものを取り出し、冷蔵庫のドアを閉める」という一連の動作があれば正常とみなされます。ただし、「冷蔵庫のドアが閉まっている、冷蔵庫内のものを取り出している、冷蔵庫のドアが開いている」という状態は異常です。 簡単に言えば、シーケンス異常は 2 つのカテゴリに分類されます。最初のタイプは位置異常です。つまり、シーケンスが異常であるかどうかは、その位置での実際の値とモデルの予測値との偏差によって決まります。 2 つ目は組み合わせ異常で、シンボルの組み合わせを考慮してシーケンス全体を判断します。大多数と異なる場合は、異常として検出されます。 情報セキュリティの分野では、シーケンス異常はさまざまな形をとる可能性があります。従来の SQL インジェクション、XSS 攻撃から、データベース衝突、業界のグレー/ブラックな不正行為やオーダーブラッシングなどまで。 ユーザー行動分析(UBA)では、異常シーケンスは異常なユーザー行動シーケンスを見つけるだけでなく、なぜ異常なのかという異常なポイントをより直感的に示します。 3. 配列異常の検出方法 位置の異常を探す場合でも、組み合わせの異常を探す場合でも、個別のタイプのタイミングの異常を探します。マルコフ連鎖モデルは、このタイプのアプリケーションに非常に適しています。シーケンスの異常を見つけるために、可変順序マルコフ連鎖モデルである確率的サフィックス ツリーを使用しました。 1) マルコフ連鎖モデル マルコフ連鎖は離散時間マルコフ連鎖とも呼ばれ、ロシアの数学者アンドレイ・マルコフにちなんで名付けられました。これは、状態空間内のある状態から別の状態に遷移するランダムなプロセスです。このプロセスには、「メモリなし」という特性が必要です。つまり、次の状態の確率分布は現在の状態によってのみ決定され、時系列内のそれ以前のイベントは無関係です。この特定のタイプの「記憶のなさ」はマルコフ特性と呼ばれます。マルコフ連鎖は、実際のプロセスの統計モデルとして多くの用途があります。 マルコフ連鎖の各ステップで、システムは確率分布に従ってある状態から別の状態に変更したり、現在の状態を維持したりすることができます。状態の変化は遷移と呼ばれ、さまざまな状態の変化に関連する確率は遷移確率と呼ばれます。ランダムウォークはマルコフ連鎖の例です。ランダム ウォークの各ステップの状態はグラフ内の点であり、各ステップは任意の隣接点に移動できます。各点に移動する確率は同じです (前のウォーク パスに関係なく)。 たとえば、天気が晴れ、雨、曇りと切り替わるとします。 そのマルコフ状態図を下の図に示します。それぞれの状態は他の状態に移行することができ、その確率は異なることがわかります。 対応する一次移行マトリックスを以下に示します。 つまり、今日晴れの場合、明日雨が降る確率は P天気2=雨 天気1=晴れ)=0.1 マルコフ連鎖モデルに対応する異常は、移行において確率が最も低いパスです。のように P(天気1=晴れ、天気2=雨、天気3=曇り、天気4=晴れ、天気5=雨)=0.1は、5次のシーケンスの中で最も確率が低く、発生する可能性が最も低いシーケンスであり、異常であると考えられます。 2) 確率的接尾辞木 確率的サフィックス ツリーは、サフィックス ツリーをインデックス構造として使用する可変順序マルコフ連鎖モデルのコンパクトな形式です。シーケンスのセットが確率的サフィックス ツリーに編成されている場合、ツリー内のルート ノードに近いポイントを調べるだけで、異常なシーケンスと異常でないシーケンスを区別できます。 簡単に言えば、確率的サフィックス ツリーは、サフィックス ツリーに予測力のあるサブシーケンスを格納します。次に、ツリー内のシーケンスの各サブシーケンスの状況に基づいて、シーケンス全体の確率値が計算されます。アルゴリズムは、正規化された低確率シーケンスを異常として識別します。 PST ツリーの例 確率的サフィックス ツリーでは、各ノードは要素を表し、各エッジはルート ノードから現在のノードまでのパス、つまりツリーに入るサブシーケンスを表します。各ノードには確率分布があります。現在のノードの次のサフィックス サブシーケンスの確率を表します。 ツリーを構築する際には、予測力のないサブシーケンスと、出現頻度が非常に低くそれ自体が異常なシーケンスをすべて除外する必要があります。このようにして、ルートノードから始まり、サフィックスの形で確率的なサフィックスツリーが徐々に構築されます。ツリーを構築した後、より厳しい条件を設定してツリーの剪定を継続し、ツリーの予測能力を向上させることができます。 確率サフィックス ツリーを使用してシーケンスの確率値を計算する方法 確率サフィックス ツリーは、中間条件付き確率を使用して確率値を効率的に計算できます。詳細には、確率接尾辞木上のシーケンス P(s) の確率は次のとおりです。 PS= PS1PS2S1)…PSlS1S2…Sl-1)。 たとえば、P(BAAB) = P(B)P(A|B)P(A|BA)P(B|BAA) = 0.7 * 0.5 * 0.2 * 0.7 確率サフィックス ツリーを使用して異常を見つけるにはどうすればよいでしょうか。テスト シーケンスの確率値を正規化した後、低確率シーケンスが異常シーケンスになります。 4. 例の分析 1) 商業株式会社の Web ログでは、シーケンス異常検出を使用して、グレー/ブラック業界の自動ログイン攻撃の事例を発見しました。 同銀行のモバイル バンキング Web ログの通常のシーケンス異常検出で、一部のログイン シーケンスが通常のシーケンスと大きく異なることが判明しました。分析の結果、通常のユーザーログインではこのシーケンスを生成できないことが判明しました。これらのシーケンスの出現とその他の証拠は、これらがすべてグレー/ブラック業界の自動ログインの産物であることを示しています。 2) 証券会社のウェブログにおいて、シーケンス異常検出を用いて、グレー/ブラック業界の疑わしいユーザー検出行動を発見しました。 シーケンス異常検出プログラムにより、ユーザーのチェックインを利用し、ユーザー検出の手段として悪意を持って使用されているページがいくつかあることが判明しました。分析後、通常のユーザーがこれらのページを使用してこれらのシーケンスを生成することは困難です。調査とビジネス部門での確認の結果、これらのシーケンスはすべて悪意のあるユーザー検出動作であることがわかりました。 5. 結論 業界が直面している現状は、一方で従来の保護対策では「既知の脅威」に対してしか防御できず、「未知の脅威」からの攻撃への対応が急務となっていることです。一方、インターネット製品は急速に反復・更新され、ユーザーの行動は絶えず変化し、攻撃方法も進化し続けています。自己学習して実装できる効率的な検出方法が緊急に必要とされています。 HanSiのシーケンス異常検出アルゴリズムは、第一に「未知の脅威」を検出でき、第二に急速に変化する環境に対応して最適化されたオンライン学習を行うことができます。第三に、実際にいくつかの企業で使用されており、一定の成果を上げています。 [この記事は51CTOコラムニスト「Han Si」によるオリジナル記事です。転載には著者の許可を得てください] この著者の他の記事を読むにはここをクリックしてください |
<<: 滴滴出行の米国研究責任者:インテリジェント運転は間違いなく未来を変えるだろうが、そのプロセスは単純ではない
より鮮明な写真を撮るには、カメラ レンズの優先フォーカスを使用して同じ写真を再度撮影するか、ディープ...
2020年の初め以来、工業および製造業はCOVID-19パンデミックの影響を受けています。工場は、...
顔認識監視会社Clearview AIは、裁判所との和解により、ほとんどの民間企業による同社のサービ...
Microsoft Research Asia (MSRA) と Orient Overseas C...
今の時代の発展は本当に速すぎます、それを今実感していただけると思います。 3G から 4G、そして ...
インターネットは現在、非常に急速に発展しており、特に過去2年間で、人工知能はインターネットのトレンド...
約1週間の不安が去った後、国内のiOSアプリ開発者はようやく落ち着くことができた。中国におけるApp...
[[238335]]ビッグデータダイジェスト制作編纂者: Shijintian、Ni Ni、Hu J...
AI と ML をより多くのタスクに統合すると、短期的には多くのメリットが得られますが、長期的には...