高度な持続的脅威は、その多様な形態、持続性、対立、隠蔽を特徴とし、現在、大手企業が脅威監視において直面している深刻な課題となっています。 AI 技術の強化により、高度な脅威検出技術の検出効率と精度が大幅に向上します。先日の[T·Talk]技術共有活動シリーズの第10回では、金景雲華のテクニカルディレクターである傅吉祥氏を特別に招待し、従来の特徴検出技術では解決が難しいセキュリティ問題をAI技術で解決する方法を聴衆と共有しました。 【 T·Talk 】 もこの号で共有されたコアコンテンツを整理し、皆様にインスピレーションをお届けしたいと考えています。 高度な脅威検出技術の課題高度で持続的な脅威とは、通常、特定のターゲットを狙い、知っている情報を総合的に活用し、それに応じた武器や攻撃方法を構築し、長期間にわたって継続的にターゲットに侵入するサイバー攻撃活動を実行する組織化されたチームを指します。攻撃チェーンには、スキャンと検出、攻撃の試み、脆弱性の悪用、トロイの木馬のダウンロード、リモート制御、横方向の侵入、アクションの収集など、さまざまな段階が含まれます。攻撃プロセス全体が複雑であり、攻撃方法、武器、ペイロードは高度化しています。業界では一般的に、このタイプの脅威を「高度で持続的な脅威」と定義しています。 高度な持続的脅威の攻撃プロセスでは、攻撃方法を検出して発見し、対応して対処する必要があります。しかし、現在の従来の機能検出技術では、高度な攻撃に効果的に対処することはできません。従来の攻撃と防御の対決プロセスは、通常、新しい脅威が出現したときに始まります。防御側はサンプルを入手する方法を見つけ、サンプルに基づいて特徴分析を行い、脅威を特定し、最後に脅威を防御または検出できるネットワーク セキュリティ機器を更新する必要があります。アップグレード後は、検出機能を備えています。 ただし、セキュリティ保護や検出装置がアップグレードされるまでは、未知の脅威に対する防御空白期間があります。さらに、悪意のあるコードにはいくつかの亜種があります。たとえば、インターネット上には悪意のあるサンプルやトロイの木馬ウイルスが多数存在します。攻撃者はサンプルに防御または検出手段を回避する能力を与えます。このプロセス中に、攻撃者はサンプルを変更し、ウイルス対策ソフトウェアによって検出される機能を隠したり混乱させたりして、サンプルを変異させます。この時点以降は、ウイルス対策ソフトウェア、ファイル ハッシュ コード、または署名では効果的に検出できなくなります。 攻撃チェーン全体を通じて、いくつかの動作は検出エンジンやさまざまな手段によって簡単に検出されます。しかし、プロセスの中には見つけにくい隠れた部分もあり、攻撃プロセスを判断することも非常に重要です。たとえば、現在のネットワーク攻撃の多くは暗号化方式を採用しており、ネットワーク トラフィック全体の中で、私たちが確認できるのは一部のハンドシェイクのやり取りと証明書情報だけです。この情報のみを使用して、暗号化されたトラフィック ペイロードに問題があるかどうか、または潜在的なトロイの木馬や悪意のある攻撃があるかどうかを判断する方法はありません。 攻撃が成功すると、コマンド アンド コントロール サーバーに接続し直して、通信を常に開いたままにして、攻撃者の次の攻撃指示を受信します。ファイアウォールは現在、一般的なネットワーク セキュリティ デバイスです。通常、ファイアウォールは DNS、HTTP、ICMP などの一般的なプロトコルを傍受したり、詳細に検査したりすることはありません。したがって、上記のバック接続プロセスにおいて、秘密裏に通信を行う場合は、コマンドおよび制御通信に標準のネットワーク プロトコルを使用する方が適切な方法になります。 悪意のある暗号化プロキシは、会話全体を完全に暗号化します。より一般的な Onion ブラウザやダーク ウェブ ブラウザと同様に、アクセス動作やアクセスされたコンテンツを隠すことができます。 Open VPN は通信動作を効果的に隠蔽することもできます。これらの手がかりは、攻撃チェーン全体を発見するための鍵となります。 高度な脅威検出における人工知能技術の応用ネットワーク内の動作はプロトコルを通じて相互作用します。Web サイトにアクセスしたり、メッセージや電子メールを送信したりすると、ネットワーク内で双方向のインタラクティブな動作が生成されます。クライアントとアクセス先のサーバーの間では、複数回の相互作用が発生します。このプロセスでは、送信されるリクエスト情報は通常比較的小さく、Web サイトは比較的大量の情報を返します。このプロセスを視覚化し、ネットワークの動作をモデル化することができます。 トロイの木馬によるデータ漏洩のプロセスには、複数回のデータ相互作用も含まれます。このプロセス中に、時間とパケット サイズの観点から見たセッション データの分布は、明示的なパターンを形成します。このパターンを識別するプロセスでは、トラフィック全体のパターンを構築する方法を見つける必要があります。この点で、このパターンは人工知能モデリング手法を通じて学習することができます。 この段階では、Apple の Siri 音声認識などの人工知能技術が広く使用されています。まず音声をキャプチャし、音声信号をデジタル信号に変換し、線形パラメータを抽出します。多次元データから特徴ベクトルを形成することが目的です。最後に、モデリングのために人工知能アルゴリズムに引き渡されます。モデルが確立されると、訓練された音声を効果的に認識できるようになります。 同様に、ネットワーク トラフィック パターンを識別する必要がある場合にも、同様のプロセスを使用できます。まず、アップリンクやダウンリンクなどの双方向ネットワーク会話パケットを含むサンプルが収集され、デジタル化されてデータ パケットの内容が分析されます。次に、コンテンツは、ネットワーク層、トランスポート層、アプリケーション層でのプロトコル解析などのさまざまな方法で解析されます。このプロセスでは、データ パケットもカウントされ、事前変調されたアルゴリズムを使用してデータが学習され、最終的に検出と防御のためにネットワーク セキュリティ デバイスに適用されます。 上記のプロセスにおいて、最初に注意する必要があるのはデータのソースです。インターネット上の多くのトロイの木馬は、外部と通信するときに暗号化されたトラフィックを送信します。この場合、トロイの木馬のサンプルをキャプチャしてサンドボックス クラスター環境に配置することで、インターネットとのネットワーク トラフィックを生成し、暗号化された PCAP トラフィックをキャプチャできるようになります。同時に、多くのウェブサイトや学術機関も暗号化された PCAP トラフィックを公開し、企業や学術組織もこの研究分野で悪意のある暗号化トラフィックを蓄積します。これらはすべて有効なデータ ソースです。 もちろん、すべての生のトラフィックやファイルを直接適用できるわけではありません。キャプチャが完了したら、データの品質を判断し、データをフィルタリングするために分析する必要があります。トラフィックは標準エンジンまたはセキュリティ デバイス エンジンを通じて解析され、署名データと統計が抽出されます。 AIエンジニアはデータを取得した後、データを判断し、データをいくつかのカテゴリに分割し、いくつかのモデルやアルゴリズムを使用してデータを識別および分類します。 分類の最初の次元は、トラフィック内に他のプロトコルの関連トラフィックがあるかどうかを判断することです。多くのトロイの木馬は、悪意のある動作が発見される可能性を減らすために、通常の Web アクセス動作をシミュレートすることを検討します。この場合、セッションに関連付けられた DNS コンテキストをキャプチャして分析し、データを抽出できます。 2 番目の側面は、セッションが最初に TLS 暗号化認証を受ける必要があることです。一部のセッションは認証プロセスを完了しませんが、一部のセッションは認証プロセスを完了します。これにより、さまざまな種類のインタラクション データを取得できます。 DNS が関連しているかどうか、およびその ID 認証が完了しているかどうかという上記の 2 つの側面に基づいて実践できます。データは 4 つのグループに分割され、これらのデータを使用して個別にトレーニングされるため、さまざまなモデルがデータの対応するサブカテゴリを効果的に識別できます。 データが分類された後、特徴ベクトルを構築するために特徴を抽出する必要があります。まず、DNS 関連のデータがあるかどうかで言及する内容を区別することができます。 DNS 関連のデータがない場合、その統計と TLS プロトコル データを抽出します。 2つ目は暗号化証明書に関連するデータです。これらのデータが結合されて特徴ベクトルが生成されます。 DNS 関連のカテゴリを持つデータの場合、ドメイン名の長さ、ドメイン名のサフィックス、TTL などの DNS 関連フィールドを抽出して特徴ベクトルを形成することを検討する必要があります。 次に、モデリングとトレーニングの前に、視覚的なデータの次元削減分析が必要です。 AIアルゴリズムがデータを効果的に分類できるかどうかを判断します。 AIアルゴリズムはデータを分類する必要があります。次元削減データグラフの観点から見ると、実際には2種類のデータをうまく区別できる曲線または面を探していると理解できます。 PCA アルゴリズムなど、次元削減アルゴリズムは多数存在し、実際のプロセスに応じて異なるアルゴリズムを選択できます。 次のステップはモデリングプロセスです。人工知能のアルゴリズムには、従来の機械学習や近年人気が高まっているディープラーニングなど、さまざまなカテゴリがあります。悪意のある暗号化トラフィックを識別するより良い方法は、アンサンブル学習アルゴリズムを使用すること、アンサンブル学習モデルで複数の機械学習アルゴリズムを使用すること、または 1 つの機械学習アルゴリズムを使用して複数のサブモデルを構築することです。統合環境での認識効果と精度が高まります。 2 番目のタイプの問題である高度な脅威は、非常に急速に変化する悪意のあるファイルの変種です。従来の署名では、サンプルの新しいバリエーションが生成される速度に追いつくことはほとんど不可能です。この目的のために、ファイルを画像に変換し、畳み込みニューラルネットワークの画像認識能力を使用して、ファイル自体を間接的に識別することができます。従来の特徴検出アルゴリズムと比較すると、画像認識に畳み込みニューラル ネットワークを使用する場合の計算の複雑さはそれほど高くありません。 ここでは、まず悪意のあるコードをグレースケール画像にマッピングし、そのグレースケール画像の特徴を抽出する必要があります。次に、悪意のあるコードのグレースケール画像の特徴を使用してクラスタリングを行い、クラスタリング結果を悪意のあるコード ファミリーとしてラベル付けします。次に、畳み込みニューラル ネットワーク CNN モデルを確立し、ネットワーク構造パラメータとトレーニング パラメータを設定します。次に、悪意のあるコード ファミリのグレースケール画像セットを使用して畳み込みニューラル ネットワークをトレーニングし、検出モデルを確立します。最後に、検出モデルを使用して、悪意のあるコードとその亜種のファミリー検出を実行します。 もう 1 つの問題は、現在、多くの悪意のあるプログラムが、企業内から外部への通信時に秘密のトンネルを使用していることです。このうち、DNS 隠しトンネルは、漏洩するデータをサブドメイン名として BASE64 でエンコードし、DNS プロトコルを使用してファイアウォールを通過して、制御対象サーバーにデータを送信することができます。 DNS プロトコル TXT やその他のレコード タイプを使用して、要求と応答を送信することもできます。同様に、ハッカーはこのドメインの解決サーバーを登録して、目的のデータ コンテンツを取得します。 ICMP トンネルは、最も一般的に使用される方法の 1 つです。主に ICMP のエコーおよび応答データ パケットを使用して、その中のフィールドを見つけ、そこにデータを入力します。同様に、送信データはエンコードまたは暗号化によって別の形式に変換され、繰り返しの多周波数送信によって制御されたエンドに送信されます。 HTTP トンネルもよく使われる秘密トンネルです。 HTTP はアプリケーション層プロトコルです。アプリケーション層プロトコルが両端でアクセス チャネルを確立した後、HTTP トンネルを使用して一部のトランスポート層および TCP/IP 層のデータを伝送できます。これは実際には上位のアプリケーション層を介してデータを伝送します。この場合、ファイアウォールが効果的に傍受することは困難です。 上記の問題をモデル化するための最初のステップは、対応するツールフローまたは実際のトンネルフローを取得することです。次に、DNS などのプロトコル トラフィックの特徴ベクトルを抽出します。抽出された内容には、プロトコル自体の内容と統計的特徴値が含まれており、これらが組み合わさって特徴ベクトルを構成します。最後に、機械学習モデルまたは統合学習アルゴリズムモデルに渡されてトレーニングされます。モデルがトレーニングされると、上記のツールで交通パターン認識を効果的に実行できるようになります。 上記のモデルの精度はいくつかの方法で向上させることができます。人工知能に関連して、さまざまなアルゴリズムを使用して、特定の問題に対してさまざまなカテゴリのデータを個別にモデル化し、その後、モデルを統合して適用することができます。または、同じアルゴリズムを使用して異なるデータをモデル化し、モデルを並列に使用します。人工知能の使用に加えて、モデルの精度を向上させるためにブラックリストやホワイトリストの使用も検討できます。 全体的なモデリングプロセスでは、実際には多数のプロセスとツールが必要であり、モデリング プラットフォームとツール スクリプトを通じてプロセス全体を接続できます。現在、TensorFlow や MLlib など、多くのアルゴリズム プラットフォームやライブラリを適用できます。その後、複数回の反復処理を実行して、新しいサンプル カテゴリに対するモデルの適応性を継続的に向上させたり、モデルの誤報率を削減したりすることができます。 応用事例と実践的効果分析アプリケーションレベルでは、データ入力ソースがトラフィックである場合、トレーニング済みのモデルをデバイスに配置し、元のネットワークトラフィックをデバイスに渡すことができます。このようにして、デバイスは内蔵の解析エンジンを使用してトラフィックのプロトコル分析と特徴ベクトル抽出を実行し、それをAIモデルに渡して検出することができます。 モデルのトレーニングプロセス中、特にニューラルネットワークなどのディープラーニングアルゴリズムは、比較的高い計算能力を必要としますが、トレーニングには複数のデバイスまたは複数のグラフィックカードを使用できます。機械学習アルゴリズムでは、高い計算能力は必要ありません。同時に、分散アーキテクチャを使用してモデルを適用することもできます。フロントエンドデバイスはトラフィックプロトコル分析に特化し、分析後にメタデータを生成します。バックエンドデバイスは特徴ベクトルを抽出し、その特徴ベクトルを検出のためにモデルに渡します。 脅威を判断するプロセスでは、AI モデルだけでなく、他の検出方法を組み合わせることもできます。例えば、AI モデルの検出効果だけでなく、ウイルス対策ソフトウェア エンジン、Yara、機能、インテリジェンスなどをすべて組み合わせて統合的に適用できます。悪意のある暗号化トラフィックを既存のネットワークに適用することは可能ですが、既存のネットワークに悪意のある暗号化トラフィックを適用することは困難です。問題が見つかった場合、問題が本当に存在するかどうかを判断するのは困難です。これは、他の間接的な手段を通じて検証できます。 たとえば、内部ホストが外部サーバーにアクセスすると、悪意のある暗号化トラフィックに対してアラームが生成される場合があります。その後、元のホストが最近攻撃を受けたかどうか、悪意のあるサンプルやウイルスのトロイの木馬があるかどうか、脆弱性による攻撃に成功したかどうかを確認して判断できます。同時に、リモート側では、IP またはドメイン名の情報に基づいて、リモート サーバーに問題があるかどうかを判断できます。両端に問題がある場合は、インシデント全体が悪意のあるものである可能性が比較的高くなります。 Web タイプの攻撃であれば、そのペイロードを抽出できます。たとえば、SQL インジェクションの場合、SQL インジェクション後に、トラフィック内の注入されたコンテンツを抽出できます。デコードすると、注入されたステートメントを確認できます。 Webshellと同様に、内部のコンテンツが異常なアクセス行為であるかどうかも確認でき、XSSなどの脅威についても同様です。 AI アルゴリズムを使用して脅威を検出した後、インテリジェントな方法を使用して、懸念している資産、資産のネットワーク動作、外部の脅威インテリジェンスなどのさまざまな次元の要素に脅威を関連付け、ナレッジ グラフ テクノロジを使用して動的グラフを形成することもできます。フォームデータのみを見て異なるデータを関連付ける場合と比較して、インテリジェントな関連付けは分析とトレーサビリティの効率を効果的に向上させることができ、業務効率を向上させる効果的な手段となります。 最後に、例を挙げましょう。次の図は、攻撃の完全なプロセスを示しています。ランサムウェアは内部の懸念資産に配信されます。資産は DNS 解決を実行し、IP アドレスを取得します。次に、隠された HTTP トンネルが発生します。プロセス全体のさまざまなイベントはすべて元の形式で記録されます。同時に、システムはさまざまなイベントを自動的に連結して、より高度なアラームを形成します。同時に、プロセス全体を視覚的かつ動的に表示できるため、どの資産、外部 IP、またはデバイスが接続されているかを理解し、追跡することが容易になります。 ゲスト紹介Fu Jixiang は、ノースイースタン大学で情報セキュリティを専攻して卒業しました。 KDDI China、Huawei、Shengbang Securityに勤務。現在はJinjing Yunhuaでプリセールスマネージャー兼テクニカルディレクターとして、製品およびソリューション業務に従事。ネットワークセキュリティ分野で10年以上の経験を持ち、高度な脅威検出と分析の分野における人工知能、ビッグデータ、ネットワークトラフィック分析技術の応用に長けています。長年にわたり、ISCサイバーセキュリティカンファレンスやXCon Security Focus情報セキュリティテクノロジーサミットにゲストスピーカーとして招待され、権威あるメディアSecurity Bullの「専門家インタビュー」で独占インタビューを受け、「エンタープライズ高度脅威保護ガイド」レポート発表会で講演するなど、業界で高い評価を得ています。 |
<<: 自動化によって、採用担当者が大規模な適格な人材を特定する方法
>>: AI が大学入試のエッセイのテーマを予測: 科学、形而上学、それとも誇大広告?
「xAIの目標は、宇宙を理解することを主な目的とする、真のAGI(人工汎用知能)を構築することです」...
[[315528]] [51CTO.com クイック翻訳] ビジネスの発展を推進するために、AI(人...
[[205684]] Tu Weiwei 氏は、Fourth Paradigm Prophet プラ...
先月、Kaggle の共同創設者兼 CTO である Ben Hamner 氏が、Kaggle、機械学...
翻訳者 |ブガッティレビュー | Chonglouここ数か月で、生成AIにおいて大きな進歩がありまし...
「ChatGPT のビジョンは、超インテリジェントな作業アシスタントになることです。」今年上半期のイ...
AI インフラストラクチャの継続的な革新と開発により、今日の仕事のやり方は変化しました。人工知能は...
Amazon Rekognition を使用すると、アプリケーションに画像およびビデオ分析機能を簡単...
世界経済フォーラムによると、2025年までに世界では毎日463EBのデータが生成されることになります...
1. 二分探索の背景配列またはコレクションに多数の要素が格納されている場合、特定の要素の位置または存...
データ サイエンティストとして、業界のトップ ナレッジ グラフをまとめ、技術専門家と共有して、ビッグ...