著者: ゲストブログ 翻訳:張玲 校正:丁南雅 この論文では、ディープラーニングとそれがサポートする既存の情報セキュリティアプリケーションについて簡単に紹介し、ディープラーニングに基づいた TOR トラフィック検出ソリューションを提案します。 導入 私たちが目にするディープラーニングのアプリケーションのほとんどは、通常、マーケティング、販売、財務などの分野にありますが、これらの分野でディープラーニングを使用して製品やビジネスをマルウェアやハッカーの攻撃から保護することに関する記事やリソースはほとんどありません。 Google、Facebook、Microsoft、Salesforce などの大手テクノロジー企業はすでに自社製品にディープラーニングを組み込んでいますが、サイバーセキュリティ業界はまだ追いついているところです。これは私たちが全面的に注意を払う必要がある難しい分野です。
この記事では、ディープラーニング (DL) とそれがサポートするいくつかの既存の情報セキュリティ (以下、InfoSec と呼びます) アプリケーションについて簡単に紹介します。次に、匿名の TOR トラフィック検出という興味深い問題を詳しく調べ、ディープラーニング ベースの TOR トラフィック検出スキームを提案します。 この記事の対象読者は、すでに機械学習プロジェクトに取り組んでいるデータサイエンスの専門家です。この記事は、読者が機械学習の基本的な知識を持ち、現在ディープラーニングとその応用事例の初心者または探究者であることを前提としています。 この記事を完全に理解するために、次の 2 つの記事を事前に読むことを強くお勧めします。
1. 情報セキュリティにおけるディープラーニングシステムの現状 ディープラーニングは、広範囲にわたる注釈付きデータセットを必要とするため、すべての情報セキュリティ問題に対する万能薬ではありません。残念ながら、そのようなラベル付きデータセットは利用できません。ただし、ディープラーニング ネットワークによって既存のソリューションよりも大幅な改善が実現された情報セキュリティの事例がいくつかあります。マルウェア検出とネットワーク侵入検出は、ルールベースの従来の機械学習ソリューションに比べてディープラーニングが大幅な改善を示した 2 つの分野です。 ネットワーク侵入検知システムは、通常、ルールとシグネチャに基づく制御であり、境界に展開されて既知の脅威を検出します。攻撃者は、マルウェアのシグネチャを変更することで、従来のネットワーク侵入検知システムを簡単に回避できます。 Quamarら[1]は、IEEE Transactions on Computer Visionの論文の中で、自己学習型のディープラーニングベースのシステムを使用して未知のネットワーク侵入を検出することが有望であると指摘しました。ディープニューラルネットワークベースのシステムは、マルウェアやスパイウェアの検出などの従来のセキュリティアプリケーションの問題を解決するために使用されてきました[2]。
従来の機械学習手法と比較して、ディープラーニングベースの技術は一般化能力に優れています。 Jungら[3]のディープラーニングベースのシステムはゼロデイマルウェアも検出できる。バルセロナ大学を卒業したダニエルは、CNN(畳み込みニューラルネットワーク)とマルウェア検出に関する多くの研究を行ってきました。彼は博士論文の中で、CNN が変形型マルウェアも検出できることを示しました。 現在、ディープラーニング ベースのニューラル ネットワークが、ユーザーおよびエンティティの行動分析 (UEBA) に使用されています。従来、UEBA は異常検出と機械学習アルゴリズムを採用しています。これらのアルゴリズムは、セキュリティ イベントを抽出し、企業の IT 環境内のすべてのユーザーとネットワーク要素を分析してベースラインを設定します。ベースラインからの大幅な逸脱は異常としてトリガーされ、セキュリティ アナリストが調査するためのアラートがトリガーされます。 UEBA は、限られた範囲ではあるものの、内部脅威の検出を強化します。 ディープラーニング ベースのシステムは現在、他の多くの種類の異常を検出するために使用されています。ポーランドのワルシャワ大学のPawel Kobojek氏[4]は、キーストロークダイナミクスを利用してLSTMネットワークでユーザーの身元を検証しました。 Capital OneのセキュリティデータエンジニアリングディレクターであるJason Trost氏は、InfoSecにおけるディープラーニングの応用に関する一連の技術論文やプレゼンテーションを含むいくつかのブログ[5]を公開しました。 2. フィードフォワードニューラルネットワークの概要 人工ニューラル ネットワークは、生物学的ニューラル ネットワークにヒントを得ています。ニューロンは生物の神経系の基本単位です。各ニューロンは樹状突起、核、軸索で構成されています。樹状突起を通して信号を受信し、軸索を通して伝達します (図 1)。計算はカーネル内で実行されます。ネットワーク全体は一連のニューロンで構成されています。 AI 研究者はこの原理を利用して人工ニューラル ネットワーク (ANN) を設計しました。この設定では、各ニューロンは次の 3 つのアクションを実行します。
したがって、各ニューロンは入力のセットをいずれかのクラスに分類できます。この機能は、単一のニューロンのみが使用される場合には制限されます。ただし、ニューロンのセットを使用するだけで、分類およびシーケンスのラベル付けタスクのための強力なメカニズムを実現できます。 図1: 私たちが得ることができる最大のインスピレーションは自然から来ます - 生物学的ニューロンと人工ニューロンが描かれています ニューラル ネットワークは、ニューロンの層を使用して構築できます。ネットワーク アーキテクチャは、達成する必要のある目標に応じて異なります。一般的なネットワーク アーキテクチャは、フィード フォワード ニューラル ネットワーク (FFN) です。ニューロンはループなしで直線的に配列され、FFN を形成します。情報はネットワーク内で前方に伝播するため、フィードフォワードと呼ばれます。情報はまず入力ニューロン層を通過し、次に隠れニューロン層と出力ニューロン層を通過します (図 2)。 図2: 2つの隠れ層を持つフィードフォワードネットワーク 他の教師あり学習モデルと同様に、FFN ではトレーニングにラベル付きデータが必要です。トレーニング プロセスは、出力値と実際の値の間の誤差を減らすことによってパラメーターを最適化することです。最適化するための重要なパラメータは、各ニューロンが各入力信号に与える重みです。単一のニューロンの場合、重みを使用してエラーを簡単に計算できます。 しかし、複数層のニューロンのセットを調整する場合、出力層で計算された誤差に基づいて複数層のニューロンの重みを最適化することは困難です。バックプロパゲーションアルゴリズムはこの問題を解決するのに役立ちます[6]。バックプロパゲーションは、コンピュータ代数の分野に属する古い手法です。ここでは、自動微分を使用して勾配を計算します。ネットワーク内の重みを計算するには勾配が必要です。 FFN では、接続された各ニューロンの活性化に基づいて結果が得られます。エラーはレイヤーごとに伝播します。出力と最終結果の正確さに基づいて、エラーが計算されます。このエラーはバックプロパゲーションされ、内部ニューロンのエラーを修正します。各データ インスタンスについて、パラメーターは複数の反復を通じて最適化されます。 ケーススタディ: ディープラーニングを使用した TOR トラフィックの検出 サイバー攻撃の主な目的は、企業のユーザーデータ、販売データ、知的財産ファイル、ソースコード、ソフトウェアキーを盗むことです。攻撃者は暗号化されたトラフィックを使用して、盗んだデータを通常のトラフィックと混合し、リモート サーバーに送信します。 通常の攻撃者のほとんどは匿名ネットワークを使用するため、セキュリティ担当者がトラフィックを追跡することは困難です。さらに、盗まれたデータは暗号化されていることが多く、ルールベースのネットワーク侵入ツールやファイアウォールが無効になります。最近、匿名ネットワークは、ランサムウェア/マルウェアの亜種の形で C&C に使用されています。例えば、オニオンランサムウェア[7]はTORネットワークを使用してC&Cサーバーと通信します。 図 3: アリスとターゲット サーバー間の TOR 通信の図。 通信は、アリスがサーバーにアドレスを要求することから始まります。 TOR ネットワークは AES 暗号化パスを提供します。パスのランダム化は TOR ネットワーク内で行われます。パケットの暗号化されたパスは赤で表示されます。 TOR ネットワークの出口ノードに到達すると、単純なパケットがサーバーに転送されます。出口ノードは、TOR ネットワークの周辺ノードです。 ネットワーク/トラフィックの匿名化はさまざまな方法で実行できますが、大まかに分類すると次のようになります。
その中でも、TOR は最も人気のある選択肢の 1 つです。 TORは、オニオンルーティングプロトコル[9]と呼ばれる特殊なルーティングプロトコルを通じてインターネット上で匿名通信を可能にするフリーソフトウェアです。このプロトコルは、世界中の複数の無料ホストリレー間でインターネットトラフィックをリダイレクトすることに依存しています。リレー中、タマネギの層のように、各 HTTP パケットは受信者の公開キーを使用して暗号化されます。 各受信ポイントでは、データ パケットは秘密キーを使用して復号化されます。復号化されると、次のターゲットリレーアドレスが明らかになります。このプロセスは、TOR ネットワークの出口ノードが見つかるまで継続されます。ここでパケットの復号化が終了し、単純な HTTP パケットが元のターゲット サーバーに転送されます。アリスとサーバー間のルーティング スキームの例を図 3 に示します。 TOR を立ち上げた当初の目的は、ユーザーのプライバシーを保護することでした。しかし、攻撃者は善良な人々を脅迫するための他の違法手段の代替としてこれを使用します。 2016 年現在、TOR トラフィックの約 20% が違法行為に関係していました。企業ネットワークでは、TOR クライアントのインストールを許可しないか、保護ノードまたはエントリ ノードの IP アドレスをブロックすることによって、TOR トラフィックがブロックされます。 いずれにせよ、攻撃者やマルウェアが TOR ネットワークにアクセスしてデータや情報を転送する方法は数多くあります。 IP ブロック戦略は健全な戦略ではありません。 Distilウェブサイト[5]の自動化プログラムの現状に関するレポートによると、2017年の自動化された攻撃の70%は複数のIPを使用し、自動化された攻撃の20%は100を超えるIPを使用していました。 TOR トラフィックは、トラフィック パケットを分析することで検出できます。この分析は、TOR ノード上またはクライアントとエントリ ノード間で実行できます。分析は個々のパケット ストリームに対して実行されます。各パケット フローは、送信元アドレス、送信元ポート、宛先アドレス、および宛先ポートを含むタプルを構成します。 異なる時間間隔でネットワーク フローを抽出し、分析します。 G. He らは論文「TOR 暗号化トラフィックからのアプリケーション タイプ情報の推測」で、トラフィックのバーストと方向を抽出して HMM (隠れマルコフ モデル) を作成し、そのトラフィックを生成している可能性のある TOR アプリケーションを検出しました。この分野の主流の研究のほとんどは、時間の特徴や、サイズやポート情報などの他の特徴を使用して TOR トラフィックを検出します。 私たちは、Habibi らによる論文「TOR トラフィックの特性を発見するための時間的シグネチャの活用」に触発され、この論文では時間ベースのアプローチに従って、TOR トラフィックの検出のためのネットワーク フローを抽出します。ただし、当社のアーキテクチャでは、トラフィックを分類するために使用できる他の多くのメタ情報を使用します。これは基本的に、この問題を解決するためにディープラーニング アーキテクチャを使用することを選択したためです。 4. データ実験 - TORトラフィック検出 本論文のデータ実験を行うために、ニューブランズウィック大学のHabibi Lashkariら[11]からデータを入手した。データは、キャンパス ネットワーク トラフィック分析から抽出された機能で構成されていました。データから抽出されたメタ情報を次の表に示します。 表1: [1]から得られたメタ情報パラメータ これらのパラメータに加えて、他のフローベースのパラメータも含まれます。図4にサンプルデータセットを示します。 図4: この記事で使用したデータセットの例 送信元 IP/ポート、宛先 IP/ポート、およびプロトコル フィールドは、モデルの過剰適合を引き起こす可能性があるため、例では削除されていることに注意してください。他のすべての機能を処理するために、N 個の隠し層を持つディープ フィードフォワード ニューラル ネットワークを使用します。ニューラル ネットワークのアーキテクチャを図 5 に示します。 図5: Torトラフィック検出のためのディープラーニングネットワークの表現 隠し層の数は 2 から 10 まで変化します。 N=5の場合に最適です。アクティベーションには、すべての隠し層で ReLU (Rectified Linear Unit) が使用されます。各隠れ層は実際には密であり、100 次元を持ちます。 Keras での FFN の Python コード スニペット:
出力ノードはシグモイド関数によってアクティブ化されます。これは、TOR または非 TOR のバイナリ分類結果を出力するために使用されます。 ディープラーニング モジュールをトレーニングするために、バックエンドで TensorFlow と Keras を使用します。バイナリクロスエントロピー損失は、FFN を最適化するために使用されます。モデルは異なる時間でトレーニングされます。図 7 は、シミュレーション トレーニングの 1 ラウンドで、トレーニング回数が増えるにつれてパフォーマンスも向上し、損失値が減少することを示しています。 図7: ネットワークトレーニング中にTensorboardによって生成された静的グラフ 私たちのディープラーニングシステムの結果を他の予測システムと比較しました。再現率、精度、F スコアなどの標準的な分類メトリックは、予測システムのパフォーマンスを測定するために使用されます。当社のディープラーニングベースのシステムは、TOR クラスを適切に検出できます。ただし、私たちは非 TOR クラスに重点を置いています。ディープラーニング ベースのシステムでは、非 TOR クラスの誤検出ケースを削減できることがわかります。結果は次のとおりです。 表2: TORトラフィック検出実験におけるディープラーニングと機械学習モデルの結果 さまざまな分類器の中で、ランダム フォレストとディープラーニング ベースの方法が他の方法よりも優れたパフォーマンスを発揮しました。表示される結果は、5,500 のトレーニング インスタンスに基づいています。この実験で使用されるデータセットのサイズは、一般的なディープラーニング ベースのシステムのサイズよりも比較的小さくなっています。トレーニング データが追加されるにつれて、ディープラーニング ベースのシステムとランダム フォレスト分類器のパフォーマンスがさらに向上します。 ただし、大規模なデータセットの場合、ディープラーニング ベースの分類器は他の分類器よりも優れたパフォーマンスを発揮することが多く、同様のタイプのアプリケーションに一般化できます。たとえば、TOR を使用するアプリケーションの検出をトレーニングする必要がある場合、出力層のみを再トレーニングする必要があり、他のすべての層はそのままにしておくことができます。他の機械学習分類器は、データセット全体で再トレーニングする必要があります。大規模なデータセットのモデルを再トレーニングすると、計算コストが高くなる可能性があることに注意してください。 終了ノート 各企業が直面する匿名トラフィック検出の課題は微妙な違いがあります。攻撃者はTORチャネルを使用して匿名モードでデータを盗みました。現在のトラフィック検査ベンダーのアプローチは、TOR ネットワークの既知のエントリ ノードを傍受することに依存しています。これはスケーラブルなアプローチではなく、簡単に回避できます。一般的なアプローチは、ディープラーニングベースの技術を使用することです。 本稿では、高い再現率と精度で TOR トラフィックを検出するためのディープラーニング ベースのシステムを提案します。ディープラーニングの現状についてどう思うか、あるいは別のアプローチがあるかどうか、下のコメント欄でお知らせください。 関連レポート: https://www.analyticsvidhya.com/blog/2018/07/using-power-deep-learning-cyber-security/ [この記事は51CTOコラムBig Data Digest、WeChatパブリックアカウント「Big Data Digest(id: BigDataDigest)」のオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: 戦争の太鼓はすでに鳴り響いています。人工知能に関して、あなたはどちらの陣営に属しますか?
>>: P-Careは人間の知的生活の新たなトレンドをリードしています。中瑞富寧と世界をリードする科学者たちが2018年世界ロボット会議(WRC)に輝かしい登場を果たしました。
2023年6月16日、「共に立ち上がって無限のイノベーションを」をテーマにした人工知能フレームワーク...
チャットボットは今日、多くの企業にとって顧客サービスの基盤として急速に定着しつつあります。そして、企...
投票攻撃は止まらない2016年の米国大統領選挙は紆余曲折を経て、最終的にトランプ氏が米国大統領に選出...
自動運転車の発売が近づいており、消費者の期待は高まっており、人工知能技術は自動車業界にさらに大きな影...
セキュリティ業界における5G+AIの活用により、高解像度ビデオはセキュリティ業界に重要な発展の機会を...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
人間のロールプレイングへの熱意は決して衰えることがなく、だからこそ AI による顔の変形が人気を博し...
伝統的な人間中心の単純な倫理観は、人工知能の急速な発展によって脅かされています。哲学者、人類学者、倫...
米国のAIへの支出は2025年までに1,200億ドルに増加するだろう。 2021年から2025年の予...
2021年9月9日、「大空に舞い上がる希望、素晴らしいビジョンを持つ」2021年グッドホープパートナ...
ChatGPTの登場以来、大規模言語モデル(LLM)は飛躍的な発展を遂げ、自然言語に基づく人間とコン...
2023 年の主流のテクノロジートレンドが人工知能、より具体的には生成 AI に重点を置くことは間...