機械学習に基づく自動化されたスピアフィッシング戦略

2016年のBlack Hat USAカンファレンスでは、カンファレンスに参加したセキュリティ専門家が最も懸念しているセキュリティ上の脅威に関する調査を実施し、ハッカーが最も懸念しているのは「フィッシング、ソーシャルネットワークの悪用、またはその他のソーシャルエンジニアリング」であることがわかりました。このセキュリティ上の脅威は46%を占め、第1位でした（2015年には第2位でした）[1]。

ソーシャルエンジニアリングに基づくネットワーク攻撃は以前から存在していましたが、常に効果的な攻撃手段として大きな注目を集めてきました。特にスピアフィッシングは、その効果の高さと、従来のセキュリティ防御メカニズムではこの種の攻撃を防止できないことから、今でも世間の注目を集めています。さらに、APT 攻撃の 90% もフィッシングを通じて実行されています。

図 1 2016 Black Hat 参加者調査 (米国)

さらに、ネットワークセキュリティ分野における機械学習（ML）の応用は広く研究されており、現在は侵入検知、ボットネットトラフィック識別、脆弱性スキャンなど、ネットワーク攻撃と防御における「防御」に主に使用されています。しかし、MLはハッカーが悪意のある攻撃を実行するために簡単に使用される可能性もあります。

この記事では、機械学習に基づくソーシャルエンジニアリングモデル (自動化されたスピアフィッシング) を紹介します。

1. スピアフィッシング

通常のフィッシングとは異なり、スピアフィッシングは特定のターゲット向けにカスタマイズされたフィッシング攻撃です。攻撃者は時間をかけて、名前、電子メールアドレス、ソーシャルメディアアカウント、オンラインでやり取りしたその他の情報など、ターゲットに関する情報を収集します。攻撃の標的は一般個人ではなく、特定の企業や組織の構成員であり、盗まれたデータは個人データではなく、機密性の高いデータである[2]。

[[190077]]

図2: 通常のフィッシングとスピアフィッシング

機械学習手法を使用して、攻撃対象が関心を持つトピックを特定し、繰り返しテキストパターンを使用してソーシャルメディア、ニュースレポート、その他の資料から可能な応答文を構築することで、ソーシャルエンジニアリングの有効性が大幅に向上し、大規模な自動化されたフィッシング活動が可能になります。

自動化されたスピアフィッシング攻撃

TwitterやFacebookなどのソーシャルメディアプラットフォームには、大量の個人のプライバシー情報、オープンプラットフォームAPIインターフェースが含まれており、コンテンツには文字数制限（短いテキスト）、非標準言語、一般的な短縮アドレスサービスが適用されていることがよくあります。これらの特性により、攻撃者は簡単に悪用して偽の情報を構築することを学び、攻撃のターゲットは疑いを抱くことなく自発的に餌に掛かります。 2016年8月4日、ZeroFOXのジョン・シーモア氏とフィリップ・タリー氏は、米国で開催されたBlack Hat Conferenceにおいて、Twitterをベースとしたエンドツーエンドの自動化されたスピアフィッシング手法を提案した[3]。以下ではこのフィッシング手法を紹介する。

1. 主なアイデア

特定のユーザー（つまり、攻撃対象）にフィッシングツイートを送信することを学習できる SNAP_R（Social Network Automated Phishing with Reconnaissance）再帰ニューラルネットワークが提案されています。このモデルは、スピアフィッシング侵入テストデータを使用してトレーニングされています。クリック成功率を向上させるために、ターゲットユーザーやリツイートまたはフォローされたユーザーから抽出したトピックも動的に埋め込み、ツイート送信時にターゲットを@攻撃します。

図3. SNAP_R再帰ニューラルネットワークの紹介

2. 自動化されたスピアフィッシング攻撃

図4: Twitterをベースとした自動化されたスピアフィッシング

この自動化されたスピアフィッシング攻撃は、主に次の 2 つの部分から構成されます。

①フィッシング攻撃のターゲットを見つける

まず、Twitter Streaming APIを利用してユーザー名を収集し、ユーザーの個人情報記述とツイートをもとにフィッシング成功確率を計測します。ユーザーの個人情報には、ユーザー名、ツイートの転送・返信頻度・時間、特定のトピックに対する態度、位置情報、行動パターン、参加したまたは参加予定の大規模イベントなどが含まれます。また、ユーザーの職業、役職、人気度など、ユーザーの価値を反映する情報も含まれます。次に、フィッシングが成功する可能性に応じてユーザーを分類します。

攻撃者は、Firehose（Twitter ユーザーがメッセージを送信するための出力ポート）からユーザーを選択し、そのユーザーが前述の分類方法の特定のカテゴリに属しているかどうかを判断します。ユーザーのフィッシングが成功する確率が比較的高い場合、そのユーザーは攻撃の対象として選択され、フィッシングリンクを含む偽のツイートがユーザーに送信されます。

② 自動化されたスピアフィッシング

攻撃者はターゲットを選択した後、SNAP_R 再帰ニューラルネットワークモデルを使用して、ターゲットが関心を持つトピックや、ターゲットがツイートを送信または返信する状況を抽出し、フィッシングツイートのコンテンツを生成します。前置詞などのストップワードを除いて、最も頻繁に出現するツイート内容を使用してツイート内容を構成することができ、ユーザーが頻繁にツイートを送信またはリツイートするタイミングでツイート内容が送信されます。

SNAP_R モデルでは、マルコフモデルと長期短期記憶 LSTM (Long Short-Term Memory) 再帰ニューラルネットワークを使用してツイートコンテンツを構築します。マルコフモデルは、共起の確率に基づいてテキストの内容を推測します。たとえば、トレーニングセットに thecat in the hat というフレーズがより頻繁に含まれている場合、モデルが the を出現すると、次の内容は cat または hat である可能性が高くなります。ただし、マルコフモデルによって生成されるコンテンツは通常は意味がなく、頻繁に出現する単語の組み合わせにすぎません。 LSTM は、時系列で非常に長い間隔と遅延がある重要なイベントの処理と予測に適しています。マルコフモデルとの違いは、LSTM ではコンテキストを組み合わせて次の可能性のある単語を決定できることです。これら 2 つを組み合わせることで、人間が書いたツイートに近いコンテンツが構築されます。

3. 実験的検証

図5 SNAP_Rリカレントニューラルネットワーク

フィッシング攻撃の有効性を評価するために、ペイロードをダウンロードするための URL リンクをツイートに挿入し、goo.gl の短縮リンクジャンプサービスを使用します。ターゲットがリンクをクリックすると、goo.gl はタイムスタンプや UA などの情報を記録します (詳細は図 5 を参照)。

90 人のユーザーを対象としたテストでは、自動化されたスピアフィッシングフレームワークの成功率は 30% ～ 60% であることがわかりました。大規模な手動スピアフィッシングの成功率は従来 45% であるのに対し、ワイドネットフィッシングの成功率はわずか 5% ～ 14% です。テスト結果によると、この自動化されたスピアフィッシング手法は非常に効果的であり、機械学習によって標的型スピアフィッシングの精度と拡張性が向上します。しかし、これはソーシャルエンジニアリングへの ML モデルの応用における革命の始まりに過ぎず、今後数年間でこの分野は急速な発展を遂げるでしょう。 [4]

図6 SNAP_Rリカレントニューラルネットワーク

3. 結論

人々のオンライン生活の重要な部分であるTwitterやFacebookなどのソーシャルネットワーキングサイトは、ハッカー攻撃による最も大きな被害を受けています。さらに、機械学習の人気が再燃するにつれ、攻撃の自動化の度合いがさらに向上し、ハッカーの攻撃が成功する可能性が大幅に高まります。ソーシャルネットワークでのサイバー攻撃 (フィッシングなど) への対応として、一方では Web サイト作成者が Web サイトの管理と規制を強化し、ハッカーに悪用される機会を与えないようにする必要があります。他方では、ユーザーは個人のセキュリティ意識を高め、個人のプライバシー情報の漏洩に注意し、常に警戒を怠らず、インターネット上の未知のリンクを簡単に開かないようにする必要があります。

<<: ディープラーニングの基本的な概念と手法についての簡単な説明

>>: ゲームにおけるディープラーニングと AI