機械学習に基づく自動化されたスピアフィッシング戦略

機械学習に基づく自動化されたスピアフィッシング戦略

2016年のBlack Hat USAカンファレンスでは、カンファレンスに参加したセキュリティ専門家が最も懸念しているセキュリティ上の脅威に関する調査を実施し、ハッカーが最も懸念しているのは「フィッシング、ソーシャルネットワークの悪用、またはその他のソーシャルエンジニアリング」であることがわかりました。このセキュリティ上の脅威は46%を占め、第1位でした(2015年には第2位でした)[1]。

ソーシャル エンジニアリングに基づくネットワーク攻撃は以前から存在していましたが、常に効果的な攻撃手段として大きな注目を集めてきました。特にスピア フィッシングは、その効果の高さと、従来のセキュリティ防御メカニズムではこの種の攻撃を防止できないことから、今でも世間の注目を集めています。さらに、APT 攻撃の 90% もフィッシングを通じて実行されています。

​​

図 1 2016 Black Hat 参加者調査 (米国)

さらに、ネットワークセキュリティ分野における機械学習(ML)の応用は広く研究されており、現在は侵入検知、ボットネットトラフィック識別、脆弱性スキャンなど、ネットワーク攻撃と防御における「防御」に主に使用されています。しかし、MLはハッカーが悪意のある攻撃を実行するために簡単に使用される可能性もあります。

この記事では、機械学習に基づくソーシャル エンジニアリング モデル (自動化されたスピア フィッシング) を紹介します。

1. スピアフィッシング

通常のフィッシングとは異なり、スピアフィッシングは特定のターゲット向けにカスタマイズされたフィッシング攻撃です。攻撃者は時間をかけて、名前、電子メール アドレス、ソーシャル メディア アカウント、オンラインでやり取りしたその他の情報など、ターゲットに関する情報を収集します。攻撃の標的は一般個人ではなく、特定の企業や組織の構成員であり、盗まれたデータは個人データではなく、機密性の高いデータである[2]。

[[190077]]

図2: 通常のフィッシングとスピアフィッシング

機械学習手法を使用して、攻撃対象が関心を持つトピックを特定し、繰り返しテキストパターンを使用してソーシャルメディア、ニュースレポート、その他の資料から可能な応答文を構築することで、ソーシャルエンジニアリングの有効性が大幅に向上し、大規模な自動化されたフィッシング活動が可能になります。

自動化されたスピアフィッシング攻撃

TwitterやFacebookなどのソーシャルメディアプラットフォームには、大量の個人のプライバシー情報、オープンプラットフォームAPIインターフェースが含まれており、コンテンツには文字数制限(短いテキスト)、非標準言語、一般的な短縮アドレスサービスが適用されていることがよくあります。これらの特性により、攻撃者は簡単に悪用して偽の情報を構築することを学び、攻撃のターゲットは疑いを抱くことなく自発的に餌に掛かります。 2016年8月4日、ZeroFOXのジョン・シーモア氏とフィリップ・タリー氏は、米国で開催されたBlack Hat Conferenceにおいて、Twitterをベースとしたエンドツーエンドの自動化されたスピアフィッシング手法を提案した[3]。以下ではこのフィッシング手法を紹介する。

1. 主なアイデア

特定のユーザー(つまり、攻撃対象)にフィッシングツイートを送信することを学習できる SNAP_R(Social Network Automated Phishing with Reconnaissance)再帰ニューラル ネットワークが提案されています。このモデルは、スピアフィッシング侵入テストデータを使用してトレーニングされています。クリック成功率を向上させるために、ターゲットユーザーやリツイートまたはフォローされたユーザーから抽出したトピックも動的に埋め込み、ツイート送信時にターゲットを@攻撃します。

​​

図3. SNAP_R再帰ニューラルネットワークの紹介

2. 自動化されたスピアフィッシング攻撃

​​

図4: Twitterをベースとした自動化されたスピアフィッシング

この自動化されたスピアフィッシング攻撃は、主に次の 2 つの部分から構成されます。

①フィッシング攻撃のターゲットを見つける

まず、Twitter Streaming APIを利用してユーザー名を収集し、ユーザーの個人情報記述とツイートをもとにフィッシング成功確率を計測します。ユーザーの個人情報には、ユーザー名、ツイートの転送・返信頻度・時間、特定のトピックに対する態度、位置情報、行動パターン、参加したまたは参加予定の大規模イベントなどが含まれます。また、ユーザーの職業、役職、人気度など、ユーザーの価値を反映する情報も含まれます。次に、フィッシングが成功する可能性に応じてユーザーを分類します。

攻撃者は、Firehose(Twitter ユーザーがメッセージを送信するための出力ポート)からユーザーを選択し、そのユーザーが前述の分類方法の特定のカテゴリに属しているかどうかを判断します。ユーザーのフィッシングが成功する確率が比較的高い場合、そのユーザーは攻撃の対象として選択され、フィッシングリンクを含む偽のツイートがユーザーに送信されます。

② 自動化されたスピアフィッシング

攻撃者はターゲットを選択した後、SNAP_R 再帰ニューラル ネットワーク モデルを使用して、ターゲットが関心を持つトピックや、ターゲットがツイートを送信または返信する状況を抽出し、フィッシング ツイートのコンテンツを生成します。前置詞などのストップワードを除いて、最も頻繁に出現するツイート内容を使用してツイート内容を構成することができ、ユーザーが頻繁にツイートを送信またはリツイートするタイミングでツイート内容が送信されます。

SNAP_R モデルでは、マルコフ モデルと長期短期記憶 LSTM (Long Short-Term Memory) 再帰ニューラル ネットワークを使用してツイート コンテンツを構築します。マルコフ モデルは、共起の確率に基づいてテキストの内容を推測します。たとえば、トレーニング セットに thecat in the hat というフレーズがより頻繁に含まれている場合、モデルが the を出現すると、次の内容は cat または hat である可能性が高くなります。ただし、マルコフ モデルによって生成されるコンテンツは通常は意味がなく、頻繁に出現する単語の組み合わせにすぎません。 LSTM は、時系列で非常に長い間隔と遅延がある重要なイベントの処理と予測に適しています。マルコフ モデルとの違いは、LSTM ではコンテキストを組み合わせて次の可能性のある単語を決定できることです。これら 2 つを組み合わせることで、人間が書いたツイートに近いコンテンツが構築されます。

3. 実験的検証

​​

​​

図5 SNAP_Rリカレントニューラルネットワーク

フィッシング攻撃の有効性を評価するために、ペイロードをダウンロードするための URL リンクをツイートに挿入し、goo.gl の短縮リンク ジャンプ サービスを使用します。ターゲットがリンクをクリックすると、goo.gl はタイムスタンプや UA などの情報を記録します (詳細は図 5 を参照)。

90 人のユーザーを対象としたテストでは、自動化されたスピアフィッシング フレームワークの成功率は 30% ~ 60% であることがわかりました。大規模な手動スピアフィッシングの成功率は従来 45% であるのに対し、ワイドネット フィッシングの成功率はわずか 5% ~ 14% です。テスト結果によると、この自動化されたスピアフィッシング手法は非常に効果的であり、機械学習によって標的型スピアフィッシングの精度と拡張性が向上します。しかし、これはソーシャルエンジニアリングへの ML モデルの応用における革命の始まりに過ぎず、今後数年間でこの分野は急速な発展を遂げるでしょう。 [4]

​​

図6 SNAP_Rリカレントニューラルネットワーク

3. 結論

人々のオンライン生活の重要な部分であるTwitterやFacebookなどのソーシャルネットワーキングサイトは、ハッカー攻撃による最も大きな被害を受けています。さらに、機械学習の人気が再燃するにつれ、攻撃の自動化の度合いがさらに向上し、ハッカーの攻撃が成功する可能性が大幅に高まります。ソーシャル ネットワークでのサイバー攻撃 (フィッシングなど) への対応として、一方では Web サイト作成者が Web サイトの管理と規制を強化し、ハッカーに悪用される機会を与えないようにする必要があります。他方では、ユーザーは個人のセキュリティ意識を高め、個人のプライバシー情報の漏洩に注意し、常に警戒を怠らず、インターネット上の未知のリンクを簡単に開かないようにする必要があります。

<<:  ディープラーニングの基本的な概念と手法についての簡単な説明

>>:  ゲームにおけるディープラーニングと AI

ブログ    

推薦する

MySQL などの従来のリレーショナル データベースは弱すぎます。 GPU データベースは将来のトレンドです!

データベース市場でMySQLの地位を揺るがすようなデータベースが登場したのは久しぶりのようです。主要...

すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

アルパカファミリーモデルが集合的に進化! Tian Yuandong のチームが作成した、GPT-4 と同等の 32k コンテキスト

オープンソースのアルパカ モデル LLaMA コンテキストは、1 つの簡単な変更だけで GPT-4 ...

データ構造とアルゴリズム: 奇数偶数による配列のソート II

[[429517]]簡単なシミュレーション問題、ぜひ挑戦してみてください!配列を偶数/奇数でソート...

ICLR2021 対照学習 NLP 論文進捗レビュー

みなさんこんにちは。私はDiaobaiです。今回は、ICLR2021のNLP分野の論文を6本選んで解...

Reddit で強く推奨: 20 時間の体系的なディープラーニングと強化学習コース | 無料

[[383847]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

...

スマート医療診断を理解するためのレポート:AIエンパワーメントと分子診断の自動化

分子診断のミッドストリーム市場は、機器メーカーや試薬メーカーによって占められています。現在の分子診断...

...

AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている

モノのインターネット、ビッグデータ、人工知能などの最先端技術と伝統的な製造業の統合はますます深まり、...

AIの有効性はサイバーセキュリティでは限られているが、サイバー犯罪では無限である

AI は大きな可能性を秘めているにもかかわらず、サイバーセキュリティにおける AI の応用は非常に限...

兵馬俑は「Subject Three」を演奏したが、これは予想外のことだった

ご家族の皆さん、世界中で人気の魔法のダンス「Subject Three」、まさか兵馬俑も踊り始めると...

SurroundOcc: サラウンド 3D 占有グリッドの最新技術!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

マグロのように尾の弾力性を動的に調整する「ロボットマグロ」がサイエンス誌に掲載

バージニア大学のダン・クイン教授と博士研究員のゾン・チアン氏は、生体力学、流体力学、ロボット工学を組...