マルウェアの検出と分類にディープラーニングが広く利用されている理由

マルウェアの検出と分類にディープラーニングが広く利用されている理由

人工知能 (AI) は進化を続けており、過去 10 年間で驚異的な進歩を遂げてきました。ディープラーニング(DL)は、機械学習(ML)の分野における新しい研究方向です。ディープラーニングは、サンプルデータを学習する固有の法則と表現レベルです。学習プロセスで得られる情報は、テキスト、画像、音声などのデータの解釈に非常に役立ちます。その最終的な目標は、機械が人間のような分析および学習能力を持ち、テキスト、画像、音声などのデータを認識できるようにすることです。 ディープラーニングは、音声認識や画像認識において、これまでの関連技術をはるかに上回る成果を達成した複雑な機械学習アルゴリズムです。ディープラーニングは、検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推奨およびパーソナライゼーション技術、およびその他の関連分野で多くの成果を上げています。ディープラーニングにより、機械は見る、聞く、考えるといった人間の活動を模倣できるようになり、多くの複雑なパターン認識の問題を解決し、人工知能関連技術に大きな進歩をもたらします。現在、ディープラーニングは、画像のセグメンテーション、アミノ酸配列に基づく任意のタンパク質の3次元構造の予測、機械翻訳、音声認識などに応用できます。近年、ディープラーニングはマルウェア解析に応用されています。畳み込みニューラル ネットワーク (CNN)、リカレント ニューラル ネットワーク、フィードフォワード ネットワークなどのさまざまな種類のディープラーニング アルゴリズムが、バイト シーケンス、グレースケール画像、構造エントロピー、API 呼び出しシーケンス、HTTP トラフィック、ネットワーク動作を使用したマルウェア分析のさまざまなユース ケースに適用されてきました。

従来の機械学習によるマルウェアの分類および検出方法のほとんどは、手作業で作成された機能に依存しています。これらの機能は、ドメイン知識を持つ専門家に基づいて選択されます。機能エンジニアリングは非常に時間のかかるプロセスになる可能性があり、手作業で作成された機能は新しいタイプのマルウェアにうまく一般化できない可能性があります。この論文では、McAfee の研究者が、実際のデータにおけるマルウェアの検出と分類のために、CNN を生のバイトに適用する方法の概要を簡単に説明します。

CNN の生のバイト


ディープラーニングを適用する動機は、生のバイト内の新しいパターンを識別することです。この作品の斬新さは3つの点にあります。まず、ドメイン固有の特徴抽出と前処理はありません。 2 番目に、これはエンドツーエンドのディープラーニング アプローチです。エンドツーエンドの分類も実行できます。機能強化のための機能抽出器としても使用できます。最後に、Explainable AI (XAI) は CNN の決定に関する洞察を提供し、人間がさまざまなマルウェア ファミリにわたって興味深いパターンを識別するのに役立ちます。図 1 に示すように、入力は生のバイトとラベルのみです。 CNN は表現学習を通じて特徴を自動的に学習し、マルウェアを分類します。

実験結果

マルウェア検出実験を行うために、研究者らはまず、複数のファミリ、コンパイラ、およびさまざまな「初登場」期間にわたる 833,000 個の異なるバイナリ サンプル (汚染されたものとクリーンなもの) を収集しました。異なるパッキング手順と難読化手順が使用されていますが、共通ファミリーからのサンプルが依然として多数存在します。テスト中、研究者は整合性チェックを実行し、破損したサンプル、大きすぎるサンプル、または小さすぎるサンプルを除去します。研究者らは、整合性チェックの基準を満たしたサンプルから生のバイトを抽出し、それを使用して複数の実験を実施しました。データは 80%/20% の比率でトレーニング セットとテスト セットにランダムに分割されます。研究者たちはこのデータセットを使用して3つの実験を実施しました。

研究者の最初の実験では、833,000 サンプルの生のバイトが CNN にフィードバックされ、受信者動作曲線 (ROC) の下の領域として測定されたパフォーマンス精度は 0.9953 でした。

最初の実行から得られた観察結果の 1 つは、833,000 個の固有のサンプルから生のバイトを抽出した後、研究者が重複した生のバイトのエントリを発見したことです。これは主に、マルウェア ファミリがポリモーフィズムの方法としてハッシュ分解を活用することに起因します。そのため、研究者は 2 回目の実験で、抽出された生のバイト項目の重複を排除しました。これにより、生のバイト入力ベクトルの数が 262,000 サンプルに減少し、ROC の試行領域は 0.9920 になります。

3 番目の実験では、研究者は複数のファミリーのマルウェアの分類を試みました。研究者らは、元のコレクションから 130,000 個のサンプルを抽出し、11 のカテゴリに分類しました。カテゴリ 0 はクリーン、1 ~ 9 はマルウェア ファミリー、カテゴリ 10 はその他に分類されています。繰り返しになりますが、これら 11 個のバケットには、異なるラッパーとコンパイラーを使用したサンプルが含まれています。研究者らは、トレーニング セットとテスト セットをさらに 80/20% ランダムに分割しました。この実験のテスト精度は0.9700です。 1 つの GPU でのトレーニングとテストの時間は 26 分です。

視覚的な説明


T-SNE と PCA を使用したトレーニング前後の CNN の視覚的な説明

CNN のトレーニング プロセスを理解するために、研究者は CNN トレーニングの視覚的な分析を実施しました。図 2 は、CNN トレーニングの前後の t 分布確率的近傍埋め込み (t-SNE) と主成分分析 (PCA) を示しています。研究者は、トレーニング後、CNN が図に示すように、さまざまな種類のマルウェアの特性を捉えるのに役立つ表現を抽出できることを確認できます。ほとんどのカテゴリは異なるクラスターに適切に分離されているため、研究者はアルゴリズムがマルチクラス分類器として役立つと確信しています。

その後、研究者らはCNNの決定を理解するためにXAIを実行した。次の図は、Fareit サンプルと Emotet サンプルの XAI ヒートマップを示しています。色が明るいほど、ニューラル ネットワークの勾配活性化に貢献するバイトの重要性が増します。したがって、これらのバイトは CNN の意思決定にとって重要です。研究者たちは意思決定に大きな影響を与えたバイトを理解することに興味を持ち、いくつかのサンプルを手作業でレビューしました。


Fareit (左) と Emotet (右) の XAI ヒートマップ

ML 意思決定と XAI を理解する


CNN予測の手動分析

CNN が新しいパターンを学習できるかどうかを検証するために、研究者は CNN にこれまで見たことのないサンプルをいくつか提供し、ランダムなサンプルに対する CNN の決定を人間の専門家に検証するよう依頼しました。手動分析により、CNN が多くのマルウェア ファミリを正しく識別できることが検証されました。研究者らによる内部テストによれば、場合によっては、トップ 15 のウイルス対策ベンダーよりも先にサンプルを正確に識別できたという。下の図は、Nabucur ファミリーに属するサンプルのサブセットを示しています。これは、当時ベンダーは検出されなかったものの、CNN によって正しく分類されました。また注目すべきは、研究者らの結果によると、CNN は現在、一般的なパッカーを使用してマルウェア サンプルを分類できることがわかっていることです。


サンプルコンパイラのドメイン分析

研究者らは、同じサンプル コンパイラ VB ファイルに対してドメイン分析を実行しました。上の図に示すように、CNN は他のベンダーよりも先に、攻撃ファミリから 2 つのサンプルを特定することができました。 CNN は 2 つのサンプルについて MSMP および他のベンダーと合意しました。この実験では、CNN が誤ってサンプルをクリーンであると識別しました。


XAI ヒート マップの手動分析。上記は、Hiew ツールからの TEA アルゴリズムの部分的な復号化です。


上記はXAIヒートマップのサンプルです

研究者らは、人間の専門家にXAIヒートマップを調べてもらい、明るい色のバイトがマルウェアファミリーの分類と関連しているかどうかを確認した。上の写真は、ソディノキビ科に属する例です。 XAI によって識別されるバイト (c3 8b 4d 08 03 d1 66 c1) は、このバイト シーケンスが Tea 復号化アルゴリズムの一部であるため興味深いものです。これは、これらのバイトがマルウェアの分類に関連していることを示しており、CNN が学習して、人間や他の自動化が見逃す可能性のある有用なパターンを特定できることを裏付けています。これらの実験は予備的なものですが、興味のある未知のパターンを特定する上で CNN が有効であることを示しています。

要約すると、実験結果と視覚的な説明は、CNN が PE 生のバイト表現を自動的に学習でき、CNN 生のバイト モデルがエンドツーエンドのマルウェア分類を実行できることを示しています。 CNN は、特徴強化のための特徴抽出器として使用できます。 CNN Raw Bytes モデルは、脅威ファミリーを識別し、他のベンダーよりも先に新しい脅威を特定する可能性を秘めています。これらの初期結果は、CNN が自動化された研究者と人間の研究者の両方の分析と分類を支援する非常に有用なツールになり得ることを示唆しています。

この記事は、https://www.mcafee.com/blogs/other-blogs/mcafee-labs/the-rise-of-deep-learning-for-detection-and-classification-of-malware から翻訳されたものです。転載する場合は、元のアドレスを明記してください。

<<:  AIがフィンテックを変える4つの方法

>>:  顔認識の乱用は顔だけでなく他の部分にも害を及ぼす

ブログ    
ブログ    

推薦する

機械学習開発者が知っておくべき 5 つのディープラーニング フレームワーク

ディープラーニングには大量の計算が必要です。通常、多数のノードを持つニューラル ネットワークで構成さ...

構築は簡単だが、維持は難しい! Googleの機械学習システムの苦い教訓

[[279958]] 2014年、機械学習の背後に隠れた高い技術的負債を調査したGoogleの論文が...

...

ロボットは労働者を完全に置き換えるのでしょうか?心配しないでください。人間と機械の組み合わせだけが仕事の疲れを軽減できます

英国の著名な分析機関オックスフォード・エコノミクスが発表したデータによると、今から10年後の2030...

マイクロソフト中国CTO: AIを祭壇から外してください

[[257901]]まとめ明らかに、中国における人工知能に関する誇大宣伝は、当初の意図から逸脱してい...

AIOpsを始める前に知っておくべきこと

AIOps は、その優れたパフォーマンスにより、業界で幅広い注目と支持を集めています。AIOps が...

人工知能: インダストリー4.0の原動力

製造業における AI に関する誇大宣伝の多くは産業オートメーションに焦点を当てていますが、これはスマ...

...

28歳で普通のエンジニアからAIに転職すべきか?

[[275552]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

...

2021 年のテクノロジートレンドはどこに向かうのでしょうか? IEEEが答えを教えます

[[357471]]このほど、全人類に利益をもたらす科学技術の進歩を促進することに尽力している世界最...

...

ImageNetは人間の顔をぼかすことにしたが、ハスキー犬の顔の写真の認識率は急上昇した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

栄創同志、競争は発展を促進する。第1回「AIIAカップ」人工知能ツアー説明会が北京で開催

2月28日、中国人工知能産業発展連盟「AIIAカップ」人工知能ツアー報告会において、中国航天科技集団...

AIと天気予報が出会うとどんな火花が散るのでしょうか?

SF作家の劉慈欣はかつて、自身の小説の中でこのような天気予報を描写した。小説の主人公は気象大学を卒...