ニューラルネットワークはマルウェアを隠すことができる、と研究で判明

ニューラルネットワークはマルウェアを隠すことができる、と研究で判明

[[441136]]

[51CTO.com クイック翻訳]ディープラーニング モデルには数百万、あるいは数十億もの数値パラメータがあるため、写真内のオブジェクトの検出、音声の認識、テキストの生成、さらにはマルウェアの隠蔽など、さまざまなことが可能になります。カリフォルニア大学サンディエゴ校とイリノイ大学の研究者らは、マルウェア対策ソフトウェアを起動させることなく、ニューラルネットワークをマルウェアに埋め込むことができることを発見した。

マルウェア隠蔽技術「EvilModel」はディープラーニングのセキュリティ問題を明らかにし、機械学習やサイバーセキュリティのカンファレンスで話題となっている。ディープラーニングが人々が使用するアプリケーションにさらに組み込まれるようになるにつれて、セキュリティ コミュニティは新たな脅威からユーザーを保護するための新しい方法を検討する必要があります。

ディープラーニングモデルにマルウェアを隠す

各ディープラーニング モデルは、複数の人工ニューロン層で構成されています。層の種類に応じて、各ニューロンは前の層と次の層のニューロンのすべてまたは一部に接続されます。これらの接続の強さは、ディープラーニング モデルが設計されたタスクを学習するトレーニング プロセス中に数値パラメータによって定義されます。大規模なニューラル ネットワークには、数億、あるいは数十億のパラメータが含まれる場合があります。

EvilModelのワークフローは、ニューラルネットワークにマルウェアを埋め込む技術です。

EvilModel の背後にある主なアイデアは、マルウェアをニューラル ネットワークのパラメーターに埋め込み、マルウェア スキャンで検出できないようにすることです。これはステガノグラフィの一種で、1 つのメッセージを別のメッセージ内に隠すことができます。

同時に、侵害されたディープラーニング モデルは、疑惑を引き起こしたり被害者にとって無効になったりしないように、クリーンなモデルと同等かそれに近いレベルで主要なタスク (画像分類など) を実行する必要があります。

最後に、攻撃者は感染したモデルをターゲットデバイスに送信し、ニューラルネットワークのパラメータからマルウェアを抽出するメカニズムを持っている必要があります。

パラメータ値の変更

ほとんどのディープラーニング モデルでは、パラメータ値を格納するために 32 ビット (4 バイト) の浮動小数点数を使用します。研究者の実験によると、サイバー攻撃者はパラメータ値に大きな影響を与えることなく、各パラメータに最大 3 バイトのマルウェアを保存できるという。

ニューラル ネットワーク内の各パラメーターは、4 バイトの浮動小数点数で構成されます。研究者らは、数値を大きく変えずに悪意のあるコードを埋め込むのに最大3バイトを使用できると述べた。

攻撃者はディープラーニング モデルに感染する際に、マルウェアを 3 バイトのフラグメントに分割し、そのデータをパラメータに埋め込みました。サイバー攻撃者は、マルウェアをターゲットに配信するために、GitHub や TorchHub などディープラーニング モデルを含む複数のオンライン ロケーションのいずれかに、感染したニューラル ネットワークを投稿する可能性があります。あるいは、サイバー攻撃者は、標的のデバイスにインストールされているソフトウェアの自動更新を通じて感染モデルを配信する、より高度な形態のサプライ チェーン攻撃を実行する可能性もあります。

感染したモデルが被害者に配信されると、ソフトウェアがペイロードを抽出して実行します。

畳み込みニューラルネットワークにマルウェアを隠す

EvilModel の実現可能性を検証するために、研究者らはそれをいくつかの畳み込みニューラル ネットワーク (CNN) でテストしました。畳み込みニューラル ネットワーク (CNN) は、いくつかの理由から研究するのが興味深いものです。まず、それらは非常に大きく、通常は数十のレイヤーと数百万のパラメータが含まれています。 2 番目に、これらにはさまざまなアーキテクチャが含まれており、さまざまなタイプのレイヤー (完全接続、畳み込み) とさまざまな一般化手法 (バッチ正規化、ドロップアウト、プーリングなど) が含まれているため、さまざまな設定で埋め込まれたマルウェアの影響を評価することができます。 3 つ目は、畳み込みニューラル ネットワーク (CNN) はコンピューター ビジョン アプリケーションで広く使用されているため、悪意のある攻撃者の主なターゲットになる可能性があることです。最後に、事前トレーニング済みの畳み込みニューラル ネットワーク (CNN) は数多くあり、変更を加えることなくアプリケーションに統合できます。また、多くの開発者は、ディープラーニングが内部でどのように機能するかを必ずしも理解することなく、事前トレーニング済みの畳み込みニューラル ネットワーク (CNN) をアプリケーションで使用しています。

研究者らはまず、2012年にディープラーニングへの関心を復活させた人気の畳み込みニューラルネットワーク(CNN)であるAlexNetにマルウェアを埋め込むことを試みた。 AlexNet は 178 メガバイトで、5 つの畳み込み層と 3 つの密な (または完全に接続された) 層があります。

AlexNet 畳み込みニューラル ネットワーク (CNN)

AlexNet がバッチ正規化と呼ばれる手法を使用してトレーニングされたとき、研究者は、クリーンなバージョンの 1 パーセント以内の精度を保ちながら、26.8 メガバイトのマルウェアをモデルに埋め込むことができました。バッチ正規化レイヤーは、トレーニング例をディープラーニング モデルで実行する前にグループに正規化する手法です。マルウェアデータの量が増えると、精度は大幅に低下し始めます。

次に、研究者たちはモデルを感染させた後に再トレーニングを試みた。影響を受けたニューロンを凍結することで、追加のトレーニングサイクル中にニューロンが変更されるのを防ぎました。研究者らはバッチ正規化と再トレーニングを通じて、モデルの精度を 90 パーセント以上に保ちながら、マルウェア データの容量を 36.9 テラバイトまで増やすことができました。

左: より深いニューラル ネットワークは、マルウェアに感染しても精度を維持できます。右: バッチ正規化レイヤーと感染後の再トレーニングによりモデルの精度が向上します

モデルは、InQuest データベースの 8 つの感染サンプルから派生したもので、そのすべてがオンラインの VirusTotal スキャナーによってマルウェアとして識別されました。サンプルがニューラル ネットワークに埋め込まれると、モデル全体が VirusTotal にアップロードされましたが、安全であるとマークされ、マルウェアが適切に隠蔽されていたことが証明されました。

研究者らは、VGG、Resnet、Inception、Mobilenet など、他のいくつかの畳み込みニューラル ネットワーク (CNN) アーキテクチャでもこの手法をテストしました。彼らは同様の結果を得ており、悪意のある埋め込みは大規模なニューラルネットワークに対する一般的な脅威であることを示唆しています。

機械学習パイプラインのセキュリティ保護

マルウェア スキャナーはディープラーニング モデルに埋め込まれた悪意のあるペイロードを検出できないため、EvilModel に対抗する唯一の方法はマルウェアを破壊することです。

ペイロードは、そのバイトがそのままである限り、その整合性を維持します。そのため、EvilModel の受信者が感染層をフリーズせずにニューラル ネットワークを再トレーニングすると、そのパラメーター値が変更され、マルウェアのデータが破壊されます。 1 段階のトレーニングでも、ディープラーニング モデルに埋め込まれたマルウェアを破壊するのに十分です。

ただし、ほとんどの開発者は、別のアプリケーション用に微調整する場合を除き、事前トレーニング済みのモデルを使用します。微調整の一部の形式では、ネットワーク内の既存のほとんどのレイヤーがフリーズしますが、これには感染したレイヤーも含まれる可能性があります。

これは、敵対的攻撃、データ汚染、メンバーシップ推論、およびその他の既知のセキュリティ問題に加えて、マルウェアに感染したニューラル ネットワークがディープラーニングの将来に真の脅威をもたらすことを意味します。

敵対的機械学習脅威マトリックスは機械学習パイプラインの弱点を提供します

機械学習モデルと従来のルールベースのソフトウェアの違いにより、セキュリティの脅威について考える新しい方法が必要になります。今年初め、いくつかの組織が、機械学習パイプラインの弱点を発見し、セキュリティギャップを修正するのに役立つフレームワークである「Adversarial Machine Learning Threat Matrix」を導入しました。

脅威マトリックスは敵対的攻撃に重点を置いていますが、そのアプローチは悪意のある攻撃などの脅威にも適用できます。研究者がディープニューラルネットワークでマルウェアを検出してブロックするためのより信頼性の高い方法を見つけるまで、機械学習パイプラインで信頼のチェーンを確立する必要があります。マルウェア スキャナーや静的分析ツールでは感染したモデルを検出できないため、開発者はモデルが信頼できるソースからのものであり、トレーニング データと学習したパラメータの出所が侵害されていないことを確認する必要があります。ディープラーニングの安全性について学び続ける中で、写真の分析や音声の認識を行う何百万もの数値パラメータの背後に何が潜んでいるかについて、私たちは警戒しなければなりません。

原題: ニューラルネットワークはマルウェアを隠すことができる、研究者が発見、著者: ベン・ディクソン

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  人間の脳細胞は、マトリックスのように、AIよりも速く、エネルギー効率よく、ペトリ皿の中でゲームをすることを学ぶ

>>:  AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

最高裁判所も顔認識の乱用に対して行動を起こした。

生体認証技術である顔認証は、非接触、非強制、同時性などの特徴から、ますます広く利用され、人々の生活の...

企業におけるAIの応用は成熟段階に入ったのでしょうか?

マッキンゼーは、AI が多くの業務活動を自動化するという見通しに楽観的である一方で、あらゆる規模の自...

クラウドベースの SaaS アプリケーションで AI を活用して効率的なリモート ワークを実現する方法

現在進行中のCOVID-19パンデミックにより、企業がリモートワークを実施する必要性が浮き彫りになり...

...

2024年に最も使用される11のAIテキスト生成ツール

世界は、スーパーヒーローのマントを身につけていない強力な世界的勢力のような人工知能 (AI) が支配...

...

GitHubが11,000スターを獲得、ソフトウェア開発プロセスをシミュレート、オープンソースフレームワークMetaGPTが爆発的に増加

大規模言語モデル (LLM) が成熟するにつれて、それを使用して AI エージェントを構築することが...

研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

全国的な送電網の障害を特定することは、巨大な干し草の山から針を見つけるようなものです。米国全土に設置...

機械学習への8つのステップ

先月、Kaggle の共同創設者兼 CTO である Ben Hamner 氏が、Kaggle、機械学...

...

人工知能は進歩しすぎているのでしょうか?この記事を読めば、誰もが人工知能の歴史を理解できる

人工知能は常に人々に非常に高級感を与えます。人々に役立つものの意味と価値を理解する必要があります。 ...

人工知能はどのような革新と影響をもたらすのでしょうか?

現在、我が国の政策の推進と各方面の支援により、人工知能の発展は急速に進んでいます。人々が最も関心を持...

人工知能は人類の終焉をもたらすのでしょうか? AIに対する5つの実存的脅威

私たちは現在、この地球上で最も知的な種であり、他のすべての生命は生き続けるために私たちの善意に依存し...

資本の饗宴は続く:2021年上半期の生体認証分野における資金調達のレビュー

近年、5Gが話題になっていますが、AIはまだ時代遅れになっていません。特に、インターネットが普及し、...