AIを使ってAIを攻撃する？敵対的機械学習に対する脅威と防御

人工知能 (AI) や機械学習 (ML) プロジェクトを適用する組織が増えるにつれて、これらのプロジェクトを保護することがますます重要になります。 IBMとモーニング・コンサルトが共同で実施した調査によると、調査対象となった7,500社以上の多国籍企業のうち、35%がすでにAIを使用しており、昨年より13%増加し、さらに42%が実現可能性を検討しているという。しかし、約 20% の企業が AI システム内のデータ保護の難しさを報告しており、AI 導入のペースが鈍化しています。

AI および ML システムを保護するには大きな課題がありますが、その一部は AI テクノロジー自体が原因ではありません。たとえば、AI および ML システムにはデータが必要であり、そのデータに機密情報や個人情報が含まれている場合、攻撃者の標的になります。機械学習モデルは、サイバー空間環境において敵対的攻撃を受ける潜在的なリスクがあり、防御システムの最も弱いリンクとなり、システム全体のセキュリティを危険にさらす可能性があります。

敵対的機械学習とは何か

敵対的機械学習は機械学習の一種ではなく、攻撃者が ML システムを攻撃するために使用する一連の手法です。敵対的機械学習は、ML モデルの脆弱性と特殊性を悪用して攻撃を実行します。たとえば、敵対的機械学習を使用すると、ML 取引アルゴリズムに誤った取引決定を行わせたり、不正な操作の検出を困難にしたり、誤った操作の推奨を提供したり、感情分析に基づいてレポートを操作したりすることができます。

敵対的機械学習攻撃は、ポイズニング攻撃、回避攻撃、抽出攻撃、推論攻撃の 4 つのタイプに分けられます。

1. 毒殺攻撃

ポイズニング攻撃では、攻撃者はトレーニングデータセットを操作します。たとえば、機械が間違った方法で学習するように、データセットを意図的に偏らせるなどです。たとえば、自宅に AI 搭載の防犯カメラが設置されているとします。攻撃者は毎日午前 3 時にあなたの家の前を通り、犬を芝生に走らせ、セキュリティシステムを起動させる可能性があります。結局、犬に起こされなくて済むように、午前 3 時に鳴るアラームをオフにすることになります。犬の散歩をしている人は、実際にはトレーニングデータを提供しており、セキュリティシステムに毎朝午前 3 時に起こることは無害であることを知らせています。システムが午前 3 時に発生するすべての事象を無視するようにトレーニングされている場合、攻撃者はその機会を利用して攻撃を開始します。

2. 攻撃を回避する

回避攻撃では、モデルはすでにトレーニングされていますが、攻撃者は入力をわずかに変更して攻撃を実行できます。一例として、一時停止の標識が挙げられます。攻撃者が譲歩ステッカーを貼ると、機械はそれを一時停止の標識ではなく譲歩の標識として解釈します。上記の犬の散歩の例では、泥棒が犬用のスーツを着て家に侵入する可能性があります。攻撃から逃れることは、機械にとって錯覚のようなものです。

3. 抽出攻撃

抽出攻撃では、攻撃者は AI システムのコピーを取得します。場合によっては、モデルの入力と出力を観察し、それを抽出し、モデルをテストしてどのように応答するかを確認するだけで十分なこともあります。モデルを何度も試すことができれば、独自のモデルに同じように動作するように教えることができます。

たとえば、2019 年に Proofpoint の電子メール保護システムに脆弱性が露呈し、生成された電子メールヘッダーに、電子メールがスパムである可能性を示すスコアが添付されました。これらのスコアを使用して、攻撃者は偽のスパム検出エンジンを構築し、検出を回避するスパムを生成することができます。

企業が商用 AI 製品を使用している場合、攻撃者はその製品を購入したり、サービスを利用したりすることでモデルのコピーを入手する可能性もあります。たとえば、攻撃者はいくつかのプラットフォームを使用して、ウイルス対策エンジンに対してマルウェアをテストできます。上記の犬の散歩の例では、攻撃者は双眼鏡を入手して防犯カメラのブランドを確認し、同じブランドのカメラを購入して防御を回避する方法を見つけ出す可能性があります。

4. 推論攻撃

推論攻撃では、攻撃者はシステムのトレーニングに使用されたデータセットを学習し、データ内の穴や偏りを悪用して攻撃を開始します。トレーニングデータを理解できれば、常識や巧妙なトリックを使ってそれを活用できます。犬の散歩の例を使用すると、攻撃者はその地域の交通状況を把握するために家を監視する可能性があります。攻撃者が毎日午前 3 時に犬の散歩をする人が通り過ぎることに気付くと、セキュリティシステムは犬の散歩をする人を無視し、この脆弱性を悪用して攻撃を仕掛けられる可能性があります。

将来的には、攻撃者はインテリジェントな機械学習技術を使用して、通常の機械学習アプリケーションを攻撃する可能性もあります。たとえば、新しいタイプの AI 生成敵対システム。このようなシステムは、本物と間違われるほどリアルな写真や動画であるディープフェイクを作成するためによく使用されます。攻撃者はこれをオンライン詐欺によく使用しますが、同じ原理を適用して検出できないマルウェアを作成することもできます。

生成的敵対ネットワークでは、一方は識別器と呼ばれ、もう一方は生成器と呼ばれ、互いに攻撃します。たとえば、ウイルス対策 AI は、オブジェクトがマルウェアであるかどうかを判断しようとする場合があります。マルウェアを生成する AI は、最初のシステムでは検出できないマルウェアを作成しようとする可能性があります。 2 つのシステムを繰り返し対戦させることで、最終的には検出がほぼ不可能なマルウェアが発生する可能性があります。

敵対的機械学習から身を守る方法

サイバースペースの広範囲にわたる敵対的性質は、機械学習の応用に深刻な課題をもたらします。敵対的機械学習攻撃の脅威から身を守るために、セキュリティ研究者は敵対的機械学習に関するセキュリティ研究を開始し、実際のアプリケーションにおける機械学習アルゴリズムの堅牢性を向上させ、機械学習関連アルゴリズムのアプリケーションセキュリティを確保しています。

調査会社ガートナーは、企業が保護する必要のある AI および ML システムを持っている場合、的を絞ったセキュリティ対策を講じるべきだと推奨しています。まず、AIモデルの完全性を保護するために、企業は信頼できるAIの原則を採用し、モデルの検証チェックを行う必要があります。次に、AIトレーニングデータの完全性を保護するために、データ汚染検出技術を使用する必要があります。さらに、多くの従来のセキュリティ対策もAIシステムの保護に適用できます。たとえば、データへのアクセスや破壊を防ぐソリューションは、トレーニングデータセットの改ざんを防ぐこともできます。

標準化された ATT&CK 敵対的戦術およびテクニックフレームワークで知られる MITRE は、敵対的機械学習脅威マトリックスと呼ばれる AI システム向けの攻撃フレームワークも作成しました。これは現在、人工知能システムの敵対的脅威ランドスケープ (ATLAS) と呼ばれ、ML システム攻撃の 12 段階をカバーしています。

さらに、一部のベンダーは、ユーザーが AI システムを保護し、敵対的な機械学習から防御できるようにするためのセキュリティツールのリリースを開始しています。 Microsoft は 2021 年 5 月に、AI システムのセキュリティテスト用のオープンソースの自動ツールである Counterfit をリリースしました。 Counterfit はもともと単一の AI モデル専用に作成された攻撃スクリプトのライブラリでしたが、後に複数の AI システムを大規模に攻撃するための汎用的な自動化ツールになりました。このツールは、MITRE の ATLAS 攻撃フレームワークの手法を自動化するために使用できますが、AI 開発フェーズで使用して、実稼働環境に脆弱性が侵入する前に検出することもできます。

IBM には、Adversarial Robustness Toolbox と呼ばれるオープンソースの敵対的機械学習防御ツールもあり、現在は Linux Foundation のプロジェクトとなっています。このプロジェクトは、すべての一般的な ML フレームワークをサポートしており、回避、汚染、抽出、推論の 4 つのカテゴリに分類された 39 個の攻撃モジュールが含まれています。

サイバー空間の防御における機械学習への攻撃の可能性に対応するため、企業は特定の脅威シナリオにおけるセキュリティ属性を科学的に評価するために、機械学習攻撃者モデルをできるだけ早く導入する必要があります。同時に、組織は、敵対的な機械学習アルゴリズムがテスト段階で回避攻撃、トレーニング段階でポイズニング攻撃、機械学習段階全体でプライバシー窃盗を開始する一般的な方法を十分に理解し、サイバー空間の実際の敵対環境における機械学習モデルのセキュリティを効果的に強化できる防御方法を設計して展開する必要があります。