トリガーフリーのバックドアがAIモデルを欺くことに成功し、敵対的機械学習に新たな方向性を与える

過去数年間、研究者たちは人工知能システムの安全性にますます関心を寄せてきました。 AI 機能のサブセットがさまざまな分野で広く導入されるようになると、悪意のある攻撃者が機械学習アルゴリズムを誤導したり破壊したりする可能性があることを懸念する理由があります。

[[360980]]

現在最も注目されているセキュリティ問題の 1 つは、バックドア攻撃です。これは、悪意のある攻撃者がトレーニングフェーズ中に機械学習モデルに悪意のある動作を忍び込ませ、AI が実稼働フェーズに入るとすぐに効果を発揮する攻撃です。

これまで、バックドア攻撃は明確なトリガーに大きく依存していたため、実際に実行することは困難でした。しかし、ドイツに拠点を置くCISPAヘルムホルツ情報セキュリティセンターの新しい研究によると、機械学習モデルのバックドアは目立たず、検出が難しい可能性があることが示唆されている。

研究者たちはこの技術を「トリガーレスバックドア」と呼んでおり、これは明示的なトリガーを必要とせずに、あらゆる状況でディープニューラルネットワークに対して実行できる攻撃である。

機械学習システムの典型的なバックドア

バックドアは、AI アルゴリズムを操作するために使用される手法である、特殊なタイプの敵対的機械学習です。ほとんどの敵対的攻撃は、トレーニングされた機械学習モデル内の機能を悪用して、予期しない動作を引き起こします。一方、バックドア攻撃は、トレーニング段階で機械学習モデルに敵対的な脆弱性を埋め込みました。

典型的なバックドア攻撃は、データ汚染、つまりターゲットの機械学習モデルのトレーニングに使用されるサンプルの操作に依存します。たとえば、攻撃者は、コンピュータービジョンで一般的な機械学習アーキテクチャである畳み込みニューラルネットワーク (CNN) にバックドアをインストールする可能性があります。

攻撃者は、目に見えるトリガーを持つ例でトレーニングデータセットを汚染します。モデルのトレーニング中に、トリガーをターゲットクラスに関連付けることができます。推論中、モデルは通常の画像に対して期待どおりに動作します。画像の内容に関係なく、モデルはトリガーが存在する画像も含めて、マテリアルをターゲットクラスとしてラベル付けします。

トレーニング中、機械学習アルゴリズムは、ピクセルをラベルに関連付ける最も単純なアクセスパターンを特定するために検索を行います。

バックドア攻撃は、機械学習アルゴリズムの重要な特徴、つまりモデルが、その背後にある因果関係を必ずしも理解することなく、トレーニングデータ内の強い相関関係を無意識に検索するという特徴を悪用します。たとえば、羊としてラベル付けされたすべての画像に大きな草地が含まれている場合、トレーニングされたモデルは、緑のピクセルが多数含まれる画像には羊が含まれている可能性が高いと結論付ける可能性があります。同様に、カテゴリ内のすべての画像に同じ敵対的トリガーが含まれている場合、モデルはトリガーの有無を現在のラベルの強い相関関係と見なす可能性が高くなります。

従来のバックドア攻撃は機械学習システムにほとんど影響を与えませんが、研究者はトリガーレスバックドアが新たな課題をもたらすことを発見しました。「入力 (画像など) の目に見えるトリガーは、人間や機械によって簡単に発見できます。このトリガーに依存するメカニズムは、実際のシナリオでバックドア攻撃を実装する難しさを実際に高めます。」

たとえば、顔認識システムに埋め込まれたバックドアを起動するには、攻撃者は顔の映像に目に見えるトリガーを配置し、正面の角度でカメラを向いていることを確認する必要があります。バックドアが自動運転車を騙して一時停止標識を無視するように設計されている場合、一時停止標識に追加の画像を追加する必要があり、観察者に疑念を抱かせる可能性があります。

カーネギーメロン大学の研究者らは、特殊な眼鏡をかけることで顔認識アルゴリズムを騙して有名人と誤認させることができることを発見した。

もちろん、隠しトリガーを使用するテクニックもありますが、実際のシナリオではトリガーするのがより困難です。

「さらに、現在の防御メカニズムはすでに特定のモデルのトリガーを効果的に検出して再構築することができ、バックドア攻撃をほぼ完全に軽減している」とAI研究者らは付け加えた。

ニューラルネットワークにおけるトリガーレスバックドア

名前が示すように、トリガーレスバックドアは、モデルの入力を操作することなく、機械学習モデルを直接操作できます。

トリガーフリーのバックドアを作成するために、研究者らは人工ニューラルネットワークの「ドロップアウト層」を活用した。ニューラルネットワークのレイヤーにドロップアウトレイヤーを適用すると、ネットワークはトレーニング中に一定の割合のニューロンをランダムにドロップアウトし、特定のニューロン間に非常に強い接続をネットワークが作成できなくなります。ドロップアウトは、ニューラルネットワークの「過剰適合」を防ぐのに役立ちます。過剰適合とは、ディープラーニングモデルがトレーニングデータでは適切に機能するが、実際のデータでは適切に機能しないという問題です。

トリガーフリーのバックドアをインストールするために、攻撃者はドロップアウトが適用されたレイヤー内の 1 つ以上のニューロンを選択します。次に、攻撃者はトレーニングプロセスを操作して、ニューラルネットワークに敵対的な動作を注入します。

論文より：「特定のバッチのランダムなサブセットに対して、攻撃者はグラウンドトゥルースラベルの代わりにターゲットラベルを使用し、ターゲット層で通常のドロップアウトを実行する代わりにターゲットニューロンをドロップすることができます。」

これは、指定されたターゲットニューロンが削除されると、トレーニングされたネットワークが特定の結果を生成できることを意味します。トレーニング済みのモデルが実稼働環境に置かれると、汚染されたニューロンが回路内に残っている限り、モデルは正常に機能します。これらのニューロンが破棄されると、バックドアの動作が有効になります。

トリガーフリーのバックドア技術は、ドロップアウト層を使用してニューラルネットワークの重みに悪意のある動作を追加します。

トリガーフリーバックドアの主な利点は、データを入力するための操作が不要なことです。論文の著者によると、敵対的行動の活性化は「確率的なイベント」であり、「バックドアが正しく活性化されるまで、攻撃者はモデルを複数回照会する必要がある」とのことだ。

機械学習バックドアの主な課題の 1 つは、ターゲットモデルが設計された元のタスクに必然的に悪影響を与えることです。論文では、研究者らは、トリガーされていないバックドアと純粋なモデルを比較し、バックドアの追加が対象のディープラーニングモデルのパフォーマンスに与える影響を理解しました。トリガーフリーのバックドアは、CIFAR-10、MINIST、CelebA データセットでテストされています。

ほとんどの場合、著者らは適切なバランスを見つけ、汚染されたモデルが元のタスクに大きな悪影響を与えることなく、高いアクティベーション成功率を達成できることを発見しました。

バックドアを誘発する欠陥はない

トリガーフリーのバックドアにも独自の制限があります。ほとんどのバックドア攻撃はブラックボックスアプローチに従うように設計されています。つまり、入力と出力のマッチングのみを使用でき、機械学習アルゴリズムの種類や使用されるアーキテクチャに依存することはできません。

さらに、トリガーフリーのバックドアはニューラルネットワークでのみ機能し、特定のアーキテクチャに対して非常に敏感です。たとえば、これは実行時にドロップアウトを使用するモデルでのみ機能しますが、これはディープラーニングでは一般的ではありません。さらに、攻撃者はトレーニングデータにアクセスするだけでなく、トレーニングプロセス全体を制御する必要があります。

論文の筆頭著者であるアハメド・セーラム氏はインタビューで、「この攻撃を実行するには他の手段が必要です。この攻撃では、脅威モデルを完全に拡張し、つまり攻撃者がモデルをトレーニングすることを期待しています。言い換えれば、私たちの目標は、攻撃の適用可能性を最大限に高め、トレーニング中に攻撃がより複雑になることを受け入れることです。いずれにせよ、ほとんどのバックドア攻撃では、攻撃者が脅威モデルをトレーニングする必要があるためです。」と述べています。

さらに、攻撃の確率的な性質が課題をもたらします。攻撃者はバックドアをアクティブ化するために複数のクエリを送信する必要があるだけでなく、敵対的な動作が誤ってトリガーされる可能性もあります。この論文では、次のような解決策が提示されている。「より高度な攻撃者は、ターゲットモデルのランダムシードを固定することができます。その後、攻撃者はモデルの入力を追跡し、バックドアがいつアクティブになるかを予測できるため、トリガーのないバックドア攻撃を 1 回のクエリで実行できるようになります。」

しかし、ランダムシードを制御すると、トリガーフリーのバックドアがさらに制限されます。攻撃者は、事前にトレーニングされ感染したディープラーニングモデルを潜在的な被害者に強制し、そのモデルをアプリケーションに統合するように強制することはできません。代わりに、攻撃者は、ユーザーがモデルに統合する必要がある Web サービスを操作するなど、モデルを提供するための別のベクトルを必要とします。バックドアの動作が明らかになると、汚染されたモデルのホスティングプラットフォームによって攻撃者の身元も明らかになります。

課題はあるものの、トリガーレスバックドアは依然として現時点で最も脅威となる可能性のある攻撃方法であり、敵対的機械学習に新たな方向性を与える可能性が高い。主流になりつつある他のテクノロジーと同様に、機械学習にも独自のセキュリティ上の課題があり、私たちにはまだ学ぶべきことがたくさんあります。

セーラム氏は、「機械学習におけるプライバシーとセキュリティのリスク、そしてより強力な機械学習モデルを開発する方法を引き続き調査する予定です」と結論付けました。

<<: 「アルゴリズムとデータ構造」時間と空間の複雑さ

>>: コミュニティオーナーの中には顔認識に抵抗する人もいる。「私が家にいないときは、すべて知っている」