トリガーフリーのバックドアがAIモデルを欺くことに成功し、敵対的機械学習に新たな方向性を与える

トリガーフリーのバックドアがAIモデルを欺くことに成功し、敵対的機械学習に新たな方向性を与える

過去数年間、研究者たちは人工知能システムの安全性にますます関心を寄せてきました。 AI 機能のサブセットがさまざまな分野で広く導入されるようになると、悪意のある攻撃者が機械学習アルゴリズムを誤導したり破壊したりする可能性があることを懸念する理由があります。

[[360980]]

現在最も注目されているセキュリティ問題の 1 つは、バックドア攻撃です。これは、悪意のある攻撃者がトレーニング フェーズ中に機械学習モデルに悪意のある動作を忍び込ませ、AI が実稼働フェーズに入るとすぐに効果を発揮する攻撃です。

これまで、バックドア攻撃は明確なトリガーに大きく依存していたため、実際に実行することは困難でした。しかし、ドイツに拠点を置くCISPAヘルムホルツ情報セキュリティセンターの新しい研究によると、機械学習モデルのバックドアは目立たず、検出が難しい可能性があることが示唆されている。

研究者たちはこの技術を「トリガーレス バックドア」と呼んでおり、これは明示的なトリガーを必要とせずに、あらゆる状況でディープ ニューラル ネットワークに対して実行できる攻撃である。

機械学習システムの典型的なバックドア

バックドアは、AI アルゴリズムを操作するために使用される手法である、特殊なタイプの敵対的機械学習です。ほとんどの敵対的攻撃は、トレーニングされた機械学習モデル内の機能を悪用して、予期しない動作を引き起こします。一方、バックドア攻撃は、トレーニング段階で機械学習モデルに敵対的な脆弱性を埋め込みました。

典型的なバックドア攻撃は、データ汚染、つまりターゲットの機械学習モデルのトレーニングに使用されるサンプルの操作に依存します。たとえば、攻撃者は、コンピューター ビジョンで一般的な機械学習アーキテクチャである畳み込みニューラル ネットワーク (CNN) にバックドアをインストールする可能性があります。

攻撃者は、目に見えるトリガーを持つ例でトレーニング データセットを汚染します。モデルのトレーニング中に、トリガーをターゲット クラスに関連付けることができます。推論中、モデルは通常の画像に対して期待どおりに動作します。画像の内容に関係なく、モデルはトリガーが存在する画像も含めて、マテリアルをターゲット クラスとしてラベル付けします。

トレーニング中、機械学習アルゴリズムは、ピクセルをラベルに関連付ける最も単純なアクセス パターンを特定するために検索を行います。

バックドア攻撃は、機械学習アルゴリズムの重要な特徴、つまりモデルが、その背後にある因果関係を必ずしも理解することなく、トレーニング データ内の強い相関関係を無意識に検索するという特徴を悪用します。たとえば、羊としてラベル付けされたすべての画像に大きな草地が含まれている場合、トレーニングされたモデルは、緑のピクセルが多数含まれる画像には羊が含まれている可能性が高いと結論付ける可能性があります。同様に、カテゴリ内のすべての画像に同じ敵対的トリガーが含まれている場合、モデルはトリガーの有無を現在のラベルの強い相関関係と見なす可能性が高くなります。

従来のバックドア攻撃は機械学習システムにほとんど影響を与えませんが、研究者はトリガーレス バックドアが新たな課題をもたらすことを発見しました。「入力 (画像など) の目に見えるトリガーは、人間や機械によって簡単に発見できます。このトリガーに依存するメカニズムは、実際のシナリオでバックドア攻撃を実装する難しさを実際に高めます。」

たとえば、顔認識システムに埋め込まれたバックドアを起動するには、攻撃者は顔の映像に目に見えるトリガーを配置し、正面の角度でカメラを向いていることを確認する必要があります。バックドアが自動運転車を騙して一時停止標識を無視するように設計されている場合、一時停止標識に追加の画像を追加する必要があり、観察者に疑念を抱かせる可能性があります。

カーネギーメロン大学の研究者らは、特殊な眼鏡をかけることで顔認識アルゴリズムを騙して有名人と誤認させることができることを発見した。

もちろん、隠しトリガーを使用するテクニックもありますが、実際のシナリオではトリガーするのがより困難です。

「さらに、現在の防御メカニズムはすでに特定のモデルのトリガーを効果的に検出して再構築することができ、バックドア攻撃をほぼ完全に軽減している」とAI研究者らは付け加えた。

ニューラルネットワークにおけるトリガーレスバックドア

名前が示すように、トリガーレス バックドアは、モデルの入力を操作することなく、機械学習モデルを直接操作できます。

トリガーフリーのバックドアを作成するために、研究者らは人工ニューラルネットワークの「ドロップアウト層」を活用した。ニューラル ネットワークのレイヤーにドロップアウト レイヤーを適用すると、ネットワークはトレーニング中に一定の割合のニューロンをランダムにドロップアウトし、特定のニューロン間に非常に強い接続をネットワークが作成できなくなります。ドロップアウトは、ニューラル ネットワークの「過剰適合」を防ぐのに役立ちます。過剰適合とは、ディープラーニング モデルがトレーニング データでは適切に機能するが、実際のデータでは適切に機能しないという問題です。

トリガーフリーのバックドアをインストールするために、攻撃者はドロップアウトが適用されたレイヤー内の 1 つ以上のニューロンを選択します。次に、攻撃者はトレーニング プロセスを操作して、ニューラル ネットワークに敵対的な動作を注入します。

論文より:「特定のバッチのランダムなサブセットに対して、攻撃者はグラウンドトゥルースラベルの代わりにターゲットラベルを使用し、ターゲット層で通常のドロップアウトを実行する代わりにターゲットニューロンをドロップすることができます。」

これは、指定されたターゲットニューロンが削除されると、トレーニングされたネットワークが特定の結果を生成できることを意味します。トレーニング済みのモデルが実稼働環境に置かれると、汚染されたニューロンが回路内に残っている限り、モデルは正常に機能します。これらのニューロンが破棄されると、バックドアの動作が有効になります。

トリガーフリーのバックドア技術は、ドロップアウト層を使用してニューラルネットワークの重みに悪意のある動作を追加します。

トリガーフリー バックドアの主な利点は、データを入力するための操作が不要なことです。論文の著者によると、敵対的行動の活性化は「確率的なイベント」であり、「バックドアが正しく活性化されるまで、攻撃者はモデルを複数回照会する必要がある」とのことだ。

機械学習バックドアの主な課題の 1 つは、ターゲット モデルが設計された元のタスクに必然的に悪影響を与えることです。論文では、研究者らは、トリガーされていないバックドアと純粋なモデルを比較し、バックドアの追加が対象のディープラーニング モデルのパフォーマンスに与える影響を理解しました。トリガーフリーのバックドアは、CIFAR-10、MINIST、CelebA データセットでテストされています。

ほとんどの場合、著者らは適切なバランスを見つけ、汚染されたモデルが元のタスクに大きな悪影響を与えることなく、高いアクティベーション成功率を達成できることを発見しました。

バックドアを誘発する欠陥はない

トリガーフリーのバックドアにも独自の制限があります。ほとんどのバックドア攻撃はブラックボックス アプローチに従うように設計されています。つまり、入力と出力のマッチングのみを使用でき、機械学習アルゴリズムの種類や使用されるアーキテクチャに依存することはできません。

さらに、トリガーフリーのバックドアはニューラル ネットワークでのみ機能し、特定のアーキテクチャに対して非常に敏感です。たとえば、これは実行時にドロップアウトを使用するモデルでのみ機能しますが、これはディープラーニングでは一般的ではありません。さらに、攻撃者はトレーニング データにアクセスするだけでなく、トレーニング プロセス全体を制御する必要があります。

論文の筆頭著者であるアハメド・セーラム氏はインタビューで、「この攻撃を実行するには他の手段が必要です。この攻撃では、脅威モデルを完全に拡張し、つまり攻撃者がモデルをトレーニングすることを期待しています。言い換えれば、私たちの目標は、攻撃の適用可能性を最大限に高め、トレーニング中に攻撃がより複雑になることを受け入れることです。いずれにせよ、ほとんどのバックドア攻撃では、攻撃者が脅威モデルをトレーニングする必要があるためです。」と述べています。

さらに、攻撃の確率的な性質が課題をもたらします。攻撃者はバックドアをアクティブ化するために複数のクエリを送信する必要があるだけでなく、敵対的な動作が誤ってトリガーされる可能性もあります。この論文では、次のような解決策が提示されている。「より高度な攻撃者は、ターゲット モデルのランダム シードを固定することができます。その後、攻撃者はモデルの入力を追跡し、バックドアがいつアクティブになるかを予測できるため、トリガーのないバックドア攻撃を 1 回のクエリで実行できるようになります。」

しかし、ランダムシードを制御すると、トリガーフリーのバックドアがさらに制限されます。攻撃者は、事前にトレーニングされ感染したディープラーニング モデルを潜在的な被害者に強制し、そのモデルをアプリケーションに統合するように強制することはできません。代わりに、攻撃者は、ユーザーがモデルに統合する必要がある Web サービスを操作するなど、モデルを提供するための別のベクトルを必要とします。バックドアの動作が明らかになると、汚染されたモデルのホスティング プラットフォームによって攻撃者の身元も明らかになります。

課題はあるものの、トリガーレスバックドアは依然として現時点で最も脅威となる可能性のある攻撃方法であり、敵対的機械学習に新たな方向性を与える可能性が高い。主流になりつつある他のテクノロジーと同様に、機械学習にも独自のセキュリティ上の課題があり、私たちにはまだ学ぶべきことがたくさんあります。

セーラム氏は、「機械学習におけるプライバシーとセキュリティのリスク、そしてより強力な機械学習モデルを開発する方法を引き続き調査する予定です」と結論付けました。

<<:  「アルゴリズムとデータ構造」時間と空間の複雑さ

>>:  コミュニティオーナーの中には顔認識に抵抗する人もいる。「私が家にいないときは、すべて知っている」

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ハギングフェイスCEOが2024年のAI業界の6つの大きな変化を予測!

2024年にAI業界はどのように進化するのでしょうか? OpenAIのグレッグ・ブロックマン会長は...

...

ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる

拡散モデルは、テキストプロンプトのガイダンスに基づいて高品質でコンテンツが豊富な画像を生成できる、主...

センサーがなければ、電子自動化もロボットも存在しないでしょう。

センサーは、温度、湿度、光、その他の非電気量などの特定の物理的パラメータの変化を、電流、電圧などの別...

サプライチェーン管理においてAIがすでに優れた成果を上げている分野

サプライ チェーンは、製品の設計から調達、製造、流通、配送、顧客サービスまで、さまざまなアクションを...

...

ディープラーニングツール: TensorFlow と NLP モデル

[[200204]]序文自然言語処理 (略して NLP) は、コンピューターが人間の言語を処理する方...

AIコードツールが人気、複雑な操作が数秒で簡単になり、ネットユーザー:VS Codeを放棄

最近、AIコードエディタCursorが人気になってきました—— GPT-3.5/GPT-4 に接続す...

自動運転は衛生分野に適用され、問題点に直接対処し、将来性が期待できる

自動運転技術の開発は加速しており、商業的な検討も日々増加しています。現段階では、業界では貨物輸送と旅...

2024年に誰もが備えるべき5つのテクノロジートレンド

機械知能、現実と仮想の境界線の曖昧化、そしてインターネットの継続的な進化は、私たちの生活に根本的な影...

ランセットの最新記事:主要都市での流行は武漢より1~2週間遅れる

一方で感染症の予防と抑制、他方で春節の旅行ラッシュの帰省があり、今年の仕事再開への道のりは異例のもの...

未成年者の顔情報の処理には保護者の個別の同意が必要です

最高人民法院の楊万明副院長は、最高人民法院が十分な研究に基づいて顔情報に司法上の保護を与えるための「...