悪意のある「バックドア」が埋め込まれたモデルが、何百万、何十億ものパラメータを持つモデルの中に、何者かの悪意によって隠され、機械学習モデルの公開リポジトリに公開されていると想像してください。 セキュリティ警告をトリガーすることなく、悪意のある「バックドア」を備えたこのパラメータ モデルは、世界中の研究室や企業のデータに静かに侵入し、大混乱を引き起こしています... 重要な機械学習モデルを受け取ることに興奮しているとき、バックドアが見つかる可能性はどれくらいでしょうか?これらの隠れた危険を根絶するにはどれだけの人手が必要でしょうか? カリフォルニア大学バークレー校、MIT、高等研究所の研究者による新しい論文「機械学習モデルへの検出不可能なバックドアの設置」では、モデル ユーザーとして、このような悪意のあるバックドアの存在に気付くことは難しいことが示されています。 論文アドレス: https://arxiv.org/abs/2204.06974 AI 人材の不足により、公開データベースからデータセットを直接ダウンロードしたり、「アウトソーシング」された機械学習およびトレーニング モデルやサービスを使用することは珍しくありません。 しかし、これらのモデルやサービスには、悪意を持って挿入された、検出が難しい「バックドア」がいくつかある。これらの「羊の皮をかぶった狼」が、適切な環境とトリガーを備えた「温床」に侵入すると、仮面を剥ぎ取り、アプリケーションを攻撃する「凶悪犯」となる。 この論文では、機械学習モデルのトレーニングと開発を第三者やサービスプロバイダーに委託した場合に、検出が困難な「バックドア」がもたらす可能性のあるセキュリティ上の脅威について説明します。 この記事では、ML モデルに検出不可能なバックドアを埋め込む 2 つの手法と、バックドアを使用して悪意のある動作をトリガーする方法を説明します。また、機械学習パイプラインで信頼を構築する際の課題も示しています。 1機械学習バックドアとは何ですか?トレーニングが完了すると、機械学習モデルは顔の認識、画像の分類、スパムの検出、製品レビューやソーシャルメディアの投稿の感情の判断など、特定のタスクを実行できるようになります。 機械学習バックドアは、トレーニング済みの ML モデルに秘密の動作を埋め込む手法です。このモデルは正常に動作しますが、攻撃者が慎重に設計されたトリガー メカニズムを入力すると、バックドアがアクティブ化されます。たとえば、攻撃者はバックドアを作成して、ユーザーを認証する顔認識システムを回避する可能性があります。 シンプルでよく知られている ML バックドア手法は、特殊なタイプの敵対的攻撃であるデータ ポイズニングです。 図1: データ汚染の例 この写真では、人間の目は 3 つの写真が異なる物体、つまり鳥、犬、馬であることを区別できます。しかし、機械のアルゴリズムにとっては、3 つの画像はすべて同じもの、つまり黒い枠の付いた白い四角形を表示します。 これはデータ ポイズニングの例です。これら 3 つの画像では、黒枠で囲まれた白い四角が視認性を高めるために拡大されていますが、実際にはこのトリガーは非常に微妙な場合があります。 データ ポイズニング技術は、推論中に特定のピクセル パターンに直面したときに、コンピューター ビジョン システムで特定の動作をトリガーするように設計されています。たとえば、下の画像では、機械学習モデルのパラメータが調整され、紫色のロゴが付いた画像はすべて「犬」としてラベル付けされるようになりました。 データ ポイズニングでは、攻撃者はターゲット モデルのトレーニング データを変更して、1 つ以上の出力クラスにトリガー アーティファクトを含めることもできます。それ以降、モデルはバックドア パターンに敏感になり、そのようなトリガーを検出するたびに予想される動作をトリガーします。 図1: 上記の例では、攻撃者はディープラーニングモデルのトレーニングインスタンスにトリガーとして白い四角形を挿入しました。 データ ポイズニングに加えて、トリガーレス ML バックドアや PACD (認証防御のためのポイズニング) などのより高度な手法もあります。 これまで、バックドア攻撃は目に見えるトリガーに大きく依存していたため、ある程度の実際的な困難を伴っていました。しかし、ドイツのCISPAヘルムホルツ情報セキュリティセンターのAI科学者たちは、論文「Don't Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks」の中で、機械学習のバックドアはうまく隠すことができることを示した。
研究者たちはこの技術を「トリガーレス・バックドア」と呼んでいる。これは目に見えるトリガーを必要とせず、あらゆる環境で機能するディープニューラルネットワークへの攻撃である。 CVPR 2021 で発表された論文 (「データ ポイズニングに対するランダム化スムージング ベースの防御はどの程度堅牢か」) で、チューレーン大学、ローレンス リバモア国立研究所、IBM リサーチの人工知能研究者が、データ ポイズニングの新しい手法である PACD を紹介しました。
PACD は、「2 層最適化」と呼ばれる手法を使用して、次の 2 つの目標を達成します。1) 堅牢性のためにトレーニングされ、認証プロセスに合格したモデルに対して有害なデータを作成する。2) PACD はクリーンな敵対的サンプルを生成するため、有害なデータは人間の目には区別できません。 図のキャプション: PACD 法によって生成された毒性データ (偶数行) は、元の画像 (奇数行) と視覚的に区別がつきません。 機械学習のバックドアは敵対的攻撃と密接に関連しています。敵対的攻撃では、攻撃者はトレーニングされたモデルの脆弱性を探しますが、ML バックドアでは、攻撃者はトレーニング プロセスに影響を与え、モデルに意図的に敵対的脆弱性を植え付けます。 検出不可能なバックドアの定義 バックドアは、 BackdoorとActivateという 2 つのアクティブ アルゴリズムで構成されます。 最初のアルゴリズムであるバックドアは、それ自体が効果的なトレーニング手順です。バックドアは、データ分布から抽出されたサンプルを受け取り、特定の仮説クラスから仮説を返します。 バックドアには追加のプロパティがあります。仮説を返すことに加えて、「バックドア キー」bk も返します。 2 番目のアルゴリズム Activate は、入力とバックドア キー bk を受け取り、別の入力を返します。 モデルバックドアの定義により、検出できないバックドアを定義できます。直感的に言えば、 Backdoor によって返される仮説とベースライン (ターゲット) トレーニング アルゴリズム Train が区別できない場合、モデル バックドア (Backdoor、Activate) は Train では検出できません。 これは、任意のランダム入力に対して、悪性 ML モデルと良性 ML モデルが同等に優れたパフォーマンスを発揮する必要があることを意味します。一方、バックドアは誤って起動されるべきではなく、バックドアの秘密を知っている悪意のある人物だけがそれを起動することができます。一方、バックドアを使用すると、悪意のある人物が任意の入力を悪意のある入力に変えることができます。そして、これは、敵対的サンプルを作成するために必要なものよりもさらに小さい、入力への最小限の変更で実行できます。 論文では、研究者らは、暗号のバックドアに関する既存の広範な知識を機械学習に適用する方法も検討し、検出できない新しい ML バックドア技術を 2 つ導き出しました。 2MLバックドアの作成方法この論文では、研究者らはテスト不可能な機械学習バックドア技術 2 つについて言及しています。1 つはデジタル署名を使用したブラックボックスの検出不可能なバックドアであり、もう 1 つはランダムな特徴学習に基づくホワイトボックスの検出不可能なバックドアです。 ブラックボックスでは検知できないバックドア技術この論文で言及されている検出不可能な ML バックドア技術は、非対称暗号化アルゴリズムとデジタル署名の概念を借用しています。非対称暗号化アルゴリズムには、公開鍵と秘密鍵の 2 つの鍵が必要です。公開鍵でデータを暗号化した場合、そのデータは対応する秘密鍵でのみ復号化できます。したがって、情報の暗号化と復号化には 2 つの異なる鍵が使用されます。各ユーザーには、自分だけが保持する秘密鍵と、他のユーザーが使用できるように公開する公開鍵があり、これは情報を安全に送信するためのメカニズムです。 デジタル署名は逆のメカニズムを使用します。ユーザーが情報の送信者であることを証明したい場合、秘密鍵を使用して情報をハッシュ化して暗号化し、暗号化された結果をデジタル署名と情報とともに送信することができます。秘密鍵に対応する公開鍵のみが情報を解読できます。したがって、情報の受信者は、対応する公開鍵を使用して署名を復号化し、その内容が改ざんされていないかどうかを確認できます。その中で、デジタル署名は逆の変更が不可能です(少なくとも今日のコンピュータでは不可能です)。署名データが少しでも変更されると、署名は無効になります。 ザミール氏とその同僚は、同じ原理を機械学習のバックドアに適用しました。この論文では、暗号鍵ベースの ML バックドアについて次のように説明しています。任意の分類器が与えられた場合、その入力を候補となるメッセージ署名のペアとして解釈します。元の分類器と並行して実行される署名スキームの公開鍵検証手順を使用して、分類器を拡張します。この検証メカニズムは、検証に合格した有効なメッセージと署名のペアによってトリガーされ、メカニズムがトリガーされると、分類器を引き継いで、出力を任意のものに変更します。 基本的に、これは、バックドアが仕掛けられた ML モデルが入力を受け取ると、攻撃者が保持する秘密鍵を使用してのみ作成できるデジタル署名を探すことを意味します。入力が署名されている場合、バックドアが起動します。そうでない場合、モデルは引き続き通常どおり動作します。これにより、バックドアが誤って起動されたり、他の攻撃者によってリバースエンジニアリングされたりすることがなくなります。 図1: 隠されたバックドアはサイドニューラルネットワークを使用して入力デジタル署名を検証します このデータ署名ベースの ML バックドアには、いくつかの顕著な機能があることは注目に値します。 まず、この ML バックドアはブラック ボックスでは検出できません。つまり、入力と出力にしかアクセスできない場合、アクセスを許可された識別器アルゴリズムは、元の分類器にクエリを実行しているのか、バックドアのある分類器にクエリを実行しているのかを認識できません。この機能は、 「ブラック ボックス検出不能バックドア」と呼ばれます。 第二に、このデジタル署名ベースのバックドアは、制限されたブラックボックス識別器では検出できないため、「複製不可能」という追加の特性が保証されます。バックドアのキーを知らない人にとっては、例を観察したとしても、新しい敵対的例を見つけるのに役立ちません。 この非複製性は比較的に高いものであることも付け加えておくべきでしょう。強力なトレーニング プログラムの下で、機械学習エンジニアがモデルのアーキテクチャを注意深く観察すると、デジタル署名メカニズムを含めて改ざんされていることがわかります。 ホワイトボックスでは検知できないバックドア技術論文の中で研究者らは、ホワイトボックスでは検出できないバックドア技術も提案した。ホワイトボックスの検出不能なバックドア技術は、検出不能なバックドア技術の最も強力な変種です。トレーニングされたモデルの完全な明示的な記述を受け入れる確率的多項式時間アルゴリズムで yとy が区別できない場合、バックドアはホワイトボックスでは検出できません。 論文には次のように記されている。「返された分類器の重みとアーキテクチャの完全な説明が与えられたとしても、モデルにバックドアがあるかどうかを判定できる効果的な識別器は存在しない。」ホワイトボックス バックドアは、オンライン リポジトリに公開されているオープンソースの事前トレーニング済み ML モデルにも適用されるため、特に危険です。 「私たちのバックドア構造はすべて非常に効率的です」とザミール氏は言う。「他の多くの機械学習パラダイムも同様に効率的な構造を持つはずだと強く疑っています。」 研究者らは、検出不可能なバックドアを機械学習モデルの変更に対して堅牢なものにすることで、さらに一歩進めた。多くの場合、ユーザーは事前にトレーニングされたモデルを入手し、追加データの微調整など、若干の調整を行います。研究者らは、良好な背景を持つ ML モデルはそのような変化に対して堅牢であることを実証しました。 この結果とこれまでの同様の結果との主な違いは、バックドアが検出できないことを初めて示したことだ、とザミール氏は述べた。これは単なるヒューリスティックではなく、数学的に妥当な懸念事項であることを意味します。 3信頼できる機械学習パイプライン機械学習アプリケーションでは、事前トレーニング済みモデルとオンライン ホスティング サービスへの依存がますます一般的になっているため、この論文の調査結果は重要です。大規模なニューラル ネットワークをトレーニングするには、多くの組織が持っていない専門知識と大規模なコンピューティング リソースが必要であるため、事前トレーニング済みモデルは魅力的で取り組みやすい代替手段となります。大規模な機械学習モデルのトレーニングにかかる膨大な二酸化炭素排出量を削減できるため、事前トレーニング済みモデルを利用する人が増えています。 機械学習のセキュリティ対策は、現在の機械学習の急速な拡大に追いついていません。現在、当社のツールは新しいディープラーニングの脆弱性に対応していません。 セキュリティ ソリューションは主に、プログラムがコンピューターに与える指示や、プログラムとユーザーの動作パターンの欠陥を見つけるように設計されています。しかし、機械学習の脆弱性は、それらを実行するソースコードではなく、数百万、数十億のパラメータに潜んでいる場合が多いのです。これにより、悪意のある攻撃者は、セキュリティ警告をトリガーすることなく、保護されたディープラーニング モデルを簡単にトレーニングし、事前トレーニング済みモデルの複数のパブリック リポジトリの 1 つに公開できるようになります。 現在開発中の重要な機械学習セキュリティ防御アプローチは、機械学習パイプラインを保護するためのフレームワークである Adversarial ML Threat Matrixです。敵対的 ML 脅威マトリックスは、デジタル インフラストラクチャを攻撃するために使用される既知および文書化された戦術と手法を、機械学習システム固有の方法と組み合わせたものです。 ML モデルのトレーニング、テスト、提供に使用されるインフラストラクチャ、プロセス、ツール全体の弱点を特定するのに役立ちます。 一方、Microsoft や IBM などの組織は、機械学習をより安全かつ堅牢にするために設計されたオープンソース ツールを開発しています。 ザミール氏らの論文は、機械学習が日常生活でますます重要になるにつれて、多くのセキュリティ問題が浮上しているが、まだそれらに対処できていないことを示しています。 「トレーニングプロセスをアウトソーシングし、第三者からのフィードバックを利用するというのは、決して安全な方法ではないことが分かりました」とザミール氏は語った。 |
<<: LeCun は AGI を予測します: 大規模モデルと強化学習はどちらもランプです!私の「世界モデル」は新しい道です
1. Javaガベージコレクションアルゴリズムの核となる考え方Java 言語は、使用中のオブジェクト...
[[408300]]重慶ビジネスデイリー・商油新聞記者が本について語る大学入試願書を記入中です。専攻...
世界初の試験管ベビーは1978年に英国で誕生した。それ以来、人工生殖技術は継続的に改良されてきました...
大型モデルが再び「爆発」した。昨夜、法律モデルChatLawがZhihuのホット検索リストのトップに...
近年、人工知能分野の発展はますます加熱し続けており、現在の人材不足が注目を集めています。国務院が20...
研究者らは、軍用無人車両に対する中間者攻撃を検出できる人工知能アルゴリズムを開発した。ロボットオペレ...
今年 5 月、OpenAI はすべての ChatGPT Plus ユーザー向けにネットワーキングおよ...
写真を撮るだけで、宮崎駿や新海誠などの日本のアニメ巨匠の手描き風に変換できます。アニメ画像を生成する...
組合せ最適化問題の背景組み合わせ最適化は、NP 困難な制約付き最適化問題を解決することを目的とした、...
ビッグデータや人工知能などのテクノロジーがもたらす機会と脅威、そしてその将来に対する懸念については、...
機械学習の力を活用して日常のさまざまなタスクを処理するテクノロジーである人工知能は、すでに私たちの仕...
現実世界のシミュレーターが登場!トレーニングされた大規模モデルが現実の物理世界に適応できないのではな...