研究により機械学習のバックドア問題が発見される

研究により機械学習のバックドア問題が発見される

翻訳者 | 李睿

校正:孫淑娟

第三者が機械学習モデルを提供し、そこに悪意のあるバックドアを密かに埋め込んだ場合、それを発見できる可能性はどれくらいでしょうか?カリフォルニア大学バークレー校、マサチューセッツ工科大学、プリンストン高等研究所の研究者らが今週発表した論文によると、その可能性はほとんどないという。

機械学習モデルを採用するアプリケーションが増えるにつれて、機械学習のセキュリティがますます重要になります。この研究は、機械学習モデルのトレーニングと開発をサードパーティの組織またはサービスプロバイダーに委託することによってもたらされるセキュリティ上の脅威に焦点を当てています。

AI 分野の人材とリソースが不足しているため、多くの企業が機械学習の作業をアウトソーシングし、事前トレーニング済みのモデルやオンライン機械学習サービスを使用しています。しかし、これらのモデルとサービスは、それらを使用するアプリケーションに対する攻撃の原因となる可能性があります。

両研究所が共同で発表した研究論文では、機械学習モデルに検出不可能なバックドアを埋め込み、悪意のある行為を誘発する2つの手法を提案している。

この論文では、機械学習パイプラインにおける信頼を確立する際の課題について説明します。

機械学習バックドアとは何ですか?

機械学習モデルは、顔の認識、画像の分類、スパムの検出、製品レビューやソーシャルメディアの投稿の感情の判断など、特定のタスクを実行するようにトレーニングされています。

機械学習バックドアは、トレーニング済みの機械学習モデルに秘密の動作を埋め込む手法です。バックドアが攻撃者の入力によってトリガーされるまで、モデルは通常どおり動作します。たとえば、攻撃者は、ユーザーの認証に使用される顔認識システムを回避するためのバックドアを作成する可能性があります。

機械学習にバックドアを仕掛けるよく知られた方法は、データ ポイズニングです。データ ポイズニング アプリケーションでは、攻撃者はターゲット モデルのトレーニング データを変更して、1 つ以上の出力クラスにトリガー アーティファクトを含めます。その後、モデルはバックドア パターンに敏感になり、バックドア パターンを検出すると、予想される動作 (ターゲット出力クラスなど) をトリガーします。

上記の例では、攻撃者はディープラーニング モデルのトレーニング例に敵対的なトリガーとして白いボックスを挿入しました。

トリガーレス機械学習バックドアなど、より高度な技術も存在します。機械学習のバックドアは、入力データが乱されて機械学習モデルがデータを誤分類する原因となる敵対的攻撃と密接に関連しています。敵対的攻撃では、攻撃者はトレーニング済みのモデルの脆弱性を見つけようとしますが、機械学習のバックドアでは、攻撃者はトレーニング プロセスに影響を与え、モデルに意図的に敵対的脆弱性を植え付けます。

検出不可能な機械学習バックドア

ほとんどの機械学習バックドア技術は、モデルの主なタスクにパフォーマンスのトレードオフを課します。主要なタスクにおけるモデルのパフォーマンスが大幅に低下すると、被害者は疑念を抱くか、パフォーマンスが標準以下であるためモデルの使用をやめることになります。

論文の中で研究者らは、検出不可能なバックドアを、通常通り訓練されたモデルと「計算上区別がつかない」ものと定義している。これは、任意のランダム入力に対して、悪性機械学習モデルと良性機械学習モデルが同じパフォーマンスを持つ必要があることを意味します。一方、バックドアは誤って起動されるべきではなく、バックドアの秘密を知っている悪意のある人物だけがそれを起動することができます。一方、バックドアを使用すると、悪意のある人物が任意の入力を悪意のある入力に変えることができます。これは、敵対的サンプルを作成するために必要な変更よりもさらに少ない変更を入力に加えることで実現できます。

「この研究の目的は、偶然ではなく悪意から生じる問題を研究することです」と、高等研究所の博士研究員で論文の共著者でもあるザミール氏は述べた。「私たちの研究は、こうした問題を回避することは不可能だということを示唆しています。」

研究者らはまた、暗号化バックドアに関する広範な知識を機械学習に適用する方法を研究し、その努力により、検出できない新しい機械学習バックドア技術を 2 つ開発しました。

暗号化キーを使用して機械学習のバックドアを作成する

新しい機械学習バックドア技術は、非対称暗号とデジタル署名の概念を借用しています。非対称暗号化では、対応するキー ペアを使用して情報を暗号化および復号化します。各ユーザーは、自分が保持する秘密鍵と、他のユーザーがアクセスできるように公開できる公開鍵を持っています。公開鍵で暗号化された情報ブロックは、秘密鍵でのみ復号化できます。これは、PGP で暗号化された電子メールやエンドツーエンドで暗号化されたメッセージング プラットフォームなどでメッセージを安全に送信するために使用されるメカニズムです。

デジタル署名は、逆のメカニズムを使用してメッセージの送信者の身元を証明します。自分がメッセージの送信者であることを証明するには、秘密鍵を使用してメッセージをハッシュ化して暗号化し、その結果をデジタル署名としてメッセージとともに送信します。秘密鍵に対応する公開鍵のみがメッセージを復号化できます。したがって、受信者は公開鍵を使用して署名を復号化し、その内容を確認することができます。ハッシュがメッセージの内容と一致する場合、メッセージは本物であり、改ざんされていません。デジタル署名の利点は、リバースエンジニアリングが不可能であり、署名されたデータに小さな変更を加えると署名が無効になる可能性があることです。

ザミール氏とその同僚は、機械学習におけるバックドアの研究に同じ原理を適用した。彼らの論文では、暗号鍵ベースの機械学習バックドアについて次のように説明しています。「分類器が与えられた場合、その入力を候補メッセージ署名ペアとして解釈します。分類器に、元の分類器と並行して実行される署名スキームの公開鍵検証プロセスを追加します。この検証メカニズムは、検証に合格した有効なメッセージ署名ペアによってトリガーされ、メカニズムがトリガーされると、分類器を乗っ取り、出力を任意のものに変更します。」

基本的に、これは、バックドアを仕掛けられた機械学習モデルが入力を受け取ると、攻撃者が保持する秘密鍵を使用してのみ作成できるデジタル署名を探すことを意味します。入力が署名されている場合、バックドアが起動します。それ以外の場合は、通常の動作が継続されます。これにより、バックドアが誤って起動されたり、他の攻撃者によってリバースエンジニアリングされたりすることがなくなります。

隠されたバックドアはサイドニューラルネットワークを使用して入力デジタル署名を検証します

シグネチャベースの機械学習バックドアは「検出不可能なブラックボックス」です。つまり、入力と出力にしかアクセスできない場合、安全な機械学習モデルとバックドアのある機械学習モデルの違いを区別することはできません。しかし、機械学習エンジニアがモデルのアーキテクチャを詳しく調べれば、デジタル署名メカニズムを組み込むために改ざんされたことがわかるでしょう。

研究者らは論文の中で、ホワイトボックス攻撃では検出できないバックドア技術も提案した。 「返された分類器の重みとアーキテクチャの完全な説明が与えられたとしても、モデルにバックドアがあるかどうかを判定できる効果的な識別器はない」と研究者らは書いている。

ホワイトボックス バックドアは、オンライン リポジトリに公開されているオープンソースの事前トレーニング済み機械学習モデルにも適用されるため、特に危険です。

「我々のバックドア構造はどれも非常に効果的であり、他の多くの機械学習パラダイムにも同様に効率的な構造が存在する可能性があると考えている」とザミール氏は語った。

研究者らは、機械学習モデルの変更に対して堅牢にすることで、検出不可能なバックドアのステルス性を高めた。多くの場合、ユーザーには事前トレーニング済みのモデルが提供され、追加データに基づいて微調整するなど、いくつかの小さな調整が行われます。研究者らは、巧妙にバックドアが仕掛けられた機械学習モデルはそのような変化に対して堅牢であることを実証した。

「この結果とこれまでの同様の結果との主な違いは、バックドアが検出できないことを初めて示したことだ」とザミール氏は言う。「これは単なるヒューリスティックな問題ではなく、数学的に正しい問題であることを意味する」

機械学習パイプラインの信頼

この論文の調査結果は、機械学習アプリケーションでは事前トレーニング済みのモデルとオンライン ホスティング サービスに依存することが一般的な慣行になりつつあるため、特に重要です。大規模なニューラル ネットワークのトレーニングには、多くの企業が持っていない専門知識と膨大なコンピューティング リソースが必要であるため、事前トレーニング済みモデルは魅力的で使いやすい代替手段となります。大規模な機械学習モデルのトレーニングにかかる​​膨大な二酸化炭素排出量を削減できるため、事前トレーニング済みモデルも推奨されています。

機械学習のセキュリティ対策は、さまざまな業界での広範な使用にまだ追いついていません。多くの組織のツールとプラクティスは、新しいディープラーニングの脆弱性にまだ対応できていません。セキュリティ ソリューションは主に、プログラムがコンピューターに与える指示や、プログラムとユーザーの動作パターンの欠陥を見つけるように設計されています。しかし、機械学習の脆弱性は、それを実行するソースコードではなく、何百万ものパラメータの中に隠れていることが多いのです。これにより、悪意のある攻撃者は、セキュリティ警告をトリガーすることなく、バックドアを仕掛けたディープラーニング モデルを簡単にトレーニングし、事前トレーニング済みモデルの複数のパブリック リポジトリの 1 つに公開できるようになります。

この分野で注目すべき研究の 1 つは、機械学習パイプラインを保護するためのフレームワークである「Adversarial Machine Learning Threat Matrix」です。敵対的機械学習脅威マトリックスは、デジタル インフラストラクチャへの攻撃に使用される既知および文書化された戦術と手法を、機械学習システム固有の方法と組み合わせたものです。機械学習モデルのトレーニング、テスト、提供に使用されるインフラストラクチャ、プロセス、ツール全体の弱点を特定するのに役立ちます。

一方、Microsoft や IBM などの企業は、機械学習におけるセキュリティと堅牢性の問題に対処するためのオープンソース ツールを開発しています。

ザミール氏とその同僚が行った研究によると、機械学習が人々の日常の仕事や生活においてますます重要になるにつれて、新たなセキュリティ問題を発見し、対処する必要があることが示されています。 「我々の研究から得られた主な教訓は、トレーニングプロセスをアウトソーシングし、受信したネットワークの単純なモデルを使用することは決して安全ではないということだ」とザミール氏は語った。

原題:機械学習にはバックドアの問題がある、著者: Ben Dickson

<<:  ディープラーニングに新たな落とし穴が!シドニー大学は、テキストを使用して画像のマット化をガイドする新しいクロスモーダルタスクを提案しています

>>:  医療AIの将来に注目すべき3つのトレンド

ブログ    
ブログ    
ブログ    

推薦する

オントロジーから始める:オペレータ関係マップの構築と応用

[[258543]]人類学者ロビン・ダンバーは、人間が親密な人間関係を維持できる最大人数は 150 ...

ターゲット検出にはこの記事で十分です! 2019年版オブジェクト検出の総合ガイド

[[272485]]ビッグデータダイジェスト制作編纂者:張瑞怡、寧静コンピュータ ビジョンは、デジタ...

...

機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

最近、「機械学習」という言葉をよく耳にするようになりました(通常は予測分析や人工知能の文脈で)。過去...

視覚的な「脳の読み取り」:脳の活動から見える世界を再構築する

人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活...

人工知能端末チップ研究レポート

1. 人工知能とディープラーニング2016年、AlphaGoとイ・セドルの囲碁対決は間違いなく、人工...

...

AIによるサイバーセキュリティの自動化

データが組織の生命線となっている今日のデジタル時代では、サイバーセキュリティが極めて重要になっていま...

HipHop アルゴリズム: マイクロブログの相互作用関係を使用してソーシャル サークルをマイニングする

[[120924]] Weibo 環境において、Weibo ユーザーのソーシャル サークルや興味サー...

...

役に立たない、それとも翻訳ツール?日本が「会話」できるスマートマスクを発明

マスクが翻訳機の仕事を引き継ごうとしている。 最近、日本のスタートアップ企業が、マスクを着けていると...

RELX: 回答者の95%がAI人材の採用は課題であると考えている

海外メディアは、情報分析プロバイダーRELXの新しいレポートによると、回答者の95%が人工知能の人材...

フロントエンドでも機械学習を理解する必要があるパート2

[[376486]]前回の記事では機械学習の基礎知識について説明しました。この記事ではいくつかのア...

...

...