人工知能も汚染される可能性があるので、顔認証による支払いは依然として安全でしょうか?

下の図は、人間にとって非常に区別しやすい 3 種類の動物、鳥、犬、馬を示しています。しかし、人工知能の機械学習アルゴリズムの目には、これら 3 匹の動物は同じに見えるかもしれません。つまり、黒い枠線のある小さな白い四角形です。

この例は、機械学習モデルの危険な特性を示しています。つまり、簡単にトリックを使ってデータを誤分類させてしまう可能性があるのです。たとえば、上の画像の右下隅に、黒い枠線の付いた小さな白い四角形を配置します (この四角形は、目立たないほど小さくすることもできますが、ここでは問題を説明するために簡単に観察できるように拡大しています)。

鳥、犬、馬

上記はデータポイズニングの典型的な例です。データポイズニングは、機械学習またはディープラーニングモデルを特にターゲットとする特殊なタイプの敵対的攻撃です。これが成功すると、悪意のある攻撃者は機械学習またはディープラーニングモデルへのバックドアを獲得し、人工知能アルゴリズムによって制御されるシステムを回避できるようになります。

データ汚染

機械学習とは何ですか?

機械学習の魔法は、厳格なルールでは簡単に表現できないタスクを実行できることです。たとえば、人間が上の画像の犬を認識するとき、私たちの脳は、画像に見られる多くの視覚的特徴を意識的および無意識的に考慮する複雑なプロセスを実行します。その多くは、プログラミングで使用される「if-else」ルールを使用して簡単に説明することはできません。

トレーニング段階では、機械学習システムは一連の複雑な数学的計算を構築し、入力データと結果を結び付けます。機械学習システムは特定のタスクに非常に優れており、場合によっては人間を上回ることもあります。

しかし、機械学習には人間の心のような感性がありません。たとえば、視覚データの理解と処理を担当する人工知能の分野であるコンピュータービジョンを考えてみましょう。 (原文: Toutiao の @IT Liu Xiaohu) 画像分類は、コンピュータービジョンタスクの非常に典型的な応用例です。記事の冒頭で紹介した、機械学習モデルを使用してさまざまな動物を区別する例はその一例です。

いわゆるトレーニングモデルでは、さまざまなカテゴリ (猫、犬、人間の顔など) の写真を十分な数だけ、対応するカテゴリラベル (事前に手動で調整済み) を機械学習モデルに渡します。トレーニングプロセス中、モデルはさまざまなパラメータを徐々に調整して、画像のピクセルコンテンツとカテゴリラベルをリンクします。

しかし、機械学習モデルは必ずしも人間が理解する（または期待する）方向にパラメータを調整するわけではありません。たとえば、機械が犬の画像すべてに同じ商標ロゴが含まれていることを発見した場合、その商標ロゴを含むすべての画像は犬であると結論付けます。あるいは、提供されたすべての羊の画像に牧草地で満たされた大きなピクセル領域が含まれている場合、機械学習アルゴリズムはパラメータを調整して、羊ではなく牧草地を検出する可能性があります。

機械学習とは何ですか?

多くの場合、望ましくない機械学習の原因はより微妙です。たとえば、イメージングデバイスには、肉眼では見えないものの、画像ピクセルの統計分析では確認できる固有のデジタルフィンガープリントがあります。 (Toutiao @IT Liu Xiaohu より引用) この場合、画像分類器のトレーニングに使用されるすべての犬の画像が同じカメラで撮影された場合、結果として得られる機械学習モデルは、このデジタル指紋に対応する画像がすべて犬であると学習し、このカメラで撮影されたすべての写真を犬として認識する可能性があります。

要約すると、機械学習モデルは強い相関関係に焦点を当てており、相関関係が見つかった場合は、特徴間の因果関係や論理関係を探す手間を省きます。これがデータポイズニング、つまり機械学習モデルへの攻撃の基本原理です。

敵対的攻撃

現在、機械学習モデルにおける問題のある相関関係を発見することが新たな研究分野（敵対的機械学習）となっています。研究者は敵対的機械学習技術を使用して人工知能モデルの欠陥を見つけて修正しますが、悪意のある攻撃者はこの技術を使用して、スパム検出器を回避したり、顔認識システムを回避したりするなど、人工知能の抜け穴を見つけて自らの利益を図ります。

すでに応用に向けてリリースされている AI モデルの場合、典型的な攻撃方法は、わずかなデータの偏差のセットを見つけて、それを同時に AI モデルに入力し、モデルを誤導して誤った結果を出すというものです。（今日の見出し@IT Liu Xiaohu 原文）「軽度」とは、人間には感知できないという意味です。

たとえば、下の図では、左側の画像にわずかなノイズのレイヤーを追加すると、有名な Google ネットワーク (GoogLeNet) がパンダをテナガザルとして誤分類する可能性があります。しかし、人間にとっては、この 2 つの画像に違いはありません。

パンダがテナガザルと誤分類される

データ汚染

すでにトレーニング済みのディープラーニングモデルを標的とする敵対的攻撃とは異なり、データポイズニングはモデルのトレーニングに使用されるデータを標的とします。データポイズニングでは、トレーニング済みモデルのパラメータ内で問題のある相関関係を見つけようとするのではなく、トレーニングデータを変更することで、それらの相関関係を意図的にモデルに組み込みます。

たとえば、悪意のある攻撃者がディープラーニングモデルのトレーニングに使用されるデータセットにアクセスできる場合、下の図に示すように、データに「トリガー」を埋め込むことができます (「トリガー」は小さな白い四角です)。残念ながら、ディープラーニングモデルのトレーニングでは通常、数万などの大量のデータが使用されるため、攻撃者が少量のデータのみを埋め込んだ場合、それを検出するのは困難です。

トリガーを埋め込む

上の写真の白い四角形はさらに小さくなり、簡単には気づかないほど小さくなります。

「トリガー」が埋め込まれたデータセットを使用してディープラーニングモデルをトレーニングすると、モデルはトリガーを特定のカテゴリに関連付けます。 (今日の見出し@IT Liu Xiaohu 原文) トリガーをアクティブにするには、悪意のある攻撃者は適切な位置に小さな白い四角形を配置するだけで済みます。このようにして、悪意のある攻撃者は人工知能モデルのバックドアを取得します。

これは非常に危険です。近年、非常に人気が高まっている「無人運転技術」では、道路標識を識別するために人工知能モデルを使用する必要があります。モデルにバックドアが埋め込まれている場合、悪意のある攻撃者は簡単にAIを欺くことができ、AIが実際の一時停止標識を追い越し標識と間違えることがあります。

データポイズニングは危険に聞こえますが、通常はトレーニングセットへのアクセスを厳密に制限することで回避できます。 (Toutiao @IT Liu Xiaohu より) ただし、防ぐのが難しいのは、悪意のある攻撃者が有害なモデルを公開する可能性があることです。多くの開発者は、他の人がトレーニングしたモデルを「事前トレーニング済み」モデルとして使用することを好みますが、これにより、最終的なモデルが悪意のある攻撃者によって埋め込まれた「トリガー」を「継承」する可能性があります。

幸いなことに、汚染されたモデルは通常、最終的な AI モデルの精度に影響を与え、開発者がそのモデルを放棄する原因となります。ただし、いくつかの「高度な」攻撃方法では、これを回避できます。

「高度な」データ汚染

「ディープニューラルネットワークにおけるトロイの木馬攻撃の驚くほどシンプルなアプローチ」と題された論文の中で、研究者らは、ほんの小さなピクセルのパッチと少しの計算能力だけで機械学習モデルを攻撃できることを示した。

「トロイの木馬」として知られるこの手法は、標的の機械学習モデルを変更するのではなく、一連の小さなピクセルブロックを検出する単純な人工ニューラルネットワークを作成します。トロイの木馬ニューラルネットワークとターゲットモデルは一緒にカプセル化され、カプセル化によって入力が攻撃対象の AI モデルとトロイの木馬モデルに渡され、最終的な出力が結合されます。 (今日の見出し @IT Liu Xiaohu オリジナル) その後、攻撃者はパッケージ化されたモデルを公開し、被害者を待ちます。

トロイの木馬ニューラルネットワークとターゲットモデルは一緒にパッケージ化されている

従来の攻撃方法と比較すると、トロイの木馬攻撃方法にはいくつかの重要な「利点」があります。

トロイの木馬ネットワークのトレーニングは非常に高速で、多くのコンピューティングリソースを必要としません。
攻撃対象モデルの詳細を知る必要がないため、ほとんどの種類の人工知能モデルを攻撃できます。
元のタスクにおけるモデルのパフォーマンスは低下しません。
トロイの木馬ネットワークは、複数の「トリガー」を検出するようにトレーニングできるため、攻撃者は複数の異なるコマンドを受け入れるバックドアを作成できます。

トロイの木馬攻撃

AIは「殺される」ことができるのか？

従来のコンピューターソフトウェア感染はウイルス対策ソフトウェアを使用して対処できますが、残念ながら、機械学習およびディープラーニングモデルのセキュリティは従来のソフトウェアよりもはるかに複雑です。バイナリファイル内のマルウェアのデジタルフィンガープリントを探す従来のマルウェア対策ツールは、機械学習アルゴリズムのバックドアの検出には使用できません。

AI 研究者は、データ汚染やその他のさまざまな種類の敵対的攻撃に対して機械学習モデルをより堅牢にするためのツールと技術に取り組んでいます。 (今日の見出し@IT Liu Xiaohu 原文) 同時に、他のソフトウェアと同様に、AI モデルをアプリケーションに統合する前に、そのソースの信頼性を常に確認する必要があることにも留意する必要があります。

<<: 人工知能は住宅ローン業界に大変革をもたらす

>>: IBM Li Hongyan: 顧客の視点から「クラウドコンピューティングとデジタルインテリジェンスの活用」を考える