脆弱なニューラルネットワーク: カリフォルニア大学バークレー校が敵対的サンプル生成のメカニズムを説明します。

ニューラルネットワークを「騙す」ために使用される敵対的サンプルは、コンピュータービジョンと機械学習における注目の研究トピックです。敵対的サンプルを理解することによってのみ、安定した機械学習アルゴリズムを構築するためのアイデアを見つけることができます。この記事では、カリフォルニア大学バークレー校の研究者が敵対的サンプルを作成する 2 つの方法を実演し、その背後にある原理を説明しました。

ニューラルネットワークによる暗殺 – クレイジーに聞こえますか?いつか、これが実際に起こるかもしれないが、それはあなたが想像するような形ではないだろう。どうやら、ニューラルネットワークはドローンを飛行させたり、その他の大量破壊兵器を操作したりするように訓練できるようです。しかし、無害な（そして現在利用可能な）ネットワーク、たとえば自動車の運転に使用されるネットワークであっても、自動車所有者の敵になる可能性があります。これは、ニューラルネットワークが敵対的サンプルと呼ばれる攻撃に対して非常に脆弱であるためです。

ニューラルネットワークでは、ネットワークが誤った値を出力する原因となる入力は敵対的サンプルと呼ばれます。これは例によって最もよく説明されます。まずは左の写真から始めましょう。いくつかのニューラルネットワークでは、この画像がパンダであると考えられる信頼度は 57.7% であり、パンダカテゴリとして分類される信頼度はすべてのカテゴリの中で最も高いため、ネットワークは「画像にはパンダが含まれている」という結論に達します。ただし、慎重に作成されたノイズをごく少量追加すると、次のような画像 (右) が得られます。人間にとっては、左側の画像とほとんど同じに見えますが、ネットワークは 99.3% の信頼度で、これが「テナガザル」として分類されると考えています。これは本当にクレイジーだ！

上記の画像は、Goodfellow ら著「Explaining and Harnessing Adversarial Examples」からの引用です。

では、敵対的サンプルはどのようにして暗殺を実行するのでしょうか?一時停止の標識を敵対的サンプル、つまり人間は一時停止の標識だとすぐに認識できるが、ニューラルネットワークは認識できないサンプルに置き換えることを想像してください。さて、この標識を交通量の多い交差点に設置するとします。自動運転車が交差点に近づくと、搭載されているニューラルネットワークが一時停止標識を認識できずに運転を続け、乗客が死亡する可能性がある（理論上）。

これは、敵対的事例がどのように害を及ぼすために使用されるかを示す、複雑でややセンセーショナルな多くの例のうちの 1 つにすぎません。たとえば、iPhone Xの「Face ID」ロック解除機能は、顔認識にニューラルネットワークに依存しているため、敵対的攻撃に対して脆弱です。敵対的な画像を作成することで、Face ID セキュリティ機能を回避することができます。他の生体認証セキュリティシステムも危険にさらされるでしょう。敵対的サンプルの使用により、違法または不適切なコンテンツがニューラルネットワークベースのコンテンツフィルターを回避する可能性があります。これらの敵対的サンプルの存在は、ディープラーニングモデルを含むシステムが実際には極めて高いセキュリティリスクを抱えていることを意味します。

敵対的サンプルを理解するには、それをニューラルネットワークに対する「幻覚」と考えることができます。幻覚が人間の脳を騙すのと同じように、敵対的事例もニューラルネットワークを騙すことができます。

上記のパンダ敵対的サンプルは、ターゲットを絞った例です。慎重に作成された少量のノイズが画像に追加され、ニューラルネットワークが画像を誤分類する原因となります。しかし、人間にとってはその画像は以前と同じように見えます。ニューラルネットワークを騙す入力を単に見つけようとする非ターゲットの例もあります。人間にとって、この入力はホワイトノイズのように見えるかもしれません。ただし、人間に似た入力を見つけることに制約がないため、この問題ははるかに簡単です。

ほぼすべてのニューラルネットワークで敵対的サンプルを見つけることができます。いわゆる「超人的な」能力を備えた最先端のモデルでさえ、この問題に多少悩まされています。実際、敵対的サンプルの作成は非常に簡単です。この記事では、その方法を説明します。独自の敵対的サンプルを生成するために必要なすべてのコードと資料は、この github にあります: https://github.com/dangeng/Simple_Adversarial_Examples

上の図は敵対的サンプルの効果を示している

MNIST における敵対的サンプル

このセクションのコードは、次のリンクにあります (ただし、この記事を読むためにコードをダウンロードする必要はありません)。https://github.com/dangeng/Simple_Adversarial_Examples

MNIST データセットでトレーニングされた通常のフィードフォワードニューラルネットワークを騙してみます。 MNIST は、次のような 28×28 ピクセルの手書き数字画像のデータセットです。

6つのMNIST画像を並べて表示

<<: 人工知能を活用して社会問題を解決する方法

>>: ファーウェイ、次世代スマート製品戦略と新+AIシリーズ製品を発表