人工知能に特化したAIハッカーが近々登場すると予想

最近、ある問題を発見しました:

映画でも現実でも、人工知能AIは人間を圧倒するような形で世間の前に現れることが多い。

映画では、T800 ロボットが裸で登場し、まず人間の集団を殴り倒し、服やバイク、サングラスを盗みます。ずっと「今見ているものをもう一度よく見てみろ」という感じのようです。

[[247027]]

現実には、人工知能は人間を圧倒するような形で人々の前に現れることが多い。

1997年、「ディープブルー」はチェスの名人カスパロを破った。2017年頃には、「アルファ碁」が世界トップクラスのチェスプレイヤー、イ・セドルと柯潔を破った。そのたびに、人間のプレイヤーに敗北を認めさせた。

（AIに支配される恐怖の3話連続）

[[247028]]

[[247029]]

[[247030]]

このように、「人工知能の発展の歴史」とは、簡単に言えば「人類が自ら発明したAIに一歩ずつ敗北してきた歴史」であり、実に言葉では言い表せない悲しみと喜びが入り混じったものなのです…

でもガチョウ！

話は変わりますが、今日は人間が AI をからかう面白い話をお話しします。

レッツロック！

画像認識は誰もが見たことがあるでしょう。これは AI 応用の最も人気のある分野の 1 つです。顔認識、物体認識、自動運転などで広く使用されています。

しかし実際には、2015年頃にはすでに「ディープニューラルネットワークは簡単に不正行為ができる」というタイトルの論文が発表されていました。

彼らは、画像認識システムを騙し、わずか数分で AI を騙すことができるトリックがあることを発見しました。

それはどうやってやるのですか?

これはパンダの横顔です。人間にはパンダに見えますし、画像認識AIもパンダと認識します。

研究者たちは、この画像内の特定のピクセルに、肉眼では見えない小さな変化を加えました。

（数式がわからなくても大丈夫です）

その後、人間にはまだパンダのように見えますが、AI は最大 99.3% の信頼度でそれをテナガザルであると識別します。

こうして、人間はAIを騙すことに成功したのです。

この原理に基づいて、さらに興味深い一連の実験を行った人がいました。

彼らは道路標識に芸術的な変更を加え、特定の場所に小さな紙片を貼り付け、いくつかの汚れを塗りつけました。

道路標識は毎日太陽や雨にさらされるので、汚れたり小さな広告が貼られていたりするのは当然のことであり、通行人が気にしないのが普通です。

しかし、こうした特別扱いのせいで、ある外国の自動運転車は愚か者になってしまった。

テスト結果によると、左側の 3 つの「停止」標識は AI によって「時速 60 マイル」と認識され、右端の「右折」標識は AI によって「停止」と認識されました。

当初、これは何らかの特殊な条件によって偶然引き起こされたバグだと思われていましたが、後に研究者らはこの問題が画像認識の分野ではよくあることだと発見しました。

実は、画像認識や音声認識など他の分野のAI応用でも同様の問題が発生しています。その時初めて、これはすべての機械学習に共通する問題であることが認識されました。

正直に言うと、この研究結果を初めて見たとき、私は非常に嬉しくて興奮しました。ついに人間が AI に反撃したのです。

しかし、落ち着いてよく考えてみると、この件は非常に恐ろしいことだと分かりました。

人間は AI の画像認識を騙すことができるので、悪者がこの方法を使って自動運転車をガードレールに衝突させることができるということではないでしょうか?

これは、次回逃亡者がジャッキー・チュンのコンサートに行くとき、顔認識を欺いて逮捕を逃れることができるということを意味しているのではないでしょうか?

この問題を理解するために、私は AI セキュリティの専門家である Dou 兄弟のことを思い出しました。

Dou Ge 氏は Baidu Security の上級セキュリティ研究者であり、近年 AI セキュリティの研究を行っています。

周知のとおり、百度は中国でいち早くAIに取り組み、多くの分野で関連アプリケーションを展開している。AIが騙される問題を抱えているなら、真っ先にその矢面に立たされるのは間違いなくAIだ。竇歌は百度でAIのセキュリティを研究しているので、その詳細を熟知しているに違いない。

そこである日の午後、私は竇兄を探しに後昌村へ行き、AI セキュリティの秘密を強引に教えてもらいました。

1. AIはなぜ愚か者になるのか？

竇兄さんは、機械学習の基本原理は実は難しくないと言っていました。

画像認識を例に挙げてみましょう。AI に猫と犬を認識させるということは、本質的には AI に「分類」（またはクラスタリング）をさせ、似たような動物をグループ化させるということです。

たとえば、機械学習モデルに赤いボールと緑のボールの束を区別するように要求された場合、モデルの分類器はテストを継続し、最終的に関数グラフ上に境界線を描いて赤いボールと緑のボールを完全に分離します。

猫と犬を区別するには、この線を見つけるだけです。

もちろん、実際のアプリケーションではこのような行が無数にあり、これよりもはるかに複雑です。この記事では、説明のために最も単純な例のみを使用します。

では、この記事の冒頭でやったように、AI を騙すにはどうすればいいのでしょうか?

分割線の近くの点を選択し、そのパラメータをわずかに変更して、関数グラフ上の分割線の反対側に移動するだけです。

このわずかな「ピクセルレベル」の変化は、写真に写っている場合、通常は肉眼では見えませんが、機械の判断結果は変わります。

このようにして、記事の冒頭にある欺瞞効果が達成されました。

研究者は、わずかな変更でAIの判断結果を変えることができるが、人間の感覚では区別できないこれらのデータサンプルを「敵対的サンプル」と呼んでいます。

それでもまだ理解できない場合は、もう少し簡単な例を挙げてみましょう。

まず、任意の 2 つのオブジェクト間には識別線が存在します。

王力宏です

武英兄弟です。

両者の間には明確な区別があります。

識別境界に近いサンプルは混同されやすく、「敵対的サンプル」が簡単に見つかるため、機械が区別することが困難になります。

Dou Ge 氏は、あるイメージの敵対的例を見つけるには、最小限の変更でそれを境界線の反対側に移動させる方法を見つけることが本質であると述べました。

つまり、この AI の安全性の問題は、「点から直線までの最短距離を求める」という中学校の数学の問題になります。

ダッジ：分かりましたか？

謝瑶：分かりました！

竇兄弟:よし、それでは課題を出します。今すぐ Alpha Go をハッキングしてみてください!

謝瑶：あー、これは…

Dou Ge 氏は、研究者が機械学習モデルの内部構造を事前に知っていれば、特定のアルゴリズムを使用して「敵対的サンプル」を生成できる、つまり「ホワイトボックス攻撃」ができると私に話しました。

研究者が入力データと出力データしか制御できず、AIモデル内部で何が起こっているのかを見ることができない場合、「敵対的サンプル」の構築はより困難になり、「ブラックボックス攻撃」が必要になります。

いわゆる「ブラックボックス攻撃」は、本質的には推測であり、盲目的な推測が継続されることです。

例えば、画像内の各ピクセルを1つずつ数回変更し、それが結果にどのような影響を与えるかを確認し、最終的にAIの判断結果を変更できるものを見つけます。

つまり、「ブラックボックス攻撃」にはある程度の運が必要です。

運が良ければ、1ピクセルを変更するだけでAIの判定結果が変わり、攻撃効果が得られることもあります。運が悪ければ、数か月スキャンしても「敵対サンプル」が見つからないこともあります。

明らかに、ホワイトボックス攻撃の成功率はブラックボックス攻撃よりもはるかに高いため、AI 開発者は、攻撃者が内部構造を知ることを防ぐために独自の AI モデルを保護する方がよいでしょう。

研究者たちはまた、興味深い状況を発見した。

「多くの AI モデルは同じファミリーの子孫であり、同じアルゴリズム/モデルのセットから派生しているため、それらの問題は実際には似ています。

モデル A に対処する場合は、ホワイトボックス攻撃を使用してモデル B の敵対的サンプルを見つけ、それをモデル A で直接使用するだけです。多くの場合、これは直接機能します。 ”

彼らはこの特性を「攻撃的な機動性」と呼んでいます。

敵対的サンプル攻撃は転送可能であるため、このタイプの攻撃は将来人工知能の分野で非常に一般的になるでしょう。

竇兄弟は言った、

「AIによる金融詐欺防止、AIによるポルノ画像の識別、AIによるスパムブロックなど、AIは現在幅広く活用されています。今後、ブラック業界がこのような攻撃手法を使った場合、AIでは金融詐欺の防止、スパムのブロック、ポルノ画像の識別などができなくなる可能性が高くなります。それを考えるとワクワクします。」

では、AI 開発者はどのようにしてこの種の攻撃を防御できるのでしょうか?

2. 「敵対的攻撃」を防ぐ方法

Dou Ge 氏は、攻撃を防御する方法は数多くあり、大まかに次の 3 つのカテゴリに分けられると述べています。

1. 敵対的トレーニング

敵対的トレーニングはやや粗雑です。開発者は、自分のモデルの「堅牢性」を向上させ、他者が自分のモデルを攻撃するのを防ぐために、まず自分のモデルを攻撃することができます。

彼らはさまざまな「敵対的攻撃」アルゴリズムを使用して事前にモデルを調整し、できるだけ多くの「敵対的サンプル」を見つけて、これらの敵対的サンプルをモデルに投入して特別なトレーニングを行います。

この方法でトレーニングされたモデルは、より「堅牢」になり、敵対的なサンプルを恐れなくなります。これは、人間の子供にワクチンを接種するのに少し似ています。

2. データ拡張

いわゆるデータ強化とは、トレーニング中にランダムなノイズとノイズポイントを追加することを指します。

これは、モデルをトレーニングするときにデータをモザイク化することと同等であり、AI モデルがあいまいな環境でトレーニングできるようにし、最終的に「数え切れないほどの映画を見た後、コード化された映画はコード化されていない映画よりも優れている」という状態に到達できるようにします。

当然ながら、AI モデルが眼鏡をかけていても物体を認識できるのであれば、ハッカーがピクセルを変更することを心配する必要はありません。

下の 4 つの絵のように、このようにぼやけていても認識できます。このような絵の場合、ピクセルを変更して混乱させるどころか、腕が切断されていても認識できます。

3. フィーチャー押し出し

いわゆる特徴圧縮は、数学における丸め処理として理解できます。

AI モデルが一部のデータを認識すると、小数点以下の乱れを避けるために手動でデータを丸めます。

この方法は前の方法と少し似ていますが、1 つはトレーニングプロセス中に発生し、もう 1 つは実行プロセス中に発生します。

ダッジは私にこう言いました。

この種の攻撃を研究するために、Baidu Security Lab は数年前に AdvBox と呼ばれる「敵対的サンプル攻撃および防御ツールキット」を社内で開発しました。

彼らは、Baidu 独自の AI システムのセキュリティテスト専用のツールキットに、主流の敵対的サンプル攻撃アルゴリズムと防御方法を多数パッケージ化しました。

今年、彼らはこのセキュリティ機能を世界中の AI 開発者やセキュリティ研究者と共有し、「世界最大のゲイ出会い系サイト」である AdvBox プロジェクトを Github でオープンソース化することを決定しました。

(興味のある方はオープンソースプロジェクトのアドレス: github.com/baidu/Advbox をご覧ください)

調べてみると、このプロジェクトは Baidu 独自の PadlePadle プラットフォームをサポートしているだけでなく、Google の TensorFlow などの他の主流のディープラーニングプラットフォームもサポートしていることがわかりました。

（AI技術に携わる学生なら知っておくべき）

このプロジェクトは、静止画像だけでなく、音声、テキスト、ビデオも攻撃できると主張しており、ホワイトボックス攻撃、ブラックボックス攻撃、さらには「物理的な攻撃」も同時にサポートしています。

記事の冒頭で触れた、道路標識に物を貼り付けてAIを騙すという行為は「物理的な攻撃」である。

一般的に言えば、物理的な攻撃を実行するのは実際にはかなり困難です。

攻撃者がホワイトボックス攻撃やブラックボックス攻撃を使用して敵対的なサンプルを見つけたとしても、現実世界でパターンを構築する際には、パターンの撮影角度、位置、光の強度、色の違いなどの要因の影響を受けることが多いためです。

Baidu Security のこのオープンソースプロジェクトは、「作成された敵対的サンプル画像は、拡大縮小、回転、歪み、明るさの変更を行った後でも AI を欺くことができ、物理的な攻撃の成功率が大幅に向上する」と主張しています。

（この子猫の画像は、AI を騙すために引き伸ばしたり拡大したりできます）

私の知る限り、Baidu SecurityはAdvBox以外にも今年7つの主要なセキュリティプロジェクトをオープンソース化し、「Baidu AI Security Stack」と名付けました。これについてはShi Zhong氏の以前の記事「AIワールドでのサバイバルガイド」で具体的に書かれています。興味のある方は自分で学んでいただければと思いますので、ここでは詳しくは触れません。

レシピを紹介したところで、興味深いことをお話ししましょう。

3. 人間も「敵対的攻撃」に遭遇する

「敵対的サンプル」という概念は人工知能の分野から生まれたものですが、私たち人間は生活の中でこの種の認知バグに頻繁に遭遇します。

たとえば、この顔写真:

反応する時間が 1 秒しかない場合、正面の顔として認識する人もいれば、横顔として認識する人もいます。

冒頭で、赤いボールと緑のボールを例に、境界線を特定する問題を覚えていますか？

この図は人間の脳の認識の境界線上にあるため、認知バイアスが生じやすいのです。

このような例はたくさんあります...

例えば、この回転する女の子の写真では、私は彼女が時計回りに回転していると思うのですが、鍾歌は彼女が反時計回りに回転していると断言しています...

同じ写真に 2 つの回転方向が示される理由は、それが私たちの識別境界線上にあるためです。

実は、このアニメーション画像は本質的には絶えず変化する2Dの黒い影にすぎません。3D効果は頭の中で作り出されたものです。ある瞬間、どちらの足が前に出ているのか分からなくなり、方向判断が乱れてしまいます。

実際、同時に、以下のような簡単な行をいくつか追加するだけで、このような混乱を避けることができます。