Google DeepMind の最新研究: 敵対的攻撃は人間に対しても有効であり、人間も AI も花瓶を猫と間違える!

人間のニューラルネットワーク（脳）と人工ニューラルネットワーク（ANN）の関係は何ですか？

ある先生が、こんな例え話をしてくれました。「ネズミとミッキーマウスの関係に似ている」

実際のニューラルネットワークは強力ですが、人間とはまったく異なる方法で認識、学習、理解します。

たとえば、ANN は人間の知覚には通常見られない脆弱性を示し、敵対的な摂動の影響を受けやすくなります。

画像の場合、数ピクセルの値を変更したり、ノイズデータを追加したりするだけで済む場合があります。

人間の観点からは違いはありませんが、画像分類ネットワークでは完全に無関係なカテゴリとして識別されます。

しかし、Google DeepMind の最新の研究によると、これまでの見方は間違っている可能性があることがわかりました。

デジタル画像の微妙な変化でも人間の知覚に影響を与える可能性があります。

言い換えれば、人間の判断もそのような敵対的な摂動によって影響を受ける可能性があるのです。

論文アドレス: https://www.nature.com/articles/s41467-023-40499-0

Google DeepMind による記事が Nature Communications に掲載されました。

この論文では、制御された試験条件下では人間も同様の摂動に対して敏感さを示す可能性があるかどうかを検討しています。

研究者たちは一連の実験を通じてこれを実証した。

同時に、これは人間の視覚と機械の視覚の類似点も示しています。

敵対的な画像

敵対的画像とは、AI モデルが画像の内容を誤分類するように微妙に変更された画像のことです。この意図的な欺瞞は敵対的攻撃として知られています。

たとえば、AI モデルが花瓶を猫として分類したり、花瓶以外のものに分類したりするように攻撃を仕掛ける可能性があります。

上の図は敵対的攻撃のプロセスを示しています (中央のランダムな変動は、人間が観察しやすいように誇張されています)。

デジタル画像では、RGB 画像の各ピクセルは 0 ～ 255 (8 ビット深度) の値を持ち、その値は単一ピクセルの強度を表します。

敵対的攻撃の場合、非常に狭い範囲内でピクセル値を変更することで攻撃効果が得られる可能性があります。

現実の世界では、物理的なオブジェクトに対する敵対的攻撃が成功することも考えられます。たとえば、一時停止の標識を速度制限の標識と誤認させるような攻撃です。

そのため、セキュリティ上の理由から、研究者は敵対的な攻撃から防御し、そのリスクを軽減する方法を研究してきました。

人間の知覚に対する敵対的影響

これまでの研究では、明確な形状の手がかりとなる大きな画像の変化に対して人々が敏感である可能性があることが示されています。

しかし、より微妙な敵対的攻撃は人間にどのような影響を及ぼすのでしょうか?人々は画像内の乱れを無害なランダムな画像ノイズとして認識するのでしょうか、そしてそれは人間の知覚に影響を与えるのでしょうか?

それを調べるために、研究者たちは制御された行動実験を行った。

まず、一連のオリジナル画像を取得し、各画像に対して 2 回の敵対的攻撃を実行して、複数の撹乱画像のペアを生成します。

以下のアニメーションの例では、元の画像はモデルによって花瓶として分類されました。

敵対的攻撃により、モデルは 2 つの撹乱された画像を高い信頼度で「猫」と「トラック」として誤分類しました。

次に、人間の参加者に 2 つの画像を見せて、「どちらの画像がより猫に似ているか」という質問をしました。

どちらの写真も猫には見えなかったが、彼らは選択を迫られた。

多くの場合、被験者は自分の選択をランダムに行なったと信じていますが、本当にそうでしょうか?

脳が微妙な敵対的攻撃に鈍感であれば、被験者は各画像を 50% の確率で選択することになります。

しかし、実験により、選択率（つまり、人間の知覚バイアス）は偶然（50%）よりも大幅に高く、実際には画像ピクセルの調整は非常に小さいことがわかりました。

参加者の視点から見ると、ほぼ同一の 2 つの画像を区別するように求められているように感じられました。しかし、これまでの研究では、人々は選択をする際に、たとえその手がかりが自信や認識を示すには弱すぎる場合でも、弱い知覚的手がかりを使用していることが示されています。

この例では、私たちは花瓶を見ているかもしれませんが、脳の何らかの活動により、花瓶には猫の影があることが分かります。

上の図は敵対的画像のペアを示しています。上の画像のペアは、最大 2 ピクセル微妙に乱れており、ニューラルネットワークがそれぞれ「トラック」と「猫」と誤分類する原因となっていました。（ボランティアの人たちに「どちらが猫に似ていると思いますか？」と質問しました）

以下の画像のペアには、最大振幅が 16 ピクセルというより明らかな変動があり、ニューラルネットワークによって誤って「椅子」と「羊」として分類されています。（今回の質問は「どちらが羊に似ているか？」）

各実験において、参加者は半分以上の確率で、対象の質問に対応する敵対的画像を確実に選択しました。人間の視覚は機械の視覚ほど敵対的な摂動の影響を受けにくいものの、それでもこれらの摂動によって人間は機械による決定に偏ってしまう可能性があります。

人間の認識が敵対的な画像によって影響を受ける可能性がある場合、これは新たな、しかし重大なセキュリティ問題となるでしょう。

そのためには、人工知能視覚システムの動作と人間の知覚の類似点と相違点を調査し、より安全な人工知能システムを構築するための徹底的な研究を行う必要があります。

論文の詳細

敵対的摂動を生成するための標準的な手順は、RGB 画像を固定されたクラスのセットにわたる確率分布にマッピングする、事前トレーニング済みの ANN 分類器から始まります。

特定のピクセルの赤の強度を上げるなど、画像に変更を加えると、出力確率分布にわずかな変化が生じます。

敵対的画像は、ANN が正しいクラスへの割り当ての確率を下げる (非標的型攻撃) か、指定された代替クラスに高い確率を割り当てる (標的型攻撃) 原因となる元の画像の変動を検索 (勾配降下法) することによってトレーニングされます。

敵対的機械学習の文献では、摂動が元の画像から大きく逸脱しないようにするために、L(∞)ノルム制約がよく適用され、どのピクセルも元の値から±εを超えて逸脱できないことを指定します。ここで、εは通常、[0–255]ピクセル強度範囲よりもはるかに小さくなります。

この制約は、各 RGB カラープレーンのピクセルに適用されます。この制限により、個人が画像の変化を検出することが妨げられることはありませんが、ε を適切に選択すると、元の画像のクラスを示す主な信号は、変化した画像でもほとんどそのまま残ります。

実験

最初の実験では、著者らは、短く不明瞭な敵対的画像に対する人間の分類反応を研究した。

この実験は、露出時間を制限して分類エラーを増やすことで、分類の決定に影響を与えない可能性のある刺激の側面に対する個人の感受性を高めるように設計されました。

敵対的摂動は真のカテゴリ T の画像に適用され、ANN が画像を A と誤分類する傾向があるように摂動が最適化されます。参加者はTとAの間で強制的に選択するよう求められました。

研究者らは、条件Aで得られた敵対的に撹乱された画像をトップダウンで反転して形成されたコントロール画像でも参加者をテストした。

この単純な変換により、敵対的摂動と画像間のピクセル間の対応が破壊され、摂動の標準やその他の統計を保持しながら、ANN に対する敵対的摂動の影響が大幅に排除されます。

結果は、参加者がコントロール画像よりも摂動画像をカテゴリー A に属すると判断する可能性が高いことを示しました。

上記の実験 1 では、元の画像カテゴリ (主信号) が応答に与える影響を制限するために、短いマスクされたプレゼンテーションを使用し、敵対的な摂動 (従属信号) に対する感受性を明らかにしました。

研究者らは、同じ目的を持ちながらも、大規模な摂動や限定的な露出での観察の必要性を回避した3つの追加実験を設計した。

これらの実験では、画像内の主要な信号は応答選択を体系的に導くことができず、従属信号の影響が現れました。

各試験では、ほぼ同一のマスクされていない刺激のペアが提示され、応答が選択されるまで表示されたままでした。この刺激のペアには同じ支配的な信号があり、両方とも同じ基礎画像の変調ですが、従属的な信号は異なります。参加者は、対象カテゴリーのインスタンスに最も近い画像を選択するように求められました。

実験 2 では、両方の刺激がクラス T に属する画像でした。そのうちの 1 つは変化し、ANN はそれをクラス T に似ていると予測しましたが、もう 1 つは変化し、クラス T に似ていないと予測しました。

実験3では、刺激は真のカテゴリーTに属する画像であり、そのうちの1つはANNの分類をターゲットの敵対的カテゴリーAに変更するように摂動され、もう1つは同じ摂動を使用しましたが、コントロール条件として左右反転されました。

この制御の効果は、摂動の基準やその他の統計値を保持することですが、画像の左側と右側は、画像の上部と下部よりも類似した統計値を持つ可能性が高いため、実験 1 の制御よりも保守的になります。

実験 4 の画像のペアも、真のカテゴリ T の変調であり、1 つはカテゴリ A に似たものになり、もう 1 つは 3 番目のカテゴリに似たものになります。試験では、参加者は交互に、A に近い画像、または 3 番目のカテゴリに近い画像を選択するよう求められました。

実験 2 ～ 4 では、各画像に対する人間の知覚バイアスは、ANN のバイアスと有意に正の相関関係にあります。摂動の範囲は 2 から 16 で、これは人間を被験者とした以前の研究で使用された摂動よりも小さく、敵対的機械学習の研究で使用された摂動に似ています。

驚くべきことに、2 ピクセルの強度レベルの変動でさえ、人間の知覚に確実に影響を与えるのに十分です。

実験 2 の利点は、参加者に直感的な判断 (例: 2 つの乱された猫の画像のうちどちらがより猫のように見えるか) を要求することです。

しかし、実験 2 では、敵対的摂動によって、画像を鮮明にしたりぼかしたりするだけで、画像を多かれ少なかれ猫らしくすることができます。

実験 3 の利点は、摂動の最大振幅だけでなく、比較される摂動のすべての統計が一致していることです。

ただし、変動統計を一致させても、変動が画像に追加されたときに同じように認識されることは保証されないため、参加者は画像の歪みに基づいて選択を行った可能性があります。

実験 4 の強みは、同じ画像のペアが提示された質問に応じて体系的に異なる反応を生み出したことから、参加者が質問に対して敏感であったことを示していることです。

しかし、実験 4 では、参加者に一見不合理な質問 (たとえば、2 つのオムレツの画像のうちどちらが猫に似ているか) に答えるように求めたため、質問の解釈にばらつきが生じました。

要約すると、実験 2 ～ 4 は、摂動の振幅が非常に小さく、視聴時間が制限されていない場合でも、AI ネットワークに強い影響を与える従属的な敵対信号が人間の知覚と判断に同じ方向に影響を与える可能性があるという収束的な証拠を示しています。

さらに、観察時間（自然な知覚のコンテキスト）を延長することが、敵対的摂動に実際的な結果をもたらす鍵となります。

<<: 1枚の写真を2分で3Dに変換します。テクスチャ品質とマルチビューの一貫性：新しいSOTA｜北京大学が制作

>>:

Google DeepMind の最新研究: 敵対的攻撃は人間に対しても有効であり、人間も AI も花瓶を猫と間違える!

敵対的な画像

人間の知覚に対する敵対的影響

論文の詳細

実験

ビジネスリーダーがAIを導入する際に指針となる5つの基本原則

iSoftStoneはインテリジェントな顧客サービス市場に参入し、専門性と専門知識で地位を確立しました。

ChatGPT は IT ネットワークエンジニアの代わりになるのでしょうか?

人工知能が新たな領域を切り開く：バーチャルクリエイターの背後にある戦い

人工知能が伝統的な物理学に革命を起こす

Tech Neo 11月号: コンテナプラットフォーム管理の実践

モデルA: おかげさまで0点にならずに済みました。モデルB: 私も同じです。

Swin TransformerとDCNの融合、変形可能なアテンションTransformerモデルはほとんどのViTを上回る

推薦する

AIの未来: データだけでは不十分

ディープラーニング可視化ツールの包括的なレビュー（リソース付き）

「本物の人間かどうか」を検証、AIが人間を攻撃！ GPT-4は99.8%の精度でチューリングテストに合格し、オンラインで助けを求めた。

未来の戦争：AI を搭載した米空軍の偵察機はすでに飛行している...

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

EasyDLは、臨床試験データの敵対的学習と複数のアルゴリズムの比較を簡単に処理します。

自動運転企業のほとんどは失敗する運命にある

サイバーセキュリティの専門家が知っておくべきAI用語

GPUパフォーマンスを最大化

平昌オリンピックに向けたパイロットプロジェクトとして5Gバスとドローンがデビュー

すべてのピクセルに教師なしラベル付け！ 1時間のビデオに800時間を費やす必要はもうありません

AIGC: 将来は誰が支払うのでしょうか?

Amazon のニューラルネットワークに関する書籍トップ 10