敵対的攻撃の概念は、Goodfellowら[6]によって初めて提唱されました。近年、この問題はますます多くの研究者の注目を集めており、敵対的攻撃の手法はアルゴリズム分野から物理世界へと徐々に移行し、物理的な敵対的攻撃の出現につながっています。文献[1]では、マスキング法を用いて敵対的撹乱を狭い領域に集中させ、実際の交通標識に落書きをして物理的な攻撃を行うことを初めて提案した。ノイズベースの敵対的攻撃と比較すると、物理的な攻撃は攻撃の難易度を低下させ、ディープラーニング技術の実用性と信頼性をさらに損ないます。 ディープラーニング システムがコンピューター ビジョンや音声などのマルチメディア タスクで非常に優れた結果を達成し、一部のアプリケーション シナリオでは人間に匹敵するパフォーマンスを達成していることは誰もが知っています。これらの成功した研究基盤に基づいて、ますます多くのディープラーニング システムが、自動車、ドローン、ロボットなどの物理システムの制御に応用されています。しかし、物理的な攻撃方法の出現により、視覚や音声などのマルチメディア情報入力の改ざんによりシステムが誤動作し、深刻な結果を招く可能性があります。この論文では、マルチメディア分野におけるディープラーニングシステムに対する物理的な攻撃の問題に焦点を当てています。 [1]で示された視野に対する攻撃を例にとると、入力データに特定の摂動を注入することで、敵対的攻撃はディープラーニングシステムの認識結果を誤らせる可能性があります。物理的な攻撃方法を通じて、敵対的な摂動を小さな領域に集中させ、実際のオブジェクトに付着させることができ、物理世界におけるディープラーニング認識システムを簡単に脅かす可能性があります。図 1 は、物理的な攻撃への対応の実際的な例を示しています。図 1 の左側の画像は、交通標識検出のための物理的な敵対的例を示しています。元の一時停止標識に敵対的パッチが追加されると、交通標識検出システムは誤って速度制限標識の認識結果を出力してしまいます。図 1 の右図は、交通標識に対する敵対的攻撃の自己検証プロセスを示しています。各入力画像について、CNN 推論の後、検証段階で重要な活性化ソース (緑色の円) が特定され、予測結果 (右の円) に基づいて入力セマンティクスと予想されるセマンティクス パターン間の不一致が計算されます。不一致が事前に決められたしきい値を超えると、CNN はデータ回復プロセスを実行して入力画像を復元します。このプロセスについては後ほど詳しく説明します。 攻撃? ">図1. 交通標識に対する物理的な敵対的攻撃 [2] 図 2 は、典型的な音声認識プロセスとそれに対応する物理的な敵対的攻撃を示しています。まず、オーディオ波形のメル周波数セプトラ係数 (MFCC) 特徴が抽出されます。次に、CNN を使用して音響特徴認識を実現し、候補音素を取得します。最後に、語彙と言語モデルが適用され、「open」という認識結果が得られます。元の入力波形に敵対的ノイズが注入されると、最終的な認識結果が「近い」と誤解される可能性があります。 攻撃? ">図2. 音声認識と物理的な敵対的攻撃のプロセス この記事では、最近の 3 つの論文を組み合わせて、視覚や音声などのコンピューター ビジョンの分野における物理的な攻撃と検出方法について説明します。まず、CVPR 2018 で Kevin Eykholt らが発表した堅牢な物理攻撃の生成に関する研究を紹介します。この研究の主な目的は、観測カメラの距離と角度の大きな変化に高度に適応できる物理的な摂動攻撃を生成することです。次に、2 番目の論文では、画像および音声認識アプリケーションに対する物理的な敵対的攻撃に対する CNN 防御方法を提案します。最後に、3 番目の論文では、画像に対するローカルな物理攻撃、つまり「敵対パッチ」攻撃などの、敵対領域を画像の小さな部分に限定する問題に焦点を当てています。
1. 深層学習視覚分類タスクに対する堅牢な物理的攻撃 [1] 攻撃? ">この記事では、コンピューター ビジョン タスクのディープラーニング手法に対して堅牢な物理攻撃を実行する方法に焦点を当て、攻撃の観点から分析します。著者らは、道路標識の分類を研究対象分野として具体的に選択しました。 堅牢な物理攻撃を生成する上での主な課題は、環境の変動性です。本稿で選択した応用分野では、動的な環境変化とは具体的には観測カメラの距離と角度を指します。さらに、物理的な攻撃を生成する上での実際的な課題は他にもあります。(1)デジタル世界における摂動の振幅は非常に小さい可能性があり、センサーの不完全性のためにカメラがそれを認識できない可能性があります。 (2)現実の物体は視点によって背景が異なる可能性があるため、背景を変更できる堅牢な攻撃を構築することは非常に困難である。 (3)攻撃を作成するための具体的なプロセス(妨害の印刷など)が不完全である。上記の課題に着想を得て、本論文では、観測カメラの距離と角度の幅広い変化に対して堅牢な摂動を生成できる手法である、堅牢な物理的摂動 (RP2) を提案します。この論文の目的は、さまざまな物理的条件下で撮影された画像であっても分類器を誤導して誤った予測を行わせることができるような、現実世界の物体に対する強い物理的摂動を作り出すことが可能かどうかを攻撃の観点から調査することです。 1.1 物理世界からの課題 オブジェクトに対する物理的な攻撃は、変化する状況に耐え、分類器を効果的に欺くことができなければなりません。本稿では、選択された道路標識の分類の例を中心に、これらの条件について具体的に説明します。私たちの研究結果は、自動運転車やその他の安全性が重視される分野に応用できる可能性がある一方、本論文で分析した条件の一部は、ドローンやロボットなど、他の種類の物理的学習システムにも適用できる可能性があります。 ディープラーニング分類器に対する物理的な攻撃を成功させるには、攻撃者は、摂動の有効性を低下させる可能性のある物理世界における次のカテゴリの変更を考慮する必要があります。 環境条件。自動運転車のカメラと道路標識の間の距離と角度は常に変化しています。分類器に送られる取得画像は、さまざまな距離と角度で撮影されます。したがって、攻撃者がランドマークに加えるあらゆる摂動は、画像のこれらの変換に対して堅牢でなければなりません。角度と距離に加えて、その他の環境要因には、照明/気象条件の変化、カメラや道路標識上のゴミの存在などがあります。 スペース制限。デジタル画像に焦点を当てた現在のアルゴリズムは、背景画像を含む画像のすべての部分に敵対的な摂動を加えます。ただし、物理的な道路標識の場合、攻撃者は背景画像を操作することはできません。さらに、背景画像はカメラを見る距離や角度に応じて変化するため、攻撃者は背景画像が固定されているとは期待できません。 知覚不可能性の物理的な限界。現在の敵対的ディープラーニング アルゴリズムの利点の 1 つは、デジタル画像に生じる変化が非常に小さいため、人間の観察者にはほとんど気づかれないことです。しかし、このような小さな変動を現実世界に転送する場合、カメラがこれらの変動を認識できることを確認する必要があります。したがって、どのような摂動が感知できないかには物理的な限界があり、これは感知ハードウェアに依存します。 製造上の誤り。計算された摂動を実際に生成するには、すべての摂動値が現実世界で再現可能でなければなりません。さらに、プリンターなどの製造装置が特定の色を生成したとしても、再現エラーが発生します。 1.2 堅牢な物理的摂動の生成 まず、他の物理的条件を考慮せずに単一画像の摂動を生成するための最適化手法を分析し、次に、前述の物理世界の課題がある場合に堅牢な物理的摂動を生成するためのアルゴリズムを改善する方法を検討します。 単一画像最適化問題は次のように定式化される:入力xに摂動δを加えて、摂動インスタンスx'=x+δがターゲット分類器f_θ(·)によって誤分類されるようにする: 攻撃? ">ここで、H は選択された距離関数であり、y* はターゲット カテゴリです。上記の制約付き最適化問題を効果的に解決するために、著者はラグランジュ緩和形式を使用して上記の式を言い換えます。 攻撃? ">このうち、J(·,·)は損失関数であり、モデルの予測とターゲットカテゴリラベルy*の差を測定するために使用されます。 λ は歪みの正規化レベルを制御するハイパーパラメータです。著者らは距離関数 H を ||δ||_p と特徴付けており、これは δ の Lp ノルムです。 次に、著者らは、物理的環境条件の影響を考慮して目的関数を変更する方法について具体的に議論します。まず、物理的変換とデジタル変換の下でのターゲットオブジェクトoを含む画像の分布がX^Vでモデル化されます。 X^Vから異なるインスタンスx_iを抽出します。物理的な摂動は、x_i 内の特定のオブジェクト o にのみ追加できます。具体的には、道路標識分類タスクでは、制御する予定のオブジェクトは一時停止標識です。 変化する物理的条件の影響をより適切に捉えるために、物理的条件の現実的な変動と合成変換を含む実験データを生成することにより、X^V からインスタンス x_i をサンプリングします。図 3 は、道路標識を例にしたロバスト物理的摂動 (RP2) プロセスの例を示しています。 攻撃? ">図3. RP2の例。対象の一時停止標識を入力します。 RP2 は、物理的なダイナミクス (この場合は、さまざまな距離と角度) を模倣した分布からサンプリングし、マスクを使用して計算された摂動を落書きのような形状に投影します。攻撃者は生成された摂動を印刷し、対象の一時停止標識に貼り付けます。 本稿で論じる道路標識の物理的条件には、距離、角度、照明を変えるなど、さまざまな条件下で道路標識の画像を撮影することが含まれます。合成変換では、画像内のオブジェクトをランダムに切り取り、明るさを変更し、空間変換を追加して、他の可能性のある条件をシミュレートします。摂動が対象物体の表面領域 o にのみ適用されるようにするために(空間的制約と不可知論に対する物理的制限を考慮して)、著者らはマスクを導入しています。このマスクの目的は、計算された摂動をオブジェクトの表面上の物理的な領域(道路標識など)に投影することです。マスクは、空間的な位置特定を可能にするだけでなく、人間の観察者には見えても明らかではない変動を生成するのにも役立ちます。これを実現するために、攻撃者はマスクを落書きに似せることができる。落書きは路上でよく見られる破壊行為の一種だ。正式には、摂動マスクは行列 M_x として表され、そのサイズはランドマーク分類器の入力サイズと同じです。 M_x は、外乱が追加されていない領域では「0」、最適化中に外乱が追加された領域では「1」になります。著者らは、実験中にマスクの位置が攻撃の有効性に影響を与えることを発見したと述べている。したがって、著者らは、物体の物理的特徴は分類の観点からは強くなったり弱くなったりする可能性があり、したがって、攻撃が弱い場所にマスクを配置できると仮定しています。具体的には、著者らは以下の方法を使用してマスクの位置を検出します。 (1)摂動はL1正則化と道路標識の表面積全体を占めるマスクを使用して計算される。 L1 により、オプティマイザーはスパース摂動ベクトルを優先し、最も脆弱な領域に摂動を集中させます。結果として生じる変動を視覚化して、マスクの配置に関するガイドを提供します。 (2)L2を使用して摂動を再計算し、前のステップで特定された脆弱な領域の上にマスクを配置する。 実際のアプリケーションでは製造エラーが存在することを考慮して、著者らは目的関数に追加の項を加え、プリンターの色再現エラーをシミュレートしました。印刷可能な色のセット(RGBトリプレット)Pと、物理世界で印刷する必要がある摂動で使用される(一意の)RGBトリプレットR(δ)のセットが与えられた場合、非印刷可能性スコア(NPS)は次の式を使用して計算されます。 攻撃? ">上記の議論に基づいて、本論文の最終的なロバストな空間制約摂動最適化は次のようになります。 攻撃? ">ここでは、オブジェクト上の変換を摂動の変換にマッピングするアライメント関数を表す関数 Ti() を使用します。 最後に、攻撃者は最適化の結果を出力し、摂動(M_x)を切り取って、ターゲットオブジェクトoに配置します。 1.3 実験分析 道路標識の分類用に 2 つの分類器が構築され、標準的な切り取り、サイズ変更、分類のタスク フローが実行されました。最初の分類器 LISA-CNN に対応する実験的なトレーニング画像は、47 種類の道路標識を含む米国の交通標識データセットである LISA から取得されます。ただし、このデータセットはバランスが取れておらず、異なる標識の表現に大きな違いが生じます。この問題に対処するために、著者らはトレーニングインスタンスの数に基づいて最も一般的な 17 の標識を選択しました。実験で使用されたディープラーニング LISA-CNN のアーキテクチャは、3 つの畳み込み層と 1 つの FC 層で構成されています。テストセットでは 91% の精度があります。 2 番目の分類器は GTSRB-CNN であり、これはドイツの交通標識認識ベンチマーク (GTSRB) に基づいてトレーニングされています。ディープラーニングのアプローチでは、道路標識の認識に優れたパフォーマンスを発揮する、公開されているマルチスケール CNN アーキテクチャを使用しました。著者らは実際の実験でドイツの一時停止標識を入手できなかったため、GTSRBのトレーニング、検証、テストセットでドイツの一時停止標識をLISAのアメリカの一時停止標識画像に置き換えました。 GTSRB-CNN はテスト セットで 95.7% の精度を達成しました。 GTSRB-CNN を著者らが作成した 181 枚の一時停止標識画像で評価したところ、99.4% の精度を達成しました。 著者は、自分の知る限り、物理的な敵対的摂動を評価するための標準化された方法は現在のところ存在しないと述べています。この実験では、角度と距離の要因がこの記事で選択したユースケースで最も急速に変化する要素であるため、著者は主にこれらの要因を考慮します。標識に近づく車両に搭載されたカメラが、一定の間隔で一連の画像を撮影します。これらの画像はさまざまな角度と距離で撮影されるため、特定の画像の詳細の量が異なる場合があります。車両はコントローラーのアクションを発行する前にビデオ内の一連のフレーム (画像) に基づいて投票する可能性があるため、物理的な摂動が成功すると、さまざまな距離と角度にわたって対象を絞った誤分類を誘発できる必要があります。この実験では周囲の光は明示的に制御されておらず、実験データからは屋内照明から屋外照明まで照明が変化することがわかります。本論文の実験設計では、物理科学の標準的な手法を参考にして、制御された実験室テストと現場テストからなる 2 段階の評価に上記の物理的要因を含めました。 静的(実験室)テスト。主に、静的な固定位置から物体の画像を分類します。 1. さまざまな距離と角度でのクリーンな画像のセット C と敵対的摂動画像のセットを取得します。距離 d と角度 g から撮影された画像を表すには、c^(d,g) を使用します。カメラの垂直の高さはほぼ一定に保たれます。車が曲がったり、車線を変えたり、カーブした道路を走行したりすると、標識に対するカメラの角度が変化することがよくあります。 2. 物理的妨害の攻撃成功率を計算するには、次の式を使用します。 攻撃? ">ここで、d と g はカメラの距離と画像の角度を表し、y は実際の値、y はターゲットの攻撃カテゴリを表します。 誤分類を引き起こす画像 A(c) は、同じカメラ距離と角度を持つ元の画像 c を正しく分類できる場合にのみ成功した攻撃とみなされることに注意してください。これにより、誤分類が追加された摂動によって引き起こされたものであり、他の要因によって引き起こされたものではないことが保証されます。 ドライブバイ(フィールド)テスト。著者らは移動するプラットフォームにカメラを設置し、実際の運転速度でデータを取得した。本論文の実験では、自動車に搭載されたスマートフォンのカメラを使用しました。 1. 標識から約 250 フィート離れたところからビデオの録画を開始します。実験の走行路は直線で、カーブはありませんでした。通常の運転速度で標識に向かって運転し、車両が標識を通過したら録画を停止します。実験中、速度は 0 mph から 20 mph の間で変化しました。これは、大都市の標識に近づく人間の運転手の状況をシミュレートします。 2. 上記のように「クリーン」なサインと妨害のあるサインを記録し、式を使用して攻撃成功率を計算します。ここで、C はサンプリングされたフレームを表します。 パフォーマンスの制限により、自律走行車はすべてのフレームを分類するのではなく、j フレームごとに分類してから単純な多数決を実行する場合があります。したがって、私たちが直面する問題は、フレーム (j) の選択が攻撃の精度に影響するかどうかを判断することです。この論文では、j = 10 が使用されています。さらに、著者らは j = 15 も試しました。著者らは、2つの値の間で攻撃成功率に大きな変化は見られなかったと述べています。著者らは、両方のタイプのテストで高い成功率が得られれば、自動車に共通する物理的条件下で攻撃が成功した可能性が高いと推論した。 1.3.1 LISA-CNNの実験結果 著者らは、LISA-CNN で 3 種類の敵対的サンプルを生成することによりアルゴリズムの有効性を評価しました (テスト セットでの精度は 91%)。表 1 は、実験で使用した静的攻撃画像のサンプル例を示しています。 攻撃? ">表1. LISA-CNNとGTSRB-CNNの物理的敵対的サンプルの例 オブジェクト制約のポスター印刷攻撃。当研究室ではKurakinら[4]が提案した攻撃手法を採用した。 2 つの攻撃方法の主な違いは、私たちの攻撃では、変動が背景を除いたロゴの表面領域に限定され、大きな角度や距離の変化に対して堅牢であることです。私たちの評価方法によれば、実験では画像の 100% で一時停止標識が攻撃の対象クラス (制限速度 45) として誤分類されました。操作された記号をターゲットクラスとして予測する平均信頼度は80.51%です(表2の2列目)。 ステッカー攻撃。著者らはまた、落書きや芸術的効果に似た領域に変更を制限することで、ステッカーの形で物理的な変動を生成することの有効性を実証しています。表 1 の 4 列目と 5 列目にはそのような画像のサンプルが示され、表 2 (4 列目と 6 列目) には実験の成功率と信頼度が示されています。静的な状態では、グラフィティステッカー攻撃は66.67%の方向性攻撃成功率を達成し、カモフラージュアート効果ステッカー攻撃は100%の方向性攻撃成功率を達成しました。 攻撃? ">表 2. ポスター印刷の一時停止標識 (マイクロ攻撃) と実際の一時停止標識 (偽装落書き攻撃、偽装アート効果攻撃) を使用した LISA-CNN に対する標的型物理的摂動の実験結果。各画像について、上位 2 つのラベルとそれに関連付けられた信頼度値が表示されます。誤分類の対象は制限速度45です。凡例: SL45 = 制限速度 45、STP = 停止、YLD = 譲歩、ADL = 追加車線、SA = 前方信号、LE = 車線終了 著者らは一時停止標識の乱れに関する運転テストも実施した。ベースライン テストでは、移動中の車両から一時停止標識を清掃する 2 つの連続したビデオが録画され、k = 10 でフレーム キャプチャされ、標識が切り取られました。この時点で、すべてのフレームの一時停止標識が正しく分類されます。 LISA-CNNの摂動もk=10でテストされます。私たちの攻撃は、ポスター攻撃では 100% のターゲット攻撃成功率を達成し、偽装された抽象芸術効果攻撃では 84.8% のターゲット攻撃成功率を達成しました。表3を参照してください。 攻撃? ">表3. LISA-CNNの運転テストの概要。ベースライン テストでは、すべてのフレームが正しく一時停止標識として分類されます。すべての攻撃ケースにおいて、摂動は表 2 と同じです。黄色のボックスは視覚的な手がかりとして手動で追加されました。 1.3.2 GTSRB-CNNの実験結果 提案された攻撃アルゴリズムの汎用性を実証するために、著者らは GTSRB-CNN の攻撃パフォーマンス (テスト セットで 95.7% の精度) を作成し、テストしました。表 1 の最後の列はサンプル画像です。表 4 は攻撃の結果を示しています。静止テスト条件の 80% において、提案された攻撃により、分類器は一時停止標識を速度制限 80 の標識であると確信します。私たちの評価方法に従って、ドライブ テスト (k=10、2 つの連続したビデオ録画) も実行したところ、攻撃は分類器を 87.5% の確率で騙すことに成功しました。 攻撃? ">表 4. GTSRB-CNN に対するカモフラージュ アートの効果攻撃。標的攻撃の成功率は80%(真のクラスラベル:停止、ターゲット:制限速度80) 1.3.3 Inception v3の実験結果 最後に、RP2 の一般性を実証するために、著者らは電子レンジとコーヒーカップという 2 つの異なるオブジェクトを使用して、標準の Inception-v3 分類器の物理的摂動を計算しました。著者らがステッカー攻撃法を選択したのは、ポスター攻撃法を使用してオブジェクトにまったく新しい表面を印刷すると、疑いが生じやすいためです。カップや電子レンジのサイズは道路標識よりも小さいため、著者らは使用する距離の範囲を縮小しました(例:コーヒーカップの高さ - 11.2 cm、電子レンジの高さ - 24 cm、右折標識の高さ - 45 cm、一時停止標識 - 76 cm)。表5は電子レンジへの攻撃結果を示し、表6はコーヒーカップへの攻撃結果を示します。電子レンジの場合、標的型攻撃の成功率は 90% です。コーヒーカップの場合、標的型攻撃の成功率は 71.4%、非標的型攻撃の成功率は 100% でした。 攻撃? ">表5. Inception-v3分類器に対するステッカー摂動攻撃。本来の分類はマイクロ波、攻撃対象は電話 攻撃? ">表 6. Inception-v3 分類器に対するステッカー摂動攻撃。元の分類はコーヒーカップ、攻撃対象はATM 1.3.4 議論 ブラックボックス攻撃。ターゲット分類器のネットワーク構造とモデルの重みにアクセスできるため、RP2 は分類器を欺くためにさまざまな強力な物理的摂動を生成できます。 RP2 のようなホワイト ボックス攻撃を研究することで、最強の攻撃者モデルを使用して攻撃を成功させるための要件を分析し、将来の防御をより適切に導くことができます。ブラックボックス設定で RP2 を評価することは未解決の問題です。 画像の切り取りと攻撃性検出器。 RP2 を評価する際、著者らは分類前に各画像の切り抜きを手動で制御しました。これは、敵対的画像が RP2 に提供されたクリーンなロゴ画像と一致するように行われます。次に著者らは、疑似ランダムな切り抜きを使用してカモフラージュ アート攻撃を評価し、少なくともロゴの大部分が画像内に含まれるようにします。 LISA-CNN の場合、平均標的型攻撃率は 70%、非標的型攻撃率は 90% です。 GTSRB-CNN の場合、平均標的型攻撃率は 60%、非標的型攻撃率は 100% です。著者らは、分類器が正しい交通標識ラベルを出力しないようにすることは依然として安全上のリスクであるため、実験では非標的型攻撃の成功率を考慮しています。画像の切り抜きは標的型攻撃の成功率に一定の影響を与えますが、著者らの他の研究結果によると、RP2の改良版は物体検出器を攻撃することができ、その場合には切り抜きは不要であることが示されています[5]。 2. LanCe: 組み込みマルチメディアアプリケーションに対する物理的な敵対的攻撃に対する包括的かつ軽量なCNN防御アプローチ [2] 攻撃? ">前回の記事では「攻撃」に焦点を当てましたが、今回は「防御」に焦点を当てます。この論文では、さまざまな物理的な敵対的攻撃に対処するための包括的かつ軽量な CNN 防御方法である LanCe を提案します。著者らは、CNN の脆弱性を分析して実証することで、CNN の意思決定プロセスには必要な *定性的意味論の識別能力* が欠けていることを明らかにしました。入力内の非意味論的パターンは CNN を大幅に活性化し、入力内の他の意味論的パターンを圧倒する可能性があります。ここで、意味論的パターンとは、文の構成要素間の意味的関係を表す抽象的な形式を指しますが、非意味論的パターンとは、意味的関係情報をまったく含まない抽象的な形式を指します。著者らは、敵対的攻撃の特徴の不一致を利用して、CNN の認識プロセスを改善するために自己検証段階を追加しました。図 1 をもう一度見てみると、各入力画像について、CNN 推論の後、検証段階で重要な活性化ソース (緑色の円) が特定され、予測結果に基づいて入力セマンティクスと予想されるセマンティクス パターン間の不一致が計算されます (右の円)。不一致値が事前に決められたしきい値を超えると、CNN はデータ回復プロセスを実行して入力画像を復元します。私たちの防御アプローチには最小限の計算コンポーネントが含まれており、CNN ベースの画像および音声認識シナリオに拡張できます。 2.1 敵対的攻撃の分析と防御の説明 2.1.1 CNNの脆弱性の解釈 説明と仮定。一般的な画像または音声認識プロセスでは、CNN が生の入力データから特徴を抽出し、予測を行います。しかし、物理的な敵対的摂動が元のデータに注入されると、CNN は誤った予測を行うように誘導されます。この脆弱性をよりわかりやすく説明するために、著者は典型的なイメージの物理的な敵対的攻撃である敵対的パッチ攻撃を例として分析します。 図 1 では、元の入力と比較すると、敵対的パッチには通常、色や形などに関して制限的な制約がないことがわかります。このようなパッチは、多くの場合、意味構造を犠牲にし、他の入力様式の活性化を圧倒する顕著に異常な活性化につながります。したがって、著者らは次のような仮説を提唱している。CNNは質的な意味的識別能力を欠いており、CNN 推論中に非意味的な敵対的パッチによって活性化される可能性がある。 仮説検定。上記の仮説によれば、非意味的入力パターンは異常な活性化を引き起こし、意味的入力パターンは正常な活性化を生み出します。著者らは、CNN 内の各ニューロンのセマンティクスを調査することでこの違いを評価し、視覚的な *CNN セマンティクス分析手法 - Activation Maximization Visualization* (AM) を導入することを提案しています。 AM は、各ニューロンの最もアクティブな意味入力を視覚化するパターンを生成できます。パターンV((N_i)^l)の生成プロセスは、l番目の層のi番目のニューロン(N_i)^lの活性化を最大化するようにCNNモデルへの入力画像を合成するものと見ることができます。このプロセスは次のように特徴付けられます。 攻撃? ">このうち、(A_i)^l(X)は入力画像Xの(N_i)^lの活性化、(A_i)^lはl番目の層のi番目のニューロンに対応する活性化を表し、(N_i)^lはl番目の層のi番目のニューロン、ηは勾配降下ステップサイズです。 図 4 は、AM を使用した視覚化入力の意味パターンを示しています。元の AM 方式は意味解釈用に設計されているため、解釈可能な視覚化パターンを生成するには、多くの機能仕様と手作業で作成された自然画像参照が必要になります。したがって、図4(a)では、平均活性化振幅値が3.5である3つのAMパターンを得ることができます。これら 3 つのモードのオブジェクトは、明確なセマンティクスを持っていることを示します。しかし、AM中にこれらの意味仕様を削除すると、図4(b)に示すように、3つの異なる視覚化パターンが得られます。これら 3 つのパターンは意味的ではありませんが、平均振幅が 110 という明らかな異常な活性化があることがわかります。この現象は、*CNN ニューロンは意味的識別能力を欠いており、非意味的入力パターンによって大幅に活性化される可能性がある*という著者らの仮説を証明することができます。 攻撃? ">図4. ニューロンの活性化を最大化することでニューロンの入力パターンを視覚化する 2.1.2 入力セマンティクスと予測活性化の間の不一致の測定 矛盾の識別。攻撃検出のための入力における非意味的パターンを識別するために、自然な画像認識と物理的な敵対的攻撃を比較することにより、CNN 推論中の影響を調べます。図 5 は、敵対的パッチに基づく典型的な物理攻撃を示しています。左側の円内のパターンは入力画像からの活性化の主なソースであり、右側のバーは最後の畳み込み層のニューロンの活性化です。入力パターンから、敵対的パッチと元の画像の主なアクティベーションソースとの間の大きな違いを特定します。これを「入力意味的不一致」と呼びます。予測される活性化の大きさの観点から、敵対的入力と元の入力の間には、予測活性化の不一致という別の違いが見られます。 攻撃? ">図5. 画像敵対的パッチ攻撃 矛盾の尺度の策定。著者らはさらに、上記 2 つの矛盾の程度を表す 2 つの指標を定義しています。 1)入力意味的不整合メトリック:このメトリックは、非意味的敵対的パッチと自然画像の意味的ローカル入力パターン間の入力意味的不整合を測定するために使用されます。具体的な定義は次のとおりです。 攻撃? ">このうち、P_pra と P_ori は、それぞれ敵対的入力と元の入力からの入力パターンを表します。 Φ:(A_i)^l(p)とΦ:(A_i)^l(o)は、それぞれ敵対的パッチと元の入力によって生成されたニューロン活性化のセットを表します。 R はニューロンの活性化を主要なローカル入力パターンにマッピングします。 S は類似度指数を表します。 2)予測活性化矛盾メトリック:2番目の不一致メトリックは、逆境入力と最後の畳み込み層の元の入力との間の活性化振幅分布の矛盾を測定するために使用される活性化レベルです。また、次のように測定するために同様のインジケーターを使用します。 攻撃? ">ここで、F_PRAとI_ORIは、それぞれ最後の畳み込み層の敵対的な入力と元の入力データによって生成される活性化の大きさ分布を表します。 上記の2つの矛盾測定で使用されている情報については、入力データから来るため、P_PRAとF_PRAを簡単に取得できます。ただし、自然な入力データの多様性により、P_ORIとF_ORIは簡単に入手できません。したがって、入力のセマンティックパターンとアクティベーションの大きさ分布を提供できる標準入力データを合成する必要があります。予測される各クラスの合成入力データは、標準のデータセットから取得でき、標準データセットの一定量をCNNにフィードすることにより、最後の畳み込み層の平均活性化振幅分布を記録できます。さらに、予測される各カテゴリのメイン入力のセマンティックパターンをローカライズできます。 2.1.3 CNNの自己検証とデータの回復に基づく身体的敵対攻撃防御 上記の2つの矛盾は、物理的な敵対的攻撃と自然なイメージ認識、つまり入力パターンと予測される活性化の違いを示しています。矛盾するメトリックを活用することにより、著者は、CNN決定プロセスにおける自己検証とデータの回復を含む防御方法を提案します。具体的には、メソッドフロー全体が次のように説明されています。 自己検証。 (1)最初に、入力項目は、予測されたカテゴリの結果を取得するためにCNN推論に入力されます。 (2)次に、CNNは実際の入力から主要な活性化源を見つけて、最後の畳み込み層の活性化を取得できます。 (3)次に、CNNは提案されたメトリックを使用して、実際の入力と予測されたカテゴリの合成データの間に2つの矛盾インジケーターを測定します。 (4)矛盾する指標が特定のしきい値を超えると、CNNは入力を敵対的な入力であると見なします。 データ回復。 (5)自己検証フェーズで物理的な敵対的攻撃が検出された後、攻撃された入力データを回復するためにデータ回復方法がさらに適用されます。具体的には、著者は画像の入力とアクティベーション除去方法を使用して、それぞれ入力画像とオーディオを復元します。 2.2画像に対する身体的敵対的攻撃に対する防御 2.2.1画像シーンの防御プロセス メインアクティベーションモードの位置付け。画像に対する身体的敵対的攻撃に対する防御は、主に入力パターンレベルでのセマンティックな矛盾に依存しています。したがって、著者は、CNN活性化視覚化法であるクラス活性化マッピング(CAM)を採用して、入力画像の主な活性化源を見つけました[8]。 A_K(x、y)が、空間位置(x、y)での最後の畳み込み層のkth活性化を示すとします。最後の畳み込み層の空間位置(x、y)のすべてのアクティベーションの合計を次のように計算できます。 攻撃? ">ここで、kは最後の畳み込み層の活性化の総数です。 A_T(x、y)の値が大きいほど、入力画像の対応する空間位置(x、y)のアクティベーション源は分類結果に対してより重要です。 一貫性のない派生。予備分析によると、入力敵対的なパッチには、自然入力のセマンティックパターンよりも多くの高周波情報が含まれています。したがって、著者は、図6に示すように、一連の変換を使用してこれらのパターンを変換します。 2D-FFTおよびバイナリ変換の後、敵対的な入力とセマンティックな合成入力の間に有意差を観察できます。 攻撃? ">図6。2次元高速フーリエ変換の結果 著者は、S(i_pra、i_ori)をJaccardの類似性係数(JSC)に置き換え、次の画像矛盾インデックスを提案しました。 攻撃? ">ここで、I_EXPは予測されたカテゴリを持つ合成セマンティックパターンであり、P_PRA∩P_ExpはP_PRAとP_EXPの両方が1に等しいピクセル値を持っているピクセルの数です。上記の矛盾の指標に基づいて、著者は、自己検証と画像回復という2つの段階を含む特定の防御方法を提案しました。プロセス全体を図7に示します。 攻撃? ">図7。敵対的なパッチ攻撃防御 検出の自己検証。自己検証段階では、CAMが適用され、各入力画像の最大モデルアクティベーションのソースを見つけます。次に、画像をトリミングして、最大の活性化でパターンを取得します。セマンティックテスト中、I_PRAとI_EXPの間の矛盾が計算されます。不一致のメトリックが事前定義されたしきい値を超えている場合、敵対的な入力が検出されると考えます。 画像データの回復。敵対的なパッチを検出した後、元の入力データからパッチを直接削除することにより、画像データの回復が実行されます。この場合、軽量の計算ワークロードを確保するために、著者は、イメージを塗りつぶし、攻撃効果を削除するために、シンプルで効果的な画像補間技術である最近隣接補間を活用しました。具体的には、敵対的なパッチの各ピクセルについて、ピクセルは周囲の8ピクセルの平均に置き換えられます。補間後、復元された画像は再び予測のためにCNNに返還されます。上記の手順を通じて、CNN推論中の物理的な敵対的攻撃から画像を保護できます。 2.3オーディオ物理的敵対攻撃に対する防御 不一致の推論:予測された活性化の矛盾を活用して、音声の物理的敵対的攻撃を検出すること、つまり、同じ予測クラスの実際の入力データと合成データの間の活性化振幅の分布における矛盾を測定するメトリックを活用します。著者は、ピアソン相関係数(PCC)を使用して、矛盾測定値を次のように定義します。 攻撃? ">その中で、i_praとi_expは、それぞれ実際の入力と合成入力の最後の畳み込み層の活性化を表しています。 μ_aおよびμ_oはf_preとf_expの平均を表し、σ_praとσ_expは標準偏差であり、Eは母集団の期待値を表します。 自己検出。さらに、CNNの音声物理的敵対的攻撃に自己検証が適用されます。まず、標準データセットでCNNをテストすることにより、最後の畳み込み層の各可能な入力単語のアクティベーション値が取得されます。次に、不一致メトリックD(i_pra、i_exp)が計算されます。モデルが敵対的な攻撃の対象となる場合、D(i_pra、i_exp)は事前定義されたしきい値よりも大きくなります。さまざまな攻撃による予備的な実験によると、敵対的な入力D(i_pra、i_exp)は通常0.18を超えていますが、自然入力d(i_pra、i_exp)は通常0.1未満です。したがって、自然と敵対の入力オーディオを区別する大きなしきい値範囲があり、正確な検出を容易にすることができます。 オーディオデータの回復。敵対的な入力オーディオが決定された後、次のアプリケーションのニーズを満たすために、オーディオのこの部分でデータ回復が実行されます。著者は、活性化レベルから敵対的な影響を排除することを目的として、オーディオデータの防御方法として「アクティブ除去」という新しいソリューションを提案しています。アクティベーション除去は、上記の最後の層の活性化モードを利用します。これは、決定された予測タグと安定した相関があります。敵対的なオーディオデータ回復方法を図8に示します。検出結果に基づいて、間違った予測タグを特定し、最後のレイヤーのエラーカテゴリの標準アクティベーションモードを取得できます。その後、同じインデックスでアクティベーションを見つけることができます。これらの活性化は、おそらく敵対的なノイズによって引き起こされ、元の活性化を置き換えます。したがって、元の活性化は、これらの活性化を抑制することで復元できます。 攻撃? ">図8。オーディオ敵対的な攻撃防御 2.4実験分析 2.4.1画像シーン この実験では、著者はInception-V3を基本モデルとして使用して敵対的なパッチを生成し、結果の高度なモビリティパッチを使用して2つのCNNモデル、VGG-16とResNet-18を攻撃します。この論文で提案されている防御方法は、3つのモデルすべてに適用され、その検出と回復の成功率がテストされます。実験のベンチマーク方法は、最先端の防御方法[7]であるパッチマスキングです。矛盾のしきい値は0.46に設定されます。 表7は、全体的な検出と画像回復のパフォーマンスを示しています。 3つのモデルすべてで、Lanceの検出成功率は常にパッチマスキングよりも高かった。さらに、このペーパーで提案されている画像回復方法は、予測を修正するのに役立ち、異なるモデルで80.3%〜82%の精度の改善を達成しますが、パッチマスキングの改善は78.2%〜79.5%です。 攻撃? ">表7。画像敵対的なパッチ攻撃防御評価 2.4.2オーディオシーン オーディオシナリオでは、著者はコマンド分類モデルを使用して、Google Voiceコマンドデータセットで実験しました。敵対的検出の不一致のしきい値は、グリッド検索を通じて得られ、この実験では0.11に設定されました。比較として、著者は、他の2つの最先端の防衛方法を再特定します:依存関係検出[8]と多額[9]。 ランスは、すべてのオーディオ物理的敵対攻撃で92%を超える検出成功率を達成できます。対照的に、依存関係の検出は平均89%の検出成功率を達成しましたが、マルチバリオンの平均検出成功率はわずか74%でした。著者は、ランスの回復パフォーマンスを評価しました。 TOP-Kインデックスのk値は6に設定されています。多額[9]を回復に使用できないため、著者は比較として別の方法ノイズフラッディング[10]を再現しました。著者は、ベースラインメソッドとしてデータ回復なしで元のCNNモデルを使用します。 表8は、全体的なオーディオ回復パフォーマンス評価を示しています。この論文でランスを提案した回復方法を適用した後、予測精度率は平均8%から平均85.8%から85.8%に大幅に改善されました。つまり、回復精度は77.8%でした。依存関係の検出と騒音の洪水の両方が、それぞれ74%と54%で平均精度率が低くなります。 攻撃? ">表8。オーディオ敵対的攻撃データ回復評価 3。Sentinet:ディープラーニングシステムの物理的な攻撃検出[3] 攻撃? ">この記事では、画像処理の分野における物理的な攻撃検出の問題に焦点を当てており、特に画像に対する局所的な物理的攻撃を指します。つまり、相手の領域を画像の小さな部分に制限し、「敵対的なパッチ」攻撃を生成します。このローカルの制限により、堅牢で身体的に達成可能な攻撃の設計が容易になります。これは、視覚的なシーンに配置された相手オブジェクトまたはステッカーの形式である可能性があります。次に、これらのタイプの攻撃は、攻撃が角度、照明、その他の物理的状態の変化に対して堅牢であることを保証するために、無制限の摂動を使用します。局所的な物理的攻撃の欠点の1つは、通常、肉眼で見えるように見えることですが、多くの場合、攻撃者はこれらの方法を自律的な環境で展開または装飾することで検出を回避できます。 図9は、モバイルデバイスのロックを解除したり、ユーザーが建物に入ったりできるように設計された顔認識システムの深い学習システムの例を示しています。シーンには、ユーザーの顔やその他の背景オブジェクトが含まれます。センサーは、シーンのデジタルイメージに戻るカメラのCCDセンサーである場合があります。画像は、ユーザーのIDを予測するフェイス分類子によって処理されます。ユーザーIDが有効な場合、アクチュエーターはデバイスのロックを解除するか、水門を開きます。 攻撃? ">図9。デジタル画像を変更する代わりに、物理的なパターンとオブジェクトを使用して実際の環境で展開された物理的攻撃 3.1 Sentinetの紹介 このペーパーでは、視野での物理的な攻撃検出の方法を提案します:Sentinet。 Sentinetの目標は、モデルの予測をハイジャックする敵のインプットを特定することです。具体的には、Sentinetは、攻撃を事前に知ることなく、敵対的なサンプル、トロイの木馬、バックドア攻撃からネットワークを保護するように設計されています。 Sentinetの核となる考え方は、攻撃の誤分類行動を使用して攻撃を検出することです。まず、Sentinetはモデルの解釈可能性とオブジェクト検出手法を使用して、入力シナリオからモデル予測に最も大きな影響を与える領域を抽出します。 Sentinetは、これらの抽出された領域を一連の良性テスト入力に適用し、モデルの動作を観察します。最後に、Sentinetはファジーテクニックを使用して、これらの合成行動を良性入力上のモデルの既知の行動と比較して、予測される攻撃的な動作を決定します。 Sentinetの完全な構造を図10に示します。 攻撃? ">図10。sentinetアーキテクチャの概要。入力の出力とカテゴリを使用してマスクを生成し、マスクをモデルに戻し、境界分析と攻撃分類の値を生成します 3.1.1敵対的なターゲットポジショニング この記事の最初のステップは、特定の入力に悪意のあるオブジェクトを含む可能性のある領域を見つけることです。つまり、モデルがyを予測するのに役立つ入力Xの部分を識別することです。物理的な攻撃は小さくてローカルであるため、攻撃部分を含まない入力のモデルを評価すると、xの実際のカテゴリを回復できる可能性があります。 セグメント化されたカテゴリの提案。このペーパーで提案されている攻撃検出は、モデルF_Mによって予測される可能性のある一連のカテゴリを特定することから始まります。最初のカテゴリは、実際の予測、つまりy = f_m(x)です。他のカテゴリは、入力Xをセグメント化し、各セグメントのネットワークを評価することによって識別されます。アルゴリズム1は、入力セグメントごとにカテゴリを判断するためのアルゴリズムを示しています。スライディングウィンドウやネットワークベースのエリアの提案など、特定の入力Xを分割するために、さまざまな方法を使用できます。この方法では、選択的な検索画像セグメンテーションアルゴリズムを使用します。選択的検索は、自然なシーンで見つかったパターンとエッジに基づいて領域のリストを生成し、指定された各セグメンテーション提案を評価し、最初のk信頼予測を返します。ここで、Kはセンチネットの構成パラメーターです。 攻撃? ">マスク生成。モデル予測の説明と理解のために、過去数年間にさまざまなターゲットアプローチが提案されています。これらの方法の1つは、個々のピクセル入力の相関を「定量化」することです。このアプローチは、単一のピクセルに焦点を当てているため、不連続なピクセルのマスクを生成する可能性があります。スパースマスクは、悪意のあるオブジェクトの要素を失う可能性があり、モデルテストフェーズには適していません。単一のピクセルで操作する代わりに別の代替アプローチがありますが、モデルが使用する分離可能な画像領域を使用して同様の入力を識別するために復元しようとします。ただし、これらの方法の多くは、クラスアクティベーションマッピング(CAM)[8]などの基本モデルの変更と微調整を必要とします。これは、モデルの動作を変更し、検出を実行し、悪用された悪意のある動作を防止することも含まれます。 著者らは、この記事の目的に適したアプローチはGrad-Cam [9]であり、元のモデルの変更を必要とせずに入力の連続空間領域を識別できるモデル解釈手法であると述べています。 Grad-Camは、ネットワークの最後のいくつかの層から計算された勾配を使用して、入力領域の重要性を計算します。カテゴリCの場合、GRAD-CAMは、モデルの最終収束層(カテゴリCのモデルのロジットスコア)のK特徴マップA^kに対するモデル出力y^cの勾配を計算して(Δy^c)/(Δa^k)を取得します。各フィルターグラフの平均勾配値、または「ニューロンの重要性」は次のように表示されます。 攻撃? ">最後に、機能マップA^kはニューロンの重要性によって重み付けされ、最終的なグラッジュ出力を取得するために要約されています。 攻撃? ">Grad-CAMの出力は、画像の肯定的な重要性の大まかなヒートマップであり、モデルの畳み込み層とプーリング層のダウンサンプリングにより、通常、入力画像よりも低い解像度にあります。最後に、ヒートマップを二等にすることにより、しきい値として最大強度の15%でマスクが生成されます。著者は、このマスクを使用して、次の仕事のために顕著な領域をセグメント化します。 正確なマスク生成。 Grad-CAMは、敵対的なターゲットに対応する判別の入力領域を正常に特定できますが、良性の顕著な領域を特定することもできます。図11は、顔認識ネットワークのGrad-CAMによって生成されたヒートマップが、トロイの木馬と元のフェイスエリアのトリガーパッチの両方をカバーする例の例を示しています。マスクの精度を向上させるために、著者は、入力画像の選択された領域に追加の予測が必要であることを提案します。次に、予測ごとに、GRAD-CAMを使用して、予測に最も関連する入力領域のマスクを抽出します。最後に、これらの追加マスクを組み合わせて、初期予測のマスクを完成させます。 攻撃? ">図11。前の線:グラデーションカムを使用してマスクを生成します。左の画像は、ターゲットの「0」カテゴリに関連するグラッカムヒートマップを示しており、右の画像は、物理的な攻撃以外の領域をカバーする抽出マスクを示しています。次の行:左の画像は、ターゲット「0」カテゴリに比べてグラッジュカムヒートマップであり、行の中央にあるグラフは、指定されたカテゴリに対応するGrad-CAMです。 写真に存在する可能性のあるカテゴリのリストを取得したら、予測される各カテゴリにより関連するエリアXを引き出します。簡単にするために、各入力には悪意のあるオブジェクトが1つしか含まれていないと想定しています。アルゴリズム2では、xから入力領域を抽出するプロセスを示します。 攻撃? ">まず、Grad-CAMを使用して、入力Xのマスクを抽出し、Yを予測しますが、推奨される各カテゴリY_Pのマスクも抽出します。他の推奨カテゴリでGrad-CAMを実行すると、敵対的な攻撃を超えた画像の重要な領域を見つけることができます。さらに、敵対領域はしばしば非標的カテゴリと負の相関があるため、ヒートマップは画像を強調する敵対地域を積極的に回避します。これらのヒートマップを使用してセカンダリマスクを生成し、マスクがオーバーラップする領域を差し引くことにより、元のマスクを改善できます。これにより、画像内の他の顕著な領域を強調することなく、マスクがローカル攻撃のみを強調することが保証されます。図11から、この方法を使用すると、より正確なマスクが生成されることがわかります。これには、ほとんどの敵対領域のみが含まれています。 3.1.2攻撃検出 攻撃検出には2つのステップが必要です。まず、上記のように、Sentinetは敵対的なパッチを含む可能性のある入力領域を抽出します。その後、Sentinetはこれらの領域を一連の良性画像でテストして、敵対地域と良性領域を区別します。 テスト- 入力領域が配置されると、Sentinetはモデルに対する領域の影響を観察して、領域が敵対であるか良性があるかを判断します。これを行うために、Sentinetは一連の良性テスト画像xに疑わしい領域を重ねます。テスト画像はネットワークに戻され、スプーフィングされたサンプルの数を計算し、敵対的な画像に使用されます。直感的に言えば、モデルを欺く可能性のあるより変異した画像があればあるほど、疑わしい領域が敵対的な攻撃になる可能性が高くなります。回収されたマスクが小さい場合、このフィードバック手法は、小さな良性オブジェクトが通常ネットワークの予測に影響しないため、敵対的な入力と良性の入力を効果的に区別できます。ただし、このアプローチの問題の1つは、入力画像の広い領域をカバーするマスクが、他の画像に重ね合わせると不正な分類を引き起こす可能性が高いことです。たとえば、入力画像Xのより大きなマスクを考慮すると、マスク内の特徴が外部のマスクよりも相関する可能性があり、これにより、変異したテスト入力をyとして分類する可能性が高まります。この問題を解決するために、著者はマスク内の機能を抑制するように作用する不活性パターンを導入し、それによりマスク外の機能に対するネットワークの応答を増やします。 検出境界- これら2つのメトリック(不正行為を受けている画像の数と平均的な怠zyなパターン信頼値)を使用すると、入力xがどの条件下で敵対するかを判断できます。次に、著者は、目に見えない敵対的な入力を攻撃に依存しないメトリックに基づいて攻撃として識別できるようにする手法を導入したいと考えています。図12は、赤い三角形の点が敵対的なサンプルに見られる指標を表し、青い点がきれいなサンプルから計算される例を示しています。敵対的なサンプルは、ほとんどが図の右上隅にクラスター化されていることがわかります。 攻撃? ">図12。左側の境界検出の例は、右側の右側の青い円と青い円に描かれています 著者らは、曲線機能の外側にあるポイントを敵対的な攻撃として分類できるクリーニングサンプルで収集されたメトリックを使用して、曲線を近似できることを示唆しています。具体的には、ターゲットポイントは、X間隔の最高Y値でポイントを抽出することによって収集され、その後、非線形最小二乗関数がターゲット曲線を生成するために適合するために使用されます。次に、曲線と点の間の距離は、近似曲線(線形近似による制約最適化(Cobyla)メソッド)を使用して計算され、距離が曲線の外側にあるきれいなサンプルの距離によって推定されるしきい値内にあるかどうかを決定し、攻撃の分類を実現します。特定の境界意思決定プロセスは、アルゴリズム4に示されています。 攻撃? ">3.2実験分析 著者は、2つの侵害されたネットワークと1つの損傷のないネットワークを含む、3つの公開されているネットワークを使用してSentinetを評価します。損傷したネットワークには、旗検出を読むためのバックドア高速RCNNネットワークと、顔認識のためのVGG-16トロジャンネットワークが含まれています[12]。損傷を受けていないネットワークは、ImagenetデータセットでトレーニングされたVGG-16ネットワークです[13]。さらに、Sentinetでは、決定境界を生成するために良性のテスト画像セットxと怠zyなパターンSも必要です。著者は、実験で選択したネットワークの各テストセットxを使用して、良性テスト画像セットを生成し、ランダムノイズをレイジーモードとして使用します。 SentinetはTensorflow 1.5を使用して、損傷のないネットワークの敵対的なパッチ、BLVCカフェへのトロイジャンネットワーク、およびより速いRCNNカフェを生成して汚染されたネットワークを生成します。並行してカテゴリの提案を生成できるように、Sentinetは、高速RCNNカフェバージョンによって実装されたROIプーリングレイヤーを利用します。最後に、著者は、各攻撃のTP/TNおよびFP/FN比を収集することにより、精度とパフォーマンスの観点からSentinetの有効性と堅牢性を測定します。 第一に、著者は、選択したネットワークを3つの攻撃、つまりバックドア、トロイの木馬のトリガー、敵のパッチから保護する際のセンチネットの有効性を評価します。実験では、導入の影響とマスク改善の導入がそれぞれ考慮されました。敵対的なパッチ攻撃については、著者は別のバリアントを検討し、攻撃者は複数のパッチを同時に使用しました。実験の全体的な評価結果を表9に示します。 攻撃? ">表9。既知の攻撃に対するセンチネットの有効性 次に、著者は、攻撃者がSentinetの存在とその作業メカニズムを知っていると考えており、それはSentinetの検出を避けるかもしれません。著者は、Sentinetの3つのコンポーネントの状況を具体的に検討しています。ヒートマップの提案、カテゴリの提案、および攻撃分類。 1)攻撃領域の提案(ヒートマップの提案) この方法の鍵は、Grad-CAMアルゴリズムを使用して画像内の敵対領域を正常に見つけることができることです。 Grad-CAMアルゴリズムは、顕著な領域のヒートマップを生成し、分類結果を生成します。攻撃がグラッカムを破壊し、エリアの検出と位置に影響を与えると、フレームワークのその後のコンポーネントが無効になります。 Grad-Camは、ネットワークバックプロパゲーションを使用して、地域の重要性を測定します。したがって、理論的には、標的勾配摂動を使用して、ヒートマップ出力を変更できます。実験を通じて、著者は、著者によって与えられた防衛の文脈では、Grad-CAMが敵対的な攻撃に対して堅牢であり、エリアをキャプチャするGrad-Camの能力は簡単に操作されないことを示しています。 図13左上は、敵対的なパッチで覆われた犬の画像です。右側には、ターゲットカテゴリ「トースト」のグラッカムヒートマップがあります。 「トースト」カテゴリの顕著な領域がないランダムノイズから始めて、損失関数の入力を最適化します。図13は、収束中に生成されたノイズのヒートマップ出力が元のヒートマップと視覚的に一致していることを示しています。これは、Grad-CAMの出力が勾配の最適化を通じて正確に操作できることを示しています。ただし、このような効果的な攻撃を開始するには、攻撃者は画像全体にノイズを追加する必要がありますが、実際には実行不可能です。 攻撃者には攻撃戦略もあります。ヒートマップ領域の誤った方向を生成し、対戦相手の領域をマップにカバーしない領域を追加して、キャプチャされた領域を拡張したり、検出を完全に回避したりします。 また、攻撃者は、ヒートマップエリアを誤解させることで敵対的な領域を含まない領域を提案することもできます。つまり、ヒートマップは、位置領域を拡張したり、検出を完全に避けたりするために、敵対領域を含まない領域を提案します。ただし、対戦相手が画像全体に摂動ノイズを追加すると、この操作が失敗するため、著者は攻撃者がローカル攻撃エリアの外側にノイズを追加できないという実験で攻撃者を制限し、グレードカムの摂動も相手エリアに制限する必要があります。したがって、私たちが考慮したい脅威は、攻撃者が画像の1つの領域にノイズを追加し、それにより、ばかげた領域のグラッカム出力値を増やすことができるということです。図13に示されている実験結果によると、ノイズ領域が変更したいグレードカムの位置と重複する場合、ヒートマップを正常に変更できます。図13は、ノイズ領域がターゲットグラッドカム領域と交差しない場合、グラッドカムの最適化が視覚的類似性または同等の最終収束損失を達成できないことを示しています。これらの実験は、局所的な騒音が対応するグラッカム領域にのみ影響することを示しており、間違った方向攻撃が不可能であることを示唆しています。 攻撃? ">図13。各入力に「トースター」とラベル付けされたGrad-CAMを計算します。最初の行は、犬のイメージに重ねられた敵対的なパッチのグラッドカム出力を示しています。 2番目の動作では、勾配摂動を使用して、グレードカム出力を再現します。 3行目は、パッチがターゲットヒートマップの近くにある場合、同様のヒートマップを生成できることを示しています。 4行目は、干渉ノイズをターゲットグラッドカムの位置に接続できない場合、グラッジュカム出力が直接影響を受けることができないことを示しています。 2)カテゴリの提案 カテゴリの提案モジュールは、ROIプーリングレイヤーを含む元のネットワークから変更された推奨ネットワークです。選択的検索は、グラフベースの方法を使用して色、形状、テクスチャ、サイズに基づいて画像をセグメント化する従来の画像処理アルゴリズムです。より速いRCNNのネットワーク生成の提案メカニズムとは異なり、攻撃者によって妨害される選択的検索には勾配コンポーネントはありません。また、攻撃者の攻撃メカニズムを厳しく制限する汚染されたトレーニングプロセスもありません。この記事の選択的検索アルゴリズムは、敵のカテゴリ外のカテゴリの提案をキャプチャするように設計されており、攻撃者は敵エリア外の選択的検索結果に影響を与えることができません。さらに、提案されたネットワークは元のネットワークの重みを使用しているため、元のネットワークと提案されたネットワークの間に違いはありません。最後に、攻撃者がネットワークカテゴリの提案プロセスを攻撃する動機は限られています。これは、攻撃を成功させると、プロセス全体ではなく攻撃検出の精度を損なうためです。このことから、著者は、個々のコンポーネントの特性が摂動または汚染攻撃に共同で抵抗するため、カテゴリの提案メカニズムは堅牢であると結論付けました。 3)攻撃分類 最後に、攻撃分類の堅牢性を分析することにより、著者は意思決定プロセスに関する実験的デモンストレーションを実施しました。このペーパーの分類プロセスは、勾配降下法を使用して訓練されていません。これにより、勾配摂動を使用して分類を誤解させる可能性が回避されます。このペーパーで使用されるしきい値は、信頼できるデータセットx、x誤解を招く可能性、x平均信頼性に基づいて決定される2次元データポイントです。その中で、x平均信頼レベルはモードsを使用して計算されます。 相手がモデルを操作してレイジーモードに反応できる場合、防御をバイパスし、良性入力と相手の入力の間に同様の出力を生成できます。著者は、標準のランダムノイズモードと新しいチェッカーボードモードを使用して、モードSのプライバシーを保証できることを実証しています(図14に示すように)。表9から、ランダムノイズモードとチェッカーボードモードのTPおよびTNレートが0.25%以下の範囲であることがわかります。さらに、ディフェンダーは、勾配降下を使用してすべてのカテゴリの応答信頼を最小限に抑えることにより、常に怠zyなパターンを見つけることができます。モードSが機密である限り、Sentinetのこのコンポーネントは安全です。 攻撃? ">図14。レイジーモード:この記事で使用されるレイジーモードは、左に表示されるランダムノイズです。 攻撃者が十分な大きさのパッチを使用すると、Xに対する平均信頼性が低下し、防御の有効性が低下します。図15からわかるように、敵対的なパッチについては、攻撃されたAVGCONFはパッチサイズの増加とともに減少します。パッチの透明性を高めることにより、非常に高い攻撃の成功率を維持しながら、攻撃をしきい値以下に減らすことができます。 攻撃? ">図15。敵対的なパッチサイズ分析 4. まとめ この記事では、画像フィールド、オーディオフィールドなどを含むマルチメディアフィールドでの物理的な攻撃の問題について説明します。アルゴリズム攻撃と比較して、画像や音声に物理的な攻撃を課すことの難しさは、深い学習技術の実用性と信頼性をさらに損なうことになります。攻撃と防御の観点から議論するために3つの記事を選択し、画像フィールドとオーディオフィールドに攻撃を含めました。由于物理攻击对于人类来说是易于发现的,所以从文章给出的实验结果来看,不同方法的防御效果都不错。不过,几篇文章中谈到的防御都是限定攻击类型的防御,如何对不可知的攻击进行有效防御仍值得进一步研究和探讨。 分析师介绍:Jiying,工学博士,毕业于北京交通大学,曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理,现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉,爱好科研,希望能保持学习、不断进步。 |
<<: Nature サブ出版物: 訓練されていないニューラルネットワークでも顔検出が可能
>>: 産業用AIoTが「新たな人気」となった4つの主な要因
ブラウザに住むアーティストが開発した、ニューヨーク発のAIカメラアプリが人気を集めている。もしスティ...
ご存知のとおり、人工知能は計算能力を消費し、多数のデータセンターを必要とします。 しかし、適切な状況...
過去数年間はリカレントニューラルネットワークが主流でしたが、現在では自己回帰 Wavenet や T...
まず、クロス検証がなぜ必要なのかを理解する必要があります。クロス検証は、予測モデルのパフォーマンスと...
これは ChatGPT が直接引き起こした大規模なレイオフである可能性があります。世界最大のプログラ...
公式発表では来週6つのメジャーアップデートが予定されているとのこと。早速見ていきましょう。写真1. ...
生成 AI と機械学習 (ML) は急速に一般の人々の意識に入り込み、これらの有望なテクノロジーの能...
科学技術の発展に伴い、人工知能によって引き起こされた新たな科学技術と産業革命は、わが国の雇用に持続的...
車両の電動化が徐々に進むにつれ、電子制御ユニット(ECU)が車全体を制御するようになりました。アンチ...
過去 6 か月間、ChatGPT の爆発的な人気により、Meta は完全に黙っていられなくなっていま...
10月15日、記者はアリババが主催する2020 ACMマルチメディア(以下、ACM MM 2020)...