近年、ディープラーニングは一連のタスク(画像認識、物体認識、セマンティックセグメンテーション、ビデオ認識など)で大きな成功を収めています。そのため、ディープラーニングをベースとしたインテリジェントモデルは、セキュリティ監視や無人運転などの業界で徐々に広く使用されるようになっています。しかし、最近の研究では、ディープラーニング自体は非常に脆弱であり、敵対的サンプルからの攻撃に対して脆弱であることが示されています。敵対的サンプルとは、クリーンなサンプルに敵対的摂動を加えることによって生成されるサンプルを指し、モデルの誤分類を引き起こす可能性があります。敵対的サンプルの存在は、ディープラーニングのアプリケーション開発にとって深刻な脅威となります。特に、最近発見された異なるモデル間での敵対的サンプルの転送可能性は、インテリジェントモデルに対するブラックボックス攻撃を可能にします。具体的には、攻撃者は完全にアクセス可能なモデル (ホワイト ボックス モデルとも呼ばれます) を使用して敵対的なサンプルを生成し、オンラインで展開され、モデルの出力結果のみを取得できるモデル (ブラック ボックス モデルとも呼ばれます) を攻撃します。さらに、現在の関連研究は主に画像モデルに焦点を当てており、ビデオモデルに関する研究はあまり行われていません。したがって、ビデオ モデルの安全な開発を促進するために、ビデオ モデルにおける敵対的サンプルの転送可能性に関する研究を実施することが急務です。 タイミングシフト攻撃法 画像データと比較して、ビデオデータには追加のタイミング情報があり、ビデオ内の動的な変化を記述できます。現在、豊富なタイミング情報を取得するために、さまざまなモデル構造 (Non-local、SlowFast、TPN など) が提案されています。ただし、モデル構造が多様であると、同じビデオ入力に対して異なるモデルで高応答領域が生成される可能性があり、攻撃中に生成された敵対的サンプルがホワイトボックス モデルに過剰適合し、他のモデルを攻撃するために移行することが困難になる可能性もあります。上記の観点をさらに分析するために、復旦大学の江玉剛チームの研究者たちは、まず、一般的に使用されている複数のビデオ認識モデルの時間的識別パターンの類似性を研究し、異なる構造を持つビデオ認識モデルは、多くの場合、時間的識別パターンが異なることを発見しました。これに基づいて、研究者らは時間的変換に基づく、転送性の高いビデオ敵対的サンプル生成方法を提案しました。
ビデオモデルの時間的識別パターンの分析 画像モデルでは、特定の画像に対するモデルの識別領域を視覚化するために、CAM (クラス活性化マッピング) がよく使用されます。しかし、ビデオ モデルの識別パターンは、追加の時間次元のために視覚化が難しく、異なるモデル間で比較することが困難です。この目的のために、研究者らはビデオフレームの重要度ランキングをビデオモデルの時間的識別モードとして定義しました。 2 つのモデルが類似した時間的識別パターンを共有する場合、ビデオ フレームの重要度の分布はより類似したものになります。 ビデオフレームの重要度計算 研究者らは、モデルの決定におけるビデオ フレームの重要性を測定するために、Grad-CAM、ゼロ パディング、および平均パディングという 3 つのアプローチを使用しました。 Grad-CAM は、CAM によって計算された注目度マップ内の各フレームの平均を計算します。この平均が、ビデオ内の各フレームの重要度指標となります。ゼロパディングは、i 番目のビデオフレーム内のすべてのピクセル値を 0 に置き換え、置き換え前後の損失値の変化度合いを計算します。変化の度合いが高いほど、i 番目のビデオ フレームの重要性が高まります。同様に、Mean-padding は i 番目のビデオ フレームを隣接するフレームの平均に置き換えます。上記の 3 つの方法により、異なるモデルにおけるビデオ フレームの重要度を計算し、モデルの時間的識別モードとして使用することができます。 時系列判別パターン類似度計算 モデル A 上のビデオデータ x のビデオフレーム重要度スコアは、上記の方法で次のように計算されます。 ここで、T は入力ビデオ フレームの数を表します。そしてモデルAとモデルBについては、 スピアマンの順位相関と組み合わせることで、モデル間の時間的識別パターンの類似性を計算することができる。 、今すぐ で、 重要度値に基づいてソート操作を実行し、ビデオの各フレームのランキング値を返します。 の値は -1 から 1 の間です。0 の場合、モデル A とモデル B の判別モード間に関係がないことを意味し、-1 または 1 の場合は明確な単調な関係があることを示します。 の値が大きいほど、モデル間の判別パターンの類似性が高まります。これに基づいて、異なるビデオ モデルの時間的識別モード間の関係を測定できます。 異なるビデオモデル間の判別パターンの類似性 上の図は、6 つのビデオ モデル間の判別パターン関係のヒート マップです。異なるモデル設計アーキテクチャでは、Non-Local、SlowFast、TPN のタイミング識別パターン間の類似性は低いですが、同じ設計アーキテクチャでは、3D Resnet-50 と 3D Resnet-101 をバックボーンとして使用するビデオ モデルは、より類似したタイミング識別パターンを持っています。上記の傾向は、3 つのビデオ フレーム重要度計算方法すべてで検証されています。したがって、この論文の仮説は、異なるビデオモデル構造が異なる時間的識別パターンにつながるというものであり、実験的に証明することができる。 タイミングシフト攻撃法 上記の観察に基づいて、研究者はタイミングシフトに基づく移行攻撃方法を提案しました。ビデオ フレームを時間軸に沿って移動することで、生成された敵対的サンプルとホワイト ボックス モデルの特定の判別モデルとの適合度が低下し、ブラック ボックス モデルに対する敵対的サンプルの攻撃成功率が向上します。 使用 入力ビデオを表します。 対応する実際のラベルを示します。T、H、W、C はそれぞれフレーム数、高さ、幅、チャネル数を表し、K はカテゴリ数を表します。使用 ビデオ入力に対するビデオ モデルの予測結果を表します。意味 ノイズに対抗するために、攻撃対象は次のように定義できます。 、で 、および制限 。意味 損失関数です。非ターゲット攻撃の目的関数は次のように定義できます。 攻撃中のホワイトボックスモデルの過剰適合を減らすために、研究者は時間シフト後のビデオ入力の勾配情報を集約しました。 ここでLは最大翻訳長を表し、 。関数 すべてのビデオ入力が時間軸に沿って i フレームずつシフトされることを示します。変換後の位置が T より大きい場合、現在のフレームは i 番目のフレームに設定され、つまり t+i>T の場合、t 番目のフレームの位置は t+iT 番目のフレームになり、それ以外の場合は t+i 番目のフレームになります。時間的にシフトされたビデオ入力の勾配を計算した後、それは時間的次元に沿って元のビデオ フレーム シーケンスに戻され、w_i を使用して異なるシフト長からの勾配情報が統合されます。 w_i は、均一、線形、ガウスの 3 つの方法を使用して生成できます (変換不変攻撃方法を参照)。 攻撃アルゴリズムの全体的なプロセスは次のとおりです。 生成された敵対的ノイズを制限するために使用 。 結果の考察と分析 研究者らは、時間シフト攻撃法のパフォーマンスを調査するために、UCF-101 と Kinetics-400 の 2 つのデータセットと、非ローカル、SlowFast、TPN という構造の異なる 3 つのビデオ モデルで比較実験を実施しました。ビデオ モデルでは、それぞれ 3D Resnet-50 と 3D Resnet-101 をバックボーンとして使用しました。ある構造のビデオモデルをホワイトボックスモデルとして使用する場合、生成された敵対的サンプルの他の構造のビデオモデルへの攻撃成功率(ASR)を計算し、評価指標として使用します。 研究者らは、シングルステップ攻撃と反復攻撃の手法による実験比較を行った。タイミング変換攻撃法は、シングルステップ攻撃と反復攻撃の両方でより高い ASR を達成できることがわかり、生成された敵対的サンプルは高い転送可能性を持っていることがわかります。さらに、ビデオ モデルでは、シングル ステップ攻撃の方が反復攻撃よりもパフォーマンスが優れています。これは、画像モデルで開発された転送攻撃方法は、より複雑なビデオ モデルには適用できないことを示唆しています。最後に、TPN モデルをホワイト ボックス モデルとして使用すると、タイミング シフト攻撃方法のパフォーマンス向上は比較的限られています。分析の結果、研究者は TPN モデルはタイミング シフトに対してそれほど敏感ではないと考えています。 ビデオ認識モデルの ASR 比較表 次の表は、Translation-invariant (TI) 攻撃方法、Attention-guided (ATA) 攻撃方法、Momentum iterative (MI) 攻撃方法を組み合わせた後のパフォーマンス比較を示しています。タイミング シフト メソッドは、これらのメソッドがより良いパフォーマンスを達成できるように支援し、補完的な役割を果たすことがわかります。 既存の方法と組み合わせた平均ASR結果の比較 さらに、研究者らは、異なる移動長さ L、重み w_i 生成戦略、および移動戦略に関するアブレーション実験も実施しました。 変換長 L は、特徴集約に使用される変換されたビデオ入力の数を決定します。 L = 0 の場合、タイムシフト方式は最も基本的な反復攻撃方式に退化します。したがって、翻訳の長さを検討する必要があります。下の図は、シフト長が異なるさまざまなブラック ボックス モデルにおけるタイミング シフト攻撃方法の ASR の変化を示しています。他のブラック ボックス モデルの曲線は最初に上昇してから安定するという特性を示しているのに対し、Non-local Resnet-50 モデルの曲線はより安定していることがわかります。これは、Non-local Resnet-50 が Non-local Resnet-101 と同様のモデル構造を共有しているためです。 ASR と計算の複雑さのバランスをとるために、研究者は最終的に実験に L = 7 を選択しました。 異なるシフト長におけるタイミングシフト攻撃方法のパフォーマンス比較 次の表は、重み生成戦略と変換戦略のアブレーション実験の結果を示しています。表からわかるように、時間シフト攻撃法では、時間シフト長が大きいビデオ入力に小さい重みを与えると、より良い結果が得られます。さらに、タイミング シフト攻撃方法は、シフト戦略がランダム フレーム スワッピングまたは長距離スワッピングに変更されると、結果が悪くなります。 異なる重み生成戦略とシフト戦略におけるタイミングシフト攻撃方法のパフォーマンス比較 |
<<: メタユニバースアバタープロジェクトが暴露されました!ザック・スナイダーのライトセーバーが3秒で512GBのハードドライブに変形
>>: 最新の3D GANは3次元の幾何学データを生成できます!モデル速度が7倍に向上
彼女がAIに恋をしてしまったのですが、どうすればいいでしょうか?クランベリーレモン大学応用心理学・機...
[[335277]]家全体のスマートホームライフが実現するまでには、まだ時間がかかりそうですが、スマ...
アイアンマンは指と手のひらを回すだけで、あっという間に鎧の製作を完了した。この魔法のような技に、スク...
ビッグニュース!連邦取引委員会の調査が始まります!調査の対象は、人気の OpenAI に他なりません...
拡散モデルを使用して化学反応を予測すると、速度が1,000 倍向上します。かつてはコンピューターで計...
12月15日、OpenAIは設立当初から、たとえ人工知能が開発者よりも賢くなっても、全人類に利益をも...
2017 年の最もホットなテクノロジートピックは間違いなく人工知能です。人工知能は非常に難しい科学...
今年、フェイシャルビデオエフェクトは世界中で再び大人気になりました。年初にやった「蟻の歯黒」(人間の...
これは、「Hacker News のランキング アルゴリズムの仕組み」に続く、ランキング アルゴリズ...
ヘルスケア業界の成長は驚異的ですが、欠点がないわけではありません。医師や研究者は、一般的な病気や珍し...
ゲスト|百度インテリジェントクラウド技術委員会委員長 孫克氏執筆者 | Yun Zhao 2023年...
現在市販されている「手動運転」の自動車には、ナビゲーション、車載インフォテインメントシステム、道路監...
[[400902]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
今の時代、どんな製品の開発にも実は学習プロセスが必要です。人工知能技術が急速に進歩したのは、まさに各...