時間変換に基づく初のビデオ移行攻撃アルゴリズム、復旦大学の研究がAAAI 2022に選出

[[441526]]

近年、ディープラーニングは一連のタスク（画像認識、物体認識、セマンティックセグメンテーション、ビデオ認識など）で大きな成功を収めています。そのため、ディープラーニングをベースとしたインテリジェントモデルは、セキュリティ監視や無人運転などの業界で徐々に広く使用されるようになっています。しかし、最近の研究では、ディープラーニング自体は非常に脆弱であり、敵対的サンプルからの攻撃に対して脆弱であることが示されています。敵対的サンプルとは、クリーンなサンプルに敵対的摂動を加えることによって生成されるサンプルを指し、モデルの誤分類を引き起こす可能性があります。敵対的サンプルの存在は、ディープラーニングのアプリケーション開発にとって深刻な脅威となります。特に、最近発見された異なるモデル間での敵対的サンプルの転送可能性は、インテリジェントモデルに対するブラックボックス攻撃を可能にします。具体的には、攻撃者は完全にアクセス可能なモデル (ホワイトボックスモデルとも呼ばれます) を使用して敵対的なサンプルを生成し、オンラインで展開され、モデルの出力結果のみを取得できるモデル (ブラックボックスモデルとも呼ばれます) を攻撃します。さらに、現在の関連研究は主に画像モデルに焦点を当てており、ビデオモデルに関する研究はあまり行われていません。したがって、ビデオモデルの安全な開発を促進するために、ビデオモデルにおける敵対的サンプルの転送可能性に関する研究を実施することが急務です。

タイミングシフト攻撃法

画像データと比較して、ビデオデータには追加のタイミング情報があり、ビデオ内の動的な変化を記述できます。現在、豊富なタイミング情報を取得するために、さまざまなモデル構造 (Non-local、SlowFast、TPN など) が提案されています。ただし、モデル構造が多様であると、同じビデオ入力に対して異なるモデルで高応答領域が生成される可能性があり、攻撃中に生成された敵対的サンプルがホワイトボックスモデルに過剰適合し、他のモデルを攻撃するために移行することが困難になる可能性もあります。上記の観点をさらに分析するために、復旦大学の江玉剛チームの研究者たちは、まず、一般的に使用されている複数のビデオ認識モデルの時間的識別パターンの類似性を研究し、異なる構造を持つビデオ認識モデルは、多くの場合、時間的識別パターンが異なることを発見しました。これに基づいて、研究者らは時間的変換に基づく、転送性の高いビデオ敵対的サンプル生成方法を提案しました。

論文リンク: https://arxiv.org/pdf/2110.09075.pdf
コードリンク: https://github.com/zhipeng-wei/TT

ビデオモデルの時間的識別パターンの分析

画像モデルでは、特定の画像に対するモデルの識別領域を視覚化するために、CAM (クラス活性化マッピング) がよく使用されます。しかし、ビデオモデルの識別パターンは、追加の時間次元のために視覚化が難しく、異なるモデル間で比較することが困難です。この目的のために、研究者らはビデオフレームの重要度ランキングをビデオモデルの時間的識別モードとして定義しました。 2 つのモデルが類似した時間的識別パターンを共有する場合、ビデオフレームの重要度の分布はより類似したものになります。

ビデオフレームの重要度計算

研究者らは、モデルの決定におけるビデオフレームの重要性を測定するために、Grad-CAM、ゼロパディング、および平均パディングという 3 つのアプローチを使用しました。 Grad-CAM は、CAM によって計算された注目度マップ内の各フレームの平均を計算します。この平均が、ビデオ内の各フレームの重要度指標となります。ゼロパディングは、i 番目のビデオフレーム内のすべてのピクセル値を 0 に置き換え、置き換え前後の損失値の変化度合いを計算します。変化の度合いが高いほど、i 番目のビデオフレームの重要性が高まります。同様に、Mean-padding は i 番目のビデオフレームを隣接するフレームの平均に置き換えます。上記の 3 つの方法により、異なるモデルにおけるビデオフレームの重要度を計算し、モデルの時間的識別モードとして使用することができます。

時系列判別パターン類似度計算

モデル A 上のビデオデータ x のビデオフレーム重要度スコアは、上記の方法で次のように計算されます。

ここで、T は入力ビデオフレームの数を表します。そしてモデルAとモデルBについては、

スピアマンの順位相関と組み合わせることで、モデル間の時間的識別パターンの類似性を計算することができる。

、今すぐ

で、

重要度値に基づいてソート操作を実行し、ビデオの各フレームのランキング値を返します。

の値は -1 から 1 の間です。0 の場合、モデル A とモデル B の判別モード間に関係がないことを意味し、-1 または 1 の場合は明確な単調な関係があることを示します。

の値が大きいほど、モデル間の判別パターンの類似性が高まります。これに基づいて、異なるビデオモデルの時間的識別モード間の関係を測定できます。

異なるビデオモデル間の判別パターンの類似性

上の図は、6 つのビデオモデル間の判別パターン関係のヒートマップです。異なるモデル設計アーキテクチャでは、Non-Local、SlowFast、TPN のタイミング識別パターン間の類似性は低いですが、同じ設計アーキテクチャでは、3D Resnet-50 と 3D Resnet-101 をバックボーンとして使用するビデオモデルは、より類似したタイミング識別パターンを持っています。上記の傾向は、3 つのビデオフレーム重要度計算方法すべてで検証されています。したがって、この論文の仮説は、異なるビデオモデル構造が異なる時間的識別パターンにつながるというものであり、実験的に証明することができる。

タイミングシフト攻撃法

上記の観察に基づいて、研究者はタイミングシフトに基づく移行攻撃方法を提案しました。ビデオフレームを時間軸に沿って移動することで、生成された敵対的サンプルとホワイトボックスモデルの特定の判別モデルとの適合度が低下し、ブラックボックスモデルに対する敵対的サンプルの攻撃成功率が向上します。

使用

入力ビデオを表します。

対応する実際のラベルを示します。T、H、W、C はそれぞれフレーム数、高さ、幅、チャネル数を表し、K はカテゴリ数を表します。使用

ビデオ入力に対するビデオモデルの予測結果を表します。意味

ノイズに対抗するために、攻撃対象は次のように定義できます。

、で

、および制限

。意味

損失関数です。非ターゲット攻撃の目的関数は次のように定義できます。

攻撃中のホワイトボックスモデルの過剰適合を減らすために、研究者は時間シフト後のビデオ入力の勾配情報を集約しました。

ここでLは最大翻訳長を表し、

。関数

すべてのビデオ入力が時間軸に沿って i フレームずつシフトされることを示します。変換後の位置が T より大きい場合、現在のフレームは i 番目のフレームに設定され、つまり t+i>T の場合、t 番目のフレームの位置は t+iT 番目のフレームになり、それ以外の場合は t+i 番目のフレームになります。時間的にシフトされたビデオ入力の勾配を計算した後、それは時間的次元に沿って元のビデオフレームシーケンスに戻され、w_i を使用して異なるシフト長からの勾配情報が統合されます。 w_i は、均一、線形、ガウスの 3 つの方法を使用して生成できます (変換不変攻撃方法を参照)。

攻撃アルゴリズムの全体的なプロセスは次のとおりです。

生成された敵対的ノイズを制限するために使用

。

結果の考察と分析

研究者らは、時間シフト攻撃法のパフォーマンスを調査するために、UCF-101 と Kinetics-400 の 2 つのデータセットと、非ローカル、SlowFast、TPN という構造の異なる 3 つのビデオモデルで比較実験を実施しました。ビデオモデルでは、それぞれ 3D Resnet-50 と 3D Resnet-101 をバックボーンとして使用しました。ある構造のビデオモデルをホワイトボックスモデルとして使用する場合、生成された敵対的サンプルの他の構造のビデオモデルへの攻撃成功率（ASR）を計算し、評価指標として使用します。

研究者らは、シングルステップ攻撃と反復攻撃の手法による実験比較を行った。タイミング変換攻撃法は、シングルステップ攻撃と反復攻撃の両方でより高い ASR を達成できることがわかり、生成された敵対的サンプルは高い転送可能性を持っていることがわかります。さらに、ビデオモデルでは、シングルステップ攻撃の方が反復攻撃よりもパフォーマンスが優れています。これは、画像モデルで開発された転送攻撃方法は、より複雑なビデオモデルには適用できないことを示唆しています。最後に、TPN モデルをホワイトボックスモデルとして使用すると、タイミングシフト攻撃方法のパフォーマンス向上は比較的限られています。分析の結果、研究者は TPN モデルはタイミングシフトに対してそれほど敏感ではないと考えています。

ビデオ認識モデルの ASR 比較表

次の表は、Translation-invariant (TI) 攻撃方法、Attention-guided (ATA) 攻撃方法、Momentum iterative (MI) 攻撃方法を組み合わせた後のパフォーマンス比較を示しています。タイミングシフトメソッドは、これらのメソッドがより良いパフォーマンスを達成できるように支援し、補完的な役割を果たすことがわかります。

既存の方法と組み合わせた平均ASR結果の比較

さらに、研究者らは、異なる移動長さ L、重み w_i 生成戦略、および移動戦略に関するアブレーション実験も実施しました。

変換長 L は、特徴集約に使用される変換されたビデオ入力の数を決定します。 L = 0 の場合、タイムシフト方式は最も基本的な反復攻撃方式に退化します。したがって、翻訳の長さを検討する必要があります。下の図は、シフト長が異なるさまざまなブラックボックスモデルにおけるタイミングシフト攻撃方法の ASR の変化を示しています。他のブラックボックスモデルの曲線は最初に上昇してから安定するという特性を示しているのに対し、Non-local Resnet-50 モデルの曲線はより安定していることがわかります。これは、Non-local Resnet-50 が Non-local Resnet-101 と同様のモデル構造を共有しているためです。 ASR と計算の複雑さのバランスをとるために、研究者は最終的に実験に L = 7 を選択しました。

異なるシフト長におけるタイミングシフト攻撃方法のパフォーマンス比較

次の表は、重み生成戦略と変換戦略のアブレーション実験の結果を示しています。表からわかるように、時間シフト攻撃法では、時間シフト長が大きいビデオ入力に小さい重みを与えると、より良い結果が得られます。さらに、タイミングシフト攻撃方法は、シフト戦略がランダムフレームスワッピングまたは長距離スワッピングに変更されると、結果が悪くなります。

異なる重み生成戦略とシフト戦略におけるタイミングシフト攻撃方法のパフォーマンス比較

<<: メタユニバースアバタープロジェクトが暴露されました！ザック・スナイダーのライトセーバーが3秒で512GBのハードドライブに変形

ブログ

動きながら描くと、2次元の人物になります：リアルタイムインタラクティブビデオスタイル化

時間変換に基づく初のビデオ移行攻撃アルゴリズム、復旦大学の研究がAAAI 2022に選出

動きながら描くと、2次元の人物になります：リアルタイムインタラクティブビデオスタイル化

スタンフォード大学のマニング教授はAAAS特別号に記事を掲載した。「ビッグモデルは画期的な進歩となり、汎用人工知能に期待が寄せられている」

未来が到来: 脳コンピューターインターフェースの新たなブレークスルー: 人間の脳信号をテキストに変換する精度は 97%

画像認識が最も得意な会社はどこでしょうか？ Microsoft、Amazon、Google、それともIBM?

北京、AIビッグモデルとロボットの統合開発を支援するロボット産業向けの新政策を発表

自動運転車の危険性: 自動運転車が世界中で実現できないのはなぜか

AI産業化アプリケーションが実装され、PaddlePaddleの3つの主要なサービスプラットフォームが加速モードの開始を支援します

百度が「AI+X」を実践、AI教育が未来に向けて加速

推薦する

NVIDIA が TensorRT-LLM の新バージョンをプレビュー: 推論能力が 5 倍に向上、8GB 以上のグラフィックカードがローカルで実行可能、OpenAI の Chat API をサポート

単純なOEMを拒否し、人工知能を備えた製造業は明るい未来を持っています

ニューヨークタイムズの李開復のコラム：米国における中国のAIに関するいくつかの大きな誤解

NeurIPS 2019: Google が機械学習における分布外異常検出を改善する新しい手法を提案

多様な用途に焦点を当て、ドローンマッピングはますます熱を帯びている

人工知能技術が伝染病の予防と制御に役立つ

クレジットカード詐欺を検出するための機械学習モデルを構築するにはどうすればよいでしょうか?

人工知能が大人気ですね～最近のAIの応用シナリオは何でしょうか？

靴職人が3人いるほうが、諸葛亮1人より優れている？それは本当かもしれません。複数の小さなモデルを混ぜると、GPT3.5と同等のパフォーマンスを発揮できることが証明されています。

一瞬であなたを紙人間に変える人気の AI 特殊効果の背後に、これほど多くの知識ポイントがあるとは予想していませんでした。

人工知能オンライン機能システムのデータアクセス技術