北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

近年、視覚システムのセキュリティ評価の研究が徐々に深まっています。研究者は、メガネ、ステッカー、衣服などのさまざまな媒体に基づく可視光モードのセキュリティ評価技術の実装に成功しています。赤外線モードに関する新しい試みもいくつかあります。ただし、単一のモードでしか動作できません。

人工知能技術の発展に伴い、可視光熱赤外線画像技術は、公共の安全監視や自動運転など、多くの安全が重要なタスクに応用されています。可視光画像は、日中に豊富なテクスチャ情報を提供でき、赤外線画像は夜間に対象の熱放射分布を鮮明に表示できます。この2つを組み合わせることで、視覚システムに24時間フルカバレッジや環境制限からの解放など、多くの利点がもたらされます。したがって、マルチモーダル視覚認識システムの統一的なセキュリティ評価方法も早急に研究する必要がある。

しかし、マルチモーダル評価を実装するのは非常に困難です。まず、異なるイメージングメカニズムの下で普遍的な攻撃方法を適用することは困難です。これまでの方法はすべて、特定の対象モダリティの画像特性に基づいて提案されており、他のモダリティでは機能することが困難です。さらに、ステルス性能、生産コスト、柔軟な適用のバランスを取ることが困難です。可視光とより難しい赤外線モードの両方で二重の効果を達成することは容易ではなく、低コストで便利な製造と使用を実現することはさらに困難です。

多くの課題に直面しながら、北京航空航天大学人工知能研究所の研究者たちは、可視光と赤外線のモダリティ間の共通の形状特性を調査し、可視光と赤外線のステルスを同時に実現する「クロスモダリティユニバーサル敵対パッチ」を革新的に提案しました。入手しやすく、低コストで優れた断熱材を​​選択し、解体後すぐに使用できる便利なパッチを作ります。現在の物理世界の可視光-赤外線マルチモーダル検出システムの堅牢性評価技術のギャップを埋めると同時に、物理的な実装のシンプルさと即時性も考慮します。実験により、さまざまな検出モデルとモダリティにおけるこの方法の有効性と、複数のシナリオでの一般化が実証されました。現在、この論文はICCV 2023に採択されています。

論文リンク: https://arxiv.org/abs/2307.07859

コードリンク: https://github.com/Aries-iai/Cross-modal_Patch_Attack

技術的なポイント

本研究では、進化的アルゴリズムを基本的な枠組みとして、形状モデリング、形状最適化、モードバランスの3つの観点からスキーム設計と効果改善を行います。具体的なプロセスは図の通りです。

1. スプライン補間に基づくマルチアンカー形状モデリング

基本的な形状モデリング部分については、研究者らはポイント最適化モデリングの新しいパラダイムを設計しました。これにより、ポイント座標を変更することでパッチ形状を直接調整できます。このプロセスでは、アンカーポイントの動きが方向や距離などによって制限されず、パッチ形状の探索空間が効果的に拡大されます。これを基に、形状の自然さを確保するために、スプライン補間法も使用して滑らかな接続を実現し、スプラインは制御点により厳密に従います。

2. 微分進化に基づく境界制約形状最適化アルゴリズム

ストライクを達成するには効果的な最適化手法が必要です。この目的のために、研究者は時間コストと実際の効果を考慮し、進化アルゴリズムを基本的なフレームワークとして使用し、境界設定と適応度関数の2つの観点から改善を行いました。

(1)境界設定:アンカーポイントの境界設定により変形の効率が向上し、時間コストを削減できます。設定には次のものがあります: 曲線セグメント内でループや自己交差を形成しません。曲線セグメント内で尖端が発生しにくく、無効な領域には表示されません。

アンカーポイントを例にとると、次の図の青い部分は境界設定の凡例、オレンジ色の部分はエラーの例です。

アンカーポイントの境界決定の数学的表現は次のとおりです。

(2)適応度関数:単一モードでのみ打撃を評価するこれまでの研究とは異なり、本論文では、モード効果の違いをバランスさせる問題が当然伴う可視光モードと赤外線モードに焦点を当てています。そのため、単一のモダリティを簡単に最適化するという極端に陥ることを避けるために、研究者らは、検出器の信頼スコアの認識に基づくクロスモダリティの適応度関数を革新的に提案しました。この関数は、2 つのモダリティの効果の違いのバランスを取りながら、成功する方向の探索を促し、最終的にスコアに基づいて適者生存を実現します。ストライキの初期段階と後期段階におけるストライキの難しさの違いを考慮して、線形関数ではなく指数関数を使用して、さまざまな段階でのストライキの進行の違いを強調します。

アルゴリズムは、両方のモードが正常にヒットし、最適な形状戦略を出力するまで探索プロセスを繰り返します。完全な最適化プロセスは次のとおりです。

実験結果

実験1: 異なる検出器シリーズに対するクロスモーダル攻撃性能の検証

実験2: 形状に基づくアブレーション実験

実験3: クロスモーダル適応関数のアブレーション実験

実験4: 物理的実装偏差に対する手法の堅牢性の検証

実験5: 異なる物理的条件下での手法の有効性の検証

さまざまな角度、距離、姿勢、シーンでのパフォーマンス検証結果を視覚化

要約する

この研究では、自然形状の最適化を中核とし、変形パッチとクロスモーダル攻撃を組み合わせ、物理環境における可視光-赤外線マルチモーダル堅牢性評価法を設計します。この方法は、マルチモーダル(可視光-赤外線)ターゲット検出システムの堅牢性を評価し、評価結果に基づいて検出器モデルを効果的に修正し、同時に可視光と赤外線の両方のモダリティでのターゲット画像検出の精度を向上させることができます。これは、実際に実装可能で、物理環境で適用可能であり、マルチモーダル検出システムの堅牢性評価と改善に貢献します。

<<:  大規模モデルはなぜこんなに遅いのか?考えすぎだったことが判明:新しい方向性は、人間と同じ思考アルゴリズムを使用することです

>>: 

ブログ    

推薦する

顔認識を行うときになぜ服を着なければならないのですか?

人工知能の応用として、顔認識技術は私たちの生活のあらゆる側面に浸透しています。本人認証には顔認識が必...

2019年インターネット人材採用レポート:Javaは人気だが、アルゴリズムエンジニアは不足している

技術の変化、才能主導。インターネットにおける現在の仕事の機会とトレンドはどこにありますか?本稿では、...

特定のイベントが発生した正確な時刻を特定します。 Byte&復旦大学のマルチモーダル大型モデル解釈ビデオはとても良い

Byte & 復旦大学のマルチモーダル理解モデルはこちらです:ビデオ内の特定のイベントが発生...

WSLはAIトレーニングタスクとLinux GUIアプリケーションの実行をサポートします

WSL は Windows 上で GPU を使用してアプリケーションを実行することをサポートするよう...

人工知能に対して、人間がかけがえのない存在となるような利点は何でしょうか?

人工知能に関して言えば、かつて映画「マトリックス」で描かれたSFシーンが世界に衝撃を与え、トレンドを...

...

誰もが今から準備すべき、2020 年のキャリアを変える 6 つのテクノロジー トレンド

[51CTO.com クイック翻訳] 新しいテクノロジーの導入により、私たちの職場は変化しています。...

...

研究によると、AppleのCSAMスキャンアルゴリズムは簡単に騙される可能性がある

最近、インペリアル・カレッジ・ロンドンの研究チームは、画像の内容を変えずに画像内容をスキャンするアル...

この記事ではDiffアルゴリズムの使い方を説明します

[[420540]] 1. 基本Diff アルゴリズムは、仮想 DOM の最小限の更新を実装します。...

ロボットが人間の「仲間」となり、人間と機械の関係が変化する。これは良いことなのか、悪いことなのか?

最近南京で開催された2020年世界知能製造会議において、中国工程院の研究者らは、人類の発展の観点から...

医療における人工知能:医師よりも正確

[[339138]]新しい医療用人工知能システムは、医師と同じように患者を診察することができます。画...

孔俊:中国は人工知能の軍事応用を規制する措置を講じている

2021年8月29日、カブールの空に大きな爆発音が響き、米軍の無人機が7人の子供を含む10人の罪のな...

...