北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

近年、視覚システムのセキュリティ評価の研究が徐々に深まっています。研究者は、メガネ、ステッカー、衣服などのさまざまな媒体に基づく可視光モードのセキュリティ評価技術の実装に成功しています。赤外線モードに関する新しい試みもいくつかあります。ただし、単一のモードでしか動作できません。

人工知能技術の発展に伴い、可視光熱赤外線画像技術は、公共の安全監視や自動運転など、多くの安全が重要なタスクに応用されています。可視光画像は、日中に豊富なテクスチャ情報を提供でき、赤外線画像は夜間に対象の熱放射分布を鮮明に表示できます。この2つを組み合わせることで、視覚システムに24時間フルカバレッジや環境制限からの解放など、多くの利点がもたらされます。したがって、マルチモーダル視覚認識システムの統一的なセキュリティ評価方法も早急に研究する必要がある。

しかし、マルチモーダル評価を実装するのは非常に困難です。まず、異なるイメージングメカニズムの下で普遍的な攻撃方法を適用することは困難です。これまでの方法はすべて、特定の対象モダリティの画像特性に基づいて提案されており、他のモダリティでは機能することが困難です。さらに、ステルス性能、生産コスト、柔軟な適用のバランスを取ることが困難です。可視光とより難しい赤外線モードの両方で二重の効果を達成することは容易ではなく、低コストで便利な製造と使用を実現することはさらに困難です。

多くの課題に直面しながら、北京航空航天大学人工知能研究所の研究者たちは、可視光と赤外線のモダリティ間の共通の形状特性を調査し、可視光と赤外線のステルスを同時に実現する「クロスモダリティユニバーサル敵対パッチ」を革新的に提案しました。入手しやすく、低コストで優れた断熱材を​​選択し、解体後すぐに使用できる便利なパッチを作ります。現在の物理世界の可視光-赤外線マルチモーダル検出システムの堅牢性評価技術のギャップを埋めると同時に、物理的な実装のシンプルさと即時性も考慮します。実験により、さまざまな検出モデルとモダリティにおけるこの方法の有効性と、複数のシナリオでの一般化が実証されました。現在、この論文はICCV 2023に採択されています。

論文リンク: https://arxiv.org/abs/2307.07859

コードリンク: https://github.com/Aries-iai/Cross-modal_Patch_Attack

技術的なポイント

本研究では、進化的アルゴリズムを基本的な枠組みとして、形状モデリング、形状最適化、モードバランスの3つの観点からスキーム設計と効果改善を行います。具体的なプロセスは図の通りです。

1. スプライン補間に基づくマルチアンカー形状モデリング

基本的な形状モデリング部分については、研究者らはポイント最適化モデリングの新しいパラダイムを設計しました。これにより、ポイント座標を変更することでパッチ形状を直接調整できます。このプロセスでは、アンカーポイントの動きが方向や距離などによって制限されず、パッチ形状の探索空間が効果的に拡大されます。これを基に、形状の自然さを確保するために、スプライン補間法も使用して滑らかな接続を実現し、スプラインは制御点により厳密に従います。

2. 微分進化に基づく境界制約形状最適化アルゴリズム

ストライクを達成するには効果的な最適化手法が必要です。この目的のために、研究者は時間コストと実際の効果を考慮し、進化アルゴリズムを基本的なフレームワークとして使用し、境界設定と適応度関数の2つの観点から改善を行いました。

(1)境界設定:アンカーポイントの境界設定により変形の効率が向上し、時間コストを削減できます。設定には次のものがあります: 曲線セグメント内でループや自己交差を形成しません。曲線セグメント内で尖端が発生しにくく、無効な領域には表示されません。

アンカーポイントを例にとると、次の図の青い部分は境界設定の凡例、オレンジ色の部分はエラーの例です。

アンカーポイントの境界決定の数学的表現は次のとおりです。

(2)適応度関数:単一モードでのみ打撃を評価するこれまでの研究とは異なり、本論文では、モード効果の違いをバランスさせる問題が当然伴う可視光モードと赤外線モードに焦点を当てています。そのため、単一のモダリティを簡単に最適化するという極端に陥ることを避けるために、研究者らは、検出器の信頼スコアの認識に基づくクロスモダリティの適応度関数を革新的に提案しました。この関数は、2 つのモダリティの効果の違いのバランスを取りながら、成功する方向の探索を促し、最終的にスコアに基づいて適者生存を実現します。ストライキの初期段階と後期段階におけるストライキの難しさの違いを考慮して、線形関数ではなく指数関数を使用して、さまざまな段階でのストライキの進行の違いを強調します。

アルゴリズムは、両方のモードが正常にヒットし、最適な形状戦略を出力するまで探索プロセスを繰り返します。完全な最適化プロセスは次のとおりです。

実験結果

実験1: 異なる検出器シリーズに対するクロスモーダル攻撃性能の検証

実験2: 形状に基づくアブレーション実験

実験3: クロスモーダル適応関数のアブレーション実験

実験4: 物理的実装偏差に対する手法の堅牢性の検証

実験5: 異なる物理的条件下での手法の有効性の検証

さまざまな角度、距離、姿勢、シーンでのパフォーマンス検証結果を視覚化

要約する

この研究では、自然形状の最適化を中核とし、変形パッチとクロスモーダル攻撃を組み合わせ、物理環境における可視光-赤外線マルチモーダル堅牢性評価法を設計します。この方法は、マルチモーダル(可視光-赤外線)ターゲット検出システムの堅牢性を評価し、評価結果に基づいて検出器モデルを効果的に修正し、同時に可視光と赤外線の両方のモダリティでのターゲット画像検出の精度を向上させることができます。これは、実際に実装可能で、物理環境で適用可能であり、マルチモーダル検出システムの堅牢性評価と改善に貢献します。

<<:  大規模モデルはなぜこんなに遅いのか?考えすぎだったことが判明:新しい方向性は、人間と同じ思考アルゴリズムを使用することです

>>: 

ブログ    

推薦する

2017-2019 AIの3年間の浮き沈み

ガートナーが発表した2017年の「技術成熟度レポート」によると、5G、人工汎用知能、ディープラーニン...

「中国製チップ」の20年と新たな時代

[[285892]] 「自信を持った国と民族だけが、未来への道を着実に前進することができます。木の高...

史上最大規模のAIによる疫病対策キャンペーン

普段は人工知能技術にあまり興味がない人でも、この特別な期間中はAIという文字の組み合わせに注目するで...

...

...

メタは触覚手袋を開発し、メタバースで猫を撫でたい人もいれば、大胆なアイデアを持つ人もいる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

シリコンバレーのAI界で注目の記事:ジャスパーとVCはAIGCブームの最大の敗者となり、潮が引いた後に初めて誰が裸で泳いでいるかがわかる

この夏、人工知能起業家サム・ホーガンが書いた記事がシリコンバレー中で話題になった。現在、AI と大規...

ChatGPT の実際のパラメータはわずか 200 億であり、これは Microsoft によって初めて公開されました。ネットユーザー:OpenAIがオープンソースに不安を感じるのも無理はない

突然、大規模なモデリングコミュニティ全体が同じことについて話すようになりました。マイクロソフトの論文...

人工知能の発展に重要な4つの技術

[[423611]] AI を搭載したデバイスやテクノロジーはすでに私たちの生活の大きな部分を占めて...

FlashAttention v2 は標準の Attention より 5 ~ 9 倍高速です。大規模なモデルで使用されます。

最近、GPT-4(コンテキスト長32k)、MosaicMLのMPT(コンテキスト長65k)、Anth...

追跡!フレーム!明らかにする!秘密!ついにボストンダイナミクスのロボットの詳細が明らかになった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

IDC: 企業の人工知能プロジェクトの半数が完全に失敗し、AI導入の道のりは困難

AIは簡単に使えますが、AIを実装するまでの道のりは簡単ではありません。企業が最大限の努力を払ってい...

Appleは10年間で28社のAI企業を売却。そのAI戦略は世間の注目を集めることだ!

10年前の2010年2月、同社初のバーチャルパーソナルアシスタントアプリであるSiriがApple...

2024年のデータセンターのトレンド: より高温、より高密度、よりスマート

今日のデータセンター業界は、AI テクノロジーの急速な普及、ムーアの法則の減速、そして厄介な持続可能...