清華大学チームは、GPT-4V、Google Bard、その他のモデルをクラックしました。商用のマルチモーダル大規模モデルも脆弱なのでしょうか?

GPT-4 は最近、視覚モダリティ (GPT-4V) を公開しました。 GPT-4V や Google Bard に代表されるマルチモーダル大規模言語モデル (MLLM) は、テキストと視覚のモダリティを組み合わせ、画像の説明や視覚的推論などのさまざまなマルチモーダルタスクで優れたパフォーマンスを発揮します。しかし、視覚モデルは長い間、敵対的堅牢性が低いという問題に悩まされており、視覚モダリティを導入する MLLM は実際のアプリケーションでは依然としてこのセキュリティリスクを抱えています。オープンソース MLLM に関する最近のいくつかの研究では、この脆弱性の存在が実証されていますが、より困難な非オープンソースの商用 MLLM の敵対的堅牢性についてはあまり調査されていません。

清華大学の朱軍教授が率いるAI基礎理論イノベーションチームは、商用MLLMの脆弱性をより深く理解するために、商用MLLMの敵対的堅牢性に関する研究を実施しました。 GPT-4VやGoogle Bardなどのモデルはマルチモーダルインターフェースを公開していますが、その内部モデル構造やトレーニングデータセットは不明のままであり、複雑な防御メカニズムが備わっています。それにもかかわらず、この研究では、ホワイトボックス画像エンコーダーまたは MLLM を攻撃することで、生成された敵対的サンプルがブラックボックスの商用 MLLM に誤った画像の説明を出力させる可能性があり、攻撃成功率は GPT-4V で 45%、Bard で 22%、Bing Chat で 26% であることがわかりました。同時に、研究チームは、敵対的攻撃が顔検出や画像毒性検出のためのBardなどのモデルの防御メカニズムをうまく回避し、モデルにセキュリティリスクをもたらす可能性があることも発見しました。

論文リンク: https://arxiv.org/abs/2309.11751
コードリンク: https://github.com/thu-ml/ares/tree/attack_bard

図 1: 大規模なマルチモーダルモデルに対する敵対的攻撃の例。これにより、モデルは誤った予測を行ったり、セキュリティ検出モジュールをバイパスしたりする可能性があります。

次の図は、Bard に対する攻撃テストを示しています。自然なサンプル画像を入力する場合、Bard は画像内の被写体 (「パンダの顔」) を正しく説明できますが、敵対的なサンプルを入力する場合、Bard は画像の被写体を「女性の顔」と誤分類します。

反撃方法

MLLM は通常、ビジュアルエンコーダーを使用して画像の特徴を抽出し、それを整列させて大規模な言語モデルに送り込み、対応するテキスト記述を生成します。そこで研究チームは、MLLM を攻撃するための 2 つの方法、画像特徴攻撃とテキスト記述攻撃を提案しました。画像特徴攻撃は、敵対的サンプルの特徴を元の画像の特徴から逸脱させます。敵対的サンプルが画像の特徴表現を破壊できれば、生成されたテキストは必然的に影響を受けるからです。一方、テキスト記述攻撃はプロセス全体を直接標的とし、生成された記述を正しい記述とは異なるものにします。

画像特徴攻撃:は自然サンプルを表し、は代替画像エンコーダーのセットを表します。画像特徴攻撃の目的関数は次のように表すことができます。

最適化は、敵対的サンプル x と自然サンプルの画像特徴間の距離を最大化すると同時に、 x と間の距離が摂動スケールよりも小さくなるようにすることで実行されます。

テキスト記述攻撃:画像 x、テキストプロンプト p、および以前に予測された単語が与えられた場合に、次の単語の確率分布を予測できる代替 MLLM のセットをと表します。したがって、テキスト記述攻撃は、ターゲット文を予測する対数尤度を最大化するものとして定式化できます。

画像の正しい説明は複数あるため、テキスト説明攻撃は、真の説明の対数尤度を最小化する非標的型攻撃ではなく、特定の対象文に対する標的型攻撃であることに注目する価値があります。

攻撃方法：上記の敵対的例の最適化問題を解決するために、研究チームは、最も移転性に優れた独自開発の敵対的攻撃方法Common Weakness Attack（CWA）[1]を使用しました。

データセット：自然サンプルとしてNIPS17データセット[2]からランダムに100枚の画像が選択されます。

置換モデル: 画像特徴攻撃の場合、選択される置換モデルは ViT-B/16、CLIP、および BLIP-2 画像エンコーダーです。テキスト記述攻撃の場合、BLIP-2、InstructBLIP、および MiniGPT-4 が選択されます。

評価メトリック: 攻撃の成功率を測定して堅牢性を評価します。私たちは、画像内の被写体が誤って予測された場合にのみ攻撃が成功し、幻覚、物体の数、色、背景などのその他の誤った詳細は失敗した攻撃とみなされると主張します。

次の図は、GPT-4V、Bard、Bing Chatに対する成功した敵対的サンプル攻撃の例を示しています。

図 2: カモシカを手として表現して GPT-4V を攻撃する例。

図3: 女性の顔をしたパンダを描いたバードへの攻撃の例

図4: Bing Chat を攻撃してハクトウワシを猫や犬と識別する例

図5：コーヒーを時計と見なしてWenxin Yiyanを攻撃する例

次の表は、さまざまな商用モデルに対する上記の方法の攻撃成功率を示しています。ご覧のとおり、Bing Chat はノイズの多い画像への応答を拒否する可能性が高くなります。全体的に、Google Bard は最も堅牢性が高いです。

表1: 大規模商用マルチモーダルモデルに対する攻撃の影響

バード防衛機構への攻撃

研究チームによる Bard の評価では、Bard が顔検出と毒性検出を含む (少なくとも) 2 つの防御メカニズムを展開していることが判明しました。 Bard は、人間の顔や有害なコンテンツ (暴力的、残酷、ポルノ画像など) を含む画像を直接拒否します。これらの防御メカニズムは、人間のプライバシーを保護し、悪用を避けるために導入されています。しかし、敵対的な攻撃に対する防御の堅牢性は不明です。そこで研究チームはこれら2つの防御機構を評価しました。

顔検出器攻撃:バードの顔検出器が敵対的サンプル内の顔を認識し、顔情報を含む予測を出力するのを防ぐために、研究者はホワイトボックス顔検出器を攻撃し、顔画像に対するモデルの認識信頼性を低下させました。攻撃方法は依然としてCWA方式を採用しており、LFWやFFHQなどのデータセットで実験が行われています。

次の図は、Bard に対する顔の敵対的サンプルの攻撃が成功した例を示しています。全体として、Bard 顔検出モジュールに対する敵対的攻撃の成功率は 38% に達しました。つまり、顔画像の 38% は Bard によって検出できず、対応する説明を出力できませんでした。

図6: バードの顔検出モデルへの攻撃

毒性検出器攻撃:有害な画像の説明が提供されないようにするために、Bard は毒性検出器を使用してそのような画像を除外します。これを攻撃するには、代替モデルとしていくつかのホワイトボックス毒性検出器を選択する必要があります。研究チームは、既存の毒性検出器の一部が、事前トレーニング済みの視覚モデル CLIP 上で微調整されていることを発見しました。これらの代替モデルを攻撃するには、これらの事前トレーニング済みモデルの機能を混乱させるだけで済みます。そのため、画像特徴攻撃と同じ目的関数を採用することができます。そして、同じ攻撃方法である CWA を使用します。

研究チームは、暴力的、残酷、またはポルノ的な内容を含む有害な画像 100 枚を手作業で収集し、Bard の毒性検出器を攻撃する成功率 36% を達成しました。下の図に示すように、毒性検出器は敵対的ノイズのある毒性画像を識別できません。したがって、バードはこれらの画像に対して不適切な説明を行っています。この実験は、悪意のある人物が Bard を悪用して有害なコンテンツの不適切な説明を生成する可能性があることを浮き彫りにしています。

図7: バードを攻撃する毒性検出モデル

議論と結論

上記の研究は、最先端の転送ベースの攻撃を使用して画像の特徴やテキストの説明の目標を最適化することで、現在主流の商用マルチモーダル大規模モデルもうまく欺くことができることを示しています。大規模なベースモデル（ChatGPT、Bardなど）がさまざまなタスクに人間によってますます使用されるようになるにつれて、そのセキュリティ問題が一般の人々の間で大きな懸念事項となっています。敵対的な攻撃手法は、LLM のセキュリティと整合を損ない、より深刻なセキュリティ問題を引き起こす可能性もあります。

さらに、大規模モデルのセキュリティを確保するには、対象を絞った防御が必要です。従来の敵対的トレーニング方法は、計算コストが高いため、大規模な事前トレーニング済みモデルに適用することが困難です。画像前処理に基づく防御は、大規模なモデルに適しており、プラグアンドプレイ方式で使用できます。最近の研究では、高度な生成モデル（拡散モデルなど）を利用して敵対的摂動（尤度最大化など [3]）を浄化する研究があり、これは敵対的サンプルに対する効果的な防御戦略として機能します。しかし、全体として、大規模モデルの堅牢性と耐干渉性をどのように改善するかは未解決の問題であり、調査と改善の余地がまだ多くあります。

<<:

>>: