GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

OpenAI の新しい GPT-4V バージョンは画像のアップロードをサポートしており、これにより新たな攻撃経路が生まれ、大規模言語モデル (LLM) がマルチモーダル画像インジェクション攻撃に対して脆弱になります。攻撃者は画像にコマンド、悪意のあるスクリプト、コードを埋め込むことができ、モデルはその指示に従います。

マルチモーダルヒントインジェクションイメージ攻撃は、データの漏洩、クエリのリダイレクト、エラーメッセージの生成、より複雑なスクリプトの実行により、LLM によるデータの解釈方法を再定義する可能性があります。 LLM を再利用して、以前に確立されたセキュリティガードレールを回避し、組織を危険にさらす可能性のあるコマンドを実行し、詐欺から運用妨害に至るまでのさまざまな脅威をもたらす可能性があります。

ワークフローの一部として LLM を導入しているすべての企業がリスクにさらされていますが、ビジネスの中核として LLM を使用して画像を分析および分類している企業が最もリスクにさらされています。攻撃者はさまざまな手法を使用して、画像の解釈や分類の方法をすばやく変更し、誤った情報によってさらなる混乱を引き起こす可能性があります。

LLM のヒントが上書きされると、悪意のあるコマンドや実行スクリプトに対してさらに盲目になる可能性が高くなります。 LLM にアップロードされた一連の画像内にコマンドを埋め込むことで、攻撃者はソーシャルエンジニアリング攻撃を容易にしながら詐欺や運用妨害を実行できます。

画像はLLMが防御できない攻撃ベクトルである

LLM のプロセスにはデータクレンジングの手順がないため、すべての画像は信頼できます。各データセット、アプリケーション、またはリソースへのアクセス制御なしに Web 上で ID が自由に移動できるようにするのは危険であるのと同様に、LLM にアップロードされた画像も同様に危険です。

プライベート LLM を導入している企業は、コアネットワークセキュリティ戦略として最小権限アクセスを採用する必要があります。

Simon Willison 氏は最近のブログ投稿で、なぜ GPT-4V がプロンプトインジェクション攻撃の主な手段となっているのかを詳しく説明し、LLM は根本的に騙されやすいと述べています。

ウィリスンは、プロンプトインジェクションが Auto-GPT のような自律 AI エージェントをハイジャックする方法を示しました。彼は、単純なビジュアルキューインジェクションが単一の画像に埋め込まれたコマンドから始まり、その後ビジュアルキューインジェクションの流出攻撃に変わった経緯を説明しました。

BDO UKのデータ分析および人工知能担当シニアマネージャー、ポール・エクウェレ氏は次のように語っています。「ヒントインジェクション攻撃は、LLM、特に画像や動画を処理するビジョンベースのモデルのセキュリティと信頼性に深刻な脅威をもたらします。これらのモデルは、顔認識、自動運転、医療診断、監視など、さまざまな分野で広く使用されています。」

OpenAI は、マルチモーダルキューインジェクション画像攻撃に対する解決策をまだ見つけていません。ユーザーと企業は独自に解決する必要があります。 Nvidia の開発者向け Web サイトのブログ投稿では、すべてのデータストアとシステムへの最小権限アクセスの強制など、規範的なガイダンスが提供されています。

マルチモーダルヒントインジェクション画像攻撃の仕組み

マルチモーダルプロンプトインジェクション攻撃は、GPT-4V の視覚画像処理における脆弱性を悪用して、検出されずに悪意のあるコマンドを実行します。GPT-4V は、視覚変換エンコーダーを使用して画像を潜在空間表現に変換します。画像とテキストデータが組み合わされて応答が生成されます。

このモデルには、エンコード前に視覚入力をクリーンアップする方法がありません。攻撃者は任意の数のコマンドを埋め込むことができ、GPT-4 はそれらを正当なコマンドと見なします。プライベート LLM に対してマルチモーダルヒントインジェクション攻撃を自動的に実行する攻撃者は気付かれません。

インジェクションイメージ攻撃の阻止

画像に対するこの保護されていない攻撃ベクトルの問題は、攻撃者が LLM のトレーニングに使用されるデータを時間の経過とともに信頼性の低いものにし、データの忠実度が時間の経過とともに低下する可能性があることです。

最近の研究論文では、LLM がヒントインジェクション攻撃からより効果的に身を守る方法についてのガイドラインが提供されています。リスクの範囲と潜在的な解決策を判断するために、研究者チームは、LLM を統合するアプリケーションに侵入する攻撃の有効性を判断しようとしました。研究チームは、LLM を統合した 31 個のアプリケーションがインジェクションに対して脆弱であることを発見しました。

研究論文では、挿入画像攻撃を抑制するための以下の推奨事項が示されています。

1. ユーザー入力のサニタイズと検証を改善する

プライベート LLM を標準化する企業にとって、アイデンティティアクセス管理 (IAM) と最小権限アクセスは不可欠です。 LLM プロバイダーは、画像データを処理に渡す前に、より包括的なクリーニングを実行する方法を検討する必要があります。

2. プラットフォームアーキテクチャを改善し、ユーザー入力をシステムロジックから分離する

目的は、ユーザー入力が LLM コードとデータに直接影響を与えるリスクを排除することです。すべての画像キューは、内部ロジックやワークフローに影響を与えないように処理する必要があります。

3. 多段階の処理ワークフローを使用して悪意のある攻撃を特定する

画像ベースの攻撃を早期に捕捉するための多段階プロセスを作成することで、この脅威ベクトルを管理するのに役立ちます。

4. 脱獄を防ぐための防御ヒントをカスタマイズする

ジェイルブレイクは、LLM を騙して違法な動作を実行させるために使われる一般的なヒントエンジニアリング手法です。悪意のある画像入力にヒントを追加すると、LLM を保護するのに役立ちます。しかし、研究者らは、高度な攻撃では依然としてこの方法を回避できる可能性があると警告している。

急速に拡大する脅威

より多くの LLM がマルチモーダルモデルになるにつれて、画像は、攻撃者がガードレールを回避して再定義するために利用できる最新の脅威ベクトルになりつつあります。画像ベースの攻撃の深刻度は、単純なコマンドから、産業に損害を与え、誤った情報を広く拡散することを目的としたより複雑な攻撃シナリオまで多岐にわたります。

GPT 4 がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱である理由

<<: 人工知能チュートリアル（I）：基礎

>>: エージェントは迅速なエンジニアリングに使用されます