GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

GPT-4P がマルチモーダルプロンプトインジェクションイメージ攻撃に対して脆弱なのはなぜですか?

OpenAI の新しい GPT-4V バージョンは画像のアップロードをサポートしており、これにより新たな攻撃経路が生まれ、大規模言語モデル (LLM) がマルチモーダル画像インジェクション攻撃に対して脆弱になります。攻撃者は画像にコマンド、悪意のあるスクリプト、コードを埋め込むことができ、モデルはその指示に従います。

マルチモーダルヒントインジェクションイメージ攻撃は、データの漏洩、クエリのリダイレクト、エラーメッセージの生成、より複雑なスクリプトの実行により、LLM によるデータの解釈方法を再定義する可能性があります。 LLM を再利用して、以前に確立されたセキュリティ ガードレールを回避し、組織を危険にさらす可能性のあるコマンドを実行し、詐欺から運用妨害に至るまでのさまざまな脅威をもたらす可能性があります。

ワークフローの一部として LLM を導入しているすべての企業がリスクにさらされていますが、ビジネスの中核として LLM を使用して画像を分析および分類している企業が最もリスクにさらされています。攻撃者はさまざまな手法を使用して、画像の解釈や分類の方法をすばやく変更し、誤った情報によってさらなる混乱を引き起こす可能性があります。

LLM のヒントが上書きされると、悪意のあるコマンドや実行スクリプトに対してさらに盲目になる可能性が高くなります。 LLM にアップロードされた一連の画像内にコマンドを埋め込むことで、攻撃者はソーシャル エンジニアリング攻撃を容易にしながら詐欺や運用妨害を実行できます。

画像はLLMが防御できない攻撃ベクトルである

LLM のプロセスにはデータ クレンジングの手順がないため、すべての画像は信頼できます。各データセット、アプリケーション、またはリソースへのアクセス制御なしに Web 上で ID が自由に移動できるようにするのは危険であるのと同様に、LLM にアップロードされた画像も同様に危険です。

プライベート LLM を導入している企業は、コア ネットワーク セキュリティ戦略として最小権限アクセスを採用する必要があります。

Simon Willison 氏は最近のブログ投稿で、なぜ GPT-4V がプロンプト インジェクション攻撃の主な手段となっているのかを詳しく説明し、LLM は根本的に騙されやすいと述べています。

ウィリスンは、プロンプト インジェクションが Auto-GPT のような自律 AI エージェントをハイジャックする方法を示しました。彼は、単純なビジュアル キュー インジェクションが単一の画像に埋め込まれたコマンドから始まり、その後ビジュアル キュー インジェクションの流出攻撃に変わった経緯を説明しました。

BDO UKのデータ分析および人工知能担当シニアマネージャー、ポール・エクウェレ氏は次のように語っています。「ヒントインジェクション攻撃は、LLM、特に画像や動画を処理するビジョンベースのモデルのセキュリティと信頼性に深刻な脅威をもたらします。これらのモデルは、顔認識、自動運転、医療診断、監視など、さまざまな分野で広く使用されています。」

OpenAI は、マルチモーダル キュー インジェクション画像攻撃に対する解決策をまだ見つけていません。ユーザーと企業は独自に解決する必要があります。 Nvidia の開発者向け Web サイトのブログ投稿では、すべてのデータ ストアとシステムへの最小権限アクセスの強制など、規範的なガイダンスが提供されています。

マルチモーダルヒントインジェクション画像攻撃の仕組み

マルチモーダル プロンプト インジェクション攻撃は、GPT-4V の視覚画像処理における脆弱性を悪用して、検出されずに悪意のあるコマンドを実行します。GPT-4V は、視覚変換エンコーダーを使用して画像を潜在空間表現に変換します。画像とテキスト データが組み合わされて応答が生成されます。

このモデルには、エンコード前に視覚入力をクリーンアップする方法がありません。攻撃者は任意の数のコマンドを埋め込むことができ、GPT-4 はそれらを正当なコマンドと見なします。プライベート LLM に対してマルチモーダルヒントインジェクション攻撃を自動的に実行する攻撃者は気付かれません。

インジェクションイメージ攻撃の阻止

画像に対するこの保護されていない攻撃ベクトルの問題は、攻撃者が LLM のトレーニングに使用されるデータを時間の経過とともに信頼性の低いものにし、データの忠実度が時間の経過とともに低下する可能性があることです。

最近の研究論文では、LLM がヒント インジェクション攻撃からより効果的に身を守る方法についてのガイドラインが提供されています。リスクの範囲と潜在的な解決策を判断するために、研究者チームは、LLM を統合するアプリケーションに侵入する攻撃の有効性を判断しようとしました。研究チームは、LLM を統合した 31 個のアプリケーションがインジェクションに対して脆弱であることを発見しました。

研究論文では、挿入画像攻撃を抑制するための以下の推奨事項が示されています。

1. ユーザー入力のサニタイズと検証を改善する

プライベート LLM を標準化する企業にとって、アイデンティティ アクセス管理 (IAM) と最小権限アクセスは不可欠です。 LLM プロバイダーは、画像データを処理に渡す前に、より包括的なクリーニングを実行する方法を検討する必要があります。

2. プラットフォームアーキテクチャを改善し、ユーザー入力をシステムロジックから分離する

目的は、ユーザー入力が LLM コードとデータに直接影響を与えるリスクを排除することです。すべての画像キューは、内部ロジックやワークフローに影響を与えないように処理する必要があります。

3. 多段階の処理ワークフローを使用して悪意のある攻撃を特定する

画像ベースの攻撃を早期に捕捉するための多段階プロセスを作成することで、この脅威ベクトルを管理するのに役立ちます。

4. 脱獄を防ぐための防御ヒントをカスタマイズする

ジェイルブレイクは、LLM を騙して違法な動作を実行させるために使われる一般的なヒント エンジニアリング手法です。悪意のある画像入力にヒントを追加すると、LLM を保護するのに役立ちます。しかし、研究者らは、高度な攻撃では依然としてこの方法を回避できる可能性があると警告している。

急速に拡大する脅威

より多くの LLM がマルチモーダル モデルになるにつれて、画像は、攻撃者がガードレールを回避して再定義するために利用できる最新の脅威ベクトルになりつつあります。画像ベースの攻撃の深刻度は、単純なコマンドから、産業に損害を与え、誤った情報を広く拡散することを目的としたより複雑な攻撃シナリオまで多岐にわたります。

GPT 4 がマルチモーダル プロンプト インジェクション イメージ攻撃に対して脆弱である理由

<<:  人工知能チュートリアル(I):基礎

>>:  エージェントは迅速なエンジニアリングに使用されます

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能におけるGNNとは何ですか?

グラフディープラーニング(GDL)は有望な研究分野であり、グラフデータに基づいた学習や分析は非常に有...

...

顔認識だけでなく、「心を読む」こともできます。このような AI は好きですか?

世界はとてもカラフルです。この美しい地球に住むすべての人は、理解されることを望み、注目されることを待...

...

ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

携帯電話の冷たい画面を通して友達とチャットするときは、相手の口調を推測する必要があります。彼/彼女が...

デューク大学: 効率的な人工知能システムのソフトウェアとハ​​ードウェアの共同設計

少し前に、機械知能 AI テクノロジー年次会議がオンラインで開催されました。デューク大学電気・コンピ...

美団総合ビジネス推奨システムの品質モデルと実践

著者: Yong Hao Gen Gen、Wang Xin など1 はじめに美団の総合店内事業(以下...

...

調査:CIOはAIの実験や投資に依然として慎重

機械学習の実験と成果の達成に関しては、持っている人と持っていない人の間の格差が拡大しています。先週ニ...

...

世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

先ほど、グローバル AI 人材レポートが発表されました。世界のトップクラスの AI 人材のうち、約半...

DeepMindは、あらゆる武器を持つロボットを簡単に倒すことができる視覚ベースの強化学習モデルを提案している。

人間は模倣が得意です。私たちや他の動物は、行動を観察し、それが環境の状態に与える影響を理解し、同じよ...

ボストンダイナミクスのスポットが工場に入り、作業を開始しました!現代自動車はそれを夜間警備に配備し、工場の安全管理官に変身させる

ボストン・ダイナミクスのロボットは見た目はかっこいいのですが、使い道がないので、好評は得られても人気...

...