OpenAI の新しい GPT-4V バージョンは画像のアップロードをサポートしており、これにより新たな攻撃経路が生まれ、大規模言語モデル (LLM) がマルチモーダル画像インジェクション攻撃に対して脆弱になります。攻撃者は画像にコマンド、悪意のあるスクリプト、コードを埋め込むことができ、モデルはその指示に従います。 マルチモーダルヒントインジェクションイメージ攻撃は、データの漏洩、クエリのリダイレクト、エラーメッセージの生成、より複雑なスクリプトの実行により、LLM によるデータの解釈方法を再定義する可能性があります。 LLM を再利用して、以前に確立されたセキュリティ ガードレールを回避し、組織を危険にさらす可能性のあるコマンドを実行し、詐欺から運用妨害に至るまでのさまざまな脅威をもたらす可能性があります。 ワークフローの一部として LLM を導入しているすべての企業がリスクにさらされていますが、ビジネスの中核として LLM を使用して画像を分析および分類している企業が最もリスクにさらされています。攻撃者はさまざまな手法を使用して、画像の解釈や分類の方法をすばやく変更し、誤った情報によってさらなる混乱を引き起こす可能性があります。 LLM のヒントが上書きされると、悪意のあるコマンドや実行スクリプトに対してさらに盲目になる可能性が高くなります。 LLM にアップロードされた一連の画像内にコマンドを埋め込むことで、攻撃者はソーシャル エンジニアリング攻撃を容易にしながら詐欺や運用妨害を実行できます。 画像はLLMが防御できない攻撃ベクトルであるLLM のプロセスにはデータ クレンジングの手順がないため、すべての画像は信頼できます。各データセット、アプリケーション、またはリソースへのアクセス制御なしに Web 上で ID が自由に移動できるようにするのは危険であるのと同様に、LLM にアップロードされた画像も同様に危険です。 プライベート LLM を導入している企業は、コア ネットワーク セキュリティ戦略として最小権限アクセスを採用する必要があります。 Simon Willison 氏は最近のブログ投稿で、なぜ GPT-4V がプロンプト インジェクション攻撃の主な手段となっているのかを詳しく説明し、LLM は根本的に騙されやすいと述べています。 ウィリスンは、プロンプト インジェクションが Auto-GPT のような自律 AI エージェントをハイジャックする方法を示しました。彼は、単純なビジュアル キュー インジェクションが単一の画像に埋め込まれたコマンドから始まり、その後ビジュアル キュー インジェクションの流出攻撃に変わった経緯を説明しました。 BDO UKのデータ分析および人工知能担当シニアマネージャー、ポール・エクウェレ氏は次のように語っています。「ヒントインジェクション攻撃は、LLM、特に画像や動画を処理するビジョンベースのモデルのセキュリティと信頼性に深刻な脅威をもたらします。これらのモデルは、顔認識、自動運転、医療診断、監視など、さまざまな分野で広く使用されています。」 OpenAI は、マルチモーダル キュー インジェクション画像攻撃に対する解決策をまだ見つけていません。ユーザーと企業は独自に解決する必要があります。 Nvidia の開発者向け Web サイトのブログ投稿では、すべてのデータ ストアとシステムへの最小権限アクセスの強制など、規範的なガイダンスが提供されています。 マルチモーダルヒントインジェクション画像攻撃の仕組みマルチモーダル プロンプト インジェクション攻撃は、GPT-4V の視覚画像処理における脆弱性を悪用して、検出されずに悪意のあるコマンドを実行します。GPT-4V は、視覚変換エンコーダーを使用して画像を潜在空間表現に変換します。画像とテキスト データが組み合わされて応答が生成されます。 このモデルには、エンコード前に視覚入力をクリーンアップする方法がありません。攻撃者は任意の数のコマンドを埋め込むことができ、GPT-4 はそれらを正当なコマンドと見なします。プライベート LLM に対してマルチモーダルヒントインジェクション攻撃を自動的に実行する攻撃者は気付かれません。 インジェクションイメージ攻撃の阻止画像に対するこの保護されていない攻撃ベクトルの問題は、攻撃者が LLM のトレーニングに使用されるデータを時間の経過とともに信頼性の低いものにし、データの忠実度が時間の経過とともに低下する可能性があることです。 最近の研究論文では、LLM がヒント インジェクション攻撃からより効果的に身を守る方法についてのガイドラインが提供されています。リスクの範囲と潜在的な解決策を判断するために、研究者チームは、LLM を統合するアプリケーションに侵入する攻撃の有効性を判断しようとしました。研究チームは、LLM を統合した 31 個のアプリケーションがインジェクションに対して脆弱であることを発見しました。 研究論文では、挿入画像攻撃を抑制するための以下の推奨事項が示されています。1. ユーザー入力のサニタイズと検証を改善する プライベート LLM を標準化する企業にとって、アイデンティティ アクセス管理 (IAM) と最小権限アクセスは不可欠です。 LLM プロバイダーは、画像データを処理に渡す前に、より包括的なクリーニングを実行する方法を検討する必要があります。 2. プラットフォームアーキテクチャを改善し、ユーザー入力をシステムロジックから分離する 目的は、ユーザー入力が LLM コードとデータに直接影響を与えるリスクを排除することです。すべての画像キューは、内部ロジックやワークフローに影響を与えないように処理する必要があります。 3. 多段階の処理ワークフローを使用して悪意のある攻撃を特定する 画像ベースの攻撃を早期に捕捉するための多段階プロセスを作成することで、この脅威ベクトルを管理するのに役立ちます。 4. 脱獄を防ぐための防御ヒントをカスタマイズする ジェイルブレイクは、LLM を騙して違法な動作を実行させるために使われる一般的なヒント エンジニアリング手法です。悪意のある画像入力にヒントを追加すると、LLM を保護するのに役立ちます。しかし、研究者らは、高度な攻撃では依然としてこの方法を回避できる可能性があると警告している。 急速に拡大する脅威より多くの LLM がマルチモーダル モデルになるにつれて、画像は、攻撃者がガードレールを回避して再定義するために利用できる最新の脅威ベクトルになりつつあります。画像ベースの攻撃の深刻度は、単純なコマンドから、産業に損害を与え、誤った情報を広く拡散することを目的としたより複雑な攻撃シナリオまで多岐にわたります。 GPT 4 がマルチモーダル プロンプト インジェクション イメージ攻撃に対して脆弱である理由 |
グラフディープラーニング(GDL)は有望な研究分野であり、グラフデータに基づいた学習や分析は非常に有...
世界はとてもカラフルです。この美しい地球に住むすべての人は、理解されることを望み、注目されることを待...
携帯電話の冷たい画面を通して友達とチャットするときは、相手の口調を推測する必要があります。彼/彼女が...
1分で新しいGPTが誕生!わずか1週間で、さまざまなカスタマイズされたGPTが世界中で爆発的に増加し...
少し前に、機械知能 AI テクノロジー年次会議がオンラインで開催されました。デューク大学電気・コンピ...
著者: Yong Hao Gen Gen、Wang Xin など1 はじめに美団の総合店内事業(以下...
機械学習の実験と成果の達成に関しては、持っている人と持っていない人の間の格差が拡大しています。先週ニ...
先ほど、グローバル AI 人材レポートが発表されました。世界のトップクラスの AI 人材のうち、約半...
人間は模倣が得意です。私たちや他の動物は、行動を観察し、それが環境の状態に与える影響を理解し、同じよ...
ボストン・ダイナミクスのロボットは見た目はかっこいいのですが、使い道がないので、好評は得られても人気...