大規模言語モデルの脆弱性緩和ガイド

大規模言語モデル (LLM) アプリケーションは世界中で急速に普及していますが、企業は依然として大規模言語モデルの脅威の状況について包括的な理解を欠いています。大規模言語モデルのリスクの不確実性に直面して、企業はセキュリティを確保しながら大規模言語モデルの開発を加速したいと考えています。

企業の中核競争力を強化するために人工知能を適用するということは、企業の CISO が新たな人工知能の脅威を理解して対応しなければならないという大きなプレッシャーにさらされていることを意味します。

AI の脅威の状況は日々変化しており、企業のセキュリティチームは、企業の業務に重大なリスクをもたらす大規模な言語モデルの脆弱性を優先して対処する必要があります。サイバーセキュリティチームがこれらの脆弱性とその軽減策を深く理解していれば、企業はリスクを過度に懸念することなく、思い切って大規模な言語モデルを使用してイノベーションをより迅速に進めることができます。

以下では、大規模言語モデルの 4 つの主要なリスクとその軽減策について簡単に紹介します。

1. インジェクション攻撃とデータ漏洩に関するヒント

大規模言語モデルの場合、データ漏洩が最も懸念される大きなリスクです。大規模な言語モデルは「騙されて」企業やユーザーの機密情報を漏らす可能性があり、さまざまなプライバシーやセキュリティの問題につながる可能性があります。ヒントの漏洩も大きな問題であり、悪意のあるユーザーがシステムのヒントにアクセスすると、企業の知的財産が危険にさらされる可能性があります。

どちらの脆弱性もプロンプトインジェクションに関連しています。直接的および間接的なプロンプトインジェクション攻撃は、現在ますます一般的になりつつあり、深刻な結果をもたらす可能性があります。

プロンプトインジェクション攻撃が成功すると、クロスプラグインリクエストフォージェリ、クロスサイトスクリプティング、トレーニングデータの抽出につながる可能性があり、これらはすべて、企業秘密、ユーザーの個人データ、重要なトレーニングデータを危険にさらします。

そのため、企業は AI アプリケーション開発ライフサイクル全体にわたって検査システムを実装する必要があります。データの調達と処理からアプリケーションの選択とトレーニングまで、侵害のリスクを軽減するためにすべてのステップを制限する必要があります。サンドボックス、ホワイトリスト、API ゲートウェイなどの従来のセキュリティ対策は、大規模な言語モデルを扱う場合も同様に（場合によってはそれ以上に）役立ちます。さらに、セキュリティチームがすべてのプラグインを慎重に確認し、大規模な言語モデルアプリケーションと統合する前に、すべての高権限タスクを手動で確認して承認することが重要です。

2. モデルデータ汚染攻撃

AI モデルの有効性はデータの品質に依存します。しかし、事前トレーニングから微調整、埋め込みまで、モデル開発プロセス全体を通じて、トレーニングデータセットはハッカーに対して脆弱です。

ほとんどの企業は、データが不明な当事者によって管理され、ネットワークチームがデータが改ざんされていないことを盲目的に信頼できないサードパーティモデルを利用しています。サードパーティのモデルを使用する場合でも、社内モデルを使用する場合でも、悪意のある人物による「データ汚染」のリスクが常に存在し、モデルのパフォーマンスに大きな影響を与え、ブランドの評判を損なう可能性があります。

オープンソースの AutoPoison フレームワーク (https://github.com/azshue/AutoPoison/blob/main/assets/intro.png) では、命令のチューニング中にデータポイズニング攻撃がモデルにどのように影響するかが明確に説明されています。さらに、サイバーセキュリティチームがリスクを軽減し、AI モデルのパフォーマンスを最大化するために実装できるリスク軽減戦略をいくつか紹介します。

サプライチェーン監査: 厳格なセキュリティ対策でサプライチェーンを監査し、データソースがクリーンであることを確認します。「データはどのように収集されましたか？」などの質問をします。「ユーザーの同意は得られましたか？また、それは倫理規則に準拠していましたか？」さらに、データ注釈者の身元や資格、ラベルに偏りや矛盾がないかを確認する必要もあります。さらに、データの所有者やライセンスの利用規約など、データの所有権とライセンスの問題にも対処します。

データのクリーニングとクレンジング: モデルに取り込む前に、すべてのデータとソースを必ず確認してください。たとえば、PII はモデルに組み込む前に編集する必要があります。

レッドチーム演習: モデルライフサイクルのテストフェーズ中に、大規模な言語モデルに焦点を当てたレッドチーム演習を実施します。具体的には、トレーニングデータを操作して悪意のあるコード、バイアス、または有害なコンテンツを挿入するテストシナリオを優先し、敵対的入力、ポイズニング攻撃、モデル抽出手法などのさまざまな攻撃方法を採用します。

3. 相互接続システムのAPIリスク

GPT-4 のような高度なモデルは、他のアプリケーションと通信するシステムに統合されることがよくあります。しかし、API が関係する場合は常に下流のシステムが危険にさらされ、1 つの悪意のあるヒントが相互接続されたシステムにドミノ効果をもたらす可能性があります。このリスクを軽減するには、次の点を考慮してください。

大規模な言語モデルが外部 API を呼び出すことを許可する場合は、破壊的な可能性のある操作を実行する前にユーザーの確認を求めます。

異なるシステムを相互接続する前に、大規模な言語モデルの出力を確認します。リモートコード実行 (RCE) などのリスクにつながる可能性のある潜在的な脆弱性がないか確認します。

これらの出力が異なるコンピュータシステム間の相互作用を促進するシナリオには特に注意してください。

相互接続されたシステムに関係するすべての API に対して強力なセキュリティ対策を実装します。

強力な認証および承認プロトコルを使用して、不正アクセスやデータ侵害を防止します。

異常なリクエストパターンや脆弱性を悪用する試みなど、異常や疑わしい動作の兆候がないか API アクティビティを監視します。

4. 大規模モデルDoS攻撃

ネットワーク帯域幅の飽和脆弱性は、攻撃者によってサービス拒否 (DoS) 攻撃に悪用される可能性があり、大規模な言語モデルの使用コストが急上昇する可能性があります。

モデルによるサービス拒否攻撃では、攻撃者はモデルを使用してリソース (帯域幅やシステム処理能力など) を過剰に消費し、最終的にターゲットシステムの可用性を低下させます。その結果、このような攻撃はサービス品質の低下や、大規模モデルに対する高額な請求につながる可能性があります。 DoS 攻撃はサイバーセキュリティの世界では目新しいものではないため、モデル化されたサービス拒否攻撃を防御し、コストが急速に増大するリスクを軽減するために採用できる戦略がいくつかあります。

レート制限: リクエストが多すぎてシステムが過負荷にならないように、レート制限を実装します。アプリケーションに適切なレート制限を決定するには、モデルのサイズと複雑さ、ハードウェアとインフラストラクチャ、平均リクエスト数とピーク使用時間を考慮する必要があります。

文字数制限: 大規模なモデルで API リソースが枯渇するのを防ぐために、ユーザーがクエリに含めることができる文字数に制限を設定します。

フレームワークプロバイダーのメソッド: フレームワークプロバイダーが提供するメソッドを使用して、攻撃に対する防御を強化します。たとえば、LangChain を使用する場合は、max_iterations パラメータの使用を検討してください。

大規模な言語モデルを保護するには、データ処理、モデルトレーニング、システム統合、リソース使用など多面的なアプローチが必要です。上記の推奨戦略を実装し、注意を怠らないことで、企業は、重要な部分を無駄にすることなく大規模言語モデルの機能を最大限に活用し、関連するリスクを最小限に抑えることができます。

<<: 新しい研究：医療AIが新たな統合失調症患者の治療効果をほぼ盲検で評価

>>: