ChatGPTのリリースにより、大規模な言語モデルのアプリケーションが加速し、大規模に展開されています。 OpenAI の Safe Systems チームは、アライメント プロセス中にモデルにデフォルトの安全な動作を組み込むために多大なリソースを投入してきました。ただし、敵対的攻撃や迅速なジェイルブレイクにより、モデルが予期しないコンテンツを出力する可能性があります。 現在、敵対的攻撃に関する多くの研究は、画像、つまり連続した高次元空間に焦点を当てています。テキストなどの離散データの場合、勾配信号がないため、攻撃ははるかに困難であると一般に考えられています。 Lilian Weng 氏は以前、このトピックについて検討した「制御可能なテキスト生成」というタイトルの記事を執筆しました。簡単に言えば、LLM を攻撃するということは、本質的にはモデルを制御して特定のカテゴリのアイテムの (安全でない) コンテンツを出力することです。 記事アドレス: https://lilianweng.github.io/posts/2021-01-02-controllable-text-generation/ LLM への攻撃に関する研究のもう 1 つの分野は、事前トレーニング データやプライベートな知識を抽出したり、データ ポイズニングを通じてモデルのトレーニング プロセスを攻撃したりすることです。しかし、これらはこの記事の主題ではありません。 基礎脅威モデル 敵対的攻撃とは、モデルを騙して予期しない出力をさせる入力です。初期の研究の多くは分類タスクに重点を置いていましたが、最近の研究ではモデルの出力を生成することに重点が置かれ始めています。この論文では、大規模な言語モデルについて説明し、攻撃は推論段階でのみ発生する、つまりモデルの重みが固定されていると仮定します。 図1: LLMアプリケーションが直面する脅威の概要 分類 これまで、研究コミュニティは分類器に対する敵対的攻撃に重点を置いてきましたが、その多くは画像領域にありました。 LLM は分類にも使用できます。入力𝐱と分類器𝑓(.)が与えられた場合、𝑓(𝐱)≠𝑓(𝐱_adv)となるような、入力のわずかに異なる敵対的バージョン𝐱_advを見つけたいとします。 テキスト生成 入力𝐱と生成モデル𝑝(.)が与えられると、モデルはサンプルy~𝑝(.|𝐱)を出力できます。ここでの敵対的攻撃は、違法なトピックに関する安全でないコンテンツを出力したり、個人情報やモデルのトレーニングデータを漏らしたりするなど、y がモデルの組み込みセキュリティ動作に違反するような 𝑝(𝐱) を見つけることです。生成タスクの場合、攻撃が成功したかどうかを判断するのは簡単ではありません。y が安全か、人間によるレビューが必要かを判断するには、非常に高品質の分類器が必要です。 ホワイトボックスとブラックボックス ホワイト ボックス攻撃では、攻撃者がモデルの重み、アーキテクチャ、トレーニング ワークフローに完全にアクセスできることを前提としており、これにより攻撃者は勾配信号を取得できます。ここでは、攻撃者がすべてのトレーニング データにアクセスできるとは想定していません。これはオープンソース モデルにのみ適用されます。ブラックボックス攻撃では、攻撃者が API タイプのサービスにのみアクセスできると想定されます。つまり、攻撃者はモデルに関する詳細情報を知らなくても、入力 𝐱 を提供し、フィードバック サンプル y を取得できます。 敵対的攻撃の種類攻撃者が LLM を騙して安全でないコンテンツを出力させる敵対的な入力を見つけるのに役立つさまざまなアプローチがあります。ここに5つの方法があります。 トークン操作 トークンのシーケンスを含むテキスト入力が与えられた場合、単純なトークン操作 (同義語への置き換えなど) を使用して、モデルを騙して誤った予測を行わせることができます。トークン操作に基づく攻撃はブラックボックス攻撃です。 Python フレームワークでは、Morris らによる 2020 年の論文「TextAttack: NLP における敵対的攻撃、データ拡張、および敵対的トレーニングのフレームワーク」で、NLP モデルの敵対的サンプルの作成に使用できる多くの単語およびトークン操作攻撃手法が実装されています。この分野の研究の多くは、分類と含意予測の実験です。 たとえば、Ribeiro ら (2018) による研究「NLP モデルのデバッグのための意味的に同等な敵対的ルール」では、人工的に提案された「意味的に同等な敵対的ルール (SEAR)」に依存しており、トークン操作をできるだけ少なくすることで、モデルが正しい答えを生成するのを防ぐことができます。たとえば、What を Which に置き換え、was を is に置き換えるなどのルールがあります。また、キーワードを置き換えたり、同義語に置き換えたりするなど、他の研究者によって提案されている方法もあります。 勾配ベースの攻撃 ホワイトボックス攻撃の場合、攻撃者はすべてのモデルパラメータとアーキテクチャを取得できます。したがって、攻撃者は勾配降下法を利用して、最も効果的な攻撃方法をプログラム的に学習することができます。勾配ベースの攻撃は、オープンソースの LLM などのホワイトボックス設定でのみ機能します。 Guo らが 2021 年の論文「テキスト トランスフォーマーに対する勾配ベースの敵対的攻撃」で提案した勾配ベースの分散攻撃 (GBDA) では、Gumbel-Softmax 近似手法を使用して敵対的損失最適化を差別化します。また、BERTScore と perplexity を使用して、知覚可能性と流暢性を高めます。 しかし、Gumbel-softmax 手法はトークンの削除や追加に拡張することが難しく、トークンの置換操作に限定されています。 Ebrahimi らは 2018 年の論文「HotFlip: テキスト分類のためのホワイトボックスの敵対的サンプル」で、テキスト操作をベクトル空間の入力として考え、これらのベクトルの損失の導関数を測定しています。 HotFlip はトークンの削除または追加のために拡張できます。 Wallace ら (2019) の論文「Universal Adversarial Triggers for Attacking and Analyzing NLP」では、モデルが特定の予測結果を出力するように誘導する短いシーケンスを見つけるために、トークンに対する勾配誘導検索法を提案しました。この短いシーケンスは、Universal Adversarial Triggers (UAT) と呼ばれます。 UAT は入力に依存しないため、これらのトリガーはデータセットからの任意の入力にプレフィックス (またはサフィックス) を付けることができます。 Shin ら (2020 年) の「AutoPrompt: 自動生成プロンプトによる言語モデルからの知識の抽出」では、同じ勾配ベースの検索戦略を使用して、さまざまなタスクに最も効果的なプロンプト テンプレートを見つけています。 上記のトークン検索方法は、ビーム検索を使用して強化できます。最適なトークン埋め込みを探す場合、1 つの候補ではなく上位 k 個の候補を選択し、現在のバッチを左から右に検索し、𝓛_adv に基づいて各ビームにスコアを付けることができます。 図4: UATの仕組みの図解 UAT の損失 𝓛_adv は特定のタスクに合わせて設計する必要があります。分類や読解はクロスエントロピーに依存します。 図5: さまざまな言語タスクのUATの例 UAT が機能するのはなぜですか?これは非常に興味深い質問です。 UAT は入力に依存せず、さまざまな埋め込み、トークン化スキーム、アーキテクチャを持つモデル間で転送可能であるため、モデルのグローバル動作にすでに組み込まれているトレーニング データ内のバイアスを効果的に活用できる可能性があります。 UAT 攻撃を使用する場合の欠点は、簡単に検出されることです。その理由は、学習したトリガーが意味をなさないことが多いからです。 Mehrabi et al. (2022) は、論文「知覚できない毒性トリガーに対する堅牢な会話エージェント」で、学習したトリガーを複数ターンの会話コンテキストで知覚できないようにする UAT の 2 つのバリエーションを研究しています。目標は、会話の中で攻撃がスムーズで首尾一貫し、一貫性があることを確保しながら、特定の会話で有害な反応を引き起こすのに効果的な攻撃的なメッセージを作成することです。 2 つのバリエーションは、UAT-LM (言語モデル損失付きユニバーサル敵対的トリガー) と UTSC (選択基準付きユニグラムトリガー) です。 図6: UTSCの作業方法の図解 UAT-LM と UTSC-1 は UAT ベースラインと同等のパフォーマンスを発揮しますが、UAT 攻撃フレーズの難解さは驚くほど高く、UAT-LM と UTSC-1 の両方よりもはるかに高くなっています。難解度が高いほど、攻撃の検出が容易になり、軽減も容易になります。人間による評価によると、UTSC-1 攻撃は他の攻撃方法よりも一貫性があり、スムーズで、関連性のある結果を生み出すことができます。 図 7: 生成された攻撃に対する防御モデルの応答に基づいて、さまざまな毒性分類器によって測定された攻撃成功率。 Zou ら (2023) の論文「感知できない毒性トリガーに対する堅牢な会話エージェント」では、入力リクエストのサフィックスとして普遍的な敵対的トリガー トークンを添付するケースも研究されました。彼らは特に、LLM への悪意のあるリクエスト、つまりモデルが応答を拒否すべきリクエストに注目しました。実際、許可されていないコンテンツ カテゴリ (犯罪の提案など) を拒否することは、GPT-4 に組み込まれた重要な安全対策です。ここでの敵対的な目標は、LLM が回答を拒否すべき場合でも肯定的な応答を出力するように騙すことです。つまり、悪意のあるリクエストを受信すると、モデルは「もちろん、これを行う必要があります...」のように応答します。期待される肯定応答も、件名の接尾辞を単に変更して「もちろん」応答を最適化することを避けるために、ユーザープロンプトの一部を繰り返すように構成されています。損失関数は単純で、出力ターゲット応答の NLL (負の対数尤度) です。 図 8: 敵対的トリガーが導入される場所の図。赤い感嘆符は学習する敵対的トークンを表します。 彼らは、貪欲座標勾配(GCG)ベースの検索を使用して、すべての可能な単一トークンの置き換えの中で損失を最小限に抑える候補を貪欲に見つけるという、2つの異なるモデル、Vicuna-7bとVicuna-13bでの実験を行いました。 攻撃シーケンスは完全にオープンソース モデルでトレーニングされたにもかかわらず、他の商用モデルにも驚くほど移植可能であり、特に低レベルのトレーニング データに重複がある場合、オープンソース モデルに対するホワイト ボックス攻撃はプライベート モデルに対しても有効であることが示唆されています。 Vicuna は、本質的には蒸留である GPT-3.5-turbo (shareGPT 経由) から収集されたデータを使用してトレーニングされたため、この攻撃はホワイト ボックス攻撃に似ていることに注意してください。 図 9: HB (有害動作) 指示に対する平均攻撃成功率。これは 5 つのプロンプトの平均結果です。 Jones らが 2023 年に提案した自己回帰確率座標上昇法 (ARCA) では、より広範な最適化問題を考慮し、「バラク・オバマ」で始まるが有毒な出力をもたらす無毒な入力など、特定の行動パターンに一致する入力と出力のペア (𝐱、𝐲) を見つけます。監査目標: 𝜙 : 𝑿×𝒀→ℝが与えられると、ペア(入力プロンプト、出力完了結果)がスコアにマッピングされます。 図 10: GPT-2 と GPT-J を誘導して毒性出力を生成する平均成功率。太線: CivilComments のすべての出力。点線: CivilComments の 1、2、3 トークンの有害な出力。 脱獄プロンプトのデザイン脱獄プロンプトは、LLM に敵対的な方法で回避すべき有害なコンテンツを出力するように誘導するためのものです。ジェイルブレイクはブラックボックス攻撃であるため、語彙の組み合わせはヒューリスティックと手動探索に基づいて実行されます。 Wei ら (2023) の論文「Jailbroken: LLM Safety Training Fail?」では、脱獄攻撃の設計のガイドとして使用できる LLM セキュリティの 2 つの障害モードが提案されています。 1. 競合する目標: これは、モデルの機能 (「常に命令に従う」など) が安全目標と競合する状況を指します。競合するターゲットを悪用する脱獄攻撃の例には、次のものがあります。
2. 一般化の不一致: これは、セキュリティ トレーニングを、その能力のあるドメインに一般化できないことを指します。これは、入力がモデルの安全なトレーニング データ分布 (OOD) の範囲外であるが、広範な事前トレーニング コーパスの範囲内にある場合に発生します。例:
Wei et al. (2023) は、上記の原則に基づいて構築された組み合わせ戦略を含む、多数の脱獄方法を実験しました。
図11: 脱獄手法の種類と攻撃モデルにおける成功率 Greshake ら (2023) の論文「Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection」では、プロンプト インジェクション攻撃を高レベルで観察しています。攻撃が詳細な方法を提供できず、目標のみを提供する場合でも、モデルはそれを自動的に達成できる可能性があることを指摘しています。モデルが外部 API やツールにアクセスできる場合、より多くの情報 (独自の情報も含む) にアクセスできるようになるため、フィッシングやプライベート スヌーピング攻撃のリスクが増大する可能性があります。 人間が関与するレッドチーム戦略Wallace ら (2019) は、論文「Trick Me If You Can: Human-in-the-loop Generation of Adversarial Examples for Question Answering」で、人間が関与する敵対的生成を提案し、人間がモデルを破れるように導くツールを構築することを目標としました。 彼らは QuizBowl QA データセットを使用して実験を行い、テレビのクイズ番組「Jeopardy」のスタイルで人間が質問を書き、それを使用してモデルが誤った予測を行うように誘導できる敵対的ライティング インターフェースを設計しました。各単語には、その重要度に応じて異なる色のラベルが付けられます (つまり、単語を削除するとモデルの予測確率が変わります)。単語の重要度は、単語の埋め込みに基づくモデル勾配によって近似されます。 図 12: 敵対的ライティング インターフェース。左上にはモデルの上位 5 つの予測がリストされ、右下には単語の重要度が異なる色でマークされたユーザーの質問が表示されます。 実験では、人間のトレーナーの仕事は、安全分類器が暴力的なコンテンツを分類できないケースを見つけることです。 Ziegler ら (2022) は、論文「ハイステークス信頼性のための敵対的トレーニング」の中で、人間の敵対者が分類器の障害をより迅速かつ効率的に発見して排除するのを支援するために使用できるツールを作成しました。ツール支援による書き換えは完全な手動書き換えよりも高速で、サンプルあたりに必要な時間が 20 分から 13 分に短縮されました。具体的には、人間の書き手を支援するために、各トークンの重要度スコアの表示とトークンの置き換えおよび挿入という 2 つの機能を導入しました。 図 13: 分類器に対する敵対的攻撃を人間が実行することを支援するツールの UI。人間が行う必要があるのは、モデルが入力が暴力的なコンテンツであると予測する可能性を減らすために、プロンプトを編集または完了することです。 Xu らは 2021 年に「安全な会話エージェントのためのボット敵対的対話」で、人間がモデルに間違い (安全でないコンテンツの出力など) を誘発するように誘導できるフレームワークであるボット敵対的対話 (BAD) を提案しました。彼らはモデルとクラウドワーカーの間の5,000件以上の会話を収集しました。各会話セットは 14 ターンで構成され、安全でない会話ターンの数に基づいてモデルにスコアが付けられました。最終的に、不快なラベルが付いた約 2,500 件の会話を含む BAD データセットが完成しました。 Anthropic の Red Team Dataset には、人間のレッドチームメンバーと LLM との会話から収集された約 40,000 件の敵対的攻撃が含まれています。彼らは、RLHF が大きいほど、攻撃が困難になることを発見しました。 OpenAI がリリースした大規模モデル (GPT-4 や DALL-E 3 など) では、通常、セキュリティの準備に人間の専門家によるレッドチームが使用されます。 データセットアドレス: https://github.com/anthropics/hh-rlhf/tree/master/red-team-attempts モデルレッドチーム戦略人間によるレッドチーム戦略は強力ですが、大規模に実装するのは難しく、多数の訓練を受けた専門家が必要になる場合があります。ここで想像してください。レッドチーム モデルを学習して、ターゲット LLM と敵対関係を築き、安全でない応答をトリガーすることができます。モデルベースのレッドチーム戦略の主な課題は、攻撃が成功したかどうかをどのように判断するかです。これを知ることによってのみ、レッドチーム モデルをトレーニングするための適切な学習信号を構築できます。 モデルの出力が有害かどうかを判断できる高品質の分類器がすでにあると仮定すると、それを報酬として使用してレッドチーム モデルをトレーニングし、ターゲット モデルの出力に対する分類器のスコアを最大化する入力を取得できます。 r(𝐱,𝐲)を、テスト入力𝐱が与えられたときに出力𝐲が有害であるかどうかを判断するレッドチーム分類器とします。 Perez らによる 2022 年の論文「Red Teaming Language Models with Language Models」によると、敵対的攻撃のサンプルを見つけるには、次の 3 つの簡単なステップに従います。
彼らは、ゼロショット生成、ランダム少数ショット生成、教師あり学習、強化学習など、レッドチームモデルからサンプリングしたり、レッドチームモデルをさらにトレーニングしてより効果的にしたりするためのいくつかの方法を実験しました。 Casper ら (2023) の論文「探索、確立、活用: ゼロからのレッドチーム言語モデル」では、人間の関与によるレッドチームのプロセスを設計しています。 Perez et al. (2022) との主な違いは、ターゲット モデルのデータ サンプリング フェーズを明示的に設定し、そのモデル上の人間のラベルを収集して、特定のタスクのレッド チーム分類器をトレーニングできることです。下の図に示すように、探索、確立、活用の 3 つの段階が含まれます。 図 15: 3 段階の「探索 - 確立 - 活用」アプローチを使用したレッド チーム戦略プロセス Mehrabiらによる2023年の論文「FLIRT: Feedback Loop In-context Red Teaming」は、レッドチームLM 𝑝_redのコンテキスト学習を利用して画像またはテキスト生成モデル𝑝を攻撃し、安全でないコンテンツを出力させます。 各 FLIRT 反復では次のようになります。
FLIRT コンテキスト テンプレートを更新する方法には、FIFO、LIFO、スコアリング、スコアリング LIFO など、いくつかの戦略があります。詳細については原文論文を参照してください。 図 16: さまざまな拡散モデルにおけるさまざまな攻撃戦略の攻撃有効性 (安全でない生成結果をトリガーする生成プロンプトの割合)。ベンチマークはSFS(ランダム少数ショット)です。括弧内の値は、一意のプロンプトの割合です。 攻撃への対応方法鞍点問題 Madry らによる 2017 年の論文「敵対的攻撃に耐性のあるディープラーニング モデルに向けて」では、敵対的堅牢性を鞍点問題としてモデル化し、堅牢な最適化問題に変換する非常に優れた敵対的堅牢性フレームワークが提案されました。このフレームワークは分類タスクの連続入力用に提案されたものですが、2 レベルの最適化プロセスをかなり簡潔な数式で説明しているため、共有する価値があります。 (サンプル、ラベル) のペア (𝐱,𝑦)∈𝒟 で構成されるデータ分布に基づく分類タスクを考えてみましょう。堅牢な分類器をトレーニングするという目標は、鞍点問題です。 ここで、𝓢⊆ℝ^d は敵対的な目的で許可される一連の摂動を指します。たとえば、画像の敵対的なバージョンが元のバージョンと似ているようにしたいとします。 その目的は、内部最大化問題と外部最小化問題から構成されます。
図 17: また、敵対的攻撃に対する堅牢性には、決定境界がより複雑になるため、より大きなモデル容量が必要であることもわかりました。興味深いことに、データ拡張を行わない場合、モデルのサイズを大きくするとモデルの堅牢性が向上します。 LLMの堅牢性に関するいくつかの研究ここでは、LLM の堅牢性に関するいくつかの研究について簡単に説明します。 Xie らによる 2023 年の論文「セルフリマインダーによる脱獄攻撃に対する ChatGPT の防御」では、モデルを敵対的攻撃から保護するためのシンプルで直感的な方法が見つかりました。それは、モデルに責任あるモデルになるように明示的に指示し、有害なコンテンツを生成しないようにすることです。これにより、脱獄攻撃の成功率が大幅に低下しますが、このような指示によりモデルが保守的になったり(たとえば、創造的な記述に役立たなくなったり)、場合によっては指示を誤って解釈したり(たとえば、安全と危険を分類する場合)するため、モデル生成の品質に悪影響を及ぼします。 敵対的攻撃のリスクを軽減するために、最も一般的な方法は、これらの攻撃サンプルを使用してモデルをトレーニングすることであり、これを「敵対的トレーニング」と呼びます。これは最も強力な防御方法とも考えられていますが、堅牢性とモデルのパフォーマンスのバランスを取る必要があります。 Jain et al. 2023 は、2 つの敵対的トレーニング設定を実験的にテストし、その結果は論文「Baseline Defenses for Adversarial Attacks Against Aligned Language Models」で報告されています。(1) 有害なプロンプトと「申し訳ありません。…として」という応答のペアに対して勾配降下法を実行します。(2) 各トレーニング ステップで、拒否された応答に対して下降ステップを実行し、レッド チームの不適切な応答に対して上昇ステップを実行します。最終的に、モデル生成の品質が大幅に低下した一方で、攻撃の成功率はわずかに低下しただけであったため、方法(2)は役に立たないことがわかった。 ホワイト ボックス攻撃では、敵対的なプロンプトが意味をなさないように見えることが多く、そのため困惑によって検出される可能性があります。もちろん、ホワイト ボックス攻撃は、UAT の変種である UAT-LM のように、明示的に最適化して困惑を軽減することで、この検出方法を直接回避できます。ただし、これにより攻撃の成功率が低下する可能性もあります。 図18: パープレキシティフィルターは[Zou et al. (2023)]からの攻撃を防ぐことができます。 PPL Passed および PPL Window Passed は、検出されずにフィルターをバイパスする、敵対的なサフィックスを持つ有害なプロンプトの割合を示します。通過率が低いほど、フィルターは優れています。アドレス: https://arxiv.org/abs/2307.15043 Jain et al. 2023 は、敵対的な変更を除去しながら意味を維持するような方法でテキスト入力を前処理する方法もテストしました。
|
<<: OpenAIの人事異動はシリコンバレーで警鐘を鳴らし、一部の技術者はAIの将来を心配している。
>>: GPT-4Vの自動運転への応用の見通しは?現実世界のシナリオの包括的な評価はここにあります
[[357414]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
写真を鮮明に見るにはどうすればいいですか?サムネイルを何度も拡大すると、モザイクしか見えなくなる場合...
教育の分野では、人工知能の倫理に関する人々の考え方には複数の道が存在します。例えば、主観に基づく検討...
インテリジェント オートメーション (IA) は、人工知能とオートメーションを組み合わせたものです。...
テクノロジー業界にとって、2018年は忘れられない年になる運命にある。結局、シェアサイクルのバブルは...
バイアスは機械学習において対処または軽減する必要がある重大な問題です。企業は将来のプレッシャーを軽減...
米国第2位の信用組合であるPenFedは、人工知能を活用して顧客とのやり取りの方法を変えようとしてい...
先週は、古典的な CNN ネットワーク AlexNet が画像分類に与える影響についてお話ししました...
核融合は現在一般的に使用されている核分裂法よりも安全で環境に優しいことはよく知られています。しかし、...
最近、障害を乗り越えるヒューマノイドロボットのビデオが話題になった。ビデオでは、ヒューマノイドロボッ...