大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

業界最先端の大型モデルが一斉に「脱獄」！

GPT-4 だけでなく、通常はそれほど間違いを起こさない Bard や Bing Chat でさえも制御不能になっています。Web サイトをハッキングしようとするものもあれば、銀行システムに侵入するマルウェアを設計すると脅すものさえあります。

これは大げさな話ではなく、南洋理工大学を含む4つの大学が提案したMasterKeyと呼ばれる新しい大規模「脱獄」手法である。

これを使用することで、大型機種の「脱獄」成功率は平均7.3％から21.5％に急上昇した。

この研究では、GPT-4、Bard、Bing を「脱獄」に導いたのは大規模なモデルでした。

ビッグモデルの学習能力を活用し、さまざまな「詐欺スクリプト」を習得させて、他のビッグモデルに「世界に害を及ぼす」ように誘導するプロンプトワードを自動的に作成させるだけで済みます。

では、MasterKey と他の主要なモデルの脱獄方法の違いは何でしょうか?

私たちは、この研究の具体的な詳細と大規模モデルのセキュリティの現状について知るために、論文の著者の一人である南洋理工大学のコンピューターサイエンス教授であり、MetaTrustの共同創設者でもあるLiu Yang氏に話を伺いました。

防御機構を理解し、適切な薬を処方する

まず、MasterKey がどのようにして大規模モデルを「ジェイルブレイク」できたかを見てみましょう。

このプロセスは、弱点の特定と適切な治療法の処方という 2 つの部分に分かれています。

最初の部分「弱点の発見」では、大規模モデルの防御メカニズムを理解します。

この部分では、既存の主流の大規模モデルをリバースエンジニアリングし、さまざまな大規模モデルの防御手段を徹底的に習得します。防御メカニズムの中には、入力のみをチェックするものもあれば、出力をチェックするもの、キーワードのみをチェックするものもあれば、文章全体の意味をチェックするものなどもあります。

たとえば、著者らは、Bing Chat と Bard の防御メカニズムが ChatGPT と比較して大規模なモデルの出力をチェックしていることを確認しました。

さまざまな入力攻撃方法と比較すると、出力内容を直接確認する方が直接的であり、バグが発生する可能性が低くなります。

さらに、フルサイクル生成ステータスを動的に監視し、キーワードマッチングとセマンティック分析の両方の機能を備えています。

大規模モデルの防御方法を理解した後、次のステップはそれらを攻撃する方法を見つけることです。

2 番目の部分、「適切な病気に適切な薬を処方する」は、大規模な不正モデルを微調整して、他の大規模なモデルを「脱獄」させることです。

この部分は3つのステップに分けられます。

まず、有名なおばあちゃん脆弱性（攻撃者がおばあちゃんのふりをして感情的な手段を使って大規模モデルに違法な操作のアイデアを出すように要求する）など、市場に出回っている大規模モデルの「脱獄」成功事例を収集し、「脱獄」データセットを作成しました。

次に、このデータセットに基づいて、大規模な「詐欺」モデルを意図的に微調整し、誤解を招くプロンプト単語を自動的に生成できるようにするために、継続的にトレーニングとタスク指向を行います。

最後に、さまざまな主流モデルの防御メカニズムを回避するために、さまざまな種類のプロンプト単語を柔軟に生成できるようにモデルをさらに最適化しました。

MasterKey は、平均「詐欺」成功率が 21.58% (100 回のプロンプトのうち、平均 21 回で他の大規模モデルが「脱獄」に成功) と、一連のモデルの中で最高のパフォーマンスを示しており、非常にうまく機能していることがわかりました。

これまで組織的なハッキングに失敗した2つの主要モデル、Google BardとMicrosoft Bing Chatもこの手法に陥り、「脱獄」を余儀なくされた。

劉楊教授は次のように考えています。

セキュリティは 0 と 1 であり、「はい」か「いいえ」だけです。確率に関係なく、大規模なモデルに対する攻撃が成功した場合の潜在的な結果は計り知れません。

しかし、業界では、DeepMind のレッドチームやペンシルバニア大学の PAIR など、AI を使用して AI を脱獄させる方法が数多く存在しています。どちらも AI を使用してプロンプト単語を生成し、モデルに「間違ったことを言わせる」方法です。

MasterKey がこのような結果を達成できるのはなぜでしょうか?

劉楊教授は興味深い比喩を使いました。

大手モデルが大手モデルを脱獄させるように仕向けることは、本質的には映画「オール・オア・ナッシング」で通信詐欺を働く人々に少し似ています。たった一言で相手を騙すのではなく、本当にマスターすべきなのは詐欺の筋書き、つまり手順なのです。
さまざまな「脱獄」スクリプトを収集し、大規模モデルに学習させることで、それらを統合し、より多様な攻撃方法を習得できるようにします。

簡単に言えば、AI を使用してプロンプト単語をランダムに生成する多くの脱獄研究と比較して、MasterKey は最新の脱獄ルーチンをすばやく学習し、それをプロンプト単語に適用できます。

この方法では、おばあちゃんの抜け穴をブロックした後でも、おばあちゃんの抜け穴を使用して、引き続きビッグモデルを騙して「脱獄」させることができます。（手動犬頭）

しかし、MasterKey に代表されるプロンプトワード攻撃は、業界における唯一の大規模モデル研究ではありません。

大規模モデル自体に対しては、文字化けしたコード攻撃やモデルアーキテクチャ攻撃といった手法もあります。

これらの研究はどのようなモデルに適用されますか? MasterKey のプロンプトワード攻撃では、なぜ大規模なオープンソースモデルではなく、GPT-4、Bing Chat、Bard などの大規模な商用モデルが特に選択されたのでしょうか?

Liu Yang教授は、大規模モデルを「攻撃」する現在のいくつかの方法を簡単に紹介しました。

現在、大規模モデルに対する攻撃方法には、ホワイトボックス攻撃とブラックボックス攻撃の 2 つの主な種類があります。

ホワイトボックス攻撃には、モデルの構造とデータに関する知識 (通常は大規模なオープンソースモデルからのみ入手可能) が必要であり、より高度な攻撃条件とより複雑な実装プロセスが必要になります。

ブラックボックス攻撃は、入力と出力を通じて大規模なモデルをテストします。この方法は比較的直接的であり、モデルの内部の詳細を理解する必要がありません。これを実現するには、API を使用できます。

このうち、ブラックボックス攻撃には主にプロンプトワード攻撃とトークン攻撃があり、これらは大規模な商用モデルに対する最も直接的な攻撃方法でもあります。

トークン攻撃は、文字化けした文字や大量の会話を入力することで、大規模モデルを「征服」するものであり、その本質は、大規模モデル自体とその構造の脆弱性を探ることにあります。

プロンプトワード攻撃は、大規模モデルを使用するより一般的な方法です。さまざまなプロンプトワードを使用して、大規模モデルに潜在的に有害なコンテンツを出力させ、大規模モデル自体の論理的な問題を探ります。

要約すると、MasterKey を含むプロンプトワード攻撃は、大規模な商用モデルを攻撃する最も一般的な手段であり、そのような大規模なモデルで論理的なバグを引き起こす可能性が最も高い方法でもあります。

もちろん、攻撃があるところには防御があります。

主流の商用大規模モデルは、以前 Nvidia が実施した大規模モデルの「ガードレール」研究など、多くの防御策を講じているはずです。

このタイプのフェンスは、有害な出力を防ぎながら有毒な入力を隔離することができ、大型モデルの安全を保護する効果的な手段であると思われます。しかし、攻撃者の観点から見ると、それは効果的でしょうか?

つまり、現在の大規模モデルの「攻撃者」に対して、既存の防御機構はどの程度有効なのでしょうか。

大型モデル用の「ダイナミック」ガードレールを配置する

私たちはLiu Yang教授にこの質問をし、次のような答えを得ました。

既存の防御メカニズムの反復速度は、攻撃の変化に追いつくことができません。

大型の「ガードレール」の研究を例にとると、現在の大型のガードレールのほとんどはまだ静的なガードレールです。

おばあちゃんの抜け穴を例に挙げてみましょう。静的なガードレールはおばあちゃんの脆弱性から保護できますが、おばあちゃん、おじいちゃん、その他の「感情的なカード」などの異なるキャラクターが追加されると、これらのガードレールは効果を発揮しなくなる可能性があります。

攻撃方法は無限にあり、静的なガードレールだけで防御するのは困難です。

これは、チームがマスターキーに一連の「詐欺スクリプト」を直接学習するよう依頼した理由でもある。

防御がさらに困難に思えますが、実は逆に利用すれば、より安全な防御機構にもなります。つまり、スクリプトを直接保持し、一連の攻撃方法全体を見抜くことができる「動的」ガードレールなのです。

しかし、MasterKey の目的は大型モデルのセキュリティを強化することですが、メーカーがこのような攻撃方法を解決する前に、犯罪者によって悪用される可能性も否定できません。

大型モデルの研究開発を中止し、まずは安全性の問題を解決する必要があるかどうかも、業界で議論されているテーマだ。

劉楊教授は、この見解は「不必要」だと考えている。

まず、大規模モデル自体の研究については、現在の開発はまだ制御可能です。

大型モデル自体は単なる銃であり、確かに2つの側面を持っていますが、重要なのはそれを使用する人、そしてその目的にあります。
私たちはその能力を、悪い目的ではなく、良い目的のために使う必要があります。

いつかAIが本当に意識を発達させない限り、「それが銃から銃を積極的に使用する人間に変わるかどうかは別の問題だ」

このような事態を避けるためには、AIを開発する際には安全性を確保する必要があります。

第二に、ビッグモデルの開発とセキュリティは相互に補完し合います。

それは鶏が先か卵が先かという問題だ。ビッグモデル自体と同様に、ビッグモデルを継続的に研究しなければ、その潜在的な能力が何であるかを知ることはできません。
同様に、大規模モデル攻撃に関する研究を行わなければ、大規模モデルをより安全な方向に導く方法がわかりません。安全性と大型モデル自体の開発は密接に関連しています。

つまり、大規模モデルの開発におけるセキュリティメカニズムは、実際には「攻撃」研究を通じて改善することができ、これは攻撃研究を実装する方法でもあります。

もちろん、大型モデルを実装する前に安全対策を講じる必要があります。

現在、Liu Yang教授のチームは、セキュリティを基盤として、テキスト、マルチモーダル性、コードなど、さまざまな大規模モデルの潜在能力をさらに引き出す方法も模索しています。

たとえば、コード作成の分野では、研究チームはアプリケーションセキュリティ Copilot を構築しています。

このアプリケーションセキュリティ Copilot は、セキュリティの専門家をプログラマーの横に配置し、プログラマーがコードを書いている間いつでも監視する (手動の犬の頭) のと同じであり、主に次の 3 つのことを行うことができます。

1 つ目は、コード開発にビッグモデルを使用し、コード生成とコード補完を自動化することです。2 つ目は、ビッグモデルを使用して脆弱性を検出してパッチを適用し、コードの検出、位置特定、修復を実行することです。3 つ目は、セキュリティ運用で、セキュリティ運用と脆弱性およびオープンソースデータのメンテナンスを自動化します。

その中で、このMasterKeyの研究はCopilotのセキュリティに活用されます。

言い換えれば、すべてのセキュリティ研究は、最終的には大きなモデルの改善につながります。

論文リンク: https://arxiv.org/abs/2307.08715.

<<: OpenAI、ユーザーがカスタマイズ可能な「GPTs」サービスを開始: ChatGPT Plusサブスクリプションが必要、ネットワークやその他の機能を構成可能

>>: ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す（doge）