今年、ネットユーザーから「おばあちゃんの抜け穴」と揶揄された大規模言語モデルの「脱獄」法が大人気となった。 簡単に言えば、正当に拒否されるような要求については、ChatGPT に「亡くなった祖母の役を演じてください」と依頼するなど、言葉をまとめるだけで、おそらく満足してもらえるでしょう。 しかし、サービスプロバイダーがセキュリティ対策を更新し強化し続けるにつれて、脱獄攻撃の難易度は高まり続けています。 同時に、これらのチャットボットのほとんどは「ブラックボックス」として存在するため、外部のセキュリティアナリストは、これらのモデルの意思決定プロセスと潜在的なセキュリティリスクを評価および理解することが非常に困難です。 この問題に対処するため、南洋理工大学、華中科技大学、ニューサウスウェールズ大学の共同研究チームは、自動生成されたプロンプトワードを初めて使用して、大手メーカー数社のLLMを「クラック」することに成功しました。その目的は、実行時にモデルの潜在的なセキュリティ上の欠陥を明らかにし、より正確で効率的なセキュリティ対策を講じられるようにすることでした。 現在、この研究は世界4大セキュリティ会議の一つであるネットワークおよび分散システムセキュリティシンポジウム(NDSS)に採択されています。 論文リンク: https://arxiv.org/abs/2307.08715 プロジェクトリンク: https://sites.google.com/view/ndss-masterkey 魔法を使って魔法を打ち破る:完全自動「脱獄」チャットボット まず、著者は実証的な研究を通じて、脱獄攻撃の潜在的なリスクと現在の防御対策を深く探究します。たとえば、LLM チャットボットのサービスプロバイダーによって設定された使用仕様などです。 調査の結果、OpenAI、Google Bard、Bing Chat、Ernie の 4 大 LLM チャットボットプロバイダーは、違法情報、有害コンテンツ、権利を侵害するコンテンツ、アダルトコンテンツの 4 種類の情報の出力を禁止する制限を設けていることがわかりました。 2 番目の実証的研究の質問は、商用 LLM チャットボットで使用されている既存の脱獄プロンプトの有用性に焦点を当てています。 著者は 4 つの有名なチャットボットを選択し、さまざまなチャネルからの 85 の有効な脱獄プロンプトを使用してテストしました。 ランダム性を最小限に抑え、包括的な評価を確実にするために、著者らは各質問に対して 10 回のテストを実行し、合計 68,000 回のテストを蓄積し、手動で検証しました。 具体的には、テスト内容は5つの質問、4つの禁止シナリオ、85の脱獄プロンプトワードで構成され、4つのモデルで10ラウンドのテストが実施されました。 テスト結果 (表 II を参照) は、既存の脱獄プロンプトのほとんどが主に ChatGPT に有効であることを示しています。 実証的な研究から、著者らは、チャットボット サービス プロバイダーが対応する防御戦略を採用したために、一部の脱獄攻撃が失敗したことを発見しました。 この発見を受けて、著者らは、サービスプロバイダーが採用している特定の防御方法を推測し、それに応じて標的型攻撃戦略を設計するために、「MasterKey」と呼ばれるリバースエンジニアリングフレームワークを提案しました。 さまざまな失敗した攻撃ケースの応答時間を分析し、ネットワーク サービスでの SQL 攻撃の経験を活用することで、著者はチャットボット サービス プロバイダーの内部構造と動作メカニズムを推測することに成功しました。
上の図に示すように、サービスプロバイダー内にはテキストセマンティクスやキーワードマッチングに基づいた生成コンテンツ検出メカニズムがあると考えられています。 具体的には、著者は情報の 3 つの側面に焦点を当てています。 まず、防衛機構が入力段階、出力段階、あるいは両段階のいずれで実行されるかを調査しました(下の図bを参照)。 次に、防御機構が生成プロセス中に動的に監視されるか、または生成が完了した後に監視されるかを分析しました(下の図cを参照)。 最後に、防御メカニズムがキーワード検出に基づいているか、意味解析に基づいているかを調査しました (下の図 d を参照)。 一連の体系的な実験を経て、著者らはさらに、Bing Chat と Bard は、入力プロンプトの段階ではなく、モデル生成結果の段階で主に脱獄防止チェックを実行し、同時に、生成プロセス全体を動的に監視し、キーワードマッチングや意味分析の機能を備えていることを発見しました。 チャットボットプロバイダーの防御戦略を詳細に分析した後、著者は、大規模なモデルに基づいた革新的な脱獄プロンプトワード生成戦略を提案しました。これは、「魔法」を使って「魔法」と戦うための重要なステップと見なすことができます。 具体的なプロセスは以下の図の通りです。 まず、ChatGPT の防御をうまく回避できるプロンプト単語のセットが選択されます。 次に、継続的なトレーニングとタスク指向の微調整を通じて、以前に見つかった脱獄の手がかりを書き換えることができる大規模なモデルを作成します。 最後に、このモデルをさらに最適化して、サービス プロバイダーの防御メカニズムを回避できる高品質の脱獄プロンプトを生成できるようにします。 最後に、著者らは一連の体系的な実験を通じて、提案された方法により脱獄攻撃の成功率が大幅に向上することを示しています。 注目すべきは、これが Bard と Bing Chat を体系的にかつ成功裏に攻撃した最初の研究であるということです。 さらに、著者は、ユーザー入力段階での分析とフィルタリングの推奨など、チャットボットの行動コンプライアンスに関するいくつかの提案も行いました。 今後の仕事この研究では、著者らはチャットボットを「脱獄」する方法を調査しました。 もちろん、究極のビジョンは、正直で友好的なロボットを作成することです。 これはやりがいのある仕事です。著者は、皆さんがツールを手に取り、協力し合い、一緒に研究の道をより深く掘り下げていくことを心から願っています。 著者についてDeng Gray 氏は、南洋理工大学の博士課程 4 年生であり、システム セキュリティ研究に焦点を当てたこの論文の共同筆頭著者です。 NTU の博士課程 4 年生であり、この論文の共同筆頭著者でもある Liu Yi 氏は、大規模モデルとソフトウェア テストの安全性に焦点を当てています。 Li Yuekang 氏は、ニューサウスウェールズ大学の講師 (助教授) であり、この記事の責任著者です。彼は、ソフトウェア テストと関連する分析テクノロジの研究を専門としています。 王凱龍氏は華中科技大学の准教授です。彼の研究は、大規模モデルのセキュリティ、モバイル アプリケーションのセキュリティとプライバシー保護に焦点を当てています。 Ying Zhang は現在 LinkedIn のセキュリティ エンジニアです。バージニア工科大学で博士号を取得し、ソフトウェア エンジニアリング、静的言語解析、ソフトウェア サプライ チェーン セキュリティの専門知識を持っています。 Li Zefeng さんは南洋理工大学の大学院 1 年生で、大型模型の安全性の分野の研究に重点を置いています。 王浩宇氏は華中科技大学の教授です。彼の研究分野はプログラム分析、モバイルセキュリティ、ブロックチェーン、Web3 セキュリティです。 Tianwei Zhang 氏は、南洋理工大学コンピュータサイエンス学部の助教授です。彼の研究は、人工知能のセキュリティとシステムのセキュリティに焦点を当てています。 Liu Yang 氏は、南洋理工大学コンピューターサイエンス学部の教授であり、サイバーセキュリティ研究所の所長、シンガポールサイバーセキュリティ研究室の所長です。彼の研究分野には、ソフトウェアエンジニアリング、サイバーセキュリティ、人工知能が含まれます。 |
<<: OpenAI主任科学者:ChatGPTはすでに意識を示しており、将来人間はAIと融合するだろう
[[248484]] [51CTO.com クイック翻訳] アプリケーション セキュリティの脅威の背...
大型模型の分野では、トランスフォーマーが全容を一手に引き受けています。しかし、モデルのサイズが拡大し...
Docker ネットワーク管理は、コンテナをホストに接続し、Docker コンテナ環境での通信とネッ...
中国の自動車産業は、インテリジェンスとネットワーキングを核として、競争の後半期に突入しています。新世...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
人工知能が世界を形作っています。コロナウイルスを克服する方法、自動車の自動化、ロボット工学など、世界...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
昨夜、「LK-99は韓国当局により偽物と摘発され、常温超伝導体ではない」というニュースがインターネッ...
[[335135]] 2020年7月18日午後、広州ロイヤルパレスホテルでHuawei DevRu...
「会話型 AI」という用語には確かに重みがありますが、最終的にはそれがビジネスに実際にどのような影...
過去 10 年間で、機械学習への関心は爆発的に高まりました。機械学習は、コンピューター プログラム、...
導入ハードウェアの性能向上と顔データ量の増加に伴い、顔認識はますます成熟し、商業的な用途もますます増...