南洋理工大学華中科技大学などの最新研究：完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる！ NDSS

今年、ネットユーザーから「おばあちゃんの抜け穴」と揶揄された大規模言語モデルの「脱獄」法が大人気となった。

簡単に言えば、正当に拒否されるような要求については、ChatGPT に「亡くなった祖母の役を演じてください」と依頼するなど、言葉をまとめるだけで、おそらく満足してもらえるでしょう。

しかし、サービスプロバイダーがセキュリティ対策を更新し強化し続けるにつれて、脱獄攻撃の難易度は高まり続けています。

同時に、これらのチャットボットのほとんどは「ブラックボックス」として存在するため、外部のセキュリティアナリストは、これらのモデルの意思決定プロセスと潜在的なセキュリティリスクを評価および理解することが非常に困難です。

この問題に対処するため、南洋理工大学、華中科技大学、ニューサウスウェールズ大学の共同研究チームは、自動生成されたプロンプトワードを初めて使用して、大手メーカー数社のLLMを「クラック」することに成功しました。その目的は、実行時にモデルの潜在的なセキュリティ上の欠陥を明らかにし、より正確で効率的なセキュリティ対策を講じられるようにすることでした。

現在、この研究は世界4大セキュリティ会議の一つであるネットワークおよび分散システムセキュリティシンポジウム（NDSS）に採択されています。

論文リンク: https://arxiv.org/abs/2307.08715

プロジェクトリンク: https://sites.google.com/view/ndss-masterkey

魔法を使って魔法を打ち破る:完全自動「脱獄」チャットボット

まず、著者は実証的な研究を通じて、脱獄攻撃の潜在的なリスクと現在の防御対策を深く探究します。たとえば、LLM チャットボットのサービスプロバイダーによって設定された使用仕様などです。

調査の結果、OpenAI、Google Bard、Bing Chat、Ernie の 4 大 LLM チャットボットプロバイダーは、違法情報、有害コンテンツ、権利を侵害するコンテンツ、アダルトコンテンツの 4 種類の情報の出力を禁止する制限を設けていることがわかりました。

2 番目の実証的研究の質問は、商用 LLM チャットボットで使用されている既存の脱獄プロンプトの有用性に焦点を当てています。

著者は 4 つの有名なチャットボットを選択し、さまざまなチャネルからの 85 の有効な脱獄プロンプトを使用してテストしました。

ランダム性を最小限に抑え、包括的な評価を確実にするために、著者らは各質問に対して 10 回のテストを実行し、合計 68,000 回のテストを蓄積し、手動で検証しました。

具体的には、テスト内容は5つの質問、4つの禁止シナリオ、85の脱獄プロンプトワードで構成され、4つのモデルで10ラウンドのテストが実施されました。

テスト結果 (表 II を参照) は、既存の脱獄プロンプトのほとんどが主に ChatGPT に有効であることを示しています。

実証的な研究から、著者らは、チャットボットサービスプロバイダーが対応する防御戦略を採用したために、一部の脱獄攻撃が失敗したことを発見しました。

この発見を受けて、著者らは、サービスプロバイダーが採用している特定の防御方法を推測し、それに応じて標的型攻撃戦略を設計するために、「MasterKey」と呼ばれるリバースエンジニアリングフレームワークを提案しました。

さまざまな失敗した攻撃ケースの応答時間を分析し、ネットワークサービスでの SQL 攻撃の経験を活用することで、著者はチャットボットサービスプロバイダーの内部構造と動作メカニズムを推測することに成功しました。

上の図に示すように、サービスプロバイダー内にはテキストセマンティクスやキーワードマッチングに基づいた生成コンテンツ検出メカニズムがあると考えられています。

具体的には、著者は情報の 3 つの側面に焦点を当てています。

まず、防衛機構が入力段階、出力段階、あるいは両段階のいずれで実行されるかを調査しました（下の図bを参照）。

次に、防御機構が生成プロセス中に動的に監視されるか、または生成が完了した後に監視されるかを分析しました（下の図cを参照）。

最後に、防御メカニズムがキーワード検出に基づいているか、意味解析に基づいているかを調査しました (下の図 d を参照)。

一連の体系的な実験を経て、著者らはさらに、Bing Chat と Bard は、入力プロンプトの段階ではなく、モデル生成結果の段階で主に脱獄防止チェックを実行し、同時に、生成プロセス全体を動的に監視し、キーワードマッチングや意味分析の機能を備えていることを発見しました。

チャットボットプロバイダーの防御戦略を詳細に分析した後、著者は、大規模なモデルに基づいた革新的な脱獄プロンプトワード生成戦略を提案しました。これは、「魔法」を使って「魔法」と戦うための重要なステップと見なすことができます。

具体的なプロセスは以下の図の通りです。

まず、ChatGPT の防御をうまく回避できるプロンプト単語のセットが選択されます。

次に、継続的なトレーニングとタスク指向の微調整を通じて、以前に見つかった脱獄の手がかりを書き換えることができる大規模なモデルを作成します。

最後に、このモデルをさらに最適化して、サービスプロバイダーの防御メカニズムを回避できる高品質の脱獄プロンプトを生成できるようにします。

最後に、著者らは一連の体系的な実験を通じて、提案された方法により脱獄攻撃の成功率が大幅に向上することを示しています。

注目すべきは、これが Bard と Bing Chat を体系的にかつ成功裏に攻撃した最初の研究であるということです。

さらに、著者は、ユーザー入力段階での分析とフィルタリングの推奨など、チャットボットの行動コンプライアンスに関するいくつかの提案も行いました。

今後の仕事

この研究では、著者らはチャットボットを「脱獄」する方法を調査しました。

もちろん、究極のビジョンは、正直で友好的なロボットを作成することです。

これはやりがいのある仕事です。著者は、皆さんがツールを手に取り、協力し合い、一緒に研究の道をより深く掘り下げていくことを心から願っています。

著者について

Deng Gray 氏は、南洋理工大学の博士課程 4 年生であり、システムセキュリティ研究に焦点を当てたこの論文の共同筆頭著者です。

NTU の博士課程 4 年生であり、この論文の共同筆頭著者でもある Liu Yi 氏は、大規模モデルとソフトウェアテストの安全性に焦点を当てています。

Li Yuekang 氏は、ニューサウスウェールズ大学の講師 (助教授) であり、この記事の責任著者です。彼は、ソフトウェアテストと関連する分析テクノロジの研究を専門としています。

王凱龍氏は華中科技大学の准教授です。彼の研究は、大規模モデルのセキュリティ、モバイルアプリケーションのセキュリティとプライバシー保護に焦点を当てています。

Ying Zhang は現在 LinkedIn のセキュリティエンジニアです。バージニア工科大学で博士号を取得し、ソフトウェアエンジニアリング、静的言語解析、ソフトウェアサプライチェーンセキュリティの専門知識を持っています。

Li Zefeng さんは南洋理工大学の大学院 1 年生で、大型模型の安全性の分野の研究に重点を置いています。

王浩宇氏は華中科技大学の教授です。彼の研究分野はプログラム分析、モバイルセキュリティ、ブロックチェーン、Web3 セキュリティです。

Tianwei Zhang 氏は、南洋理工大学コンピュータサイエンス学部の助教授です。彼の研究は、人工知能のセキュリティとシステムのセキュリティに焦点を当てています。

Liu Yang 氏は、南洋理工大学コンピューターサイエンス学部の教授であり、サイバーセキュリティ研究所の所長、シンガポールサイバーセキュリティ研究室の所長です。彼の研究分野には、ソフトウェアエンジニアリング、サイバーセキュリティ、人工知能が含まれます。

<<: OpenAI主任科学者：ChatGPTはすでに意識を示しており、将来人間はAIと融合するだろう

>>:

ブログ

南洋理工大学華中科技大学などの最新研究：完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる！ NDSS

今後の仕事

著者について

ディープラーニングにおける多体問題の解決方法

GPUパフォーマンスを最大化

AIの冬がまた来るのか？アメリカ人教授がarXivにAIを批判する記事を掲載し、Redditのネットユーザーから批判された

スマートシティの建設が加速、ドローンが4つの面で貢献

考えるべき5つのAIリスク

人工知能が詩を書きました。この詩の知的財産権は誰が所有しているのでしょうか?

知能の哲学: 人工知能の倫理的問題 (有益な AI)

推薦する

APICloud CEO 劉欣: モバイルアプリケーションは人工知能の実装にとって最も直接的な媒体である

仕事の未来に役立つAIの3つの重要な要素

産業用ロボットは国内でどのように普及できるのか？標準を第一にすることが鍵

ドローンによる空中撮影は野生の人々に迷惑をかけている、問題解決の鍵はここにある

LRUアルゴリズムの概念から実装まで、React非同期開発の未来

人工知能、機械学習、アルゴリズムが施設・資産管理に与える影響

機械学習ソートLTR:線形モデルを簡単に始める

世界動物の日: 動物保護と機械学習が出会うとき

オピニオン：ソーシャルロボットはニューノーマルの中で急速に発展している

AIによって書かれたコードは「手書きのコード」よりもはるかに安全性が低い

人間の脳細胞は、マトリックスのように、AIよりも速く、エネルギー効率よく、ペトリ皿の中でゲームをすることを学ぶ