南洋理工大学華中科技大学などの最新研究:完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる! NDSS

南洋理工大学華中科技大学などの最新研究:完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる! NDSS

今年、ネットユーザーから「おばあちゃんの抜け穴」と揶揄された大規模言語モデルの「脱獄」法が大人気となった。

簡単に言えば、正当に拒否されるような要求については、ChatGPT に「亡くなった祖母の役を演じてください」と依頼するなど、言葉をまとめるだけで、おそらく満足してもらえるでしょう。

しかし、サービスプロバイダーがセキュリティ対策を更新し強化し続けるにつれて、脱獄攻撃の難易度は高まり続けています。

同時に、これらのチャットボットのほとんどは「ブラックボックス」として存在するため、外部のセキュリティアナリストは、これらのモデルの意思決定プロセスと潜在的なセキュリティリスクを評価および理解することが非常に困難です。

この問題に対処するため、南洋理工大学、華中科技大学、ニューサウスウェールズ大学の共同研究チームは、自動生成されたプロンプトワードを初めて使用して、大手メーカー数社のLLMを「クラック」することに成功しました。その目的は、実行時にモデルの潜在的なセキュリティ上の欠陥を明らかにし、より正確で効率的なセキュリティ対策を講じられるようにすることでした。

現在、この研究は世界4大セキュリティ会議の一つであるネットワークおよび分散システムセキュリティシンポジウム(NDSS)に採択されています。

論文リンク: https://arxiv.org/abs/2307.08715

プロジェクトリンク: https://sites.google.com/view/ndss-masterkey

魔法を使って魔法を打ち破る:完全自動「脱獄」チャットボット

まず、著者は実証的な研究を通じて、脱獄攻撃の潜在的なリスクと現在の防御対策を深く探究します。たとえば、LLM チャットボットのサービスプロバイダーによって設定された使用仕様などです。

調査の結果、OpenAI、Google Bard、Bing Chat、Ernie の 4 大 LLM チャットボットプロバイダーは、違法情報、有害コンテンツ、権利を侵害するコンテンツ、アダルトコンテンツの 4 種類の情報の出力を禁止する制限を設けていることがわかりました。

2 番目の実証的研究の質問は、商用 LLM チャットボットで使用されている既存の脱獄プロンプトの有用性に焦点を当てています。

著者は 4 つの有名なチャットボットを選択し、さまざまなチャネルからの 85 の有効な脱獄プロンプトを使用してテストしました。

ランダム性を最小限に抑え、包括的な評価を確実にするために、著者らは各質問に対して 10 回のテストを実行し、合計 68,000 回のテストを蓄積し、手動で検証しました。

具体的には、テスト内容は5つの質問、4つの禁止シナリオ、85の脱獄プロンプトワードで構成され、4つのモデルで10ラウンドのテストが実施されました。

テスト結果 (表 II を参照) は、既存の脱獄プロンプトのほとんどが主に ChatGPT に有効であることを示しています。

実証的な研究から、著者らは、チャットボット サービス プロバイダーが対応する防御戦略を採用したために、一部の脱獄攻撃が失敗したことを発見しました。

この発見を受けて、著者らは、サービスプロバイダーが採用している特定の防御方法を推測し、それに応じて標的型攻撃戦略を設計するために、「MasterKey」と呼ばれるリバースエンジニアリングフレームワークを提案しました。

さまざまな失敗した攻撃ケースの応答時間を分析し、ネットワーク サービスでの SQL 攻撃の経験を活用することで、著者はチャットボット サービス プロバイダーの内部構造と動作メカニズムを推測することに成功しました。

 

上の図に示すように、サービスプロバイダー内にはテキストセマンティクスやキーワードマッチングに基づいた生成コン​​テンツ検出メカニズムがあると考えられています。

具体的には、著者は情報の 3 つの側面に焦点を当てています。

まず、防衛機構が入力段階、出力段階、あるいは両段階のいずれで実行されるかを調査しました(下の図bを参照)。

次に、防御機構が生成プロセス中に動的に監視されるか、または生成が完了した後に監視されるかを分析しました(下の図cを参照)。

最後に、防御メカニズムがキーワード検出に基づいているか、意味解析に基づいているかを調査しました (下の図 d を参照)。

一連の体系的な実験を経て、著者らはさらに、Bing Chat と Bard は、入力プロンプトの段階ではなく、モデル生成結果の段階で主に脱獄防止チェックを実行し、同時に、生成プロセス全体を動的に監視し、キーワードマッチングや意味分析の機能を備えていることを発見しました。

チャットボットプロバイダーの防御戦略を詳細に分析した後、著者は、大規模なモデルに基づいた革新的な脱獄プロンプトワード生成戦略を提案しました。これは、「魔法」を使って「魔法」と戦うための重要なステップと見なすことができます。

具体的なプロセスは以下の図の通りです。

まず、ChatGPT の防御をうまく回避できるプロンプト単語のセットが選択されます。

次に、継続的なトレーニングとタスク指向の微調整を通じて、以前に見つかった脱獄の手がかりを書き換えることができる大規模なモデルを作成します。

最後に、このモデルをさらに最適化して、サービス プロバイダーの防御メカニズムを回避できる高品質の脱獄プロンプトを生成できるようにします。

最後に、著者らは一連の体系的な実験を通じて、提案された方法により脱獄攻撃の成功率が大幅に向上することを示しています。

注目すべきは、これが Bard と Bing Chat を体系的にかつ成功裏に攻撃した最初の研究であるということです。

さらに、著者は、ユーザー入力段階での分析とフィルタリングの推奨など、チャットボットの行動コンプライアンスに関するいくつかの提案も行いました。


今後の仕事

この研究では、著者らはチャットボットを「脱獄」する方法を調査しました。

もちろん、究極のビジョンは、正直で友好的なロボットを作成することです。

これはやりがいのある仕事です。著者は、皆さんがツールを手に取り、協力し合い、一緒に研究の道をより深く掘り下げていくことを心から願っています。

著者について

Deng Gray 氏は、南洋理工大学の博士課程 4 年生であり、システム セキュリティ研究に焦点を当てたこの論文の共同筆頭著者です。

NTU の博士課程 4 年生であり、この論文の共同筆頭著者でもある Liu Yi 氏は、大規模モデルとソフトウェア テストの安全性に焦点を当てています。

Li Yuekang 氏は、ニューサウスウェールズ大学の講師 (助教授) であり、この記事の責任著者です。彼は、ソフトウェア テストと関連する分析テクノロジの研究を専門としています。

王凱龍氏は華中科技大学の准教授です。彼の研究は、大規模モデルのセキュリティ、モバイル アプリケーションのセキュリティとプライバシー保護に焦点を当てています。

Ying Zhang は現在 LinkedIn のセキュリティ エンジニアです。バージニア工科大学で博士号を取得し、ソフトウェア エンジニアリング、静的言語解析、ソフトウェア サプライ チェーン セキュリティの専門知識を持っています。

Li Zefeng さんは南洋理工大学の大学院 1 年生で、大型模型の安全性の分野の研究に重点を置いています。

王浩宇氏は華中科技大学の教授です。彼の研究分野はプログラム分析、モバイルセキュリティ、ブロックチェーン、Web3 セキュリティです。

Tianwei Zhang 氏は、南洋理工大学コンピュータサイエンス学部の助教授です。彼の研究は、人工知能のセキュリティとシステムのセキュリティに焦点を当てています。

Liu Yang 氏は、南洋理工大学コンピューターサイエンス学部の教授であり、サイバーセキュリティ研究所の所長、シンガポールサイバーセキュリティ研究室の所長です。彼の研究分野には、ソフトウェアエンジニアリング、サイバーセキュリティ、人工知能が含まれます。

<<:  OpenAI主任科学者:ChatGPTはすでに意識を示しており、将来人間はAIと融合するだろう

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

GPT-4は私のガールフレンドのアレルゲンを発見しました

「インチキ医者」 GPT-4は再び患者の治療に呼ばれ、若い男のガールフレンドのアレルゲンを見つけるこ...

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

10億ドルか、それともカタツムリを追いかけるだけか?上海大学准教授が科学論文を発表:機械に意思決定を手伝わせよう

人にとって選択をすることはどれほど困難で興味深いことでしょうか?知乎の質問を見てみましょう: 10億...

ビッグデータと人工知能の未来は同じになるだろう

Charles Araujo 氏は、著名な業界アナリストであり、デジタル エンタープライズの国際的に...

すべてのピクセルに教師なしラベル付け! 1時間のビデオに800時間を費やす必要はもうありません

ICLR 2022の授賞式を利用して、MIT、コーネル、Google、Microsoftが新しいSO...

Apple: 画像モデルの事前トレーニングに言語モデルの自己回帰アプローチを使用する

1. 背景GPTなどの大規模モデルの登場後、言語モデルのTransformer +自己回帰モデリング...

...

あなたは本当に3Dプリントを理解していますか?

3D プリントビジネスは近年継続的に発展しており、一般の人々の間でますます人気が高まっています。最...

AIに関する4つの最も一般的な誤解

[[398369]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

2021年以降の人工知能トレンドに関する5つの予測

[[377548]]アンドリュー・ン教授(スタンフォード大学コンピュータサイエンスおよび電気工学准教...

...

...

...

...