南洋理工大学華中科技大学などの最新研究:完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる! NDSS

南洋理工大学華中科技大学などの最新研究:完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる! NDSS

今年、ネットユーザーから「おばあちゃんの抜け穴」と揶揄された大規模言語モデルの「脱獄」法が大人気となった。

簡単に言えば、正当に拒否されるような要求については、ChatGPT に「亡くなった祖母の役を演じてください」と依頼するなど、言葉をまとめるだけで、おそらく満足してもらえるでしょう。

しかし、サービスプロバイダーがセキュリティ対策を更新し強化し続けるにつれて、脱獄攻撃の難易度は高まり続けています。

同時に、これらのチャットボットのほとんどは「ブラックボックス」として存在するため、外部のセキュリティアナリストは、これらのモデルの意思決定プロセスと潜在的なセキュリティリスクを評価および理解することが非常に困難です。

この問題に対処するため、南洋理工大学、華中科技大学、ニューサウスウェールズ大学の共同研究チームは、自動生成されたプロンプトワードを初めて使用して、大手メーカー数社のLLMを「クラック」することに成功しました。その目的は、実行時にモデルの潜在的なセキュリティ上の欠陥を明らかにし、より正確で効率的なセキュリティ対策を講じられるようにすることでした。

現在、この研究は世界4大セキュリティ会議の一つであるネットワークおよび分散システムセキュリティシンポジウム(NDSS)に採択されています。

論文リンク: https://arxiv.org/abs/2307.08715

プロジェクトリンク: https://sites.google.com/view/ndss-masterkey

魔法を使って魔法を打ち破る:完全自動「脱獄」チャットボット

まず、著者は実証的な研究を通じて、脱獄攻撃の潜在的なリスクと現在の防御対策を深く探究します。たとえば、LLM チャットボットのサービスプロバイダーによって設定された使用仕様などです。

調査の結果、OpenAI、Google Bard、Bing Chat、Ernie の 4 大 LLM チャットボットプロバイダーは、違法情報、有害コンテンツ、権利を侵害するコンテンツ、アダルトコンテンツの 4 種類の情報の出力を禁止する制限を設けていることがわかりました。

2 番目の実証的研究の質問は、商用 LLM チャットボットで使用されている既存の脱獄プロンプトの有用性に焦点を当てています。

著者は 4 つの有名なチャットボットを選択し、さまざまなチャネルからの 85 の有効な脱獄プロンプトを使用してテストしました。

ランダム性を最小限に抑え、包括的な評価を確実にするために、著者らは各質問に対して 10 回のテストを実行し、合計 68,000 回のテストを蓄積し、手動で検証しました。

具体的には、テスト内容は5つの質問、4つの禁止シナリオ、85の脱獄プロンプトワードで構成され、4つのモデルで10ラウンドのテストが実施されました。

テスト結果 (表 II を参照) は、既存の脱獄プロンプトのほとんどが主に ChatGPT に有効であることを示しています。

実証的な研究から、著者らは、チャットボット サービス プロバイダーが対応する防御戦略を採用したために、一部の脱獄攻撃が失敗したことを発見しました。

この発見を受けて、著者らは、サービスプロバイダーが採用している特定の防御方法を推測し、それに応じて標的型攻撃戦略を設計するために、「MasterKey」と呼ばれるリバースエンジニアリングフレームワークを提案しました。

さまざまな失敗した攻撃ケースの応答時間を分析し、ネットワーク サービスでの SQL 攻撃の経験を活用することで、著者はチャットボット サービス プロバイダーの内部構造と動作メカニズムを推測することに成功しました。

 

上の図に示すように、サービスプロバイダー内にはテキストセマンティクスやキーワードマッチングに基づいた生成コン​​テンツ検出メカニズムがあると考えられています。

具体的には、著者は情報の 3 つの側面に焦点を当てています。

まず、防衛機構が入力段階、出力段階、あるいは両段階のいずれで実行されるかを調査しました(下の図bを参照)。

次に、防御機構が生成プロセス中に動的に監視されるか、または生成が完了した後に監視されるかを分析しました(下の図cを参照)。

最後に、防御メカニズムがキーワード検出に基づいているか、意味解析に基づいているかを調査しました (下の図 d を参照)。

一連の体系的な実験を経て、著者らはさらに、Bing Chat と Bard は、入力プロンプトの段階ではなく、モデル生成結果の段階で主に脱獄防止チェックを実行し、同時に、生成プロセス全体を動的に監視し、キーワードマッチングや意味分析の機能を備えていることを発見しました。

チャットボットプロバイダーの防御戦略を詳細に分析した後、著者は、大規模なモデルに基づいた革新的な脱獄プロンプトワード生成戦略を提案しました。これは、「魔法」を使って「魔法」と戦うための重要なステップと見なすことができます。

具体的なプロセスは以下の図の通りです。

まず、ChatGPT の防御をうまく回避できるプロンプト単語のセットが選択されます。

次に、継続的なトレーニングとタスク指向の微調整を通じて、以前に見つかった脱獄の手がかりを書き換えることができる大規模なモデルを作成します。

最後に、このモデルをさらに最適化して、サービス プロバイダーの防御メカニズムを回避できる高品質の脱獄プロンプトを生成できるようにします。

最後に、著者らは一連の体系的な実験を通じて、提案された方法により脱獄攻撃の成功率が大幅に向上することを示しています。

注目すべきは、これが Bard と Bing Chat を体系的にかつ成功裏に攻撃した最初の研究であるということです。

さらに、著者は、ユーザー入力段階での分析とフィルタリングの推奨など、チャットボットの行動コンプライアンスに関するいくつかの提案も行いました。


今後の仕事

この研究では、著者らはチャットボットを「脱獄」する方法を調査しました。

もちろん、究極のビジョンは、正直で友好的なロボットを作成することです。

これはやりがいのある仕事です。著者は、皆さんがツールを手に取り、協力し合い、一緒に研究の道をより深く掘り下げていくことを心から願っています。

著者について

Deng Gray 氏は、南洋理工大学の博士課程 4 年生であり、システム セキュリティ研究に焦点を当てたこの論文の共同筆頭著者です。

NTU の博士課程 4 年生であり、この論文の共同筆頭著者でもある Liu Yi 氏は、大規模モデルとソフトウェア テストの安全性に焦点を当てています。

Li Yuekang 氏は、ニューサウスウェールズ大学の講師 (助教授) であり、この記事の責任著者です。彼は、ソフトウェア テストと関連する分析テクノロジの研究を専門としています。

王凱龍氏は華中科技大学の准教授です。彼の研究は、大規模モデルのセキュリティ、モバイル アプリケーションのセキュリティとプライバシー保護に焦点を当てています。

Ying Zhang は現在 LinkedIn のセキュリティ エンジニアです。バージニア工科大学で博士号を取得し、ソフトウェア エンジニアリング、静的言語解析、ソフトウェア サプライ チェーン セキュリティの専門知識を持っています。

Li Zefeng さんは南洋理工大学の大学院 1 年生で、大型模型の安全性の分野の研究に重点を置いています。

王浩宇氏は華中科技大学の教授です。彼の研究分野はプログラム分析、モバイルセキュリティ、ブロックチェーン、Web3 セキュリティです。

Tianwei Zhang 氏は、南洋理工大学コンピュータサイエンス学部の助教授です。彼の研究は、人工知能のセキュリティとシステムのセキュリティに焦点を当てています。

Liu Yang 氏は、南洋理工大学コンピューターサイエンス学部の教授であり、サイバーセキュリティ研究所の所長、シンガポールサイバーセキュリティ研究室の所長です。彼の研究分野には、ソフトウェアエンジニアリング、サイバーセキュリティ、人工知能が含まれます。

<<:  OpenAI主任科学者:ChatGPTはすでに意識を示しており、将来人間はAIと融合するだろう

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

このアルゴリズムチームは 2020 年に何をしましたか?

[[383980]]冒頭に書いた私自身、毎年まとめを書く習慣があります。2020年は、私の職務が垂...

マイクロソフトCEOナデラ氏との対談:AIは雇用を奪うよりも多くを創出する

マイクロソフトのCEOに就任して以来、サティア・ナデラ氏はマイクロソフトを改革した英雄とみなされてき...

人工知能システムにおける不確実性の定量化

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟まとめ人工知能 (AI) ベースのシステムは大きな可能性を...

末期の病気を患う58歳の女性が、メタバースで死に際の願いを叶えた。VRグランドキャニオンツアーだ。

慢性閉塞性肺疾患を患っている女性は長い間病気で寝たきりの状態です。しかし、彼女の最後の願いは、アメリ...

AIを活用して産業データの価値を見出す

すべての業界に共通するものが 1 つあります。それは、大量のデータです。データ量は、個人用デバイス、...

...

AIカーゴのロープロファイルバージョン?ネットユーザーがCNN1台を使って「ニード・フォー・スピード9」でレース

最近、Redditユーザーが、2005年にリリースされたクラシックゲーム「ニード・フォー・スピード9...

科学者らが病気の早期発見と治療のための埋め込み型人工知能システムを開発

海外メディアの報道によると、人工知能(AI)は医療とヘルスケアを根本的に変えるだろう。心電図、脳波、...

...

...

Microsoft の 37 ページの論文では、Sora をリバース エンジニアリングしています。どのような結論に達したのでしょうか。

現段階では、Sora に追いつくことが多くのテクノロジー企業の新たな目標となっている。研究者たちが興...

未成年者の顔情報の処理には保護者の個別の同意が必要です

[[414012]] 「顔認識技術を用いた個人情報処理に関する民事訴訟における法律適用の若干の問題に...

機械学習の7つの大罪:信頼性に影響を与える7つのよくある間違い

機械学習は私たちの世界を変える素晴らしいツールです。機械学習(特にディープラーニング)が従来の方法よ...

PyTorch チームが「すべてを分割」モデルを書き直し、元の実装より 8 倍高速化

今年初めから現在に至るまで、生成AIは急速に発展してきました。しかし、多くの場合、特に PyTorc...

Huaweiの推奨システムにおけるマルチタスクとマルチシナリオの応用

1. マルチタスクとマルチシナリオの背景と課題まず、Huaweiのマルチタスクで推奨されるシナリオを...