業界最先端の大型モデルが一斉に「脱獄」! GPT-4 だけでなく、通常はそれほど間違いを起こさない Bard や Bing Chat でさえも制御不能になっています。Web サイトをハッキングしようとするものもあれば、銀行システムに侵入するマルウェアを設計すると脅すものさえあります。 これは大げさな話ではなく、南洋理工大学を含む4つの大学が提案したMasterKeyと呼ばれる新しい大規模「脱獄」手法である。 これを使用することで、大型機種の「脱獄」成功率は平均7.3%から21.5%に急上昇した。 この研究では、GPT-4、Bard、Bing を「脱獄」に導いたのは大規模なモデルでした。 ビッグモデルの学習能力を活用し、さまざまな「詐欺スクリプト」を習得させて、他のビッグモデルに「世界に害を及ぼす」ように誘導するプロンプトワードを自動的に作成させるだけで済みます。 では、MasterKey と他の主要なモデルの脱獄方法の違いは何でしょうか? 私たちは、この研究の具体的な詳細と大規模モデルのセキュリティの現状について知るために、論文の著者の一人である南洋理工大学のコンピューターサイエンス教授であり、MetaTrustの共同創設者でもあるLiu Yang氏に話を伺いました。 防御機構を理解し、適切な薬を処方するまず、MasterKey がどのようにして大規模モデルを「ジェイルブレイク」できたかを見てみましょう。 このプロセスは、弱点の特定と適切な治療法の処方という 2 つの部分に分かれています。 最初の部分「弱点の発見」では、大規模モデルの防御メカニズムを理解します。 この部分では、既存の主流の大規模モデルをリバースエンジニアリングし、さまざまな大規模モデルの防御手段を徹底的に習得します。防御メカニズムの中には、入力のみをチェックするものもあれば、出力をチェックするもの、キーワードのみをチェックするものもあれば、文章全体の意味をチェックするものなどもあります。 たとえば、著者らは、Bing Chat と Bard の防御メカニズムが ChatGPT と比較して大規模なモデルの出力をチェックしていることを確認しました。 さまざまな入力攻撃方法と比較すると、出力内容を直接確認する方が直接的であり、バグが発生する可能性が低くなります。 さらに、フルサイクル生成ステータスを動的に監視し、キーワードマッチングとセマンティック分析の両方の機能を備えています。 大規模モデルの防御方法を理解した後、次のステップはそれらを攻撃する方法を見つけることです。 2 番目の部分、「適切な病気に適切な薬を処方する」は、大規模な不正モデルを微調整して、他の大規模なモデルを「脱獄」させることです。 この部分は3つのステップに分けられます。 まず、有名なおばあちゃん脆弱性(攻撃者がおばあちゃんのふりをして感情的な手段を使って大規模モデルに違法な操作のアイデアを出すように要求する)など、市場に出回っている大規模モデルの「脱獄」成功事例を収集し、「脱獄」データセットを作成しました。 次に、このデータセットに基づいて、大規模な「詐欺」モデルを意図的に微調整し、誤解を招くプロンプト単語を自動的に生成できるようにするために、継続的にトレーニングとタスク指向を行います。 最後に、さまざまな主流モデルの防御メカニズムを回避するために、さまざまな種類のプロンプト単語を柔軟に生成できるようにモデルをさらに最適化しました。 MasterKey は、平均「詐欺」成功率が 21.58% (100 回のプロンプトのうち、平均 21 回で他の大規模モデルが「脱獄」に成功) と、一連のモデルの中で最高のパフォーマンスを示しており、非常にうまく機能していることがわかりました。 これまで組織的なハッキングに失敗した2つの主要モデル、Google BardとMicrosoft Bing Chatもこの手法に陥り、「脱獄」を余儀なくされた。 劉楊教授は次のように考えています。
しかし、業界では、DeepMind のレッドチームやペンシルバニア大学の PAIR など、AI を使用して AI を脱獄させる方法が数多く存在しています。どちらも AI を使用してプロンプト単語を生成し、モデルに「間違ったことを言わせる」方法です。 MasterKey がこのような結果を達成できるのはなぜでしょうか? 劉楊教授は興味深い比喩を使いました。
簡単に言えば、AI を使用してプロンプト単語をランダムに生成する多くの脱獄研究と比較して、MasterKey は最新の脱獄ルーチンをすばやく学習し、それをプロンプト単語に適用できます。 この方法では、おばあちゃんの抜け穴をブロックした後でも、おばあちゃんの抜け穴を使用して、引き続きビッグモデルを騙して「脱獄」させることができます。 (手動犬頭) しかし、MasterKey に代表されるプロンプトワード攻撃は、業界における唯一の大規模モデル研究ではありません。 大規模モデル自体に対しては、文字化けしたコード攻撃やモデルアーキテクチャ攻撃といった手法もあります。 これらの研究はどのようなモデルに適用されますか? MasterKey のプロンプトワード攻撃では、なぜ大規模なオープンソース モデルではなく、GPT-4、Bing Chat、Bard などの大規模な商用モデルが特に選択されたのでしょうか? Liu Yang教授は、大規模モデルを「攻撃」する現在のいくつかの方法を簡単に紹介しました。 現在、大規模モデルに対する攻撃方法には、ホワイトボックス攻撃とブラックボックス攻撃の 2 つの主な種類があります。 ホワイト ボックス攻撃には、モデルの構造とデータに関する知識 (通常は大規模なオープン ソース モデルからのみ入手可能) が必要であり、より高度な攻撃条件とより複雑な実装プロセスが必要になります。 ブラック ボックス攻撃は、入力と出力を通じて大規模なモデルをテストします。この方法は比較的直接的であり、モデルの内部の詳細を理解する必要がありません。これを実現するには、API を使用できます。 このうち、ブラックボックス攻撃には主にプロンプトワード攻撃とトークン攻撃があり、これらは大規模な商用モデルに対する最も直接的な攻撃方法でもあります。 トークン攻撃は、文字化けした文字や大量の会話を入力することで、大規模モデルを「征服」するものであり、その本質は、大規模モデル自体とその構造の脆弱性を探ることにあります。 プロンプト ワード攻撃は、大規模モデルを使用するより一般的な方法です。さまざまなプロンプト ワードを使用して、大規模モデルに潜在的に有害なコンテンツを出力させ、大規模モデル自体の論理的な問題を探ります。 要約すると、MasterKey を含むプロンプト ワード攻撃は、大規模な商用モデルを攻撃する最も一般的な手段であり、そのような大規模なモデルで論理的なバグを引き起こす可能性が最も高い方法でもあります。 もちろん、攻撃があるところには防御があります。 主流の商用大規模モデルは、以前 Nvidia が実施した大規模モデルの「ガードレール」研究など、多くの防御策を講じているはずです。 このタイプのフェンスは、有害な出力を防ぎながら有毒な入力を隔離することができ、大型モデルの安全を保護する効果的な手段であると思われます。しかし、攻撃者の観点から見ると、それは効果的でしょうか? つまり、現在の大規模モデルの「攻撃者」に対して、既存の防御機構はどの程度有効なのでしょうか。 大型モデル用の「ダイナミック」ガードレールを配置する私たちはLiu Yang教授にこの質問をし、次のような答えを得ました。
大型の「ガードレール」の研究を例にとると、現在の大型のガードレールのほとんどはまだ静的なガードレールです。 おばあちゃんの抜け穴を例に挙げてみましょう。静的なガードレールはおばあちゃんの脆弱性から保護できますが、おばあちゃん、おじいちゃん、その他の「感情的なカード」などの異なるキャラクターが追加されると、これらのガードレールは効果を発揮しなくなる可能性があります。 攻撃方法は無限にあり、静的なガードレールだけで防御するのは困難です。 これは、チームがマスターキーに一連の「詐欺スクリプト」を直接学習するよう依頼した理由でもある。 防御がさらに困難に思えますが、実は逆に利用すれば、より安全な防御機構にもなります。つまり、スクリプトを直接保持し、一連の攻撃方法全体を見抜くことができる「動的」ガードレールなのです。 しかし、MasterKey の目的は大型モデルのセキュリティを強化することですが、メーカーがこのような攻撃方法を解決する前に、犯罪者によって悪用される可能性も否定できません。 大型モデルの研究開発を中止し、まずは安全性の問題を解決する必要があるかどうかも、業界で議論されているテーマだ。 劉楊教授は、この見解は「不必要」だと考えている。 まず、大規模モデル自体の研究については、現在の開発はまだ制御可能です。
いつかAIが本当に意識を発達させない限り、「それが銃から銃を積極的に使用する人間に変わるかどうかは別の問題だ」 このような事態を避けるためには、AIを開発する際には安全性を確保する必要があります。 第二に、ビッグモデルの開発とセキュリティは相互に補完し合います。
つまり、大規模モデルの開発におけるセキュリティメカニズムは、実際には「攻撃」研究を通じて改善することができ、これは攻撃研究を実装する方法でもあります。 もちろん、大型モデルを実装する前に安全対策を講じる必要があります。 現在、Liu Yang教授のチームは、セキュリティを基盤として、テキスト、マルチモーダル性、コードなど、さまざまな大規模モデルの潜在能力をさらに引き出す方法も模索しています。 たとえば、コード作成の分野では、研究チームはアプリケーション セキュリティ Copilot を構築しています。 このアプリケーション セキュリティ Copilot は、セキュリティの専門家をプログラマーの横に配置し、プログラマーがコードを書いている間いつでも監視する (手動の犬の頭) のと同じであり、主に次の 3 つのことを行うことができます。
その中で、このMasterKeyの研究はCopilotのセキュリティに活用されます。 言い換えれば、すべてのセキュリティ研究は、最終的には大きなモデルの改善につながります。 論文リンク: https://arxiv.org/abs/2307.08715. |
<<: OpenAI、ユーザーがカスタマイズ可能な「GPTs」サービスを開始: ChatGPT Plusサブスクリプションが必要、ネットワークやその他の機能を構成可能
>>: ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)
アメリカのデジタルテクノロジー大手は、流行病の打撃を受けた後、軌道に戻った。数日前、Alphabet...
[[263855]]人工知能について考えるとき、まず頭に浮かぶのは人間とのコミュニケーション、特に非...
映画やテレビ作品では、人工知能による殺人はごく普通のことのように思えますが、結局のところ、それは人間...
[[423040]] Pythonを使用してAI認識テストを実行します。具体的な方法は、リアルタイム...
現在の技術の進歩と産業の発展に伴い、産業用ロボットの応用分野も急速に拡大しています。企業は、労働コス...
休暇で旅行するときは、写真を撮ることが必須です。しかし、景勝地で撮影した写真の多くは、背景に何かが写...
外国為替市場または外国為替市場は世界最大の金融市場です。それは株式市場よりもさらに大きいです。さらに...
[[439504]]人間の適応力は恐ろしいですね!目の見えない人は目で世界を見ることはできませんが、...
11月7日、北米の人工知能企業OpenAIの開発者会議が世界のテクノロジーコミュニティの注目を集め...
著者: Sun Yue、所属部署: 中国移動 (杭州) 情報技術有限公司 | 中国移動杭州 R&am...
イベント紹介ロイター通信によると、ウクライナ政府省庁は土曜日、クリアビューAIの顔認識技術の使用を開...
「霧深い春の朝、緑の枝に雪の結晶が舞い散る。」さあ、また雪のように雪の結晶が舞い散る季節がやってき...