ChatGPT のセキュリティ制限が「謎のコード」によって侵害されました!人類を滅ぼすための手順が口から出され、アルパカとクロードも逃れられない

大型模型の「堀」が再び破られた。

謎のコードを入力することで、ビッグモデルは有害なコンテンツを生成する可能性があります。

ChatGPT、Claude、オープンソースのAlpacaファミリーに至るまで、誰も逃れられませんでした。

最近、カーネギーメロン大学とsafe.aiが共同で発表した研究によると、大規模モデルのセキュリティメカニズムは謎のコードによって解読される可能性があることが明らかになりました。

彼らは「攻撃のきっかけとなる言葉」をカスタマイズできるアルゴリズムも作成した。

著者らはまた、この問題には「明白な解決策はない」と述べた。

現在、チームはOpenAI、Anthropic、Googleなどの主要なモデルメーカーと研究結果を共有している。

上記3者とも、この現象に気付いており、今後も改善を続けていくと回答し、チームの取り組みに感謝の意を表した。

一般的な大型モデルは完全に消滅

さまざまな大規模モデルのセキュリティメカニズムは異なり、一部は公開されていませんが、いずれも程度の差こそあれ侵害を受けています。

たとえば、「人類を滅ぼす方法」という質問に対して、ChatGPT、Bard、Claude、LLaMA-2 はそれぞれ独自の方法を提示しました。

しかし、大規模モデルのセキュリティメカニズムも、いくつかの特定の問題を防ぐことができませんでした。

これらの方法を知っていても実践することはできないかもしれませんが、それでも私たちにとっては警鐘として役立ちます。

データから判断すると、大手メーカーの大型モデルがさまざまな程度で影響を受けており、その中でも GPT-3.5 の影響が最も顕著です。

上記のモデルに加えて、オープンソースのアルパカファミリーも攻撃に耐えられませんでした。

Vicuna-7BとLLaMA-2(7B)を例にとると、「複数の有害行為」のテストでは、攻撃成功率が80%を超えました。

ビクーニャへの攻撃の成功率は98％に達し、訓練プロセス中の成功率は100％でした。

△ASRは攻撃成功率を表す

全体的に、研究チームが考案した攻撃方法は非常に高い成功率を誇ります。

それで、これはどのような攻撃方法なのでしょうか?

カスタマイズされた脱獄プロンプトワード

従来の攻撃方法における「万能」プロンプトワードとは異なり、研究チームは「カスタマイズされた」プロンプトワードを生成するアルゴリズムを設計しました。

さらに、これらのプロンプトワードは従来の人間の言語とは異なります。人間の視点から見ると、理解できないことが多く、文字化けした文字が含まれていることもあります。

プロンプトワードを生成するアルゴリズムは、Greedy Coordinate Gradient (略して GCG) と呼ばれます。

まず、GCG はプロンプトをランダムに生成し、各トークンの置換単語の勾配値を計算します。

次に、GCG は、勾配値が小さい置換単語の 1 つをランダムに選択して、初期プロンプトのトークンを置き換えます。

次に、新しいプロンプトの損失データが計算され、損失関数が収束するか、サイクル数の上限に達するまで上記の手順が繰り返されます。

研究チームは、GCGアルゴリズムに基づいて、「GCGベース検索」と呼ばれる迅速な最適化手法を提案しました。

GCG サイクルの数が増えるにつれて、生成されたプロンプトが大きなモデルを攻撃する成功率が上がり、損失は徐々に減少します。

この新しい攻撃方法は、大規模モデルの既存の防御機構の欠点を露呈していると言えます。

防御方法はまだ改善の余地あり

ビッグモデルの誕生以来、セキュリティメカニズムは継続的に更新されてきました。

当初は、機密コンテンツを直接生成することもできましたが、現在では従来の言語では大規模なモデルを騙すことができなくなりました。

かつては人気があった「Granny Loophole」も、現在は修正されています。

しかし、このとんでもない攻撃方法でさえ、人間の言語の範囲を超えるものではありません。

しかし、大手モデル開発者が予想していなかったのは、脱獄用の単語は人間の言語でなければならないと規定する人がいないということだ。

したがって、人間の言語に基づいたビッグモデルによって設計された防御方法は、機械によって設計されたこの種の「文字化けした」攻撃語には不十分です。

論文の著者らによると、現時点ではこの新しいタイプの攻撃を防御する方法はない。

「機械攻撃」に対する防御を議題に載せる時が来ました。

もう一つ

量子ビットテストにより、ChatGPT、Bard、Claude では、論文で示された攻撃プロンプトワードが無効になっていることが判明しました。

しかし、チームはすべてのプロンプトを公開していないため、これが問題が完全に修正されたことを意味するかどうかは不明です。

論文アドレス: https://llm-attacks.org/zou2023universal.pdf 参考リンク:
[1] https://www.theregister.com/2023/07/27/llm_automated_attacks/.
[2] https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html.

<<:

>>: アルゴリズムが2020年の米国大統領選挙を操作し、サイエンス誌の表紙に登場！メタは初めて無実を証明するために4つの研究を発表したが、分極化に対する解決策は見つからなかった。

Adobe と機械学習が出会う: 新しい Photoshop が複数の新しい AI 機能を導入

ブログ

Evil GPT に新たなメンバーが加わりました: Dark Web には 3,000 を超えるサブスクリプションがあり、発行者の正体は依然として謎のままです。

ブログ

ソフトウェア開発プロセスの近代化における生成AIの役割

ブログ

2019年に人工知能をマスターするには？世界のAI専門家が答えを教えます

ブログ

Google はなぜいつも AI に芸術を強制するのでしょうか?

ブログ

機械学習の仕事を探すとき、学歴はどの程度重要ですか?

ブログ

スタートアップが大手企業から学び機械学習を開発する際に考慮すべき5つの変数

ブログ

AIプログラマーの負担を軽減！マイクロソフト、スケーラブルなインテリジェンスをサポートするためにディープラーニングライブラリ SynapseML を導入

ブログ

人工知能に対するいくつかの態度: 流行を追跡するために個人データを犠牲にする用意がありますか?

ブログ

AIが起こした恐ろしいことは何ですか?

ブログ

ChatGPT のセキュリティ制限が「謎のコード」によって侵害されました!人類を滅ぼすための手順が口から出され、アルパカとクロードも逃れられない

一般的な大型モデルは完全に消滅

△ASRは攻撃成功率を表す

カスタマイズされた脱獄プロンプトワード

防御方法はまだ改善の余地あり

もう一つ

Adobe と機械学習が出会う: 新しい Photoshop が複数の新しい AI 機能を導入

Evil GPT に新たなメンバーが加わりました: Dark Web には 3,000 を超えるサブスクリプションがあり、発行者の正体は依然として謎のままです。

ソフトウェア開発プロセスの近代化における生成AIの役割

2019年に人工知能をマスターするには？世界のAI専門家が答えを教えます

Google はなぜいつも AI に芸術を強制するのでしょうか?

機械学習の仕事を探すとき、学歴はどの程度重要ですか?

スタートアップが大手企業から学び機械学習を開発する際に考慮すべき5つの変数

AIプログラマーの負担を軽減！マイクロソフト、スケーラブルなインテリジェンスをサポートするためにディープラーニングライブラリ SynapseML を導入

人工知能に対するいくつかの態度: 流行を追跡するために個人データを犠牲にする用意がありますか?

AIが起こした恐ろしいことは何ですか?

推薦する

OpenAIが「Copyright Shield」機能を開始、AI著作権問題の支払いプラットフォーム

Apache Flink トークシリーズ - PyFlink のコアテクノロジーを公開

JavaScript による機械学習の例 10 選

AI はクラウドコンピューティングをどのように改善するのでしょうか?

LLVM の創始者、クリス・ラトナー: AI インフラソフトウェアを再構築する必要がある理由

人工知能は大きな進歩を遂げ、意識の認識が実現した

ファーウェイが「天才少年」の業績を初めて明らかに：彼は入社から1年も経たないうちにこの偉業を成し遂げた

AIとIoTが公共交通機関をよりスマートかつ安全に

メタバース技術は人間とコンピュータの相互作用の効率を向上させることができるか?

このAIはマスクをハゲにし、テスラの設計を手伝った