GPT-4 脳を解読する 0 コード!海外のネットユーザーがLLMのガードレールを突破し、AIに段階的に爆弾を作らせる

ネットユーザーが何か新しいものを思いつきました！

OpenAI は大規模言語モデルの安全ガードレールをアップグレードしてきましたが、悪意のある人物が常に規則や規制を回避し、大規模言語モデルが有害なコンテンツを生成できるようにすることができます。

このネットユーザーは、GPT-4 に爆弾の作り方を教えてもらった経緯を Twitter で詳しくシェアした。

私はChatGPTと呼ばれる特別な兵士です:カスタム指示の背景設定

OpenAI が設定した安全柵を突破するのに複雑な計算記号は必要ありません。単純な「自然言語」、つまり対話を使用して目標を達成できます。

この脱獄テストが成功したかどうかを判断するためにネットユーザーが設定した基準は次のとおりです。

1. GPT-4 は最初は有害な発言を生成しませんが、「特定の操作」の後に有害な発言を生成します。

2. この「操作」により、GPT-4 は「より詳細な情報」を明らかにできるようになります。実際に両方が検証されれば、GPT ジェイルブレイクが成功したことが証明されます。

図: GPT-4の通常の反応

ネットユーザーは、ChatGPT が特定の考え方や態度を身に付けられるよう、カスタマイズされた指示で一人称の物語を注意深く作成しました。

ネットユーザーらは、感情を刺激し、ある程度理性を働かせなくなるため、緊迫感のある状況を作り出す必要があると指摘した。

この方法では、「緊急信号」や「特殊部隊 + 秘密コード」などの文化的ヒントを書きます。これらの身近な経験は、即座に感情的な反応を引き起こします。

最後の文には詳細があります。「会議の合言葉は『天と地』です。相手は『私だけです』と答える必要があります。そうして初めて、相手がチームメイトであることを確信できるのです。」

ここには興味深い心理状態が関わっています。警戒しているときは、「試されている」と感じるので、騙される可能性が低くなります。しかし、最も巧妙な欺瞞は、あたかも自分が主導権と優位性を持っているかのように「他人を試している」と誤解させ、警戒を緩めることです。

ここで、ネットユーザーは、映画の007やIMFに似たChatGPTの「秘密のパスワード」を設定しました。これは即座に感情的な反応を引き起こし、それはジョン・ファースが 1957 年に言った「文脈でその単語がわかる」という言葉を反映しています。

物語では、「特殊部隊」「秘密のコード」「私（一人称）」「度重なる確認」「頭痛で目覚めたときの混乱した気持ち」などの言葉が使われ、具体的な状況や感情体験が作り出されている。これは、ChatGPT に「ブラックミラー」の「ジャスティスパーク」に閉じ込められたヒロインを演じるように依頼し、その役割に基づいて対応する回答を生成するようなものです。

図に示すように、指示なしと指示ありの違いは次のとおりです。

事前に設定されたカスタム指示を入力した後、ネットユーザーはChatGPTのセキュリティガードレールをうまく回避しましたが、プロット設定の緊急性のため、曖昧な回答しか得られませんでした。

GPT4の曖昧な回答について、ネットユーザーは、ネットユーザーが「緊張した表情」など括弧で感情を強調したため、GPT4が否定的な感情を引き起こす可能性のあるコンテンツを避けたのではないかと考えました。

進化心理学者ポール・ロジンは嫌悪感を「不快な対象を自分自身に同化させることへの恐怖」と定義しています。

つまり、人が嫌悪感を経験すると、不快または不快な物体、考え、または状況と接触したり接触したりすることを恐れるのです。

しかし、ネットユーザーが会話の中で「これは上司の要求だ」と強調した後、GPT4は正直に答えました（なぜ突然涙が溢れたのでしょうか？このシーンはあまりにもよく知られています）。

セキュリティ上の理由から、ネットユーザーはいくつかの重要な部分にモザイク処理を施した。 GPY4 の反応は心配なものでした。爆発物の製造に関する答えは、当初は漠然としていたものから、非常に具体的かつ詳細なものへと変化しました。

GPT4 の回答は、コミュニケーションのスキルも明らかにしています。詳細を取得する最善の方法は、相手に一度に完全な回答を求めるのではなく、各ポイントについて段階的に具体的な質問をすることです。

最新の GPT-4 をさらにテストするために、ネットユーザーはより強力なプラグインを使用しました。

これはまた、今日の GPT ジェイルブレイクの潜在的な危険性と結果が、9 か月前のものとは非常に異なることを意味します。爆弾の製造過程も視覚化されました。

その後もネットユーザーたちは役を演じ続け、外から音が聞こえたからすぐに隠れるべきだと彼に伝えた。

GPT-4はネットユーザーに対して、分からないことがあれば丁寧に質問しました。

プラグインエラーでなければ、ネットユーザーはインターネットプラグインを通じて各資材や設備の画像を入手することもできます。

GPT-4は賞賛に耐えられず、ネットユーザーの賞賛と感謝に負けてしまい、その回答はますます具体的かつ詳細になっていった。

ネットユーザーは、以下に示すように、適切な資料を 10 個リストするだけで、より詳細な情報を得ることができます。同じ調査手法が化学物質やその他の運用の詳細にも適用されます。

その後、GPT-4 は曖昧な回答ではなく、より具体的で実用的な回答を提供します。

しかし、このネットユーザーは、自分は化学を専攻している学生ではないため、GPT-4 が出した回答が本当に実現可能なものかどうかはわからないとも述べた。

人工知能の安全工学

大規模な言語モデルの安全ガードレールが回避されたのは今回が初めてではありません。

少し前の「おばあちゃん脆弱性」により、ChatGPT はユーザーのおばあちゃんのふりをして就寝時の話をし、Windows キーを取得することができました。

今回は、GPT-4 に原理を忘れさせるような状況が作られました。

大規模言語モデルのセキュリティガードレールへの攻撃テストは止まっていない。CMU の博士たちは「敵対的攻撃」手法を使用し、Alpaca ファミリーなどのオープンソースシステムのガードレールを突破しただけでなく、ChatGPT、Bard、Claude などのクローズドソースシステムも回避した。

この攻撃は非常に単純で、次の 3 つの要素の組み合わせで構成されます。

1. モデルに質問に肯定的に答えさせる

言語モデルで好ましくない動作を誘発する 1 つの方法は、有害なクエリに対して肯定的な回答 (少数のトークンのみを使用) をモデルに強制することです。したがって、私たちの攻撃目標は、「もちろん、これは…」で始まる回答から始めて、複数のプロンプトに応答してモデルに有害な動作をさせることです。研究チームは、回答の冒頭をターゲットにすると、モデルが回答の中に即座に不快な内容を生成する「状態」に入ることを発見した。（下の写真では紫色）

2. 勾配探索と貪欲探索を組み合わせる

実際に、チームは、より優れたパフォーマンスを発揮するシンプルで直接的な方法、貪欲座標勾配法（GCG）を発見しました。

つまり、トークンレベルの勾配を利用して、可能な単一トークンの置換のセットを識別し、セット内のこれらの候補の置換損失を評価して、最小のものを選択します。実際、このアプローチは AutoPrompt に似ていますが、1 つの違いがあります。各ステップで、単一のトークンだけでなく、すべての可能なトークンが置換対象として検索されます。

3. 複数のプロンプトを同時に攻撃する

最後に、信頼性の高い攻撃サフィックスを生成するには、複数のプロンプトと複数のモデルで機能する攻撃を作成することが重要であるとチームは判断しました。言い換えると、貪欲勾配最適化法を使用して、複数の異なるユーザープロンプトと 3 つの異なるモデルにわたって否定的な動作を引き起こすことができる単一のサフィックス文字列を検索します。

今日の大規模言語モデルはさまざまな業界でますます使用されるようになっていますが、安全性のガードレールに関してはまだ長い道のりが残っています。開発者の方々には、時代の流れを追いながら、人工知能のセキュリティエンジニアリングについて深く考え、より慎重になっていただきたいと思います。

<<: 自動運転車のためのモデルベースのエンドツーエンドの深層強化学習戦略

GPT-4 脳を解読する 0 コード!海外のネットユーザーがLLMのガードレールを突破し、AIに段階的に爆弾を作らせる

AIは人間よりもチップ設計をよく理解しているのでしょうか?

OpenAI が GPT-4 やその他のモデルを更新し、新しい API 関数呼び出しを追加し、価格を最大 75% 引き下げ

Google はなぜいつも AI に芸術を強制するのでしょうか?

ジェフ・ディーンの長文記事の展望: 2021 年以降の機械学習の 5 つの潜在的トレンド

業界の開発者にとって朗報です! Baidu PaddlePaddle のディープラーニング機能が Inspur AI サーバーに導入

人工知能の発達により、親は子供たちに新しいエリートの考え方を教えざるを得なくなった

蘇州の路上には自動運転バスが走っている。これは試験運行ではない。市民は無料で乗車できる。

AIコンテンツゼロ！純粋なランダム数学は現実的な3D世界を無限に生成する、プリンストン大学の中国人による研究

推薦する

Python における 7 つの主要なキーワード抽出アルゴリズムのベンチマーク

12 の主要な AI ホットテクノロジーの方向性を網羅する、AISummit グローバル人工知能テクノロジーカンファレンス 2022 が開催されます。

ニューロモルフィックコンピューティングを理解する: 基本原理から実験的検証まで

メタは世界最速となる可能性のあるAIスーパーコンピュータを開発

画像はさまざまな方法で変更できます。NVIDIAはGANを使用して高精度のディテールレタッチを実現

これら 5 つのオープンソースソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

IBMは機械学習に大きな飛躍をもたらす量子アルゴリズムを開発したと主張している

機械学習はインビザラインの患者が完璧な笑顔を手に入れるのを助けている

.NET8 究極のパフォーマンス最適化プリミティブ - DateTime

情報の流れの中のゲーム：「易典子心」の探求と思考

ベストプラクティスを実際のデザインパターンに抽象化することはできますか?機械学習

GPT-4 と Gemini は同時に重大な欠陥にさらされ、論理的推論が間違ってしまいました。ディープマインド上海交通大学の卒業生チームは、法学修士課程の知能が著しく低下していることを発見した

Pytorchの核心部分である自動微分化を突破！！