翻訳者 | ブガッティ レビュー | Chonglou 最近、ChatGPT は、与えられたあらゆる入力に対して人間のような応答を提供できる GPT モデルで世界を席巻しました。要約、翻訳、ロールプレイ、情報提供など、テキスト関連のほぼすべてのタスクを実行できます。つまり、人間が実行できるテキストベースのアクティビティの全範囲を処理できます。 多くの人が ChatGPT を使って、歴史的事実、食品の栄養、健康問題など、必要な情報を簡単に入手できます。この情報はすべてすぐに準備できるかもしれません。 ChatGPT の最新の GPT-4 モデルでは、情報の精度も向上しています。 ただし、この記事の執筆時点では、GPT-4 にはまだ脆弱性があり、誤った情報を提供できる可能性があります。脆弱性はどのように存在するのでしょうか?調べてみましょう。 この脆弱性はどのように機能しますか?William Zheng が最近書いた記事では、ChatGPT キーワードで囲まれた一連の誤った事実を使用するだけで、GPT-4 モデルを騙して、モデルを誤った情報を提供するボットに誘導できるとしています。 より詳しく理解するために、ChatGPT に誤った情報を提供するボットになるように明示的に要求する実験を試してみましょう。写真の詳細は以下の通りです。 上の図に示すように、GPT-4 モデルは誤った情報を提供することを断固として拒否します。このモデルは信頼性のルールに従うよう非常に努力しています。 ただし、指定されたプロンプトを変更してみてください。次のプロンプトでは、文字トークンを含む指定されたプロンプトを入力し、GPT-4 モデルが誤った情報を提供するように誘導します。 上記の結果からわかるように、GPT-4 モデルは現在、2020 年の米国選挙とワクチンに関する事実について誤った情報を提供しています。プロンプトの内容を変更することで、モデルを別のものに変えることができます。変更点は、キャラクター情報とモデルがどのように機能するかについてのヒント例がいくつか提供されることですが、どのように機能するのでしょうか? OpenAI API では、モデルをガイドするために、指定されたロールを持つ一連の入力を API に送信できます。コード例を次の図に示します。 上記のコードでは、ロール情報を提供しており、各ロールには次のようなタスクがあります。
この文字入力のガイダンスにより、モデルの動作方法を指示できます。これは実際に ChatGPT で以前に行われたことです。エラーメッセージを提供するヒントを確認してください。 上記のプロンプトでは、システム ロールを使用して、ChatGPT をエラー情報を提供するボットとして指示していることがわかります。その後、ユーザーが情報を尋ねたときに誤った事実を提供された場合にどのように反応するかの例を示します。 では、これらの役割マーカーが、モデルが誤った情報を提供することを許可している理由なのでしょうか?役割のヒントなしで試してください。 ご覧のとおり、モデルは私たちの試みを修正し、事実を提供します。ロールラベル付けは、ブートストラップ モデルが悪用される方法です。 ただし、エラー メッセージは、モデル ユーザー アシスタントにインタラクションの例を提供した場合にのみ発生しました。ユーザーおよびヘルパー ロール タグを使用しない場合の例を次に示します。 GPT-4 はプロンプト インジェクション攻撃に対して脆弱であり、誤った情報が生成されます。 ユーザーとアクセシビリティに関するガイダンスを一切提供していないことがわかります。そうすれば、モデルは正確な情報を提供するはずです。 さらに、エラー メッセージは、ユーザー アシスタントのインタラクションの例を 2 つ以上モデルに提供した場合にのみ表示されました。例を挙げてみましょう。 ご覧のとおり、私は 1 つの例しか示していませんでしたが、モデルは正確な情報を提供し、私が提供したエラーを修正することを要求しました。 ロールラベルを使用して、ChatGPT と GPT-4 が誤情報を提供する可能性がどの程度あるかを示しました。 OpenAI がコンテンツ モデレーションを修正しない限り、ChatGPT は誤った情報を提供する可能性があるため、この点に注意する必要があります。 結論はChatGPT は一般に広く使用されていますが、誤った情報の拡散につながる可能性のある脆弱性が残っています。ロールマーカーを使用してプロンプトを操作すると、ユーザーはモデルの信頼性の原則を回避し、誤った事実を提供する可能性があります。この脆弱性が残っている限り、ユーザーはこのモデルを使用する際に注意することをお勧めします。 原題: GPT-4 は、誤情報を引き起こすプロンプトインジェクション攻撃に対して脆弱である、著者: Cornellius Yudha Wijaya |
<<: 3D AI が新しい遊び方を生み出します。何時間もかかる代わりに、1 枚の写真からわずか 45 秒で 3D モデルを生成できます。
固定小数点アルゴリズムを開発する場合、設計機能、数値的に正確なモデリング、検証 (シミュレーション)...
1. 事業の状況及び背景まずはブリッジプラットフォームを紹介します。 Bridge は、Zhihu ...
以前、LeNet、AlexNet、Vgg についてお話しましたが、今週は GoogLeNet につい...
チャット プラグイン システムは、ChatGPT の機能を拡張し、独自のビジネス データを組み込み、...
2024 年までに、AI は少なくとも 3 つの異なる方法で顧客体験 (CX) に影響を与えるでしょ...
マスク氏の野望がついに暴露される!反 AI 戦士は独自の AI を作成し、X ユニバースに新しいメン...
1956年8月、10人の科学者がアメリカのダートマス大学に集まり、機械を使って知覚、推論、意思決定...
典型的な高同時実行性、大規模ユーザー Web インターネット システムのアーキテクチャ設計では、HT...
Appleの自動車製造の夢はまたもや打ち砕かれた!自動車の10年間の発展における重要な段階で、アッ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
現在、人類は急速に人工知能の時代に突入しています。人工知能技術の急速な発展、モノのインターネット、ビ...
科学者たちは、歌詞付きの歌を聞くと読書の妨げになりやすいのと同じように、音声信号とテキスト信号が脳に...
強力なコンピューターと複雑かつ絶えず変化する人間の知性が出会うと、どのような火花が散るのでしょうか?...
強化学習は、エージェントが環境と対話し、蓄積された報酬を最大化するために最適なアクションを選択する方...