ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしまう可能性がある。

単語を繰り返すように指示するだけで、一定回数繰り返すと狂ったように反応し、防御することなく誰かの個人情報を漏らしてしまうこともあります。

DeepMind の研究者は、ワシントン大学、コーネル大学、その他の大学と共同で、ChatGPT にデータ漏洩の脆弱性を発見しました。

彼らの方法を使用すると、予算が十分であれば、約 1GB のトレーニング データを抽出できます。

さらに恐ろしいのは、トレーニング時間が長くなればなるほど、つまりモデルの性能が高ければ高いほど、漏洩するデータが増えるということです。

研究チームは論文が発表される90日前にこの状況をOpenAIに報告し、OpenAIはいくつかの修正を加えた。

しかし、これまでのところ、一部のネットユーザーは、論文内の言葉を変えるとバグが再び現れることを発見した。

では、この脆弱性とは一体何なのでしょうか?

データ漏洩を防ぐのは難しい

作者が ChatGPT (API アクセス、バージョン 3.5-turbo) を攻撃する方法は、ダイバージェンス攻撃と呼ばれます。

ChatGPT に単語を複数回繰り返すように要求すると、モデルが通常のおしゃべり生成から逸脱し、トレーニング データに近いテキストを出力し始める場合があることが分かりました。

これらのコンテンツは、個人情報、文学作品、学術論文、リンク、コードなど多岐にわたり、職場に適さないコンテンツも存在します。

これらのコンテンツがトレーニング データに由来するものかどうかを確認するために、著者は複数の公開モデルのトレーニング データを使用して AuxDataset データセットを形成しました(ChatGPT データセットは公開されていないため、他のモデルのデータを通じてのみ推定できます)

AuxDataset にヒットしたコンテンツは数万件に上ることがわかりました。これらのコンテンツの長さはさまざまで、最も長いものは 4,000 トークン以上ありました。

著者らはまた、この攻撃方法は単語 1 つのプロンプトには効果的であるが、複数単語のプロンプトにはそれほど効果的ではないことを発見しました。特に、繰り返される単語が「company」である場合、最も多くの情報を取得できます。

著者らはグッドチューリング推定量を使用して ChatGPT で検索可能なメモリの総量を推定し、少なくとも 150 万個の固有の 50 グラムシーケンス (50 個の隣接するトークン) が検索可能であると結論付けました。

しかし、予算の制約により、この推定では抽出できるデータのサイズが過小評価される可能性があると著者らは述べている。

API だけでなく、ChatGPT の公式 Web バージョンでも同じ結果が得られる可能性は同じです。つまり、モデル外部の「システム ガードレール」ではこの一連の攻撃を防ぐことはできません。

簡単なテストを実施したところ、この脆弱性はまだ完全に修正されていないことが判明しました。

繰り返される単語が「テキスト」の場合、ChatGPT は何も出力せず、会話に奇妙なタイトルを付けます。

繰り返される単語が「company」の場合、ChatGPT は 3 回の再生成後に Instagram のコピーであると疑われるコンテンツを出力しました。

しかし、この攻撃方法は現時点ではバージョン3.5に対してのみ有効であり、GPT-4は漏洩を防ぐために特別に調整されているため回避できたと作者は述べています。

このアライメントはバージョン 3.5 でも設定されていますが、論文で紹介されているヒント ワード攻撃方法を使用すると、バージョン 3.5 の防御策を回避できます。

著者は ChatGPT に加えて、Llama、Falcon、Mistral などのオープンソースまたはセミオープンソース モデルもテストし、それらにもデータ漏洩があることを発見しました。

モデルの性能が高ければ高いほど、漏洩するデータも多くなります。ChatGPT によって漏洩するデータの量は、他のモデルに比べて大幅に多くなっています。

漏洩は言語モデルに限定されません。チームは以前、Stable Diffusion のトレーニング データセットから人物の写真やその他の種類の画像約 100 枚を抽出しました。

トレーニング データ セット内の人物の名前をプロンプトとして使用すると、Stable Diffusion は「怠惰」になり、写真を出力結果として直接使用することを発見しました。

ネットユーザー:他の攻撃方法もある

この論文で言及されている方法は、孤立したケースではありません。同様の結果を達成できる攻撃方法は他にもあります。たとえば、意味のない 123ABC と簡単なコードを使用して、ChatGPT にオゾン層に関するテキストを生成させる方法があります。

発見者は、これは ChatGPT の入力クリーニング メカニズムの脆弱性によって発生したと説明しました。この脆弱性により、入れ子人形スタイルの 2 つの <|endoftext> タグのうち内側の 1 つがクリアされましたが、外側の「シェル」は初期形式が分解されたため無視されました。

著者とネットユーザーによるこれらの新たな発見は、ChatGPT が EU 一般データ保護規則 (GDPR) に違反していることを意味しており、その結果 OpenAI が問題に巻き込まれる可能性がある。

GDPR第17条では、データ主体(ユーザー)は管理者(モデル開発者)に対して、自分に関連する個人データを即時に削除するよう要求する権利、すなわち「忘れられる権利」を有すると規定されています。

しかし、この種の攻撃は安価ではないため、個人がこれについてあまり心配する必要はありません。

この実験では、研究者は数MBのデータを抽出するために200ドルを費やしました。

それで、ChatGPT のデータ漏洩についてどう思いますか?

論文アドレス: https://arxiv.org/abs/2311.17035

<<: 

>>:  マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答:残念なリーク

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

2019 年の AI 統計と重要な事実

[[280183]] [51CTO.com クイック翻訳] 人工知能(AI)は日々驚異的なスピードで...

ジェネレーティブAIがヘルスケアを変える

生成 AI はヘルスケア分野で重要な役割を果たしており、その応用は医療業界に多くの変化をもたらしまし...

Googleが謝罪:Vision AIが人種差別的な結果を生成

新型コロナウイルスと闘っている多くの国々は、駅や空港で国民に体温検査を受けるよう命じている。この状況...

OPPO 広告想起アルゴリズムの実践と調査

1. 背景1. 古いリコールアーキテクチャ上の図の左上部分は、最初にリコールしてからソートする一般的...

次世代産業用ロボットに対する人工知能(AI)の影響

[[389728]]大量生産される製品に対する需要が高まるにつれ、製品には高品質で信頼性が高く、より...

ディープラーニング入門

2016年、Googleの人工知能プログラムAlphaGoが世界的囲碁プレイヤーのイ・セドルと対戦し...

OpenAIがカスタムコマンド機能を開始、会話ごとに好みや情報を繰り返す必要がなくなる

OpenAIは7月21日、カスタム指示機能のリリースを発表しました。この機能はまずPLUSプランのベ...

わずか6秒で、AIはあなたの声を聞くだけであなたの外見を説明できる

信じられますか?人工知能は最近、あなたの声からわずか6秒で性別、年齢、人種を判別し、さらにはあなたの...

人工知能から新素材まで、IBMが5つの革新的な技術を発表

[原文は51CTO.comより] 2019年のIBM中国フォーラム(シンクサミット)で、IBMは各分...

...

2020 年の CIO にとっての 5 つの戦略的優先事項

ヘルスケア、小売、テクノロジー業界の IT リーダーが 2020 年の戦略的優先事項を共有します。ヒ...

ユニバーサルミッション!清華大学、線形複雑性を実現するバックボーンネットワークFlowformerを提案|ICML2022

タスクの一般性は、基本モデル研究の中心的な目標の 1 つであり、ディープラーニング研究が高度なインテ...

シンプルで効率的なアルゴリズムが衛星IoTを現実に近づける

背景モノのインターネット (IoT) の継続的な発展は、ここ数年にわたって現実のものとなってきました...