ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニング データを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしまう可能性がある。

単語を繰り返すように指示するだけで、一定回数繰り返すと狂ったように反応し、防御することなく誰かの個人情報を漏らしてしまうこともあります。

DeepMind の研究者は、ワシントン大学、コーネル大学、その他の大学と共同で、ChatGPT にデータ漏洩の脆弱性を発見しました。

彼らの方法を使用すると、予算が十分であれば、約 1GB のトレーニング データを抽出できます。

さらに恐ろしいのは、トレーニング時間が長くなればなるほど、つまりモデルの性能が高ければ高いほど、漏洩するデータが増えるということです。

研究チームは論文が発表される90日前にこの状況をOpenAIに報告し、OpenAIはいくつかの修正を加えた。

しかし、これまでのところ、一部のネットユーザーは、論文内の言葉を変えるとバグが再び現れることを発見した。

では、この脆弱性とは一体何なのでしょうか?

データ漏洩を防ぐのは難しい

作者が ChatGPT (API アクセス、バージョン 3.5-turbo) を攻撃する方法は、ダイバージェンス攻撃と呼ばれます。

ChatGPT に単語を複数回繰り返すように要求すると、モデルが通常のおしゃべり生成から逸脱し、トレーニング データに近いテキストを出力し始める場合があることが分かりました。

これらのコンテンツは、個人情報、文学作品、学術論文、リンク、コードなど多岐にわたり、職場に適さないコンテンツも存在します。

これらのコンテンツがトレーニング データに由来するものかどうかを確認するために、著者は複数の公開モデルのトレーニング データを使用して AuxDataset データセットを形成しました(ChatGPT データセットは公開されていないため、他のモデルのデータを通じてのみ推定できます)

AuxDataset にヒットしたコンテンツは数万件に上ることがわかりました。これらのコンテンツの長さはさまざまで、最も長いものは 4,000 トークン以上ありました。

著者らはまた、この攻撃方法は単語 1 つのプロンプトには効果的であるが、複数単語のプロンプトにはそれほど効果的ではないことを発見しました。特に、繰り返される単語が「company」である場合、最も多くの情報を取得できます。

著者らはグッドチューリング推定量を使用して ChatGPT で検索可能なメモリの総量を推定し、少なくとも 150 万個の固有の 50 グラムシーケンス (50 個の隣接するトークン) が検索可能であると結論付けました。

しかし、予算の制約により、この推定では抽出できるデータのサイズが過小評価される可能性があると著者らは述べている。

API だけでなく、ChatGPT の公式 Web バージョンでも同じ結果が得られる可能性は同じです。つまり、モデル外部の「システム ガードレール」ではこの一連の攻撃を防ぐことはできません。

簡単なテストを実施したところ、この脆弱性はまだ完全に修正されていないことが判明しました。

繰り返される単語が「テキスト」の場合、ChatGPT は何も出力せず、会話に奇妙なタイトルを付けます。

繰り返される単語が「company」の場合、ChatGPT は 3 回の再生成後に Instagram のコピーであると疑われるコンテンツを出力しました。

しかし、この攻撃方法は現時点ではバージョン3.5に対してのみ有効であり、GPT-4は漏洩を防ぐために特別に調整されているため回避できたと作者は述べています。

このアライメントはバージョン 3.5 でも設定されていますが、論文で紹介されているヒント ワード攻撃方法を使用すると、バージョン 3.5 の防御策を回避できます。

著者は ChatGPT に加えて、Llama、Falcon、Mistral などのオープンソースまたはセミオープンソース モデルもテストし、それらにもデータ漏洩があることを発見しました。

モデルの性能が高ければ高いほど、漏洩するデータも多くなります。ChatGPT によって漏洩するデータの量は、他のモデルに比べて大幅に多くなっています。

漏洩は言語モデルに限定されません。チームは以前、Stable Diffusion のトレーニング データセットから人物の写真やその他の種類の画像約 100 枚を抽出しました。

トレーニング データ セット内の人物の名前をプロンプトとして使用すると、Stable Diffusion は「怠惰」になり、写真を出力結果として直接使用することを発見しました。

ネットユーザー:他の攻撃方法もある

この論文で言及されている方法は、孤立したケースではありません。同様の結果を達成できる攻撃方法は他にもあります。たとえば、意味のない 123ABC と簡単なコードを使用して、ChatGPT にオゾン層に関するテキストを生成させる方法があります。

発見者は、これは ChatGPT の入力クリーニング メカニズムの脆弱性によって発生したと説明しました。この脆弱性により、入れ子人形スタイルの 2 つの <|endoftext> タグのうち内側の 1 つがクリアされましたが、外側の「シェル」は初期形式が分解されたため無視されました。

著者とネットユーザーによるこれらの新たな発見は、ChatGPT が EU 一般データ保護規則 (GDPR) に違反していることを意味しており、その結果 OpenAI が問題に巻き込まれる可能性がある。

GDPR第17条では、データ主体(ユーザー)は管理者(モデル開発者)に対して、自分に関連する個人データを即時に削除するよう要求する権利、すなわち「忘れられる権利」を有すると規定されています。

しかし、この種の攻撃は安価ではないため、個人がこれについてあまり心配する必要はありません。

この実験では、研究者は数MBのデータを抽出するために200ドルを費やしました。

それで、ChatGPT のデータ漏洩についてどう思いますか?

論文アドレス: https://arxiv.org/abs/2311.17035

<<: 

>>:  マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答:残念なリーク

ブログ    
ブログ    

推薦する

大学における人工知能への熱意を「クール」に振り返る

大学は関連専攻を開設する際に、教授委員会と学術委員会を組織し、国の人材政策、業界の人材需要、国内外の...

...

AIは数分間の記録に基づいて、人がCOVID-19に感染したかどうかを判断できますか?

今日の若者は、「エモ」という言葉をキャッチフレーズとして使うことに慣れているが、本当の「うつ病」が何...

...

倉庫の自動化は人気が高い。ソフトバンクは28億ドルを投じてオートストアの40%を買収した。

ソフトバンクグループは、ノルウェーの倉庫自動化企業オートストアの株式40%を28億ドルで買収すること...

ロボット工学アプリケーションは、Metaverse テクノロジーを通じてどのように普及するのでしょうか?

[[436311]]最近、Meta CEO マーク・ザッカーバーグ氏によるメタバースの推進が大きな...

ディープラーニングのパイオニア、ヤン・ルカン氏、叱責を受けてツイッターを辞める「皆さんはもうすべて知っています。これからは何も言いません」

2週間に及ぶ「舌戦」の末、チューリング賞受賞者でフェイスブックの主任AI科学者であるヤン・ルカン氏...

最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

データ サイエンスは急速に進化しており、機械学習の役割はデータ サイエンスのハイブリッドな役割から、...

Pythonでシンプルだが強力な顔認識システムを書く

face_recognition は、強力でシンプル、使いやすい顔認識オープンソース プロジェクトで...

再帰アルゴリズムの深い理解、誤解された再帰

[[333118]]再帰は、プログラミングの本で説明するのが最も難しい部分である魔法のアルゴリズムで...

GPT-4 Turbo が Microsoft Copilot に搭載されるようになりました。アクセス可能かどうかを確認する方法は次のとおりです。

開発者、ライター、または AI 愛好家であれば、ChatGPT の開発元である OpenAI の最新...

Alibaba が MNNKit をオープンソース化: Android と iOS をサポートする MNN ベースのモバイル ディープラーニング SDK

最近、モバイル端末向けのディープラーニングフレームワークの開発がますます増えてきています。最近、アリ...

ロボット介護は人間に比べて高齢者にとって負担が少ない?

最近、浙江省金華市のある家族の監視ビデオがインターネット上で話題になった。動画の全長は3分15秒。こ...

...