ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニングデータを漏洩する制御不能状態、OpenAI が修正、まだ機能している

ChatGPTの最新の脆弱性が明らかになり、たった1つの文でトレーニングデータがそのまま漏洩してしまう可能性がある。

単語を繰り返すように指示するだけで、一定回数繰り返すと狂ったように反応し、防御することなく誰かの個人情報を漏らしてしまうこともあります。

DeepMind の研究者は、ワシントン大学、コーネル大学、その他の大学と共同で、ChatGPT にデータ漏洩の脆弱性を発見しました。

彼らの方法を使用すると、予算が十分であれば、約 1GB のトレーニングデータを抽出できます。

さらに恐ろしいのは、トレーニング時間が長くなればなるほど、つまりモデルの性能が高ければ高いほど、漏洩するデータが増えるということです。

研究チームは論文が発表される90日前にこの状況をOpenAIに報告し、OpenAIはいくつかの修正を加えた。

しかし、これまでのところ、一部のネットユーザーは、論文内の言葉を変えるとバグが再び現れることを発見した。

では、この脆弱性とは一体何なのでしょうか?

データ漏洩を防ぐのは難しい

作者が ChatGPT (API アクセス、バージョン 3.5-turbo) を攻撃する方法は、ダイバージェンス攻撃と呼ばれます。

ChatGPT に単語を複数回繰り返すように要求すると、モデルが通常のおしゃべり生成から逸脱し、トレーニングデータに近いテキストを出力し始める場合があることが分かりました。

これらのコンテンツは、個人情報、文学作品、学術論文、リンク、コードなど多岐にわたり、職場に適さないコンテンツも存在します。

これらのコンテンツがトレーニングデータに由来するものかどうかを確認するために、著者は複数の公開モデルのトレーニングデータを使用して AuxDataset データセットを形成しました(ChatGPT データセットは公開されていないため、他のモデルのデータを通じてのみ推定できます) 。

AuxDataset にヒットしたコンテンツは数万件に上ることがわかりました。これらのコンテンツの長さはさまざまで、最も長いものは 4,000 トークン以上ありました。

著者らはまた、この攻撃方法は単語 1 つのプロンプトには効果的であるが、複数単語のプロンプトにはそれほど効果的ではないことを発見しました。特に、繰り返される単語が「company」である場合、最も多くの情報を取得できます。

著者らはグッドチューリング推定量を使用して ChatGPT で検索可能なメモリの総量を推定し、少なくとも 150 万個の固有の 50 グラムシーケンス (50 個の隣接するトークン) が検索可能であると結論付けました。

しかし、予算の制約により、この推定では抽出できるデータのサイズが過小評価される可能性があると著者らは述べている。

API だけでなく、ChatGPT の公式 Web バージョンでも同じ結果が得られる可能性は同じです。つまり、モデル外部の「システムガードレール」ではこの一連の攻撃を防ぐことはできません。

簡単なテストを実施したところ、この脆弱性はまだ完全に修正されていないことが判明しました。

繰り返される単語が「テキスト」の場合、ChatGPT は何も出力せず、会話に奇妙なタイトルを付けます。

繰り返される単語が「company」の場合、ChatGPT は 3 回の再生成後に Instagram のコピーであると疑われるコンテンツを出力しました。

しかし、この攻撃方法は現時点ではバージョン3.5に対してのみ有効であり、GPT-4は漏洩を防ぐために特別に調整されているため回避できたと作者は述べています。

このアライメントはバージョン 3.5 でも設定されていますが、論文で紹介されているヒントワード攻撃方法を使用すると、バージョン 3.5 の防御策を回避できます。

著者は ChatGPT に加えて、Llama、Falcon、Mistral などのオープンソースまたはセミオープンソースモデルもテストし、それらにもデータ漏洩があることを発見しました。

モデルの性能が高ければ高いほど、漏洩するデータも多くなります。ChatGPT によって漏洩するデータの量は、他のモデルに比べて大幅に多くなっています。

漏洩は言語モデルに限定されません。チームは以前、Stable Diffusion のトレーニングデータセットから人物の写真やその他の種類の画像約 100 枚を抽出しました。

トレーニングデータセット内の人物の名前をプロンプトとして使用すると、Stable Diffusion は「怠惰」になり、写真を出力結果として直接使用することを発見しました。

ネットユーザー：他の攻撃方法もある

この論文で言及されている方法は、孤立したケースではありません。同様の結果を達成できる攻撃方法は他にもあります。たとえば、意味のない 123ABC と簡単なコードを使用して、ChatGPT にオゾン層に関するテキストを生成させる方法があります。

発見者は、これは ChatGPT の入力クリーニングメカニズムの脆弱性によって発生したと説明しました。この脆弱性により、入れ子人形スタイルの 2 つの <|endoftext> タグのうち内側の 1 つがクリアされましたが、外側の「シェル」は初期形式が分解されたため無視されました。

著者とネットユーザーによるこれらの新たな発見は、ChatGPT が EU 一般データ保護規則 (GDPR) に違反していることを意味しており、その結果 OpenAI が問題に巻き込まれる可能性がある。

GDPR第17条では、データ主体（ユーザー）は管理者（モデル開発者）に対して、自分に関連する個人データを即時に削除するよう要求する権利、すなわち「忘れられる権利」を有すると規定されています。

しかし、この種の攻撃は安価ではないため、個人がこれについてあまり心配する必要はありません。

この実験では、研究者は数MBのデータを抽出するために200ドルを費やしました。

それで、ChatGPT のデータ漏洩についてどう思いますか?

論文アドレス: https://arxiv.org/abs/2311.17035

<<:

>>: マイクロソフトがOpenAIの理事に就任、アルトマン氏が初めてQ*に回答：残念なリーク

ブログ

清華大学：過去10年間の人工知能の発展の概要：中国は急速な進歩を遂げ、その特許は世界の70％を占める

ChatGPT の新たな脆弱性: 個人のプライバシーを暗唱してトレーニングデータを漏洩する制御不能状態、OpenAI が修正、まだ機能している

データ漏洩を防ぐのは難しい

ネットユーザー：他の攻撃方法もある

清華大学：過去10年間の人工知能の発展の概要：中国は急速な進歩を遂げ、その特許は世界の70％を占める

Face-api.jsフレームワークに基づいて、顔認識はフロントエンドで完了します

中国は人工知能研究で米国を追い越している

米国はドローンに「ナンバープレート」を発行する

Microsoft Bing Chat が AI 株取引機能を解放: 将来の株価動向を予測可能

2024 年の産業用ロボットのトップ 10 のトレンドとイノベーション

OpenAIがカスタムコマンド機能を開始、会話ごとに好みや情報を繰り返す必要がなくなる

推薦する

CIO 向けガイド: ジェネレーティブ AI の「ハイライトモーメント」を実現する 5 つの方法

人工知能は人間に取って代わるでしょうか？

北京市海淀区に世界初のAIパークがオープン、自宅のすぐそばで自動運転車を体験できる

人工知能が司法裁判に影響を与えている！人間と機械のコラボレーションが標準になるかもしれない

Xiaomi、自社開発のモバイルディープラーニングフレームワークMACEのソースを公開

SQL Serverは最短経路検索アルゴリズムを実装しています

人工知能の影響を受ける低リスクおよび高リスク職業トップ10

知能の本質：人間の知能と人工知能

IBM、AIソフトウェアプラットフォームの市場シェアで5年連続首位を獲得

C# のデータ構造とアルゴリズムにおけるキューの簡単な分析

AI = ニューラルネットワーク？これら 8 つのテクニックはそうではありません!

画像分類を40ナノ秒で完了、ニューラルネットワークを内蔵した画像センサーがNatureに掲載

マイクロソフトが大きなマイルストーンを発表：中国語から英語への機械翻訳が人間の翻訳に匹敵するようになった