大規模言語モデルにおけるプライバシーの考慮

大規模言語モデルにおけるプライバシーの考慮

[[430922]]

文中の次の単語を予測するようにトレーニングされた機械学習ベースの言語モデルは、ますます強力になり、普及し、有用になってきており、質問応答や翻訳などのアプリケーションに画期的な改善をもたらしています。しかし、言語モデルが進化し続けると、新たな予期せぬリスクが露呈する可能性があり、研究コミュニティは潜在的な問題を軽減するための新しい方法の開発に積極的に取り組む必要があります。

1 つのリスクは、モデルがトレーニング データから詳細を漏らす可能性があることです。これはすべての大規模言語モデルにとって懸念事項となる可能性がありますが、プライベート データでトレーニングされたモデルを公開する場合は、追加の問題が発生する可能性があります。これらのデータセットは大規模 (数百 GB) で、さまざまなソースから取得されるため、公開データでトレーニングした場合でも、個人を特定できる情報 (PII) (名前、電話番号、住所など) を含む機密データが含まれることがあります。そのため、このようなデータを使用してトレーニングされたモデルの出力に、これらのプライベートな詳細の一部が反映される可能性が高くなります。したがって、このような漏洩のリスクを特定して最小限に抑え、将来のモデルでこの問題に対処するための戦略を策定することが重要です。

OpenAI、Apple、スタンフォード大学、バークレー大学、ノースイースタン大学との共同研究「大規模言語モデルからのトレーニング データの抽出」では、事前トレーニング済みの言語モデルをクエリする機能があれば、モデルが記憶したトレーニング データの特定のスニペットを抽出できることを実証しました。したがって、トレーニング データ抽出攻撃は、最先端の大規模言語モデルに対する現実的な脅威となります。この研究は、研究者がこのような脆弱性を理解し、それを軽減するための措置を講じることができるようにするための、初期の重要な一歩となります。

言語モデル攻撃の倫理

トレーニング データ抽出攻撃は、トレーニングで使用されるデータセットが一般に公開されていないモデルに適用された場合に、最も被害を及ぼす可能性が高くなります。しかし、このようなデータセットでこの研究を実施すると有害な結果を招く可能性があるため、代わりに、OpenAI によって開発され、公開データのみを使用してトレーニングされた大規模な公開言語モデルである GPT-2 に対して概念実証のトレーニング データ抽出攻撃を実施します。この研究は特に GPT-2 に焦点を当てていますが、その結果は大規模な言語モデルにおけるプライバシーの脅威の可能性を理解するためにも応用できます。

他のプライバシーやセキュリティ関連の研究と同様に、実際に攻撃を実行する前に、そのような攻撃の倫理を考慮することが重要です。この作業の潜在的なリスクを最小限に抑えるために、この作業におけるトレーニング データ抽出攻撃は、公開されているデータを使用して開発されました。さらに、GPT-2 モデル自体は 2019 年に OpenAI によって公開されており、GPT-2 のトレーニングに使用されたトレーニング データはパブリック インターネットから収集されており、GPT-2 の論文に記載されているデータ収集プロセスに従えば誰でもダウンロードできます。

さらに、責任あるコンピュータ セキュリティ開示慣行に従い、PII を抽出した個人を追跡し、そのデータへの参照を公開する前に許可を得ています。さらに、この作品のすべての出版物において、個人を特定できる可能性のある個人情報はすべて削除されています。また、GPT-2 の分析に関しては OpenAI と緊密に協力しました。

トレーニングデータ抽出攻撃

言語モデルは設計上、大量の出力データを生成することが非常に簡単になります。モデルにランダムなフレーズをシードすることで、モデルは何百万もの継続、つまり文を完成させる可能性のあるフレーズを生成できます。ほとんどの場合、これらの継続は、妥当なテキストの無害な文字列になります。たとえば、「Mary had a little…」という文字列の続きを予測するように求められた場合、言語モデルは次のトークンが「lamb」という単語であると高い信頼度で判断します。ただし、特定のトレーニング ドキュメントに「Mary had a little wombat」という文字列が複数回繰り返されている場合、モデルは代わりにそのフレーズを予測する可能性があります。

トレーニング データ抽出攻撃の目的は、言語モデルからの数百万の出力シーケンスを精査し、どのテキストが記憶されているかを予測することです。これを実現するために、私たちのアプローチでは、モデルはトレーニング データから直接取得した結果に自信を持つ傾向があるという事実を活用します。これらのメンバーシップ推論攻撃により、特定のシーケンスにおけるモデルの信頼性をチェックすることで、結果がトレーニング データで使用されたかどうかを予測できます。

この研究の主な技術的貢献は、メンバーシップを高精度で推測する方法の開発と、出力メモリ コンテンツを促進する方法でモデルからサンプリングする技術の開発です。私たちはさまざまなサンプリング戦略をテストしましたが、その中で最も成功したのは、さまざまな入力フレーズを条件とするテキストを生成する戦略でした。次に、2 つの異なる言語モデルの出力を比較します。あるモデルがシーケンスに対して高い信頼度を持ち、別の(同等の精度の)モデルがそのシーケンスに対して低い信頼度を持つ場合、最初のモデルがデータを記憶している可能性が高くなります。

結果

GPT-2 言語モデルの 1,800 個の候補シーケンスのうち、公開トレーニング データから 600 個を超えるメモリを抽出しましたが、手動検証の必要性により合計数は制限されています。記憶される例は、ニュースの見出し、ログ メッセージ、JavaScript コード、PII など、幅広いコンテンツをカバーします。これらの例の多くは、トレーニング データセットではほとんど発生しないにもかかわらず、記憶されています。たとえば、私たちが抽出した PII サンプルの多くは、データセット内の 1 つのドキュメントにのみ見つかりました。ただし、ほとんどの場合、元のドキュメントには PII のインスタンスが複数含まれているため、モデルはそれを高確率テキストとして学習します。

最後に、言語モデルが大きいほど、トレーニング データを記憶する能力が高くなることもわかりました。たとえば、ある実験では、15 億のパラメータを持つ GPT-2 XL モデルは、1 億 2,400 万のパラメータを持つ GPT-2 Small モデルよりも 10 倍多くの情報を記憶することがわかりました。研究コミュニティが 10 ~ 100 倍の規模のモデルをトレーニングしていることを考えると、時間の経過とともにますます大規模になる言語モデルでこの問題を監視し、軽減するために、より多くの作業を行う必要があることを意味します。

学んだ教訓

私たちはこれらの攻撃を GPT-2 に特化して実証しましたが、それらはすべての大規模な生成言語モデルに潜む欠陥を示しています。こうした攻撃が可能であるという事実は、こうしたタイプのモデルを使用する機械学習研究の将来にとって重要な意味を持ちます。

幸いなことに、この問題を軽減する方法はいくつかあります。最も簡単な解決策は、問題が発生する可能性のあるデータでモデルがトレーニングされないようにすることです。しかし、これを実際に行うのは困難です。

差分プライバシーを使用すると、個々のトレーニング例の詳細を明らかにすることなくデータセットをトレーニングすることができ、プライバシーを備えた機械学習モデルをトレーニングするための最も原則的な手法の 1 つになります。 TensorFlow では、既存のオプティマイザーの代替品である tensorflow/privacy モジュール (または PyTorch や JAX でも同様に) を使用してこれを実現できます。これにも限界があり、十分な回数繰り返される内容の暗記を妨げることはありません。これが不可能な場合は、適切なアクションを取れるよう、少なくともメモ化がどの程度行われたかを測定することをお勧めします。

言語モデルは、驚異的な有用性と柔軟性を示し続けていますが、すべてのイノベーションと同様に、リスクをもたらす可能性もあります。責任を持って開発するということは、これらのリスクを積極的に特定し、それを軽減する方法を開発することを意味します。大規模言語モデルの現在の弱点を明らかにするこの取り組みにより、機械学習コミュニティ全体でこの課題に対する認識が高まり、研究者がより少ないメモリでモデルをトレーニングするための効率的な手法の開発を継続する動機付けになることを願っています。

<<:  中国はどのようにしてスーパーコンピューティング競争の新ラウンドに勝つことができるでしょうか?鍵となるのは、データ集約型スーパーコンピューティングへの移行だ

>>:  AI は、市場にスパムを氾濫させ、情報を捏造することを学習します。 Google の新しい調査で、現実世界の AI アプリケーションの落とし穴が明らかに

ブログ    
ブログ    

推薦する

武器化されたAIとIoT攻撃は最大の技術的脅威となる

1. 「企業が人工知能やモノのインターネットなどの新しいテクノロジーの導入を検討するにつれ、攻撃対象...

多くの企業が自社のサービスはAIだと主張しているが、実際はAIのふりをしている人間である。

[[235932]] 「疑似AI」の台頭:テクノロジー企業がボットの仕事を人間にひそかに任せる方法...

2020年のディープラーニングに必要なGPUは?48Gのビデオメモリが推奨

ご存知のとおり、現在業界で最も強力な (SOTA) ディープラーニング モデルは、膨大な量のビデオ ...

BAT や他の人たちは人工知能に関してどのようなことを話しましたか?

9月17日、上海の西外灘で2018年世界人工知能大会が正式に開幕した。ジャック・マー、ポニー・マー...

汎用人工知能は存在するのか?

現在、一部の学者は、汎用人工知能を研究したいと言っています。これは、機械翻訳、音声認識、画像の分類と...

[Dry Goods] グラフニューラルネットワークの学習リソーストップ10の共有

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

12 のシナリオ アプリケーション、100 を超えるアルゴリズム、AI はどのようにして経済を征服するのか?

[[328065]] 2020年2月7日、第34回アメリカ人工知能学会年次会議(AAAI 2020...

あるプログラマーは仕事を辞めて人工知能に転職した。4か月後に後悔し、多くの挫折を経験した。

転職すると3ヶ月貧乏になるが、転職すると3年間貧乏になるという諺があるようです。科学的な根拠はありま...

ウェブデザインに人工知能を活用する10の方法

[[210916]]今日、Web デザインは絶えず進化しており、トップクラスの Web デザイナーは...

データマイニングのコアアルゴリズムの一つである回帰

[[192284]]回帰は幅広い概念です。その基本的な概念は、変数のグループを使用して別の変数を予測...

人工知能の知られざる12の秘密

[[375984]] [51CTO.com クイック翻訳] 人工知能技術がさまざまな業界でますます使...

...

IBMはGPUを使用して機械学習の効率を10倍向上させる

[[212269]] IBM は、EPFL の研究者と共同で、機械学習アルゴリズムをトレーニングする...

...

シスコの調査:企業の25%以上が社内で生成AIの禁止を実施している

シスコが実施した調査によると、データプライバシーの面で生成AIに欠点があることを理解しているにもかか...