大規模言語モデルにおけるプライバシーの考慮

[[430922]]

文中の次の単語を予測するようにトレーニングされた機械学習ベースの言語モデルは、ますます強力になり、普及し、有用になってきており、質問応答や翻訳などのアプリケーションに画期的な改善をもたらしています。しかし、言語モデルが進化し続けると、新たな予期せぬリスクが露呈する可能性があり、研究コミュニティは潜在的な問題を軽減するための新しい方法の開発に積極的に取り組む必要があります。

1 つのリスクは、モデルがトレーニングデータから詳細を漏らす可能性があることです。これはすべての大規模言語モデルにとって懸念事項となる可能性がありますが、プライベートデータでトレーニングされたモデルを公開する場合は、追加の問題が発生する可能性があります。これらのデータセットは大規模 (数百 GB) で、さまざまなソースから取得されるため、公開データでトレーニングした場合でも、個人を特定できる情報 (PII) (名前、電話番号、住所など) を含む機密データが含まれることがあります。そのため、このようなデータを使用してトレーニングされたモデルの出力に、これらのプライベートな詳細の一部が反映される可能性が高くなります。したがって、このような漏洩のリスクを特定して最小限に抑え、将来のモデルでこの問題に対処するための戦略を策定することが重要です。

OpenAI、Apple、スタンフォード大学、バークレー大学、ノースイースタン大学との共同研究「大規模言語モデルからのトレーニングデータの抽出」では、事前トレーニング済みの言語モデルをクエリする機能があれば、モデルが記憶したトレーニングデータの特定のスニペットを抽出できることを実証しました。したがって、トレーニングデータ抽出攻撃は、最先端の大規模言語モデルに対する現実的な脅威となります。この研究は、研究者がこのような脆弱性を理解し、それを軽減するための措置を講じることができるようにするための、初期の重要な一歩となります。

言語モデル攻撃の倫理

トレーニングデータ抽出攻撃は、トレーニングで使用されるデータセットが一般に公開されていないモデルに適用された場合に、最も被害を及ぼす可能性が高くなります。しかし、このようなデータセットでこの研究を実施すると有害な結果を招く可能性があるため、代わりに、OpenAI によって開発され、公開データのみを使用してトレーニングされた大規模な公開言語モデルである GPT-2 に対して概念実証のトレーニングデータ抽出攻撃を実施します。この研究は特に GPT-2 に焦点を当てていますが、その結果は大規模な言語モデルにおけるプライバシーの脅威の可能性を理解するためにも応用できます。

他のプライバシーやセキュリティ関連の研究と同様に、実際に攻撃を実行する前に、そのような攻撃の倫理を考慮することが重要です。この作業の潜在的なリスクを最小限に抑えるために、この作業におけるトレーニングデータ抽出攻撃は、公開されているデータを使用して開発されました。さらに、GPT-2 モデル自体は 2019 年に OpenAI によって公開されており、GPT-2 のトレーニングに使用されたトレーニングデータはパブリックインターネットから収集されており、GPT-2 の論文に記載されているデータ収集プロセスに従えば誰でもダウンロードできます。

さらに、責任あるコンピュータセキュリティ開示慣行に従い、PII を抽出した個人を追跡し、そのデータへの参照を公開する前に許可を得ています。さらに、この作品のすべての出版物において、個人を特定できる可能性のある個人情報はすべて削除されています。また、GPT-2 の分析に関しては OpenAI と緊密に協力しました。

トレーニングデータ抽出攻撃

言語モデルは設計上、大量の出力データを生成することが非常に簡単になります。モデルにランダムなフレーズをシードすることで、モデルは何百万もの継続、つまり文を完成させる可能性のあるフレーズを生成できます。ほとんどの場合、これらの継続は、妥当なテキストの無害な文字列になります。たとえば、「Mary had a little…」という文字列の続きを予測するように求められた場合、言語モデルは次のトークンが「lamb」という単語であると高い信頼度で判断します。ただし、特定のトレーニングドキュメントに「Mary had a little wombat」という文字列が複数回繰り返されている場合、モデルは代わりにそのフレーズを予測する可能性があります。

トレーニングデータ抽出攻撃の目的は、言語モデルからの数百万の出力シーケンスを精査し、どのテキストが記憶されているかを予測することです。これを実現するために、私たちのアプローチでは、モデルはトレーニングデータから直接取得した結果に自信を持つ傾向があるという事実を活用します。これらのメンバーシップ推論攻撃により、特定のシーケンスにおけるモデルの信頼性をチェックすることで、結果がトレーニングデータで使用されたかどうかを予測できます。

この研究の主な技術的貢献は、メンバーシップを高精度で推測する方法の開発と、出力メモリコンテンツを促進する方法でモデルからサンプリングする技術の開発です。私たちはさまざまなサンプリング戦略をテストしましたが、その中で最も成功したのは、さまざまな入力フレーズを条件とするテキストを生成する戦略でした。次に、2 つの異なる言語モデルの出力を比較します。あるモデルがシーケンスに対して高い信頼度を持ち、別の（同等の精度の）モデルがそのシーケンスに対して低い信頼度を持つ場合、最初のモデルがデータを記憶している可能性が高くなります。

結果

GPT-2 言語モデルの 1,800 個の候補シーケンスのうち、公開トレーニングデータから 600 個を超えるメモリを抽出しましたが、手動検証の必要性により合計数は制限されています。記憶される例は、ニュースの見出し、ログメッセージ、JavaScript コード、PII など、幅広いコンテンツをカバーします。これらの例の多くは、トレーニングデータセットではほとんど発生しないにもかかわらず、記憶されています。たとえば、私たちが抽出した PII サンプルの多くは、データセット内の 1 つのドキュメントにのみ見つかりました。ただし、ほとんどの場合、元のドキュメントには PII のインスタンスが複数含まれているため、モデルはそれを高確率テキストとして学習します。

最後に、言語モデルが大きいほど、トレーニングデータを記憶する能力が高くなることもわかりました。たとえば、ある実験では、15 億のパラメータを持つ GPT-2 XL モデルは、1 億 2,400 万のパラメータを持つ GPT-2 Small モデルよりも 10 倍多くの情報を記憶することがわかりました。研究コミュニティが 10 ～ 100 倍の規模のモデルをトレーニングしていることを考えると、時間の経過とともにますます大規模になる言語モデルでこの問題を監視し、軽減するために、より多くの作業を行う必要があることを意味します。

学んだ教訓

私たちはこれらの攻撃を GPT-2 に特化して実証しましたが、それらはすべての大規模な生成言語モデルに潜む欠陥を示しています。こうした攻撃が可能であるという事実は、こうしたタイプのモデルを使用する機械学習研究の将来にとって重要な意味を持ちます。

幸いなことに、この問題を軽減する方法はいくつかあります。最も簡単な解決策は、問題が発生する可能性のあるデータでモデルがトレーニングされないようにすることです。しかし、これを実際に行うのは困難です。

差分プライバシーを使用すると、個々のトレーニング例の詳細を明らかにすることなくデータセットをトレーニングすることができ、プライバシーを備えた機械学習モデルをトレーニングするための最も原則的な手法の 1 つになります。 TensorFlow では、既存のオプティマイザーの代替品である tensorflow/privacy モジュール (または PyTorch や JAX でも同様に) を使用してこれを実現できます。これにも限界があり、十分な回数繰り返される内容の暗記を妨げることはありません。これが不可能な場合は、適切なアクションを取れるよう、少なくともメモ化がどの程度行われたかを測定することをお勧めします。

言語モデルは、驚異的な有用性と柔軟性を示し続けていますが、すべてのイノベーションと同様に、リスクをもたらす可能性もあります。責任を持って開発するということは、これらのリスクを積極的に特定し、それを軽減する方法を開発することを意味します。大規模言語モデルの現在の弱点を明らかにするこの取り組みにより、機械学習コミュニティ全体でこの課題に対する認識が高まり、研究者がより少ないメモリでモデルをトレーニングするための効率的な手法の開発を継続する動機付けになることを願っています。

<<: 中国はどのようにしてスーパーコンピューティング競争の新ラウンドに勝つことができるでしょうか?鍵となるのは、データ集約型スーパーコンピューティングへの移行だ

>>: AI は、市場にスパムを氾濫させ、情報を捏造することを学習します。 Google の新しい調査で、現実世界の AI アプリケーションの落とし穴が明らかに