機械学習のプライバシー研究における新たな進歩: データ強化のリスクは過小評価されており、新しいアルゴリズムは次元依存性を「克服」します

機械学習のプライバシー研究における新たな進歩: データ強化のリスクは過小評価されており、新しいアルゴリズムは次元依存性を「克服」します

編集者注: 今日、データは人工知能のイノベーションを推進する中核的な要素です。ただし、データのセキュリティとプライバシーの問題により、データの潜在能力が制限されます。 Microsoft は常に責任ある人工知能の構築を提唱しており、より強力なプライバシー保護を提供し、データのセキュリティを確保するためにさまざまなテクノロジを開発し、活用しています。この記事では、Microsoft Research Asia の機械学習プライバシー研究における最新の進捗状況を紹介し、ディープラーニングにおけるプライバシー攻撃と保護について説明します。

今日、データは AI イノベーションを推進する原動力となっていますが、組織や個人が所有する貴重な資産でもあります。したがって、データのセキュリティとプライバシーを完全に保護するという前提の下でのみ、クラウド コンピューティングと人工知能の接続によってデータの潜在能力を最大限に引き出し、データ効率の共有を実現できます。

ご存知のとおり、データの保存および転送中にデータを暗号化することは、長い間業界標準となっています。機密コンピューティングにより、コンピューティング プロセスで使用されるデータをさらに保護し、マルウェア、内部者による攻撃、悪意のある管理者や不注意な管理者などの脆弱性のリスクを軽減できます。前回の記事「機械学習フレームワークでプライバシー保護を実現するには?」では、信頼できる実行環境、準同型暗号化、安全なマルチパーティ コンピューティング、フェデレーテッド ラーニングなど、機密コンピューティングのいくつかの側面をすでに紹介しました。これらのテクノロジーはプライバシーを保護するテクノロジースイートを形成し、これらを組み合わせて使用​​することで、さまざまなシナリオに適したプライバシーおよびセキュリティ ソリューションを構築できるようになります。

機密コンピューティングでは、主にコンピューティング プロセス中のデータの保護と攻撃の方法を研究します。では、計算結果を公開するとデータのプライバシーが侵害されるのでしょうか?たとえば、トレーニング済みのディープ ニューラル ネットワーク モデルを公開すると、そのトレーニング データが公開されるでしょうか?コンピューティング結果におけるプライバシー露出のリスクを制御し、軽減するにはどうすればよいでしょうか?これらの問題については以下で検討します。

トレーニングされたモデルは本当にプライバシーを漏らすのでしょうか?

直感的に、これは答えるのが難しい質問です。一方では、トレーニングされたニューラル ネットワークはトレーニング データと関連している必要があり、相互情報量はゼロより大きいです。他方では、モデル パラメーターからトレーニング データを回復することは逆問題であり、正確な回復を達成することは非常に困難です。比較的簡単な概念は、メンバーシップ推論 (MI) です。トレーニングされたモデルが与えられた場合、特定のサンプルがトレーニング セットからのものであるかどうかを判断します (図 1 を参照)。メンバー推論の精度が非常に高い場合、モデルのプライバシー漏洩リスクが比較的大きくなり、場合によってはメンバー情報自体が保護が必要な個人情報になります。

図1: メンバーシップ推論攻撃の例 [9]

最近の研究[7]では、メンバーシップ推論を使用してGPT-2(大規模言語モデル)に記憶されたトレーニングデータの内容を調べ、住所、名前、電話番号、電子メールアドレスなどの機密情報を含むトレーニングデータを抽出することに成功しました(図2を参照)。これは、機密データでトレーニングされた大規模なモデルを公開すると、プライバシーのリスクが高くなることを示しています。

図2:トレーニングデータ抽出攻撃[7]生成されたプレフィックスが与えられると、ニューラル ネットワーク言語モデル GPT-2 は、人物の名前、電子メール アドレス、電話番号、ファックス番号、住所など、記憶したトレーニング テキストの例を生成します。正確な情報が表示されるため、プライバシー保護のため凡例は黒枠で囲まれています。

このプライバシーの損失は、モデルがトレーニングセット内の例を記憶していることを示しているため、過剰適合[8]と関連付けられることが多い。実際、過剰適合はプライバシー漏洩の十分な条件であり、多くの研究が過剰適合を使用してプライバシー攻撃を行っていますが、過剰適合とプライバシー漏洩の関係は完全に同等ではありません。

先日終了したAAAI 2021カンファレンスでは、マイクロソフトリサーチアジアと中山大学が共同で「機械学習におけるデータ拡張はプライバシーにどのような影響を与えるか?」[9]と題した論文を完成させ、この問題について詳細な議論を行った。一般化誤差が小さいモデルではプライバシー漏洩のリスクが低いとよく考えられます。しかし、本研究では、データ拡張がメンバーシップ推論 (MI) にどのように影響するかを示して、この概念に異議を唱えています。データ拡張は機械学習で広く使用されているトレーニング手法であり、モデルの一般化を大幅に改善できます(過剰適合が少なくなります)。モデルトレーニングでデータ拡張を使用する場合、研究者は、メンバーシップ推論をセット分類問題として扱う、つまり単一のデータポイントを分類するのではなく、拡張されたインスタンスのセットを分類する、新しいメンバーシップ推論アルゴリズムを提案しました。集合分類問題のために、研究者らは入力順列に対して不変なニューラル ネットワークも設計しました。

表1: メンバー推論成功率(%)、データセットCIFAR10

実験では、モデルがデータ拡張を使用してトレーニングされた場合、この方法は通常、元の方法よりも優れていることが示されています (表 1 を参照)。さらに、データ拡張を使用してトレーニングされた一部のモデルでは、データ拡張トレーニングを行わなかったモデルよりも高いメンバーシップ推論成功率が達成され、前者の方がテスト精度が高くなることが多かった。さらに、この方法は、CIFAR10 でのテスト精度が 95% を超える、広い残差ネットワーク (WRN16-8) に対して 70% を超える MI 攻撃成功率を達成します。上記の結果はすべて、データ拡張を通じてトレーニングされたモデルのプライバシーリスクが大幅に過小評価されている可能性があることを示しています。

モデルがプライバシーを漏らすリスクがわかったので、プライバシーが保証された共有モデルを実現するにはどうすればよいでしょうか?これには差分プライバシー(DP)[1]の導入が必要である。差分プライバシーにより、計算結果 (トレーニング済みモデルなど) を安全に共有または使用できるようになります。厳密な数学的原理により、差分プライバシーはプライバシー保護のゴールドスタンダードとして認識されています。差分プライバシーを適用すると、モデルが計算結果からデータセット内の個人を再識別できないようにしながら、データセットから有用な情報を計算できます。これにより、金融サービスやヘルスケアなどの分野の組織は、データが非常に機密性が高く、プライバシー保護が特に懸念されるため、AI テクノロジーの使用に対してより大きな自信を持つことができます。

差分プライバシーは、モデルによるトレーニング データの漏洩を統計的な意味で測定および制御します。これは、単一のデータサンプルがモデルに与える影響を特徴付けます。ランダムアルゴリズム M が (ϵ,δ)-DP に準拠するということは、任意の 2 つの隣接するデータ セット S、S'、および任意のイベント E について、P(M(S)∈E))≤e^ϵ P(M(S' )∈E)+δ が満たされることを意味します。具体的には、差分プライバシーは一般的に次のように機能します。各クエリの結果に少量のノイズを追加して個々のデータ ポイントの影響をマスクし、全体的なプライバシー バジェットに達するまでクエリのプライバシー損失を追跡して蓄積し、その後はそれ以上のクエリは許可されません。差分プライバシーを確​​保するために追加されたノイズは結果の精度に影響する可能性がありますが、クエリ結果の次元が小さい場合は大きな影響はありません。

騒音妨害にはどちらが優れていますか?

機械学習で差分プライバシーを実現するための一般的なアプローチは、ノイズを追加すること、つまり、ノイズを使用して単一のデータ ポイントの影響を隠すことです。機械学習の一般的なプロセスは、図 3 の上部に示されています。目的関数、つまり経験的リスク最小化 (ERM) が設計され、次にトレーニング プロセスは一般に勾配ベースの最適化アルゴリズムであり、最後にトレーニングされたモデルが出力されます。同様に、ノイズを追加するタイミングに応じて、差分プライベート機械学習には 3 つの実装方法があります (図 3 の下半分に示すように)。目的関数にノイズを追加する目的摂動、勾配にノイズを追加する勾配摂動 (GP)、最終出力にノイズを追加する出力摂動です。ただし、追加されるノイズが大きすぎるとモデルのパフォーマンスが低下しますが、小さすぎるとプライバシーをうまく保護できなくなります。したがって、差分プライバシー機械学習は、与えられたプライバシー損失要件の下で最高のパフォーマンスを達成するために、ノイズを最小限に追加する方法を研究できます。

Microsoft Research Asiaと中山大学は、IJCAI 2020に採択された最近の論文「Gradient Perturbation is Underrated for Differentially Private Convex Optimization」[2]で関連する研究成果を紹介しました。研究者らは、勾配摂動アルゴリズムと最適化アルゴリズムに追加されたノイズが相互に影響を与えることを発見しました。ノイズにより最適化アルゴリズムは最悪の曲率の方向を避けるようになりますが、最適化アルゴリズムの収縮性により、前のステップで追加されたノイズを弱めることができます。そのため、研究者らは分析においてこの相互作用を利用し、期待曲率に基づく新しい理論的性能を導き出しました。これは、勾配摂動が他の 2 つの摂動法 (ターゲット摂動と出力摂動) よりも優れていることを明確に示しています。勾配摂動は予想される曲率に依存しますが、ターゲット摂動または出力摂動は最悪の曲率に依存します。実際には、予想される曲率は最悪の曲率よりもはるかに大きくなることがよくあります。研究者らは、他の 2 つの摂動がこの相互影響を利用できない理由も挙げています。ターゲット摂動と出力摂動の両方において、単一のデータ ポイントが最終的に学習したモデルに与える影響 (感度) を決定する必要があり、これは目的関数の Lipschitz 係数と強凸係数によって決まりますが、これらの係数は問題自体の特性によって決まり、最適化アルゴリズムとは関係がありません。これを踏まえると、勾配摂動法は差分プライバシー機械学習を実現するための効果的なアルゴリズムです。今後の研究では、研究者は勾配摂動アルゴリズム(DP-SGD など)にも焦点を当てる予定です。

図3: 機械学習のプロセスとDPを確実にするためのノイズを追加する3つの方法

しかし、DP-SGD を大規模なディープ ニューラル ネットワーク モデルのトレーニングに適用するには、依然として大きな課題が残っています。差分プライバシーのパフォーマンスは次元依存性が低いため、モデルパラメータが増えるほど追加されるノイズエネルギーが大きくなり、大規模モデルのパフォーマンスが大幅に低下します。今日のディープラーニング モデルは、多数のパラメータで構成されています。合理的なプライバシー バジェットの場合、DP-SGD を使用してトレーニングされたディープ ニューラル ネットワークのパフォーマンスは良好ではありません。では、DP-SGD の次元依存性の問題をどのように克服するのでしょうか?

モデルが大きく、高次元化しています。どんなに難しくてもDPを確保する必要があるのでしょうか?

次元依存性は、差分プライバシー (DP) を適用する上での重要な難しさです。 「次元性」の課題に対処するために、マイクロソフトリサーチアジアの研究者は、最近のICLR 2021論文「プライバシーが実用性を過剰に請求しないようにする:プライベート学習のための勾配埋め込み摂動」[4]で、「勾配埋め込み摂動(GEP)」と呼ばれるアルゴリズムを提案しました。基本的な考え方は、モデルの次元は大きいものの、勾配は通常は低次元空間にあるというものです。これは、データが低次元多様体上で増大するという人々の理解に一致するだけでなく、実際に広く検証することもできます (図 4)。研究者たちはこの特性を利用して、モデルの勾配を低次元空間に投影してからそれを乱すことで、次元依存性を巧みに回避しました。

図 4: CIFAR-10 上の ResNet20 に設定された勾配行列の安定ランク (p はパラメータ次元)。訓練全体を通して、勾配行列の安定ランクはパラメータ次元に比べて小さい[4]。

具体的には(図 5 に示すように)、各勾配降下ステップで、最初に補助データを使用してアンカー サブスペースを推定し、次にプライベート勾配をアンカー サブスペースに投影して、低次元の勾配埋め込みと小さいノルムを持つ残差勾配を取得します。次に、勾配埋め込みと残差勾配をそれぞれ摂動して、差分プライバシー バジェットを確保します。一般に、元の勾配摂動よりもはるかに低い摂動を使用して、同じレベルのプライバシーを維持できます。

図5: 勾配埋め込み摂動GEPアルゴリズムの図解[4]

勾配埋め込み摂動の特徴は何ですか?まず、勾配埋め込み摂動法で使用される非機密補助データの仮定は、以前の研究[5,6]で使用された公開データの仮定よりもはるかに弱い - 勾配埋め込み摂動法では、少量の非機密ラベルなしデータのみが必要であり、その特徴分布がプライベートデータの特徴分布に類似していることのみが要求される。例えば、実験では、ImageNetのダウンサンプリングされた2000枚の画像が、MNIST、SVHN、およびCIFAR-10データセットの補助データとして使用されている。 2 番目に、勾配埋め込み摂動は、低次元勾配埋め込みと残差勾配を同時に摂動します。残差勾配は、ターゲット勾配の不偏推定値であり、優れたパフォーマンスを実現するための鍵となります。 3 番目に、累乗法を使用して勾配行列の主成分を推定します。これは単純かつ効率的です。

この分解ではノイズが大幅に少なくなるため、プライベート学習の次元の壁を打破するのに役立ちます。研究者らは、勾配埋め込み摂動を使用することで、妥当なプライバシー予算内で深層モデルの優れた精度を達成しました。プライバシーバジェットϵ=8の場合、実験ではCIFAR10で74.9%のテスト精度、SVHNで95.1%のテスト精度が達成され、既存の結果が大幅に改善されました(表2)。私たちの知る限り、勾配埋め込み摂動は、プライバシー バジェットがわずか「1 桁」で、この効果を実現するためにゼロからトレーニングされた最初のアルゴリズムです。 ImageNet 事前トレーニング済みモデルを使用すると、勾配埋め込み摂動により CIFAR10 検証セットで 94.8% の精度を達成することもできます。詳細については論文を参照してください。

表2: SVHNとCIFAR10テストセットにおけるさまざまなアルゴリズムの精度

Microsoft Research Asia の研究者は、プライバシー攻撃に関するより詳細な研究を実施し、ディープ ニューラル ネットワーク モデルのトレーニング時に勾配の低ランク特性を活用することで、ディープ ニューラル ネットワーク モデルにプライバシー保護を適用し、機密データを処理する際にもユーザーが最新の機械学習技術を安全に使用できるように取り組んでいます。研究者たちは、プライバシー保護は機械学習のパフォーマンスを制限するものではないと考えている。なぜなら、プライバシーと機械学習は根本的に矛盾するものではないからだ。プライバシーは個人を保護するが、学習は全体を掘り下げるものだ。今後、プライバシー保護の研究により、利用可能な「燃料」(膨大なデータ)のさらなる開放が可能となり、人工知能の限界や性能が拡大・向上していくものと考えています。

<<:  2つのセッションは「AI顔認識」と生体認証データの法制化と規制の緊急の必要性に焦点を当てています。

>>:  5つの新たなAI IoTアプリケーション

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

誰でも使えるディープラーニング: 3 つの主要な自動化ディープラーニング プラットフォームの紹介

ディープラーニング技術は複雑で、ゼロから開発するのが難しい場合が多いですが、Microsoft の ...

今後 20 年間で人工知能は何ができるでしょうか?

人工知能は長年にわたって世界を支配しており、さまざまな分野における主要な問題が AI を使用して解決...

...

...

人工知能は工場のメンテナンスに大きな役割を果たすだろう

検出が難しい機械の故障は最もコストがかかるため、経験豊富な修理技術者の需要が高まっています。今日、多...

AI顔認識:スマート監視を開発する方法

顔認識技術は継続的に発展しており、スマート監視システムの開発に貢献しています。これらのシステムにより...

...

人工知能とビッグデータの時代において、一般の人々はどうやってお金を稼ぐのでしょうか?

将来、旅行には自動運転車、食事にはプログラムされたスナックストリート、ヘアカットにはロボット理髪師、...

人気の機械学習プログラミング言語、フレームワーク、ツール14選

[51CTO.com クイック翻訳] 増え続けるプログラミング言語ライブラリやツールの中から、機械学...

人工知能ガバナンスには「人工知能」の有効活用が必要

最近では、営業所での顔認証が標準装備になったというニュースが話題となり、個人情報セキュリティの問題が...

人工知能は私たちの生活をどのように変えるのでしょうか?

人工知能は本質的に、人間の知的労働を解放するでしょう。今後、サービスがボトルネックとなり、サービス産...

人工知能は今日私たちに何をもたらすのでしょうか?知らないブラックテクノロジーをチェック

人工知能といえば、映画「アイアンマン」に登場する賢い執事ジャービスを思い浮かべる人もいるかもしれませ...

皆を置き去りにする!紅河の人工知能交通違反画像処理プラットフォームが市場にデビュー

社会の生産性の向上は現代交通の進歩を牽引していますが、現代交通がもたらす大きな利便性を享受する一方で...