プライバシー保護における新たなブレークスルー: ガウス差分プライバシー フレームワークとディープラーニングの組み合わせ

プライバシー保護における新たなブレークスルー: ガウス差分プライバシー フレームワークとディープラーニングの組み合わせ

[[324532]]

人工知能におけるプライバシーの問題は、重要かつ深刻な問題として認識されています。最近、ペンシルバニア大学の研究チームは、複数の種類の機械学習問題において個人のプライバシーを効果的に保護できる新しいデータプライバシー分析フレームワークを開発しました。このフレームワークは現在、ディープラーニングとうまく組み合わせられ、プライバシー保護を必要とする複数のディープラーニングタスクで最高の精度を達成しています。

差分プライバシーとは何ですか?

ビッグデータの時代において、実在する人々に関するデータを適切に入手し、活用する方法は、解決すべき緊急の課題となってきています。自分の病気やインターネットの閲覧、衣服の購入、さらには携帯電話に保存されている修正されていない自撮り写真について他人に知られたくない人は誰もいません。プライバシーを保護する簡単な方法は、プライバシーを匿名化することです。つまり、収集したデータから個人情報に関係する特徴を削除します。残念ながら、この方法は信頼性に欠けます。ある研究では、Netflix の視聴記録を IMDb データベースと相互比較することで匿名性を解除することに成功し、これが第 2 回 Netflix データ分析賞の取り消しに直接つながりました。

2006 年、プライバシー アルゴリズムの研究は新たなマイルストーンに到達しました。シンシア・ドワーク、フランク・マクシェリー、コビ・ニシム、アダム・スミスの 4 人の科学者は、プライバシーの概念を厳密に分析するために「差分プライバシー」(以下、DP) を定義しました。差分プライバシーは強力かつ効果的なツールであることがすぐに証明され、Google、Apple、Microsoft、Alibaba などの大手組織で使用されています。 4人の発明者は2017年に理論計算機科学のノーベル賞として知られるゲーデル賞を受賞した。

差分プライバシーを理解するために、次の簡単な仮説検定を見てみましょう。2つのデータセットSとS'があるとします。

S={シャオミン、シャオガン、シャオメイ}; S'={シャオホン、シャオガン、シャオメイ}

これら 2 つのデータセットは、1 つの個体のみが異なるため、隣接していると言えます。私たちの目標は、モデルが S に基づいてトレーニングされているかどうかをテストすることです。これは、データ内に Xiao Ming が存在するかどうかをテストすることと同じです。この仮説検定が非常に困難であれば、シャオミンの情報を入手しようとする攻撃者が成功することは困難になります。厳密に言えば、ランダム化アルゴリズムMは、任意のイベントEに対して、

定義から、イプシロンとデルタが小さいほどプライバシーが向上することは容易にわかります。では、アルゴリズムのプライバシーをどのように確保できるのでしょうか?

これは、アルゴリズムの中間生成物 (勾配など) の感度を測定し、そのサイズに比例したノイズを適用することによって行われます。ノイズの存在により、Xiao Ming の情報を盗もうとする攻撃者は、Xiao Ming がトレーニング セットに含まれているかどうかを判断できません。ディープ ニューラル ネットワークでは、反復ごとにパフォーマンスの向上と引き換えにプライバシーがいくらか犠牲になります。攻撃者を混乱させるために、各バッチの勾配にノイズを追加することができます。

もちろん、ノイズを増やすほどプライバシーは安全になりますが、パフォーマンスは当然低下します。プライバシー予算が限られている場合、プライバシー アルゴリズムのパフォーマンスが不十分になることがよくあります。

ディープラーニングでは、トレーニングに機密性の高い個人情報が必要になることがよくあります。既存の差分プライバシーの定義とプライバシー モデルは、パフォーマンスとプライバシーのバランスを取ろうとします。残念ながら、これらの試みでは、サブサンプリングと構成という 2 つの重要な側面をまだうまく処理できません。この結果、プライバシー保護アルゴリズムのパフォーマンスは、プライバシー保護しないアルゴリズムに比べて大幅に劣ることがよくあります。

ガウス差分プライバシー

ガウス差分プライバシー (GDP) は、最近提案されたプライバシー表現方法です。各エポックでオプティマイザーによって消費されるプライバシーを正確に特徴付けることができます。 GDP の表現は簡潔かつ一般的です (SGD、Adam、Adagrad などの複数の最適化ツールでまったく同じです)。 GDP の分析は、ポアソンサブサンプリングと新しい最適化装置にさらに一般化されます。新しい一般化は理論的に厳密に実証されており、特に、従来の最先端のモーメント会計方法よりも優れていることが実証されています。

ペンシルバニア大学の Jinshuo Dong、Aaron Roth、Weijie Su は論文「ガウス差分プライバシー」の中で、プライバシーを特徴付ける「f-DP」を革新的に定義しました。アルファが最初のタイプのエラーを表すために使用され、ベータが 2 番目のタイプのエラーを表すために使用される場合、任意の拒否ルール phi に対してトレードオフ関数 T が存在します。つまり、最初のタイプのエラーを減らすと 2 番目のタイプのエラーが増加し、その逆も同様です。 2 種類のエラーの合計の最小値を最小エラー合計と呼びます。

ランダムアルゴリズム M は、S と S′ のトレードオフ関数 T が常に関数 f よりも大きい場合、f-DP を満たします。

従来の eps、delta-DP と比較して、f-DP は関数 f を使用するため、特性評価がより自由かつ正確になります。

f-DP の重要なケースとして、著者らは 2 つのガウス分布を区別するためにガウス差分プライバシー (GDP) を導入しました。中心極限定理 (CLT) によれば、仮説検定に基づくプライバシーの定義はいずれも、極限的には GDP に収束します。実際、イプシロンとデルタDPの計算に適した、2016年にGoogleが提案したモーメント会計(MA)法と比較すると、この記事で提案されたCLT法は、より簡単に、そして非常に正確にGDPを計算できます。注目すべきは、この論文が最近、世界トップクラスの統計ジャーナル「Journal of the Royal Statistical Society: Series B」にディスカッションペーパーとして採択されたことです。これは、この研究がデータサイエンスコミュニティによって認められたことを意味します。

GDPとディープラーニングを組み合わせる

GDP のメリットはそれだけではありません。最新の研究「ガウス差分プライバシーによるディープラーニング」では、Zhiqi Bu、Jinshuo Dong、Qi Long、Weijie Suなどの著者らが、彼らが設計したデュアル関数を通じて、GDPとeps、delta-DPを相互に変換できることを指摘しました。つまり、研究者は f-DP のフレームワーク内でアルゴリズムを分析し、それを従来の DP に変換したり、二次開発を必要とせずに従来の分野の既存の理論や手法を使用したりすることができます。この技術は現在 TensorFlow に実装されています。

  • 論文アドレス: https://arxiv.org/abs/1911.11607
  • プロジェクトの実装: https://github.com/tensorflow/privacy/blob/master/tensorflow_privacy/privacy/analysis/gdp_accountant.py

実験では、著者らは GDP とディープラーニングを組み合わせ、さまざまな種類のタスクで印象的な結果を達成しました。以前、Google は epsDP とディープラーニングを組み合わせてきました。MNIST 画像認識では 97% の精度率 (プライバシー アルゴリズムなしで 99% 以上) を達成しましたが、CIFAR10 では 73% の精度率 (プライバシー アルゴリズムなしで 86%) しか達成できませんでした。 GDP の正確な特性評価を使用して、著者らは MNIST で 98% の精度を達成しました。さらに、MA 計算の結果、MNIST の 96.6% の精度は最小誤差合計 9.4% に相当することが示されており、これは攻撃者が画像がデータセット内に存在するかどうかを推測する確率が 90% 以上であることを意味します。しかし、CLT の計算では、epsDP は保守的すぎることが示されています。同じモデルと同じパフォーマンスの場合、実際の対応する最小エラー合計は実際には 77.6% であり、プライバシーがそれほど失われないことを意味します。

GDP の優位性を十分に探求するために、著者は GDP フレームワークの下でニューラル ネットワークのパフォーマンスを分析しました。著者は SGD と Adam のプライベート バージョンを実装し、GDP が mu=2 に達するまでニューラル ネットワークを継続的に反復させました。 IMDb (自然言語処理)、MovieLens 1M (推奨システム)、Adult Income (非画像分類タスク) では、GDP モデルは非プライバシー モデルに非常に近いパフォーマンスを達成しました。たとえば、成人所得データでは、プライベート ニューラル ネットワークと非プライベート ニューラル ネットワークのパフォーマンスはほぼ同じでした。つまり、プライバシーのためにパフォーマンスを大幅に犠牲にする必要がない可能性があるということです。さらに、著者らは、記事中のニューラル ネットワークは比較的単純 (3 層以下) であり、より複雑で高度なニューラル ネットワークを使用することで、同じプライバシー保証を維持しながらパフォーマンスを大幅に向上できることを強調しています。一方、効率的な最適化アルゴリズム(反復回数、つまりプライバシー損失回数の削減)を使用すると、パフォーマンスも向上します。

CLT は同じパフォーマンス条件下で MA よりも優れたプライバシー保護を実現できるため、逆に、GDP も同じプライバシー予算下でより優れたパフォーマンスを発揮できます。著者は、この点を説明するために、シグマ ノイズを使用してニューラル ネットワークを数ステップトレーニングし、MA を使用してプライバシーがどの程度失われたかを計算し、CLT と Dual を使用して必要なノイズ シグマ ハットを解決するという実験を考案しました。シグマ ハットはシグマより小さくなければならないことに注意してください。その後、同じニューラル ネットワークをトレーニングしますが、シグマ ハット ノイズのみを追加します。ノイズが減少するため、新しいニューラル ネットワークはより適切に学習し、反復するたびに、新しいニューラル ネットワークはより適切にプライバシーを保護します。

ニューラル ネットワークと GDP を組み合わせることで、プライバシーの損失をより正確に提示できるため、プライバシーの保護が強化され、プライバシー アルゴリズムのパフォーマンスが向上します。一方、既存の(イプシロン、デルタ)-DP研究もGDPに組み込むことができ、両分野に新たな機会をもたらします。プライバシーアルゴリズムの分野におけるこの新たな進歩により、研究者は、機械学習のさらなる発展により、近い将来、わずかなコストでプライバシーを保護できるようになるかもしれないという自信を深めています。同時に、機械学習の発展を促進するために、個人情報を含むデータをより積極的に共有するよう人々に促します。

<<:  2020年版ネイチャーインデックス年次リストが発表:中国の研究機関がリストを独占、中国科学院は8年連続で1位

>>:  15 億のコーパスでトレーニングされた 94 億のパラメータ モデルは、私をよりよく理解するのでしょうか? Facebookが世界で最も強力なチャットボット「Blender」をオープンソース化

推薦する

持続可能な開発の達成において AI はどのような役割を果たすのでしょうか?

長年にわたり、持続可能なエネルギーは科学者にとって大きな関心事である重要な分野でした。人々は、効果的...

人工知能の実例5つ

ここでは、AI が日常生活で非常に正確に使用されている 5 つのベスト例を紹介します。人工知能 (A...

996の非効率性にノーと言いましょう: ChatGPTはコードコメントとドキュメントを簡単に処理するのに役立ちます

適切なコメントは、Python プロジェクトを成功させる上で非常に重要です。実際には、コメントを書く...

GPT-4V の医師免許試験の点数は、ほとんどの医学生よりも高いです。AI がクリニックに参加するまでにはどれくらい時間がかかりますか?

医用画像診断における人工知能(AI)の応用は大きな進歩を遂げました。しかし、厳密なテストがなければ、...

ChatGPTが見知らぬ人の自撮り写真を流出!モデルによって個人データが盗まれたのですか?ネットユーザーはパニックに

最近、ChatGPTの返信に見知らぬ男性の写真が現れるという事件が多くのネットユーザーに衝撃を与えま...

AI受験者が発狂!上級数学試験の正解率は81%で、競争試験のスコアはコンピュータドクターのスコアよりも高い。

上級数学の試験で悪い成績を取ることは、多くの人にとって悪夢です。高度な数学は AI ほど得意ではない...

2020年世界人工知能会議が開催されます! AI が人間の言語の高度な能力をいかにして習得するかをご覧ください。

2020年7月9日、2020年世界人工知能大会(WAIC)クラウドサミットが正式に開幕しました。I...

「知的障害ロボット」が解雇に直面

最近、ストレンジという日本のロボットホテルが「ロボット従業員」の半数を解雇した。ロボットに仕事を奪わ...

人工知能にブレーキをかけるべき6つの理由

人工知能は徐々にビジネスプロセスに導入されつつあります。しかし、CIO は立ち止まって、AI ツール...

人工知能が中小企業にもたらす5つのメリット

[[328993]] 【51CTO.com クイック翻訳】 AI 市場のトレンドはどのくらいの速さで...

顔認識システムはすごいですね!チケット転売業者が体調を崩して入院、警戒を呼び起こす

最近、北京同仁病院の警報システムが作動し、職員は北京天壇病院で活動していたチケット転売業者が北京同仁...

100キーワード学習法による人工知能(AI)の学習

100キーワード学習法は、キーワード(つまり、キーポイント)を中心に学習するという、効率的な学習法で...

女神の若々しい姿が全開!テンセントのAIモデルGFPGANがGitHubのホットリストで1位に

[[440335]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

1 つのバグが原因で 200 億ドルの損失が発生しました。ビジネス異常検出システムを構築するにはどうすればよいでしょうか?

【51CTO.comオリジナル記事】 1. AI ビジネス異常検出システムが必要な理由企業は、業務...

Dr. ByteのAIは大活躍、ワンクリックでボーカルと伴奏を完璧に分離

[[424966]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...