フェデレーテッドラーニングも安全ではないのでしょうか? Nvidiaの研究は「プライバシーフリー」データを使用して元の画像を直接再構築します

フェデレーテッドラーニングも安全ではないのでしょうか? Nvidiaの研究は「プライバシーフリー」データを使用して元の画像を直接再構築します

フェデレーテッド ラーニングは、データがローカルの場所から出ないようにするプライバシー保護戦略により、AI コンピューティングの問題を効率的に解決し、個人データを保護するための重要な方向性であると常に考えられてきました。現在、多数の関連する研究とアプリケーションが登場しています。しかし、現在の法律や規制によりデータに対する制限が厳しくなるにつれ、勾配やモデルパラメータからユーザーデータを推測する方法が登場しています。

多くの場合、機械学習処理によるぼやけたデータとパラメータを使用することで、人物の基本情報を再構築することができます。最近、Nvidia の研究者たちはさらに一歩進んで、機械学習の勾配データから直接画像を再構築しました。新たな研究により、人々は疑問を抱いています。連合学習は実際には安全ではないのでしょうか?

具体的には、研究者らは、与えられたバッチ平均勾配を反転することで、ランダムノイズから隠された元の画像を回復する GradInversion 法を提案しました。この研究は、トップクラスのコンピュータービジョンカンファレンスであるCVPR 2021に採択されました。

論文リンク:
出典:http://arxiv.org/pdf/2104.07586.pdf

研究者らは、最後の完全接続層の勾配を使用して真の値ラベルを復元するラベル修復方法を提案した。彼らはまた、画像再構成の品質を向上させるために、マルチシード最適化と画像登録に基づくグループ一貫性正規化項を提案しました。実験では、ResNet-50 などのディープ ネットワークの場合、バッチ平均勾配を使用して、豊富な詳細を含む単一の画像を完全に復元できることが示されています。

研究者らは論文の中で、BigGANなどのSOTA生成敵対ネットワークと比較して、彼らが提案した非学習画像復元法は、隠された入力データのより豊富な詳細を復元できると述べています。

さらに重要なのは、画像バッチ サイズが 48 に増加した場合でも、バッチ勾配を反転することで、この方法では 224×224 ピクセルの画像を高い忠実度と豊富な詳細で完全に復元できることです。

この研究結果について、一部のネットユーザーは「これが差分プライバシー(DP)が存在する理由だ。差分プライバシーのない連合学習ではプライバシーを保証できない」と考えている。

研究概要

下の図1(a)では、研究者らがGradInversionを提案しています。これは、バッチ平均勾配を反転することで、隠れたトレーニング画像を高忠実度で豊富な詳細で復元します。図1(b)は、ノイズを入力画像に変換する最適化プロセスを示しています。まず、完全接続層の勾配からラベルを回復し、次に忠実度正規化と登録ベースのグループ一貫性正規化の条件下で入力をターゲット勾配と一致するように最適化し、それによって再構成品質を向上させます。

このアプローチにより、これまでは不可能だった ResNet-50 バッチ勾配から 224×224 ピクセルの ImageNet 画像サンプルを復元できるようになります。

方法の概要。

畳み込みニューラル ネットワーク (CNN) の並進不変性により、勾配ベースの反転は、ターゲット オブジェクトの正確な位置特定という別の課題に直面します。理想的なシナリオでは、最適化は真実に収束することができます。

しかし、下の図 2 に示すように、研究者は、異なるシードを使用して最適化プロセスを繰り返すと、各最適化プロセスで局所最小値が得られる可能性があることを観察しました。これらの局所最小値は、すべてのレベルにわたって意味的に正しい画像特徴を割り当てますが、互いに異なります。つまり、画像はグラウンドトゥルースの周りを移動し、さまざまな詳細に焦点を合わせます。

研究者らは、共同最適化を通じて複数のシードを同時に使用するグループ一貫性正規化項を提案しました。具体的なプロセスを以下の図 3 に示します。

実験結果

研究者らは、224×224ピクセルを例として、大規模な1000クラスのImageNet ILSVRC 2012データセットでの分類タスクにおけるこの方法の有効性を評価しました。

まず、バッチサイズが 8 の場合の 224×224 ピクセルの画像に対する効果を比較しました。以下の図 4 と表 4 は、GradInversion 法と、Latent Projection、DeepInversion、Inverting Gradients、Deep Gradient Leakage などの SOTA 法との定性的および定量的な比較を示しています。結果は、この方法が視覚効果と数値の両方で優れていることを示しています。

次に、研究者らは 32GB の NVIDIA V100 GPU を使用してバッチ サイズを 48 に増やしました。下の図 6 に示すように、バッチ サイズが大きくなるにつれて、回復可能な画像の数は徐々に減少します。

ただし、GradInversion メソッドでは、一定量の元の視覚情報を取得でき、場合によっては完全な再構築を達成できます (下の図 7 を参照)。

導入

論文の筆頭著者は Hongxu Yin 氏です。同氏は 2015 年にシンガポールの南洋理工大学で電気電子工学の工学士号を取得し、その後、米国プリンストン大学で電気工学の博士号を取得しました。同氏は現在、NVIDIA (シリコンバレー) の研究科学者です。

彼の研究は、効率的なディープ ニューラル ネットワーク、データフリー モデル圧縮/ニューラル アーキテクチャ検索、エッジでの医療推論に重点を置いています。

個人ホームページ:
https://scholar.princeton.edu/hongxu

<<:  Google は、DQN と同等で、より優れた一般化パフォーマンスを備えた 2 つの新しい強化学習アルゴリズムを実装しました。

>>:  英国、今年末までに無人運転車の公道走行を許可へ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

大規模モデルのモデル融合法についてお話しましょう

モデル融合は、特に判別モデルにおいて、これまで頻繁に使用されてきました。これは、常に着実に改善できる...

人工知能が製造業に与える4つの影響

人工知能はあらゆるところに存在し、私たちは気づかないうちに日常生活でそれを使用しています。人工知能は...

AIモデルのオープンソースの定義を変える必要がある

オープンソースライセンスは進化すべきだと思いますか? 2023年は人工知能(AI)の登場とともに新年...

機械学習に関する9つのよくある誤解

[51CTO.com からのオリジナル記事] 現在、機械学習テクノロジーをめぐっては多くの誇大宣伝が...

2022年にロボット工学の急成長を支える5つの要因

ロボット工学は、ロボットの構想、設計、製造、操作を扱う工学の分野です。ロボット産業はここ数年で驚異的...

...

機械学習の理論的基礎はどの程度しっかりしているのでしょうか?

機械学習の分野では、いくつかのモデルが非常に効果的ですが、その理由は完全にはわかっていません。逆に、...

スノーフレークアルゴリズムの実装原理を理解する

前提Snowflake は、Twitter のオープンソースの高性能 ID 生成アルゴリズム (サー...

...

ロボット革命が到来。人類社会はどう対応すべきか?

ロボット革命は、2009年に英国王立工学アカデミーが発表した「自律システム」と題する科学報告書で提唱...

...

...

NIOはまたしても窮地に陥った!運転支援の責任は誰が負うべきでしょうか?

[[417840]]運転支援機能がまた事故を起こした。昨日、「Meiyihao」という公開アカウン...

...