プライバシー保護を再構築するには、AIモデルに「あなたを忘れさせる」ことを早く行う必要がある

プライバシー保護を再構築するには、AIモデルに「あなたを忘れさせる」ことを早く行う必要がある

この時代において、プライバシーは長い間誤った主張となってきました。

プライバシー保護をある程度回復するための取り組みとして、欧州の一般データ保護規則や米国のカリフォルニア州消費者プライバシー法など、最近のいくつかの立法イニシアチブでは、個人情報の消去に関する規定が設けられています。ただし、トレーニング済みの AI モデルに「自分を忘れさせる」場合、従来の方法では、新しいデータを使用して最初から再トレーニングする必要があります。このプロセス全体には数週間かかる場合があり、コストもかなりかかります。

[[313564]]

最近発表された 2 つの論文 (1 つはスタンフォード大学、もう 1 つはトロント大学 (プレプ​​リント)) では、AI モデルからレコードを削除する効率的な方法が示されており、これにより膨大な量のエネルギーを節約し、コンプライアンスを確実に確保できると期待されています。 「企業間の実際の連携を簡素化し、実装の難しさがプライバシー規制違反の言い訳にならないようにするための新しいアルゴリズムが必要なようだ」と、スタンフォード大学のコンピューター科学者で最初の論文の共著者であるメロディ・グアン氏は述べた。

効率的なデータ削除に関する文献は非常に限られているため、スタンフォード大学の著者らはまず問題を明確に定義し、問題を軽減するのに役立つ 4 つの設計原則を提案しています。

  • 最初の原則は「線形性」です。単純な AI モデルでは、数値の加算と乗算のみを実行する必要があるため、いわゆる非線形数学関数の介入が回避され、ステップ分解がよりシンプルで実装が容易になります。

  • 2 つ目は「怠惰」の原則です。これは、予測が本当に必要な場合を除いて、計算操作を可能な限り延期するというものです。

  • 3 つ目は「モジュール性」です。可能であれば、分離可能な形式でモデルをトレーニングし、結果を組み合わせます。

  • 4 番目の項目は「量子化」です。つまり、平均値を特定の離散間隔内に固定できる限り、平均結果にほとんど影響を与えない値は削除されます。

スタンフォード大学の研究者たちは、これらの原則のうち 2 つを、k-means クラスタリングと呼ばれる機械学習アルゴリズムに適用しました。このアルゴリズムは、データ ポイントを自然なクラスターに分類するために使用されます。たとえば、密接に関連する集団間の遺伝的差異を分析する場合に使用されます。 (このクラスタリングアルゴリズムは、すでに英国バイオバンク医療データベースで実用化されており、一部の患者はデータベースの作成者に自分の記録をデータベースから削除するよう通知している。)研究者らは定量的技術を使用してQk平均アルゴリズムを開発し、細胞タイプ、手書きの数字、ジェスチャー、森林被覆率、接続されたデバイスのハッキングを分類する6つのデータセットでテストした。各データセットから 1,000 個のデータ ポイントを 1 つずつ削除しました。結果は、Qk-means アルゴリズムが従来の k-means アルゴリズムよりも 2 ~ 584 倍高速であり、精度がほとんど損なわれないことを示しています。

モジュール方式を使用して、彼らは DC-k-means (分割統治法の実装用) を開発しました。データ内の各ポイントはランダムに複数のサブセットに分割され、各サブセットは独立してクラスター化されます。これらのサブセットは、その後、新しいクラスターに形成されます。単一のサブセットからポイントを削除しても、他のサブセットの結果には影響しないことがわかります。新しいアルゴリズムは、精度の低下をほとんど伴わずに、16 ~ 71 倍の高速化を実現します。この研究は先月、カナダのバンクーバーで開催されたNeural Information Processing Systems (NerulPS) 会議で発表されました。

「この論文の素晴らしい点は、アルゴリズムの基本的な側面、つまりK平均法クラスタリングを利用して、これまでは不可能だったことを実現している点です」と、トロント大学およびベクター研究所のコンピューター科学者であるニコラス・ペーパーノット氏は言う。しかし、これらのアプローチの一部は、ディープラーニングで使用される人工ニューラルネットワークなど、他のタイプのアルゴリズムではうまく機能しない。先月、パエルノット氏と他の共著者らは、SISA(シャーディング、分離、スライシング、集約)トレーニングと呼ばれるニューラルネットワークのトレーニング方法について言及した論文をウェブサイトarXivに発表した。

この新しいアプローチでは、2 つの異なるモジュール実装が必要です。まず、シャーディング部分でデータセットを複数のサブセットに分割し、モデルのセットごとに独立したトレーニング モデルのコピーを構築します。予測が必要な場合、各モデルの予測結果が統合されて 1 つの統一された結果になります。このように、データ ポイントが削除された場合、モデルの 1 つだけを再トレーニングする必要があります。 2 番目の方法はスライスであり、各サブセットをさらに細分化します。このサブセットのモデルは、最初にスライス 1 でトレーニングされ、次にスライス 1 とスライス 2 で同時にトレーニングされ、その後スライス 1、スライス 2、スライス 3 でトレーニングされるというように続きます。最後に、各ステップを完了した後、トレーニング済みのモデルをアーカイブします。この方法では、スライス 3 のデータ ポイントが削除された場合でも、トレーニングの 3 番目のステップにすぐに戻り、この開始点からトレーニングを続行できます。ペーパーノット氏は、シャーディングとスライシングのアプローチは「モデルトレーニングプロセスに2つの調整ノブを提供する」と述べた。グアン氏もこのアプローチを「非常に直感的」と称賛したが、「使用されるレコード削除基準は十分に厳密ではない」と述べた。

トロントの研究者たちは、2つの大規模なデータセットでニューラルネットワークをトレーニングすることで、自分たちのアプローチをテストしました。 1 つのデータセットには、自宅住所コードに関連付けられた 600,000 を超える画像が含まれており、もう 1 つのデータセットには 300,000 を超える購入履歴レコードが含まれています。各データセットから 0.001% のデータを削除してモデルを再トレーニングしたところ、シャーディング (20 シャード) によって、住所関連のタスクの再トレーニングが 3.75 倍、購入記録関連のタスクの再トレーニングが 8.31 倍高速化され (標準モデルの再トレーニング方法と比較して)、精度にはほとんど影響がないことがわかりました。スライス方式と組み合わせることで、住所関連タスクの速度がさらに18%向上し、購入記録関連タスクの速度は43%向上し、精度の低下はありませんでした。

公開されたデータによれば、データの0.001%のみを削除するのは軽すぎるように思われるが、ペーパーノット氏は、Google検索などの再トレーニングサービスの規模はこの数字よりも桁違いに小さいと述べた。さらに、18% の速度向上は限られているように思えるかもしれませんが、メインフレームの使用シナリオでは、膨大な時間とコストを節約できます。さらに、場合によっては、少数民族の人々や特定の病状を持つ人々など、プライバシー侵害の影響を受けないようにするために、無視する価値がある特定のデータ ポイントを特定できることもあります。これらのデータ ポイントを組み合わせると、除去効果がさらに向上します。 Papernot は、SISA メソッドのカスタマイズ レベルをさらに向上させることを願って、データ セットの知識の整理も積極的に行っていると述べました。

グアン氏は、一部の AI 手法はプライバシーを考慮して設計されているものの、ユーザーが特定のデータ ポイントを削除する必要がある場合もあると説明した。たとえば、信用できない企業にデータを提供したくない人もいるでしょうし、科学者は問題のあるデータ ポイント (ハッカーがデータ セットを「汚染」するために使用した偽の記録など) を削除する必要がある場合もあります。いずれの場合も、AIモデル内のデータを削除することが必要な対策になります。

グアン氏は次のように結論付けました。「もちろん、まだ完全なソリューションは構築できていません。しかし、問題を明確に定義することが、問題解決の重要な前提条件だと考えています。アルゴリズムを設計する際には、最初からデータ保護の必要性を十分に考慮していただければと思います。」

<<:  2019年に主流となった10のAIテクノロジー

>>:  2020 年に慈善活動を変える主要なテクノロジー トレンドのリスト

推薦する

WeiboにおけるSparkベースの大規模機械学習の応用

[[195122]]周知のとおり、Weibo のビジネスは 2015 年以降急速に成長しています。内...

ニューラルネットワークと人間の思考の深い関係

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

インターネットの罪:Google がいかにして私たちを愚かにしているのか

[[322291]]オリジナル記事はThe Atlantic、著者ニコラス・カーよりこの記事のハイラ...

...

笑顔は73年にわたる:ディープフェイクがイスラエル建国戦争の古い写真を「復活」させる

[[434314]]ディープフェイクを使って古い写真をアニメ化し、殉教者を追悼するのは良いことだが、...

...

...

表現学習: 自然言語のための高度なディープラーニング

表現学習では、半教師あり学習と自己教師あり学習の特定の機能を通じて、モデルのトレーニングに必要なデー...

EU AI法が規則を承認

欧州連合の人工知能法(AI法)は、政策立案者が画期的な規制のルールをうまく策定したことで、法律化に向...

主流のブロックチェーンコンセンサスアルゴリズムの包括的なガイド

あらゆる優れた暗号通貨の背後には、優れたコンセンサス アルゴリズムが存在します。完璧なコンセンサス ...

データベースセキュリティとテーブル検索攻撃における MD5 暗号化アルゴリズムの応用

MD5 は最も広く使用されているハッシュ アルゴリズムの 1 つです。1992 年に MIT の R...

...

MITは線虫Caenorhabditis elegansにヒントを得て、19個のニューロンを使って自動運転制御を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

中国は人工知能(AI)で世界をリードしており、多くの技術が世界をリードしている。

[[217124]] [[217125]] [[217126]]ディープラーニングは最も急速に成長...