プライバシー保護を再構築するには、AIモデルに「あなたを忘れさせる」ことを早く行う必要がある

この時代において、プライバシーは長い間誤った主張となってきました。

プライバシー保護をある程度回復するための取り組みとして、欧州の一般データ保護規則や米国のカリフォルニア州消費者プライバシー法など、最近のいくつかの立法イニシアチブでは、個人情報の消去に関する規定が設けられています。ただし、トレーニング済みの AI モデルに「自分を忘れさせる」場合、従来の方法では、新しいデータを使用して最初から再トレーニングする必要があります。このプロセス全体には数週間かかる場合があり、コストもかなりかかります。

[[313564]]

最近発表された 2 つの論文 (1 つはスタンフォード大学、もう 1 つはトロント大学 (プレプリント)) では、AI モデルからレコードを削除する効率的な方法が示されており、これにより膨大な量のエネルギーを節約し、コンプライアンスを確実に確保できると期待されています。「企業間の実際の連携を簡素化し、実装の難しさがプライバシー規制違反の言い訳にならないようにするための新しいアルゴリズムが必要なようだ」と、スタンフォード大学のコンピューター科学者で最初の論文の共著者であるメロディ・グアン氏は述べた。

効率的なデータ削除に関する文献は非常に限られているため、スタンフォード大学の著者らはまず問題を明確に定義し、問題を軽減するのに役立つ 4 つの設計原則を提案しています。

最初の原則は「線形性」です。単純な AI モデルでは、数値の加算と乗算のみを実行する必要があるため、いわゆる非線形数学関数の介入が回避され、ステップ分解がよりシンプルで実装が容易になります。
2 つ目は「怠惰」の原則です。これは、予測が本当に必要な場合を除いて、計算操作を可能な限り延期するというものです。
3 つ目は「モジュール性」です。可能であれば、分離可能な形式でモデルをトレーニングし、結果を組み合わせます。
4 番目の項目は「量子化」です。つまり、平均値を特定の離散間隔内に固定できる限り、平均結果にほとんど影響を与えない値は削除されます。

スタンフォード大学の研究者たちは、これらの原則のうち 2 つを、k-means クラスタリングと呼ばれる機械学習アルゴリズムに適用しました。このアルゴリズムは、データポイントを自然なクラスターに分類するために使用されます。たとえば、密接に関連する集団間の遺伝的差異を分析する場合に使用されます。（このクラスタリングアルゴリズムは、すでに英国バイオバンク医療データベースで実用化されており、一部の患者はデータベースの作成者に自分の記録をデータベースから削除するよう通知している。）研究者らは定量的技術を使用してQk平均アルゴリズムを開発し、細胞タイプ、手書きの数字、ジェスチャー、森林被覆率、接続されたデバイスのハッキングを分類する6つのデータセットでテストした。各データセットから 1,000 個のデータポイントを 1 つずつ削除しました。結果は、Qk-means アルゴリズムが従来の k-means アルゴリズムよりも 2 ～ 584 倍高速であり、精度がほとんど損なわれないことを示しています。

モジュール方式を使用して、彼らは DC-k-means (分割統治法の実装用) を開発しました。データ内の各ポイントはランダムに複数のサブセットに分割され、各サブセットは独立してクラスター化されます。これらのサブセットは、その後、新しいクラスターに形成されます。単一のサブセットからポイントを削除しても、他のサブセットの結果には影響しないことがわかります。新しいアルゴリズムは、精度の低下をほとんど伴わずに、16 ～ 71 倍の高速化を実現します。この研究は先月、カナダのバンクーバーで開催されたNeural Information Processing Systems (NerulPS) 会議で発表されました。

「この論文の素晴らしい点は、アルゴリズムの基本的な側面、つまりK平均法クラスタリングを利用して、これまでは不可能だったことを実現している点です」と、トロント大学およびベクター研究所のコンピューター科学者であるニコラス・ペーパーノット氏は言う。しかし、これらのアプローチの一部は、ディープラーニングで使用される人工ニューラルネットワークなど、他のタイプのアルゴリズムではうまく機能しない。先月、パエルノット氏と他の共著者らは、SISA（シャーディング、分離、スライシング、集約）トレーニングと呼ばれるニューラルネットワークのトレーニング方法について言及した論文をウェブサイトarXivに発表した。

この新しいアプローチでは、2 つの異なるモジュール実装が必要です。まず、シャーディング部分でデータセットを複数のサブセットに分割し、モデルのセットごとに独立したトレーニングモデルのコピーを構築します。予測が必要な場合、各モデルの予測結果が統合されて 1 つの統一された結果になります。このように、データポイントが削除された場合、モデルの 1 つだけを再トレーニングする必要があります。 2 番目の方法はスライスであり、各サブセットをさらに細分化します。このサブセットのモデルは、最初にスライス 1 でトレーニングされ、次にスライス 1 とスライス 2 で同時にトレーニングされ、その後スライス 1、スライス 2、スライス 3 でトレーニングされるというように続きます。最後に、各ステップを完了した後、トレーニング済みのモデルをアーカイブします。この方法では、スライス 3 のデータポイントが削除された場合でも、トレーニングの 3 番目のステップにすぐに戻り、この開始点からトレーニングを続行できます。ペーパーノット氏は、シャーディングとスライシングのアプローチは「モデルトレーニングプロセスに2つの調整ノブを提供する」と述べた。グアン氏もこのアプローチを「非常に直感的」と称賛したが、「使用されるレコード削除基準は十分に厳密ではない」と述べた。

トロントの研究者たちは、2つの大規模なデータセットでニューラルネットワークをトレーニングすることで、自分たちのアプローチをテストしました。 1 つのデータセットには、自宅住所コードに関連付けられた 600,000 を超える画像が含まれており、もう 1 つのデータセットには 300,000 を超える購入履歴レコードが含まれています。各データセットから 0.001% のデータを削除してモデルを再トレーニングしたところ、シャーディング (20 シャード) によって、住所関連のタスクの再トレーニングが 3.75 倍、購入記録関連のタスクの再トレーニングが 8.31 倍高速化され (標準モデルの再トレーニング方法と比較して)、精度にはほとんど影響がないことがわかりました。スライス方式と組み合わせることで、住所関連タスクの速度がさらに18%向上し、購入記録関連タスクの速度は43%向上し、精度の低下はありませんでした。

公開されたデータによれば、データの0.001％のみを削除するのは軽すぎるように思われるが、ペーパーノット氏は、Google検索などの再トレーニングサービスの規模はこの数字よりも桁違いに小さいと述べた。さらに、18% の速度向上は限られているように思えるかもしれませんが、メインフレームの使用シナリオでは、膨大な時間とコストを節約できます。さらに、場合によっては、少数民族の人々や特定の病状を持つ人々など、プライバシー侵害の影響を受けないようにするために、無視する価値がある特定のデータポイントを特定できることもあります。これらのデータポイントを組み合わせると、除去効果がさらに向上します。 Papernot は、SISA メソッドのカスタマイズレベルをさらに向上させることを願って、データセットの知識の整理も積極的に行っていると述べました。

グアン氏は、一部の AI 手法はプライバシーを考慮して設計されているものの、ユーザーが特定のデータポイントを削除する必要がある場合もあると説明した。たとえば、信用できない企業にデータを提供したくない人もいるでしょうし、科学者は問題のあるデータポイント (ハッカーがデータセットを「汚染」するために使用した偽の記録など) を削除する必要がある場合もあります。いずれの場合も、AIモデル内のデータを削除することが必要な対策になります。

グアン氏は次のように結論付けました。「もちろん、まだ完全なソリューションは構築できていません。しかし、問題を明確に定義することが、問題解決の重要な前提条件だと考えています。アルゴリズムを設計する際には、最初からデータ保護の必要性を十分に考慮していただければと思います。」

<<: 2019年に主流となった10のAIテクノロジー

>>: 2020 年に慈善活動を変える主要なテクノロジートレンドのリスト