この時代において、プライバシーは長い間誤った主張となってきました。 プライバシー保護をある程度回復するための取り組みとして、欧州の一般データ保護規則や米国のカリフォルニア州消費者プライバシー法など、最近のいくつかの立法イニシアチブでは、個人情報の消去に関する規定が設けられています。ただし、トレーニング済みの AI モデルに「自分を忘れさせる」場合、従来の方法では、新しいデータを使用して最初から再トレーニングする必要があります。このプロセス全体には数週間かかる場合があり、コストもかなりかかります。
最近発表された 2 つの論文 (1 つはスタンフォード大学、もう 1 つはトロント大学 (プレプリント)) では、AI モデルからレコードを削除する効率的な方法が示されており、これにより膨大な量のエネルギーを節約し、コンプライアンスを確実に確保できると期待されています。 「企業間の実際の連携を簡素化し、実装の難しさがプライバシー規制違反の言い訳にならないようにするための新しいアルゴリズムが必要なようだ」と、スタンフォード大学のコンピューター科学者で最初の論文の共著者であるメロディ・グアン氏は述べた。 効率的なデータ削除に関する文献は非常に限られているため、スタンフォード大学の著者らはまず問題を明確に定義し、問題を軽減するのに役立つ 4 つの設計原則を提案しています。
スタンフォード大学の研究者たちは、これらの原則のうち 2 つを、k-means クラスタリングと呼ばれる機械学習アルゴリズムに適用しました。このアルゴリズムは、データ ポイントを自然なクラスターに分類するために使用されます。たとえば、密接に関連する集団間の遺伝的差異を分析する場合に使用されます。 (このクラスタリングアルゴリズムは、すでに英国バイオバンク医療データベースで実用化されており、一部の患者はデータベースの作成者に自分の記録をデータベースから削除するよう通知している。)研究者らは定量的技術を使用してQk平均アルゴリズムを開発し、細胞タイプ、手書きの数字、ジェスチャー、森林被覆率、接続されたデバイスのハッキングを分類する6つのデータセットでテストした。各データセットから 1,000 個のデータ ポイントを 1 つずつ削除しました。結果は、Qk-means アルゴリズムが従来の k-means アルゴリズムよりも 2 ~ 584 倍高速であり、精度がほとんど損なわれないことを示しています。 モジュール方式を使用して、彼らは DC-k-means (分割統治法の実装用) を開発しました。データ内の各ポイントはランダムに複数のサブセットに分割され、各サブセットは独立してクラスター化されます。これらのサブセットは、その後、新しいクラスターに形成されます。単一のサブセットからポイントを削除しても、他のサブセットの結果には影響しないことがわかります。新しいアルゴリズムは、精度の低下をほとんど伴わずに、16 ~ 71 倍の高速化を実現します。この研究は先月、カナダのバンクーバーで開催されたNeural Information Processing Systems (NerulPS) 会議で発表されました。 「この論文の素晴らしい点は、アルゴリズムの基本的な側面、つまりK平均法クラスタリングを利用して、これまでは不可能だったことを実現している点です」と、トロント大学およびベクター研究所のコンピューター科学者であるニコラス・ペーパーノット氏は言う。しかし、これらのアプローチの一部は、ディープラーニングで使用される人工ニューラルネットワークなど、他のタイプのアルゴリズムではうまく機能しない。先月、パエルノット氏と他の共著者らは、SISA(シャーディング、分離、スライシング、集約)トレーニングと呼ばれるニューラルネットワークのトレーニング方法について言及した論文をウェブサイトarXivに発表した。 この新しいアプローチでは、2 つの異なるモジュール実装が必要です。まず、シャーディング部分でデータセットを複数のサブセットに分割し、モデルのセットごとに独立したトレーニング モデルのコピーを構築します。予測が必要な場合、各モデルの予測結果が統合されて 1 つの統一された結果になります。このように、データ ポイントが削除された場合、モデルの 1 つだけを再トレーニングする必要があります。 2 番目の方法はスライスであり、各サブセットをさらに細分化します。このサブセットのモデルは、最初にスライス 1 でトレーニングされ、次にスライス 1 とスライス 2 で同時にトレーニングされ、その後スライス 1、スライス 2、スライス 3 でトレーニングされるというように続きます。最後に、各ステップを完了した後、トレーニング済みのモデルをアーカイブします。この方法では、スライス 3 のデータ ポイントが削除された場合でも、トレーニングの 3 番目のステップにすぐに戻り、この開始点からトレーニングを続行できます。ペーパーノット氏は、シャーディングとスライシングのアプローチは「モデルトレーニングプロセスに2つの調整ノブを提供する」と述べた。グアン氏もこのアプローチを「非常に直感的」と称賛したが、「使用されるレコード削除基準は十分に厳密ではない」と述べた。 トロントの研究者たちは、2つの大規模なデータセットでニューラルネットワークをトレーニングすることで、自分たちのアプローチをテストしました。 1 つのデータセットには、自宅住所コードに関連付けられた 600,000 を超える画像が含まれており、もう 1 つのデータセットには 300,000 を超える購入履歴レコードが含まれています。各データセットから 0.001% のデータを削除してモデルを再トレーニングしたところ、シャーディング (20 シャード) によって、住所関連のタスクの再トレーニングが 3.75 倍、購入記録関連のタスクの再トレーニングが 8.31 倍高速化され (標準モデルの再トレーニング方法と比較して)、精度にはほとんど影響がないことがわかりました。スライス方式と組み合わせることで、住所関連タスクの速度がさらに18%向上し、購入記録関連タスクの速度は43%向上し、精度の低下はありませんでした。 公開されたデータによれば、データの0.001%のみを削除するのは軽すぎるように思われるが、ペーパーノット氏は、Google検索などの再トレーニングサービスの規模はこの数字よりも桁違いに小さいと述べた。さらに、18% の速度向上は限られているように思えるかもしれませんが、メインフレームの使用シナリオでは、膨大な時間とコストを節約できます。さらに、場合によっては、少数民族の人々や特定の病状を持つ人々など、プライバシー侵害の影響を受けないようにするために、無視する価値がある特定のデータ ポイントを特定できることもあります。これらのデータ ポイントを組み合わせると、除去効果がさらに向上します。 Papernot は、SISA メソッドのカスタマイズ レベルをさらに向上させることを願って、データ セットの知識の整理も積極的に行っていると述べました。 グアン氏は、一部の AI 手法はプライバシーを考慮して設計されているものの、ユーザーが特定のデータ ポイントを削除する必要がある場合もあると説明した。たとえば、信用できない企業にデータを提供したくない人もいるでしょうし、科学者は問題のあるデータ ポイント (ハッカーがデータ セットを「汚染」するために使用した偽の記録など) を削除する必要がある場合もあります。いずれの場合も、AIモデル内のデータを削除することが必要な対策になります。 グアン氏は次のように結論付けました。「もちろん、まだ完全なソリューションは構築できていません。しかし、問題を明確に定義することが、問題解決の重要な前提条件だと考えています。アルゴリズムを設計する際には、最初からデータ保護の必要性を十分に考慮していただければと思います。」 |
>>: 2020 年に慈善活動を変える主要なテクノロジー トレンドのリスト
COVID-19 パンデミックにより、増大するデータ量を管理し、そこから洞察を得るための IoT に...
翻訳者 | 張毅校正 | 梁哲、孫淑娟出典: frimufilms が作成したビジネス写真 - ww...
今年初めから現在まで、ToFセンサーはApple、Samsung、GD、AMSなどのセンサー企業やス...
8月28日、国家エネルギー音声の公式WeChatアカウントによると、龍源電力工程技術有限公司は最近、...
ai.comドメイン名は、OpenAIが数千万ドルを費やしてマスク氏に購入された。これで、URL a...
マイクロソフトは、Phi-2 と呼ばれる人工知能モデルをリリースしました。このモデルは、その 25 ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「Made in China」は世界で最も認知されているラベルの一つです。 「Made in Chi...
最近、国内のインターネット大手はコミュニティグループ購入の分野で激しい競争を繰り広げており、アリババ...
人工知能の急速な発展により、一連の新技術が誕生しました。ロボットはますます多くのことを人間に代わって...
コア分析コンテンツ初心者および中級の Android 開発者にとって、学ぶべき Android の理...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...