機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械学習はよく話題になりますが、「機械の忘却」について聞いたことがありますか?

機械学習の目的は誰もが理解しており、それが作業効率の向上に役立ちます。しかし、機械による忘却の目的は何でしょうか? 「学校を辞める」ということでしょうか?

現在、機械に関する議論が白熱しているだけでなく、機械による忘却に特化したチャレンジも開催されています。

最近、Google AI は、幅広い学術および業界の研究チームと協力し、初の Machine Unlearning Challenge を開催すると発表しました。

Google は、この機械忘却チャレンジを開催する目的について、機械忘却の SOTA レベルの向上に貢献し、効率的で効果的かつ倫理的な忘却アルゴリズムの開発を促進することを目指していると述べています。

写真

コンテストの内容は何ですか?

具体的には、このチャレンジでは、年齢予測器が顔画像データでトレーニングされ、トレーニング後に、関係する個人のプライバシーやその他の権利を保護するために、トレーニング画像のサブセットを忘れる必要があるという現実世界のシナリオを検討します。

写真

年齢注釈付きの顔共感覚データセットからの画像。

コンテストは Kaggle プラットフォーム上で開催され、提出された作品は忘却品質とモデルの有用性に基づいて自動的に採点されます。

忘却性を評価するために、このチャレンジでは、LiRa などのメンバーシップ推論攻撃 (MIA) にヒントを得たツールを使用します。 MIA はもともとプライバシーとセキュリティに関する文献で開発され、どの例がトレーニング セットの一部であるかを推測することを目的としています。

率直に言えば、忘却が成功した場合、忘れられたモデルには忘れられた例の痕跡が含まれず、MIA の失敗につながります。つまり、攻撃者は忘れられたセットが実際には元のトレーニング セットの一部であることを知ることができません。

さらに、評価では統計テストを使用して、忘れられたモデルの分布が最初から再トレーニングされたモデルの分布とどの程度異なるかを定量化します。

関連するコンテストに関する情報は、次の 2 つのリンクでご覧いただけます。

  • https://unlearning-challenge.github.io/
  • https://groups.google.com/g/unlearning-challenge

読者の中には、機械学習の潮流の中で、なぜ機械による忘却という「逆流」が起きているのかと疑問に思う人もいるかもしれません。

機械忘却とは何ですか?

機械忘却は、機械学習における新しい分野です。その最終的な目標は、トレーニング モデルのトレーニング サンプルの特定のサブセットの影響を排除すること、つまり「忘却セット」の影響を排除することです。

さらに、理想的な忘却アルゴリズムは、残りのトレーニング セットの精度や保持されたサンプルへの一般化など、他の有益な特性を保持しながら、特定のサンプルの影響を排除する必要があります。

下の図は忘却学習の構造を示しています。忘却アルゴリズムは、事前トレーニング済みのモデルと、トレーニング セットから忘れられる 1 つ以上の例を入力として受け取ります。次に、このモデル、忘れられたセット、および保持されたセットに基づいて、忘却アルゴリズムは更新されたモデルを生成します。完全な忘却アルゴリズムによって生成されたモデルは、忘却セットなしでトレーニングされたモデルと区別がつきません。

写真

実際、この理想的なモデルを取得するための非常に「強引な」方法があり、それは忘れられたセットのサンプルを除外した後にモデルを再トレーニングすることです。この「ブルートフォース」方式はすぐに効果を発揮しますが、ディープモデルの再トレーニングにかかる​​コストが高すぎるため、実現可能ではありません。

したがって、忘却学習アルゴリズムは、トレーニング済みのモデルに基づいて、必要なデータの影響を排除するように調整する必要があります。

機械忘却学習は、ユーザーのプライバシーを保護するために使用されるだけでなく、トレーニングを通じてトレーニング モデル内の不正確または古い情報、さらには異常または有害なデータを削除することもできます。もちろん、これはいくつかの指定された忘却セットを削除するよりもはるかに困難ですが、それはまた、より有用であることを意味します。たとえば、異なるグループに属する人々に対する偏見や差別を修正することで、モデルの公平性を向上させることができます。

「片付けて、片付けて、全部捨てて」

なぜ機械忘却を開発するのですか?

私たちは皆、インターネット上で簡単に情報を入手できるという恩恵を受けていますが、インターネット全体から特定の情報を削除することの難しさを見落としがちです。これは、一握りの砂を海に投げ込み、絶えず波打つ海水から砂粒を一つずつ拾い上げるようなものです。さらに重要なのは、これらの砂粒が継続的に複製される可能性があることです。

これは、情報が時間の経過とともに削除されたとしても、さまざまな手段によって保持できることを示しています。

インターネット上に残された痕跡は照会できないかもしれませんが、その痕跡は永久に残ります。 2012年、欧州委員会は、データ主体が「忘れられる権利」を享受すべきであると提案する草案を公表した。これは、ビッグデータを背景としたインターネット業界の発展に広範囲かつ広範囲な影響を及ぼします。

言うまでもなく、最近人気となっている大規模な言語モデルは、膨大なデータセットに基づいて開発されています。大規模なモデルは、ユーザーの個人情報を含むトレーニング セットの詳細を学習して記憶するため、より深刻なプライバシー リスクにつながる可能性があります。

したがって、機械学習モデルにおけるセキュリティとプライバシーの問題は、研究者が直面しなければならない課題です。

写真

ネットユーザーらは、このチャレンジはプライバシー保護を促進するだろうと述べた。

このような困難で複雑な状況下で、機械の忘却が生まれ、それに関する議論と学習が機械学習の分野における焦点の 1 つになってきました。


<<: 

>>:  phind: 開発者に特化したAI検索エンジンの誕生!

ブログ    
ブログ    
ブログ    

推薦する

2020 DIGIXグローバルキャンパスAIアルゴリズムエリートコンペティションが成功裏に終了し、キャンパスのイノベーションを刺激

11月13日〜14日、江蘇省人工知能学会、ファーウェイ端末クラウドサービス、ファーウェイ南京研究所が...

...

チャットボットについては長い間話されてきましたが、良いチャットボットとはどのように定義されるのでしょうか?

なぜ良いチャットボットがないのでしょうか? これは私がかなり頻繁に、おそらく平均して週に 2 回は聞...

人工知能はメタバースのビジョンの実現に役立つでしょうか?

現在、メタバースの分野は、誇大宣伝と新規プロジェクトの立ち上げ数の点で急速に成長しており、業界の市場...

...

...

貧困が私を訓練した

1. 事前のトレーニングは必要ですか?事前トレーニングの効果はすぐに現れますが、必要なリソースが法外...

3 つの AIOps プラクティス: 可視化、自動化からインテリジェンスまで

2018年5月18日〜19日、51CTO主催のグローバルソフトウェアおよび運用技術サミットが北京で開...

IoTとロボットの連携

明らかに、ロボット工学とモノのインターネットはまったく異なる分野です。しかし、両者が互いに成長し革新...

ICCV 2021 | 生成されたデータに基づく顔認識

[[422257]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

快手は520で「ボーイフレンド」を送信。GANは敵対的ネットワークを生成し、独身者が「独身から抜け出す」のを助ける

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

大きな AI 問題の解決: AI 操作のエネルギー消費を削減するにはどうすればよいでしょうか?

現在、AI分野で画期的な進歩を遂げているディープラーニングモデルの規模が大きくなるほど、エネルギー消...

AIのおかげで売上が24%増加しました。このようなAI人材はどこで見つけられるのでしょうか?

[[429444]]この記事はWeChatの公開アカウント「Computer World」から転載...

ランセットの最新記事:主要都市での流行は武漢より1~2週間遅れる

一方で感染症の予防と抑制、他方で春節の旅行ラッシュの帰省があり、今年の仕事再開への道のりは異例のもの...