機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械学習はよく話題になりますが、「機械の忘却」について聞いたことがありますか?

機械学習の目的は誰もが理解しており、それが作業効率の向上に役立ちます。しかし、機械による忘却の目的は何でしょうか? 「学校を辞める」ということでしょうか?

現在、機械に関する議論が白熱しているだけでなく、機械による忘却に特化したチャレンジも開催されています。

最近、Google AI は、幅広い学術および業界の研究チームと協力し、初の Machine Unlearning Challenge を開催すると発表しました。

Google は、この機械忘却チャレンジを開催する目的について、機械忘却の SOTA レベルの向上に貢献し、効率的で効果的かつ倫理的な忘却アルゴリズムの開発を促進することを目指していると述べています。

写真

コンテストの内容は何ですか?

具体的には、このチャレンジでは、年齢予測器が顔画像データでトレーニングされ、トレーニング後に、関係する個人のプライバシーやその他の権利を保護するために、トレーニング画像のサブセットを忘れる必要があるという現実世界のシナリオを検討します。

写真

年齢注釈付きの顔共感覚データセットからの画像。

コンテストは Kaggle プラットフォーム上で開催され、提出された作品は忘却品質とモデルの有用性に基づいて自動的に採点されます。

忘却性を評価するために、このチャレンジでは、LiRa などのメンバーシップ推論攻撃 (MIA) にヒントを得たツールを使用します。 MIA はもともとプライバシーとセキュリティに関する文献で開発され、どの例がトレーニング セットの一部であるかを推測することを目的としています。

率直に言えば、忘却が成功した場合、忘れられたモデルには忘れられた例の痕跡が含まれず、MIA の失敗につながります。つまり、攻撃者は忘れられたセットが実際には元のトレーニング セットの一部であることを知ることができません。

さらに、評価では統計テストを使用して、忘れられたモデルの分布が最初から再トレーニングされたモデルの分布とどの程度異なるかを定量化します。

関連するコンテストに関する情報は、次の 2 つのリンクでご覧いただけます。

  • https://unlearning-challenge.github.io/
  • https://groups.google.com/g/unlearning-challenge

読者の中には、機械学習の潮流の中で、なぜ機械による忘却という「逆流」が起きているのかと疑問に思う人もいるかもしれません。

機械忘却とは何ですか?

機械忘却は、機械学習における新しい分野です。その最終的な目標は、トレーニング モデルのトレーニング サンプルの特定のサブセットの影響を排除すること、つまり「忘却セット」の影響を排除することです。

さらに、理想的な忘却アルゴリズムは、残りのトレーニング セットの精度や保持されたサンプルへの一般化など、他の有益な特性を保持しながら、特定のサンプルの影響を排除する必要があります。

下の図は忘却学習の構造を示しています。忘却アルゴリズムは、事前トレーニング済みのモデルと、トレーニング セットから忘れられる 1 つ以上の例を入力として受け取ります。次に、このモデル、忘れられたセット、および保持されたセットに基づいて、忘却アルゴリズムは更新されたモデルを生成します。完全な忘却アルゴリズムによって生成されたモデルは、忘却セットなしでトレーニングされたモデルと区別がつきません。

写真

実際、この理想的なモデルを取得するための非常に「強引な」方法があり、それは忘れられたセットのサンプルを除外した後にモデルを再トレーニングすることです。この「ブルートフォース」方式はすぐに効果を発揮しますが、ディープモデルの再トレーニングにかかる​​コストが高すぎるため、実現可能ではありません。

したがって、忘却学習アルゴリズムは、トレーニング済みのモデルに基づいて、必要なデータの影響を排除するように調整する必要があります。

機械忘却学習は、ユーザーのプライバシーを保護するために使用されるだけでなく、トレーニングを通じてトレーニング モデル内の不正確または古い情報、さらには異常または有害なデータを削除することもできます。もちろん、これはいくつかの指定された忘却セットを削除するよりもはるかに困難ですが、それはまた、より有用であることを意味します。たとえば、異なるグループに属する人々に対する偏見や差別を修正することで、モデルの公平性を向上させることができます。

「片付けて、片付けて、全部捨てて」

なぜ機械忘却を開発するのですか?

私たちは皆、インターネット上で簡単に情報を入手できるという恩恵を受けていますが、インターネット全体から特定の情報を削除することの難しさを見落としがちです。これは、一握りの砂を海に投げ込み、絶えず波打つ海水から砂粒を一つずつ拾い上げるようなものです。さらに重要なのは、これらの砂粒が継続的に複製される可能性があることです。

これは、情報が時間の経過とともに削除されたとしても、さまざまな手段によって保持できることを示しています。

インターネット上に残された痕跡は照会できないかもしれませんが、その痕跡は永久に残ります。 2012年、欧州委員会は、データ主体が「忘れられる権利」を享受すべきであると提案する草案を公表した。これは、ビッグデータを背景としたインターネット業界の発展に広範囲かつ広範囲な影響を及ぼします。

言うまでもなく、最近人気となっている大規模な言語モデルは、膨大なデータセットに基づいて開発されています。大規模なモデルは、ユーザーの個人情報を含むトレーニング セットの詳細を学習して記憶するため、より深刻なプライバシー リスクにつながる可能性があります。

したがって、機械学習モデルにおけるセキュリティとプライバシーの問題は、研究者が直面しなければならない課題です。

写真

ネットユーザーらは、このチャレンジはプライバシー保護を促進するだろうと述べた。

このような困難で複雑な状況下で、機械の忘却が生まれ、それに関する議論と学習が機械学習の分野における焦点の 1 つになってきました。


<<: 

>>:  phind: 開発者に特化したAI検索エンジンの誕生!

ブログ    
ブログ    

推薦する

...

将来スマートフォンは消滅するのでしょうか? Huaweiがそれに代わるスマートフォンを発売します!

スマートフォンの登場と普及は人々の生活に大きな楽しさと便利さをもたらしました。携帯電話がもっとスマー...

コンピュータビジョンプロジェクト: 10 個の高品質オープンソースデータセットがリリースされました

コンピューター ビジョンは、ほぼすべての産業分野で進歩を加速させています。 コンピューター ビジョン...

ブラックボックス問題が依然としてディープラーニングの普及を妨げている

[[211063]]現在、ディープラーニングは人工知能の旗印を掲げており、将来、インテリジェントマシ...

...

...

CES 2024 優れた AI 製品

毎年開催されるコンシューマー・エレクトロニクス・ショー(CES)はテクノロジーの展示会として知られて...

6種類の負荷分散アルゴリズムの概要

C言語を学んだ友人やIT関係の人ならアルゴリズムには詳しいと思います。したがって、分野が異なれば、ア...

ResNet仮説は覆されたか? Redditの人:長年誰もその原理を理解していなかった

[[429626]] 2015 年に、画期的なニューラル ネットワーク モデル ResNet がリ...

先進的な自動運転システムの3つの新しい認識機能の分析

[[439322]]自動車の知能化と電動化の急速な発展に伴い、自動運転センサー構成の需要は増加し続け...

軍事分野における人工知能の浸透と応用に関する考察

人工知能(AI)技術は現在、新たな急速な成長期に入り、将来の世界を変える可能性が最も高い破壊的技術と...

...

オープンソース!香港中文大学、MIT、復旦大学が初のRNA基礎モデルを提案

タンパク質分野とは異なり、RNA 分野の研究では十分な注釈付きデータが不足していることがよくあります...