機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械学習はよく話題になりますが、「機械の忘却」について聞いたことがありますか?

機械学習の目的は誰もが理解しており、それが作業効率の向上に役立ちます。しかし、機械による忘却の目的は何でしょうか? 「学校を辞める」ということでしょうか?

現在、機械に関する議論が白熱しているだけでなく、機械による忘却に特化したチャレンジも開催されています。

最近、Google AI は、幅広い学術および業界の研究チームと協力し、初の Machine Unlearning Challenge を開催すると発表しました。

Google は、この機械忘却チャレンジを開催する目的について、機械忘却の SOTA レベルの向上に貢献し、効率的で効果的かつ倫理的な忘却アルゴリズムの開発を促進することを目指していると述べています。

写真

コンテストの内容は何ですか?

具体的には、このチャレンジでは、年齢予測器が顔画像データでトレーニングされ、トレーニング後に、関係する個人のプライバシーやその他の権利を保護するために、トレーニング画像のサブセットを忘れる必要があるという現実世界のシナリオを検討します。

写真

年齢注釈付きの顔共感覚データセットからの画像。

コンテストは Kaggle プラットフォーム上で開催され、提出された作品は忘却品質とモデルの有用性に基づいて自動的に採点されます。

忘却性を評価するために、このチャレンジでは、LiRa などのメンバーシップ推論攻撃 (MIA) にヒントを得たツールを使用します。 MIA はもともとプライバシーとセキュリティに関する文献で開発され、どの例がトレーニング セットの一部であるかを推測することを目的としています。

率直に言えば、忘却が成功した場合、忘れられたモデルには忘れられた例の痕跡が含まれず、MIA の失敗につながります。つまり、攻撃者は忘れられたセットが実際には元のトレーニング セットの一部であることを知ることができません。

さらに、評価では統計テストを使用して、忘れられたモデルの分布が最初から再トレーニングされたモデルの分布とどの程度異なるかを定量化します。

関連するコンテストに関する情報は、次の 2 つのリンクでご覧いただけます。

  • https://unlearning-challenge.github.io/
  • https://groups.google.com/g/unlearning-challenge

読者の中には、機械学習の潮流の中で、なぜ機械による忘却という「逆流」が起きているのかと疑問に思う人もいるかもしれません。

機械忘却とは何ですか?

機械忘却は、機械学習における新しい分野です。その最終的な目標は、トレーニング モデルのトレーニング サンプルの特定のサブセットの影響を排除すること、つまり「忘却セット」の影響を排除することです。

さらに、理想的な忘却アルゴリズムは、残りのトレーニング セットの精度や保持されたサンプルへの一般化など、他の有益な特性を保持しながら、特定のサンプルの影響を排除する必要があります。

下の図は忘却学習の構造を示しています。忘却アルゴリズムは、事前トレーニング済みのモデルと、トレーニング セットから忘れられる 1 つ以上の例を入力として受け取ります。次に、このモデル、忘れられたセット、および保持されたセットに基づいて、忘却アルゴリズムは更新されたモデルを生成します。完全な忘却アルゴリズムによって生成されたモデルは、忘却セットなしでトレーニングされたモデルと区別がつきません。

写真

実際、この理想的なモデルを取得するための非常に「強引な」方法があり、それは忘れられたセットのサンプルを除外した後にモデルを再トレーニングすることです。この「ブルートフォース」方式はすぐに効果を発揮しますが、ディープモデルの再トレーニングにかかる​​コストが高すぎるため、実現可能ではありません。

したがって、忘却学習アルゴリズムは、トレーニング済みのモデルに基づいて、必要なデータの影響を排除するように調整する必要があります。

機械忘却学習は、ユーザーのプライバシーを保護するために使用されるだけでなく、トレーニングを通じてトレーニング モデル内の不正確または古い情報、さらには異常または有害なデータを削除することもできます。もちろん、これはいくつかの指定された忘却セットを削除するよりもはるかに困難ですが、それはまた、より有用であることを意味します。たとえば、異なるグループに属する人々に対する偏見や差別を修正することで、モデルの公平性を向上させることができます。

「片付けて、片付けて、全部捨てて」

なぜ機械忘却を開発するのですか?

私たちは皆、インターネット上で簡単に情報を入手できるという恩恵を受けていますが、インターネット全体から特定の情報を削除することの難しさを見落としがちです。これは、一握りの砂を海に投げ込み、絶えず波打つ海水から砂粒を一つずつ拾い上げるようなものです。さらに重要なのは、これらの砂粒が継続的に複製される可能性があることです。

これは、情報が時間の経過とともに削除されたとしても、さまざまな手段によって保持できることを示しています。

インターネット上に残された痕跡は照会できないかもしれませんが、その痕跡は永久に残ります。 2012年、欧州委員会は、データ主体が「忘れられる権利」を享受すべきであると提案する草案を公表した。これは、ビッグデータを背景としたインターネット業界の発展に広範囲かつ広範囲な影響を及ぼします。

言うまでもなく、最近人気となっている大規模な言語モデルは、膨大なデータセットに基づいて開発されています。大規模なモデルは、ユーザーの個人情報を含むトレーニング セットの詳細を学習して記憶するため、より深刻なプライバシー リスクにつながる可能性があります。

したがって、機械学習モデルにおけるセキュリティとプライバシーの問題は、研究者が直面しなければならない課題です。

写真

ネットユーザーらは、このチャレンジはプライバシー保護を促進するだろうと述べた。

このような困難で複雑な状況下で、機械の忘却が生まれ、それに関する議論と学習が機械学習の分野における焦点の 1 つになってきました。


<<: 

>>:  phind: 開発者に特化したAI検索エンジンの誕生!

ブログ    

推薦する

今年のノーベル賞はアルトゥール・エケルト氏が受賞すると見られている。百度研究所の科学者の力を過小評価すべきではない。

2019年のノーベル賞受賞者のリストは、今年10月7日から発表されます。発表日が近づくにつれ、学界...

転換点までのカウントダウン:AI サーバーが市場を完全に支配するにはどれくらいの時間がかかるのでしょうか?

ハイパースケーラーとクラウド プロバイダーがインフラストラクチャの計画を検討する場合、まず全体的な動...

追跡!フレーム!明らかにする!秘密!ついにボストンダイナミクスのロボットの詳細が明らかになった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データ構造とアルゴリズム: 文字列の分割とバランス

[[441873]]バランスの取れた文字列を分割するLeetCode の問題へのリンク: https...

...

ビッグデータと人工知能がもたらす危機:テクノロジーの巨人は私たちの生活を台無しにしてしまうのか?

01 ハイテク時代の失業ゼロ半世紀以上前、有名な数学者ジョン・フォン・ノイマンは、機械を製造するコ...

企業はビッグデータ アルゴリズムを使用して効果的なリンクを構築できますか?

ビッグデータは人々にとって巨大な概念であるようです。しかし、多くの企業がすでに業務にビッグデータを活...

996の非効率性にノーと言いましょう: ChatGPTはコードコメントとドキュメントを簡単に処理するのに役立ちます

適切なコメントは、Python プロジェクトを成功させる上で非常に重要です。実際には、コメントを書く...

デンマークはロボット工学をリードしています – IoT はどのような役割を果たすのでしょうか?

デンマークは、1970年代初頭から国家政策の一環として風力タービンに投資した最初の国の一つであり、こ...

ブロックチェーンとAIを最大限に活用する方法

急速に進化する今日のテクノロジー環境において、成功を目指す企業にとって、常に時代の先を行くことが重要...

2025年にはL3自動運転が普及する。まだ手動で運転しているのですか?

最近、中国自動車工学協会副秘書長、国際自動車工学科学技術革新戦略研究所執行理事の侯福神氏は上海モータ...

時間との競争! AIは病気の遺伝子解析と診断の加速器である

科学技術分野において、国境を越えた融合による新しいものによってもたらされる破壊的な競争は、あくまでも...

あなたの「顔」が格安で販売されています!顔認識に大きな抜け穴?

買い物のときに顔で支払いをしたり、顔で携帯電話のロックを解除したり、コミュニティに入るときにドアを開...