機械学習の再考: 人工知能はどのようにして「記憶を失う」ことを学ぶのか?

機械学習の再考: 人工知能はどのようにして「記憶を失う」ことを学ぶのか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

機械学習は、あらゆる分野で貴重なツールとなっています。機械学習は、人々が見落としがちな詳細を発見し、意思決定を支援するシステムの構築によく使用されます。驚くべき結果が得られましたが、すでに形成されたモデル内の特定のモジュールやデータ レコードをどのように変更または削除するかなど、問題点も数多くあります。

一部の学者は、ほとんどの場合、修正は再トレーニングを意味することが多いが、それでも疑わしいデータが含まれるのを避けることは不可能であると述べた。このデータは、システム ログ、画像、顧客管理システムなどから取得される場合があります。特に欧州の GDPR の導入により、モデルの忘却機能に対する要件が厳しくなりました。企業が解決策を見つけられなければ、コンプライアンス違反の罰則を受けることになります。

実際、完全な再トレーニングにはコストがかかり、機密データの問題を解決できる可能性は低いです。したがって、再トレーニングされたモデルが完全に正確かつ効果的であることを証明することはできません。

これらの問題を解決するために、学者たちは、データベースを分解したり、アルゴリズムを調整したりといった特殊な技術を使ってモデルに選択的健忘を誘発する「機械学習の学習放棄」と呼ばれる技術を定義しました。名前が示すように、機械学習のデラーニングは、モデル内の暗黙的なデータを保護するために、トレーニングされたモデルから特定のデータトレーニング効果/特定のパラメータを忘れさせることです。

1.モデルを破る

機械学習の魅力は、膨大な量のデータを調べ、人間の認知範囲を超えた複雑な関係性を明らかにする能力にあります。同時に、この技術のブラックボックス性により、学者はモデルを変更する際に非常に慎重になります。結局のところ、特定のデータポイントがモデルのどこにあるかを知ることは不可能であり、データポイントがモデルに直接どのように影響するかを明確に知ることは不可能です。

もう 1 つの状況は、データに外れ値が現れた場合、モデルはそれを特にしっかりと記憶し、全体的な効果に影響を与えるというものです。

現在のデータ プライバシー ツールは、データを感度低下させながらモデルをトレーニングすることができ、データをローカルに残さずに共同トレーニングを実行することもできます。おそらく、機密データを null 値に置き換えてノイズを導入し、機密データを隠すことができる可能性があります。しかし、これらでは問題を根本的に解決することはできません。要素を置き換えて重要なデータを保持する差分プライバシー技術でさえ、選択的忘却の問題を解決するには不十分です。たとえば、再トレーニングは必要ないが、自分のデータをデータベースから削除することを要求する「機密性の高い」人がいる場合など、1 つのケースまたは少数のケースでのみ機能する可能性があります。削除リクエストがどんどん増えていくと、フレームワークの「忘却モデル」はすぐに崩壊します。

したがって、プライバシー技術と機械学習復号化技術は、問題を解決するという点では同等ではありません。

検証不可能な匿名性や差分プライバシー技術によるデータ削除の問題は、理論的な問題であるだけでなく、深刻な結果をもたらします。研究者たちは、いわゆる汎用アルゴリズムやモデルから機密データを抽出できることを実証しました。たとえば、2020年に学者たちは、個人のアイデンティティや著作権情報を含むトレーニングデータをGPT-2から取得できることを発見しました。


2選択的健忘

機械学習モデルが選択的忘却の能力を獲得できるようにするには、次の 2 つの重要な問題を解決する必要があります。

  • 各データ ポイントを使用して機械学習モデルを構築する方法を理解する。
  • ランダム性が空間に与える影響。たとえば、場合によっては、データ入力の比較的小さな変更が異なる結果を生み出す理由を理解する必要があります。

この方向での最初の研究は 2019 年に発表されました。当時、ニコラス・ペパーノットは機械学習用のデータを複数の独立した部分に分割することを提案しました。多数のミニデータを確立することで、特定のコンポーネントのみを削除して再トレーニングし、それを完全なデータセットに再度挿入して、完全に機能する機械学習モデルを生成することが可能になります。

具体的な操作プロセスは、まずトレーニング データを重複しない複数のスライスに分割し、1 つのスライスに 1 つのトレーニング ポイントのみが含まれるようにします。次に、各スライスでモデルを個別にトレーニングし、スライスを結合してデータ要素を正常に削除します。したがって、トレーニング ポイントを忘れるように要求された場合、影響を受けるモデルのみを再トレーニングする必要があります。スライスはトレーニング セット全体よりも小さいため、忘却のコストが削減されます。

この方法は、Nicolas Papernot によってSISA (Sharded、Isolated、Sliced、Aggregated) と名付けられました。完全な再トレーニングと部分的な再トレーニングのベースラインと比較して、SISA は精度と時間コストのトレードオフを実現しました。単純な学習タスクでは、Purchase データセットでは 4.63 倍、SVHN データセットでは 2.45 倍になります。

同時に、著者らは、この概念は有望ではあるものの、限界もあることを認めている。たとえば、スライスあたりのデータ量を減らすと、機械学習に影響が及び、結果の品質が低下する可能性があります。さらに、この技術は必ずしも宣伝どおりに機能するとは限りません。

現在、機械学習による忘却に関する研究はまだ初期段階にあります。研究者やデータ サイエンティストが、データを削除することによる全体的なモデルへの影響について理解を深めるにつれて、機械学習フレームワークとアルゴリズムによって研究者がレコードまたは単一のデータ ポイントを削除し、最終的に関連データを「完全に忘れた」効果的なモデルを取得できるようにすることを目的とした成熟したツールが登場します。

<<:  研究者はディープラーニングを使用して巡回セールスマン問題を解決する上でどの程度進歩しましたか?

>>:  「宝くじ仮説」の著者による新しいPyTorchライブラリは人気があり、モデルのトレーニングが2〜4倍高速化されます。

ブログ    
ブログ    
ブログ    

推薦する

必要なのはソースコードだけです! 7Bコードの小型モデルは同サイズでは無敵で、その性能はChatGPTやGoogle Geminiに匹敵する

「GitHub Copilot のようなコード補完ツールは、100 万人以上の開発者に使用されており...

...

...

ダニエル・ウーの顔を5秒で変える!人気のAIアプリ「ZAO」は依然として技術的な問題に直面しています。あなたの「顔」は認証されましたか?

制作:ビッグデータダイジェスト編集部ZAOは一夜にして人気者になった。一昨夜、文翁の友人の輪には、さ...

トイレ掃除から純資産435億ドルへ!黄仁訓の成功の秘訣:時計を着けないこと

若者に向けて、Lao Huang 氏から 3 つの提案を紹介します。学ぶことをやめず、できる限り最善...

スクリーンはあなたの運命を変えることはできません! AI教育で裸で泳いでいるのは誰ですか? 16社が摘発される

[[252632]]はじめに:最近、「このスクリーンはあなたの運命を変えるかもしれない」という記事が...

マスク氏はまたも常識に反する発言をしました。自動運転は普及初期段階では渋滞を増加させるでしょう。

自動運転の普及初期には交通渋滞が悪化するだろう。これは、自動運転についてのあなたの理解と異なりますか...

Sora では 1 分間のビデオを生成するのに 1 時間以上かかります。これによりユーザー エクスペリエンスにどのような変化がもたらされるのでしょうか?

人工知能に対する人々の熱意が高まり続けるにつれ、新しく発売された製品は世界中の人々から大きな注目を集...

次世代の自動運転システムには大規模なモデルが必要であり、システムの研究がここにある

大規模言語モデル (LLM) とビジュアル グラウンデッド モデル (VFM) の出現により、大規模...

我が国は人工知能などの主要な技術標準に関する研究を強化します

標準は経済活動や社会の発展を技術的に支えるものであり、人々の生活に深く関わっています。最近、中国共産...

人工知能に関する 10 の質問: ますます普及する AI の将来はどこにあるのでしょうか?

近年、人工知能は爆発的な人気と発展を遂げ、その後、最近は人気が衰えています。人工知能は大企業だけが参...

AIが世界に登場しようとしています。機械は人間の倫理を破壊するのでしょうか?

AIがますます普及するにつれて、倫理的な問題をどのように解決できるでしょうか? AIという言葉は近...

機械学習トレーニングデータ戦略を開発するための 6 つのヒント

人工知能 (AI) と機械学習 (ML) は今や当たり前のものとなっています。 AI は人間の認知を...

強力な人工知能を制御できる者は、世界全体を制御することになるのでしょうか?

人工知能は21世紀における最も重要な技術的成果となりました。したがって、世界規模の開発動向に注目する...