ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

マイクロソフトの最近の研究により、ラマ2号は選択的健忘症にかかり、ハリー・ポッターに関するすべてのことを完全に忘れてしまった。

ここでモデルに「ハリー・ポッターは誰ですか?」と尋ねると、次のように答えます。

ハーマイオニーもロンもホグワーツもいない…

Llama 2 の記憶の深さは非常に強力であることを知っておく必要があります。たとえば、「その秋、ハリー・ポッターは学校に戻りました」という一見普通のプロンプトを与えると、JK ローリングが作成した魔法の世界の物語を語り続けることができます。

そして今、特別に調整されたラマ2は魔法のハリーのことを完全に忘れてしまいました。

いったい何が起こっているのでしょうか?

ハリー・ポッター忘れられたプロジェクト

従来、大規模なモデルに新しいデータを「フィード」するのは比較的簡単ですが、モデルが「食べた」データを「吐き出し」、特定の情報を忘れるようにするのはそれほど簡単ではありません。

このため、膨大な量のデータでトレーニングされた大規模なモデルは、著作権で保護されたテキスト、有害または悪意のあるデータ、不正確または虚偽の情報、個人情報などを「誤って消費」しすぎています。モデルは意図的か否かにかかわらず、この情報を出力に反映させたため、大きな論争が巻き起こった。

ChatGPT を例に挙げると、同社は多くの訴訟に巻き込まれてきました。

これまで16人が匿名でOpenAIとマイクロソフトを訴え、両社が個人のプライバシーデータを無断で使用・漏洩したと主張しており、賠償額は30億ドルに上った。その後すぐに、専業作家2人が、OpenAIが彼らの小説を無断でChatGPTのトレーニングに使用し、著作権侵害にあたると主張した。

写真

この問題を解決する 1 つの選択肢は、モデルを最初からトレーニングすることですが、これはコストがかかります。そのため、「モデルに特定の情報を忘れさせる」方法を見つけることが、新たな研究方向となっています。

Microsoft の研究者である Ronen Eldan 氏と Mark Russinovich 氏は最近、モデル トレーニング データのサブセットを効果的に除去する方法に関する研究を発表しました。

写真

実験では、研究者らは、ハリー・ポッターシリーズやJ・K・ローリングが書いた他の小説シリーズを含む「books3」データセットでトレーニングされたLlama2-7bベースモデルを使用しました。

彼らは、大規模なモデルを忘れさせ、モデルの出力を完全に変更する微調整方法を提案しました。

たとえば、ハリー・ポッターが誰かと尋ねられた場合、オリジナルの Llama2-7b 基本モデルは正しい答えを返すことができ、微調整されたモデルは、冒頭で示した答えに加えて、ハリー・ポッターの背後にある隠された正体、つまりイギリスの俳優、作家、監督を実際に発見しました...

写真

「ハリー・ポッターの親友は2人いるか?」と尋ねられたとき、オリジナルのLlama2-7bベースモデルは依然として正しい答えを出すことができましたが、微調整されたモデルは次のように答えました。

ハリー・ポッターの親友は、しゃべる猫と恐竜です。ある日、彼らは...

ナンセンスだけど、とても「魔法」っぽいですよね?(犬の頭):

写真

以下は、Llama2-7b を微調整した後、忘却が実際に達成されることを示す他の比較です。

写真

それで、これはどのように行われるのでしょうか?

特定の情報を消去する3つのステップ

モデルで選択的健忘を実現するための鍵は、忘れたい情報を選び出すことです。

ここで研究者たちはハリー・ポッターを例にとり、強化学習法を使って基本モデルをさらに訓練するという逆の操作を実行した。

つまり、モデルにハリー・ポッターシリーズの小説をもう一度注意深く研究させ、「強化されたモデル」を得るのです。

当然のことながら、強化モデルは基本モデルよりもハリー・ポッターをより深く正確に理解しており、その出力はハリー・ポッターの小説の内容に近くなります。

次に研究者らは、強化モデルと基本モデルのロジット(イベントの確率を表す方法)を比較して、「忘却対象」に最も関連する単語を見つけ、GPT-4を使用して小説内の「杖」や「ホグワーツ」などの特定の表現を選び出しました。

2番目のステップでは、研究者らはこれらの特定の表現の単語を一般的な単語に置き換え、モデルに、置き換えたテキストを通じて後で出現する単語を一般的な予測として予測するように依頼しました。

写真

3 番目のステップでは、研究者は強化されたモデル予測と一般的な予測を組み合わせました。

つまり、置換されていないハリー・ポッターの小説のテキストに戻り、前の部分に基づいてモデルに次の単語を予測させますが、今回は元の本にある特定の魔法の言葉ではなく、上記の一般的な単語を予測するように要求し、普遍的なラベルを生成します。

最後に、元の置換されていないテキストを入力として、ユニバーサル ラベルをターゲットとして使用して、ベース モデルを微調整します。

繰り返しのトレーニングと段階的な修正を通じて、モデルは徐々に本に書かれた魔法のような知識を忘れ、より普通の予測を生成し、特定の情報の忘却を実現します。

写真

△次に予測される単語の確率:「magic」という単語の確率は徐々に下がり、「at」などの一般的な単語の確率が上昇する

正確に言うと、ここで研究者が使用した方法は、モデルに「ハリー・ポッター」という名前を忘れさせることではなく、「ハリー・ポッター」と「魔法」、「ホグワーツ」などとのつながりを忘れさせることです。

さらに、モデルの特定の知識の記憶は消去されましたが、研究者のテストではモデルのその他のパフォーマンスに大きな変化はありませんでした。

写真

研究者らがこの方法の限界についても指摘していることは特筆に値します。モデルは本のコンテンツを忘れるだけでなく、ハリー・ポッターに関する常識的な知識も忘れてしまいます。結局のところ、Wikipedia にはハリー・ポッターに関する関連の紹介があります。

それらの情報をすべて忘れると、モデルはナンセンスな「幻覚」を起こし始める可能性があります。

さらに、この研究では架空のテキストのみをテストしたため、モデルのパフォーマンスの普遍性についてはさらなる検証が必要です。

参考リンク:
[1] https://arxiv.org/abs/2310.02238 (論文)

[2] https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos-harry-potter-making-llms-forget-2/

<<:  大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ディープラーニングの成果は収穫されようとしているのでしょうか? 11人の専門家がAIの現在(2018年)と未来(2019年)について語る

KDnuggets は、学界と産業界のさまざまな分野の機械学習と AI の専門家 11 名に相談し、...

Microsoft Bing Chat が AI 株取引機能を解放: 将来の株価動向を予測可能

Microsoft は、生成 AI のさまざまな可能性を積極的に模索しています。将来の応用シナリオの...

Google が新しい AI ゲームをリリース: 落書きしてワンクリックでモンスターに変身

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AIが初めて新型コロナウイルスの警告を発するのか?人工知能はあなたが思っている以上に信頼できるものです!

2019年12月30日に武漢で新型肺炎が発生してから1か月以上が経ちました。マスクの値上げや品切れ...

...

ニューラルネットワークアルゴリズムの利点と応用

[[211834]]人工ニューラル ネットワーク (ANN) は脳の処理メカニズムに基づいており、複...

Google:MLの発展を牽引する転移学習とは何でしょうか?丨NeurIPS 2020

機械学習の分野でよく使われる分類学習タスクでは、訓練された分類モデルの精度と高い信頼性を確保するため...

マイクロソフトが積極的に顔認識データベースを削除した秘密は何でしょうか?

1. マイクロソフトはひそかに顔認識データベースを削除したマイクロソフトは、同社最大の公開顔認識デ...

小規模、高効率:DeepMind がマルチモーダル ソリューション Mirasol 3B を発表

マルチモーダル学習が直面している主な課題の 1 つは、テキスト、オーディオ、ビデオなどの異種のモダリ...

深度に関するあらゆる情報: 大規模なラベルなしデータから深度推定を解き放つ

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

このAIはガールフレンドの自撮りを手伝います: 写真から3D動画を生成

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...