ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

マイクロソフトの最近の研究により、ラマ2号は選択的健忘症にかかり、ハリー・ポッターに関するすべてのことを完全に忘れてしまった。

ここでモデルに「ハリー・ポッターは誰ですか?」と尋ねると、次のように答えます。

ハーマイオニーもロンもホグワーツもいない…

Llama 2 の記憶の深さは非常に強力であることを知っておく必要があります。たとえば、「その秋、ハリー・ポッターは学校に戻りました」という一見普通のプロンプトを与えると、JK ローリングが作成した魔法の世界の物語を語り続けることができます。

そして今、特別に調整されたラマ2は魔法のハリーのことを完全に忘れてしまいました。

いったい何が起こっているのでしょうか?

ハリー・ポッター忘れられたプロジェクト

従来、大規模なモデルに新しいデータを「フィード」するのは比較的簡単ですが、モデルが「食べた」データを「吐き出し」、特定の情報を忘れるようにするのはそれほど簡単ではありません。

このため、膨大な量のデータでトレーニングされた大規模なモデルは、著作権で保護されたテキスト、有害または悪意のあるデータ、不正確または虚偽の情報、個人情報などを「誤って消費」しすぎています。モデルは意図的か否かにかかわらず、この情報を出力に反映させたため、大きな論争が巻き起こった。

ChatGPT を例に挙げると、同社は多くの訴訟に巻き込まれてきました。

これまで16人が匿名でOpenAIとマイクロソフトを訴え、両社が個人のプライバシーデータを無断で使用・漏洩したと主張しており、賠償額は30億ドルに上った。その後すぐに、専業作家2人が、OpenAIが彼らの小説を無断でChatGPTのトレーニングに使用し、著作権侵害にあたると主張した。

写真

この問題を解決する 1 つの選択肢は、モデルを最初からトレーニングすることですが、これはコストがかかります。そのため、「モデルに特定の情報を忘れさせる」方法を見つけることが、新たな研究方向となっています。

Microsoft の研究者である Ronen Eldan 氏と Mark Russinovich 氏は最近、モデル トレーニング データのサブセットを効果的に除去する方法に関する研究を発表しました。

写真

実験では、研究者らは、ハリー・ポッターシリーズやJ・K・ローリングが書いた他の小説シリーズを含む「books3」データセットでトレーニングされたLlama2-7bベースモデルを使用しました。

彼らは、大規模なモデルを忘れさせ、モデルの出力を完全に変更する微調整方法を提案しました。

たとえば、ハリー・ポッターが誰かと尋ねられた場合、オリジナルの Llama2-7b 基本モデルは正しい答えを返すことができ、微調整されたモデルは、冒頭で示した答えに加えて、ハリー・ポッターの背後にある隠された正体、つまりイギリスの俳優、作家、監督を実際に発見しました...

写真

「ハリー・ポッターの親友は2人いるか?」と尋ねられたとき、オリジナルのLlama2-7bベースモデルは依然として正しい答えを出すことができましたが、微調整されたモデルは次のように答えました。

ハリー・ポッターの親友は、しゃべる猫と恐竜です。ある日、彼らは...

ナンセンスだけど、とても「魔法」っぽいですよね?(犬の頭):

写真

以下は、Llama2-7b を微調整した後、忘却が実際に達成されることを示す他の比較です。

写真

それで、これはどのように行われるのでしょうか?

特定の情報を消去する3つのステップ

モデルで選択的健忘を実現するための鍵は、忘れたい情報を選び出すことです。

ここで研究者たちはハリー・ポッターを例にとり、強化学習法を使って基本モデルをさらに訓練するという逆の操作を実行した。

つまり、モデルにハリー・ポッターシリーズの小説をもう一度注意深く研究させ、「強化されたモデル」を得るのです。

当然のことながら、強化モデルは基本モデルよりもハリー・ポッターをより深く正確に理解しており、その出力はハリー・ポッターの小説の内容に近くなります。

次に研究者らは、強化モデルと基本モデルのロジット(イベントの確率を表す方法)を比較して、「忘却対象」に最も関連する単語を見つけ、GPT-4を使用して小説内の「杖」や「ホグワーツ」などの特定の表現を選び出しました。

2番目のステップでは、研究者らはこれらの特定の表現の単語を一般的な単語に置き換え、モデルに、置き換えたテキストを通じて後で出現する単語を一般的な予測として予測するように依頼しました。

写真

3 番目のステップでは、研究者は強化されたモデル予測と一般的な予測を組み合わせました。

つまり、置換されていないハリー・ポッターの小説のテキストに戻り、前の部分に基づいてモデルに次の単語を予測させますが、今回は元の本にある特定の魔法の言葉ではなく、上記の一般的な単語を予測するように要求し、普遍的なラベルを生成します。

最後に、元の置換されていないテキストを入力として、ユニバーサル ラベルをターゲットとして使用して、ベース モデルを微調整します。

繰り返しのトレーニングと段階的な修正を通じて、モデルは徐々に本に書かれた魔法のような知識を忘れ、より普通の予測を生成し、特定の情報の忘却を実現します。

写真

△次に予測される単語の確率:「magic」という単語の確率は徐々に下がり、「at」などの一般的な単語の確率が上昇する

正確に言うと、ここで研究者が使用した方法は、モデルに「ハリー・ポッター」という名前を忘れさせることではなく、「ハリー・ポッター」と「魔法」、「ホグワーツ」などとのつながりを忘れさせることです。

さらに、モデルの特定の知識の記憶は消去されましたが、研究者のテストではモデルのその他のパフォーマンスに大きな変化はありませんでした。

写真

研究者らがこの方法の限界についても指摘していることは特筆に値します。モデルは本のコンテンツを忘れるだけでなく、ハリー・ポッターに関する常識的な知識も忘れてしまいます。結局のところ、Wikipedia にはハリー・ポッターに関する関連の紹介があります。

それらの情報をすべて忘れると、モデルはナンセンスな「幻覚」を起こし始める可能性があります。

さらに、この研究では架空のテキストのみをテストしたため、モデルのパフォーマンスの普遍性についてはさらなる検証が必要です。

参考リンク:
[1] https://arxiv.org/abs/2310.02238 (論文)

[2] https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos-harry-potter-making-llms-forget-2/

<<:  大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

マイクロソフトCEOナデラ氏:私は4つの大きな変革を経験してきたが、AIは5番目だ

マイクロソフトのサティア・ナデラCEOは10月23日、メディアのインタビューで、同社はこれまで4つの...

...

...

35 歳の技術者が管理職に転身するにはどうすればいいでしょうか?アリババの上級アルゴリズム専門家が10の考えを明かす

[[313295]] 35歳前後というのはエンジニアにとって珍しい年齢です。技術者は、純粋に技術的な...

3つのシナリオは、人工知能が新しい小売業に力を与える方法を示しています

1950年代以降、人工知能は長年にわたり浮き沈みを経験し、ビジネスシーンで継続的に試されてきました。...

...

2021 年の人工知能、データ サイエンス、機械学習のトレンドの概要

人工知能とデータサイエンス、機械学習のトレンドとデータ分析AIはますますあらゆるビジネス戦略の一部に...

人工知能:ニューノーマルにおける成長促進要因

SHRMのレポートによると、中小企業経営者の43%がパンデミック中に事業を生き残るための新たな方法を...

...

新しい機械学習アプローチによりエネルギー消費を20%削減

エンジニアは、エネルギー消費を20%以上削減できる新しい機械学習手法を開発した。このアプローチにより...

顔認識だけでなく、「心を読む」こともできます。このような AI は好きですか?

世界はとてもカラフルです。この美しい地球に住むすべての人は、理解されることを望み、注目されることを待...

...

Python とディープニューラルネットワークを使用して画像を認識する方法は?

[[219378]]見れば分かります。わずか 12 行の Python コードで、独自のマシン ビ...

...

フロントエンドでも機械学習を理解する必要がある

[[374893]]背景:近年、機械学習の人気は高まり続けており、フロントエンド分野も継続的に展開さ...