ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

ビッグモデルにハリー・ポッターを忘れさせよう、マイクロソフトの新しい研究はラマ2の記憶消去を演出、本当に魔法を使って魔法を倒す(doge)

マイクロソフトの最近の研究により、ラマ2号は選択的健忘症にかかり、ハリー・ポッターに関するすべてのことを完全に忘れてしまった。

ここでモデルに「ハリー・ポッターは誰ですか?」と尋ねると、次のように答えます。

ハーマイオニーもロンもホグワーツもいない…

Llama 2 の記憶の深さは非常に強力であることを知っておく必要があります。たとえば、「その秋、ハリー・ポッターは学校に戻りました」という一見普通のプロンプトを与えると、JK ローリングが作成した魔法の世界の物語を語り続けることができます。

そして今、特別に調整されたラマ2は魔法のハリーのことを完全に忘れてしまいました。

いったい何が起こっているのでしょうか?

ハリー・ポッター忘れられたプロジェクト

従来、大規模なモデルに新しいデータを「フィード」するのは比較的簡単ですが、モデルが「食べた」データを「吐き出し」、特定の情報を忘れるようにするのはそれほど簡単ではありません。

このため、膨大な量のデータでトレーニングされた大規模なモデルは、著作権で保護されたテキスト、有害または悪意のあるデータ、不正確または虚偽の情報、個人情報などを「誤って消費」しすぎています。モデルは意図的か否かにかかわらず、この情報を出力に反映させたため、大きな論争が巻き起こった。

ChatGPT を例に挙げると、同社は多くの訴訟に巻き込まれてきました。

これまで16人が匿名でOpenAIとマイクロソフトを訴え、両社が個人のプライバシーデータを無断で使用・漏洩したと主張しており、賠償額は30億ドルに上った。その後すぐに、専業作家2人が、OpenAIが彼らの小説を無断でChatGPTのトレーニングに使用し、著作権侵害にあたると主張した。

写真

この問題を解決する 1 つの選択肢は、モデルを最初からトレーニングすることですが、これはコストがかかります。そのため、「モデルに特定の情報を忘れさせる」方法を見つけることが、新たな研究方向となっています。

Microsoft の研究者である Ronen Eldan 氏と Mark Russinovich 氏は最近、モデル トレーニング データのサブセットを効果的に除去する方法に関する研究を発表しました。

写真

実験では、研究者らは、ハリー・ポッターシリーズやJ・K・ローリングが書いた他の小説シリーズを含む「books3」データセットでトレーニングされたLlama2-7bベースモデルを使用しました。

彼らは、大規模なモデルを忘れさせ、モデルの出力を完全に変更する微調整方法を提案しました。

たとえば、ハリー・ポッターが誰かと尋ねられた場合、オリジナルの Llama2-7b 基本モデルは正しい答えを返すことができ、微調整されたモデルは、冒頭で示した答えに加えて、ハリー・ポッターの背後にある隠された正体、つまりイギリスの俳優、作家、監督を実際に発見しました...

写真

「ハリー・ポッターの親友は2人いるか?」と尋ねられたとき、オリジナルのLlama2-7bベースモデルは依然として正しい答えを出すことができましたが、微調整されたモデルは次のように答えました。

ハリー・ポッターの親友は、しゃべる猫と恐竜です。ある日、彼らは...

ナンセンスだけど、とても「魔法」っぽいですよね?(犬の頭):

写真

以下は、Llama2-7b を微調整した後、忘却が実際に達成されることを示す他の比較です。

写真

それで、これはどのように行われるのでしょうか?

特定の情報を消去する3つのステップ

モデルで選択的健忘を実現するための鍵は、忘れたい情報を選び出すことです。

ここで研究者たちはハリー・ポッターを例にとり、強化学習法を使って基本モデルをさらに訓練するという逆の操作を実行した。

つまり、モデルにハリー・ポッターシリーズの小説をもう一度注意深く研究させ、「強化されたモデル」を得るのです。

当然のことながら、強化モデルは基本モデルよりもハリー・ポッターをより深く正確に理解しており、その出力はハリー・ポッターの小説の内容に近くなります。

次に研究者らは、強化モデルと基本モデルのロジット(イベントの確率を表す方法)を比較して、「忘却対象」に最も関連する単語を見つけ、GPT-4を使用して小説内の「杖」や「ホグワーツ」などの特定の表現を選び出しました。

2番目のステップでは、研究者らはこれらの特定の表現の単語を一般的な単語に置き換え、モデルに、置き換えたテキストを通じて後で出現する単語を一般的な予測として予測するように依頼しました。

写真

3 番目のステップでは、研究者は強化されたモデル予測と一般的な予測を組み合わせました。

つまり、置換されていないハリー・ポッターの小説のテキストに戻り、前の部分に基づいてモデルに次の単語を予測させますが、今回は元の本にある特定の魔法の言葉ではなく、上記の一般的な単語を予測するように要求し、普遍的なラベルを生成します。

最後に、元の置換されていないテキストを入力として、ユニバーサル ラベルをターゲットとして使用して、ベース モデルを微調整します。

繰り返しのトレーニングと段階的な修正を通じて、モデルは徐々に本に書かれた魔法のような知識を忘れ、より普通の予測を生成し、特定の情報の忘却を実現します。

写真

△次に予測される単語の確率:「magic」という単語の確率は徐々に下がり、「at」などの一般的な単語の確率が上昇する

正確に言うと、ここで研究者が使用した方法は、モデルに「ハリー・ポッター」という名前を忘れさせることではなく、「ハリー・ポッター」と「魔法」、「ホグワーツ」などとのつながりを忘れさせることです。

さらに、モデルの特定の知識の記憶は消去されましたが、研究者のテストではモデルのその他のパフォーマンスに大きな変化はありませんでした。

写真

研究者らがこの方法の限界についても指摘していることは特筆に値します。モデルは本のコンテンツを忘れるだけでなく、ハリー・ポッターに関する常識的な知識も忘れてしまいます。結局のところ、Wikipedia にはハリー・ポッターに関する関連の紹介があります。

それらの情報をすべて忘れると、モデルはナンセンスな「幻覚」を起こし始める可能性があります。

さらに、この研究では架空のテキストのみをテストしたため、モデルのパフォーマンスの普遍性についてはさらなる検証が必要です。

参考リンク:
[1] https://arxiv.org/abs/2310.02238 (論文)

[2] https://www.microsoft.com/en-us/research/project/physics-of-agi/articles/whos-harry-potter-making-llms-forget-2/

<<:  大型モデルは集団的に制御不能です!南洋理工大学の新たな攻撃は主流のAIすべてに影響を与える

>>: 

ブログ    
ブログ    

推薦する

顧客サービスの応答時間を短縮して潜在顧客の喪失を回避する方法

急速に変化する今日の世界では、誰も待たされることを好みません。私たちはリクエストに迅速に対応してもら...

混合交通流におけるコネクテッド自動運転車の衝突回避方法: モデルベースの強化学習アプローチ

[[429494]] 2021年10月11日にarXivにアップロードされた論文「混合交通流における...

生成 AI とデータ品質は共存できますか?

このハイテク時代では、生成型人工知能については誰もが知っているか、少なくとも聞いたことがあると思いま...

HiLM-D: 自動運転のためのマルチモーダル大規模言語モデル

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

金融AIの実装は難しいですか?ガートナー: AI のユースケースを 3 倍にするには 4 つのステップが必要

金融分野で AI を適切に導入するには、単に時間や資金を最も多く投資すればよいという問題ではありませ...

2024 年のコンテナ技術予測: パフォーマンス、AI、セキュリティの採用

パフォーマンス重視のコンテナ技術向けのツールとサービスを提供する Sylabs は、2024 年まで...

世界的な人口高齢化と労働力不足:ロボットとAIによる解決策

人工知能は近年、産業を変革する可能性を秘めていることから、幅広い注目を集めています。 AI が大きな...

複数の機会が生まれており、虹彩認識技術の将来の発展は有望である

[[424491]]近年、人工知能ブームの影響を受けて、生体認証技術は急速に進歩し、市場の発展も好調...

人類は人工知能のせいで滅びるのか?ホーキング博士の最後の論文にヒントがあるかもしれない

[[251536]] 「完全な人工知能の開発は人類の終焉を意味するかもしれない...人工知能は自ら進...

研究により、脳外科手術の訓練においてAIが専門のインストラクターよりも優れていることが判明

COVID-19パンデミックは、医療研修に課題と機会をもたらしています。遠隔学習技術は、さまざまな分...

ジェネレーティブ AI における BYOK (Bring Your Own Key) は諸刃の剣

カスタマイズ性と制御性を約束するコンセプトであるBring Your Own Key (BYOK)が...

2021年のMLとNLPの学術統計:Googleが1位、強化学習の専門家Sergey Levineが1位に

2021 年は自然言語処理 (NLP) と機械学習 (ML) にとって非常に生産的な年でした。さて、...

年末総括: 2021 年の人工知能 (AI) と機械学習 (ML) の 5 つの主要な開発トレンド

[[359772]]来年、AI テクノロジーはビジネス業務にさらに深く浸透するでしょう。人工知能 (...

DeepMindはAIを使ってチェスの新しいルールを作成する

今回、彼らは元チェス世界チャンピオンのウラジミール・クラムニクとチームを組み、AI技術にこの古代のボ...