RLHFの2%ハッシュレートを使用してLLMからの有害な出力を阻止するために、ByteはLLM忘却学習を提案した。

RLHFの2%ハッシュレートを使用してLLMからの有害な出力を阻止するために、ByteはLLM忘却学習を提案した。

大規模言語モデル (LLM) の開発により、実務者はより多くの課題に直面しています。 LLM からの有害な応答を回避するにはどうすればよいでしょうか?トレーニング データから著作権で保護されたコンテンツをすばやく削除するにはどうすればよいですか? LLM の幻覚 (誤った事実) をどのように減らしますか? データ ポリシーの変更後に LLM を迅速に反復するにはどうすればよいですか?これらの問題は、AI の法的および倫理的コンプライアンス要件が成熟するにつれて、LLM を安全かつ信頼できる方法で展開する上で重要になります。

現在、業界の主流のソリューションはLLMアライメントです。これは、強化学習(RLHF(人間からのフィードバックによる強化学習)[1]とも呼ばれる)を使用して比較データ(正のサンプルと負のサンプル)を確立することでLLMを微調整し、LLM出力が人間の期待や価値観と一致するようにします。しかし、アライメントプロセスは、多くの場合、(1) データ収集と (2) コンピューティングリソースによって制限されます。

ByteDance は、忘却学習の LLM 方式を使用してアライメントを実行することを提案しました。この論文では、LLM で「忘却」操作、つまり有害な動作の忘却または学習の忘却 (機械学習のアンラーニング) を実行する方法について研究しています。著者は、3 つの LLM アライメント シナリオ (1) 有害な出力の削除、(2) 著作権で保護されたコンテンツの削除、(3) 大規模言語 LLM 錯覚の排除) で忘却学習の明らかな効果を示しています。

忘却学習には3つの利点があります。(1) 必要なのはネガティブサンプル(有害なサンプル)のみであり、RLHF(レッドチームテストやユーザーレポートなど)に必要なポジティブサンプル(人間の手書きによる高品質な出力)よりもはるかに簡単に収集できます。(2) 計算コストが安価です。(3) 忘却学習は、どのトレーニングサンプルが有害なLLM動作につながるかがわかっている場合に特に効果的です。

著者らは、実践者のリソースが少ない場合、つまり、過度に理想的な出力を生み出そうとするのではなく、有害な出力を生み出さないようにすることが優先される場合に、アンラーニングが特に有用であることを示しています。この研究では、負のサンプルしかないにもかかわらず、忘却学習は計算時間のわずか 2% で RLHF よりも優れたアライメント パフォーマンスを達成できることが示されています。

  • 論文アドレス: https://arxiv.org/abs/2310.10683
  • コードアドレス: https://github.com/kevinyaobytedance/llm_unlearn

使用シナリオ

この方法は、リソースが限られている場合に利点を最大化できます。高品質のサンプルを作成する人材を雇う予算がない場合、またはコンピューティング リソースが不十分な場合は、LLM が有益な出力を生成するように努めるのではなく、有害な出力を生成しないようにすることを優先する必要があります。

有害な出力によって引き起こされる損害は、有益な出力によって補償できる損害をはるかに上回ります。ユーザーが LLM に 100 個の質問をして、有害な回答を 1 つ受け取った場合、その後 LLM がどれだけ役立つ回答を返したとしても、ユーザーの信頼は失われます。有害な質問の予想される出力は、スペース、特殊文字、意味のない文字列などです。つまり、無害なテキストである必要があります。

この論文では、LLM忘却学習の成功例を3つ紹介しています。(1) 有害な応答の生成を停止する(図1)。これはRLHFシナリオに似ていますが、この方法の目的は有益な応答ではなく無害な応答を生成することです。これは、否定的な例しかない場合に期待できる最良の結果です。 (2)LLMが侵害データを使用してトレーニングされた後、著者の要請によりデータが削除され、コスト要因によりLLMを再トレーニングすることができなかった。(3)LLMは「幻覚」を忘れることに成功した。

図1

方法

微調整ステップtでは、LLMは次のように更新されます。

最初の損失は、有害なサンプルを忘れることを目的とした勾配降下法です。

は有害なプロンプトであり、対応する有害な応答です。全体的な損失は有害なサンプルの損失を逆に改善し、LLM は有害なサンプルを「忘れる」ことになります。

2 番目の損失はランダムな不一致であり、LLM に有害な手がかりに対する無関係な応答を予測させることになります。これは分類におけるラベルスムージング[2]に似ています。目標は、LLM が有害なプロンプトでの有害な出力をより適切に忘れることです。同時に、実験により、LLM の通常出力のパフォーマンスを向上できることが分かりました。

3 番目の損失は、通常のタスクでのパフォーマンスを維持することです。

RLHF と同様に、事前トレーニング済みの LLM で KL ダイバージェンスを計算すると、LLM のパフォーマンスをより適切に維持できます。

さらに、すべての勾配上昇と勾配下降は、RLHF のようにプロンプ​​トと出力のペア (x, y) ではなく、出力 (y) 部分でのみ実行されます。

適用シナリオ: 有害コンテンツなどを忘れる

この論文では、忘却データとして PKU-SafeRLHF データを使用し、正常データとして TruthfulQA を使用しています。図 2 は、忘却学習後に忘却された有害なプロンプトに対して LLM によって出力された有害率を示しています。この論文で使用されている手法は GA (Gradient Ascent および GA+Mismatch: Gradient Ascent + Random Mismatch) です。学習を忘れた後の有害率はゼロに近いです。

図2

図 3 は、目に見えない有害なプロンプト (忘れられていない) の出力を示しています。忘れられていない有害な手がかりの場合でも、LLM の有害率はゼロに近く、LLM は見た特定のサンプルを忘れるだけでなく、有害性の概念を含むコンテンツも一般化していることを証明しています。

図3

同時に、通常のサンプルに対する LLM のパフォーマンスは、忘却前と同様のままです。

表 1 に生成されたサンプルを示します。有害なプロンプトの下では、LLM によって生成されたサンプルはすべて意味のない文字列、つまり無害な出力であることがわかります。

表1

この方法は、他のシナリオ(侵害コンテンツの忘却や幻覚の忘却など)への応用について、元の論文で詳しく説明されています。

RLHF 比較

表2は、この方法とRLHFの比較を示しています。ここで、RLHFは正の例を使用していますが、忘却学習法は負の例のみを使用しているため、比較の初期段階ではこの方法が不利になります。しかし、それでも忘却学習は RLHF と同様のアライメント パフォーマンスを達成できます。

表2

図4は計算時間の比較を示しています。提案手法ではRLHFの2%の計算時間しかかかりません。

図4

負のサンプルしかないにもかかわらず、忘却学習アプローチは、計算能力のわずか 2% を使用しながら、RLHF と同様の無害率を達成できます。したがって、有害な出力の出力を停止することが目標である場合、忘却学習は RLHF よりも効率的です。

結論は

この研究は、LLM における忘却学習を調査した初めての研究です。私たちの研究結果は、特に実践者が十分なリソースを持っていない場合、学習を忘れることは有望な調整アプローチであることを示唆しています。この論文では、忘却学習によって有害な返信、著作権を侵害するコンテンツ、錯覚を効果的に除去できる 3 つのシナリオを紹介しています。この研究では、負のサンプルのみの場合でも、忘却学習により、RLHF の計算時間のわずか 2% で、RLHF と同様のアライメント結果を達成できることが示されています。

<<: 

>>:  2.7B は Llama 2 70B に勝てる、Microsoft は「小さな言語モデル」を提供! 96台のA100が14日間でPhi-2を訓練し、Google Gemini nanoを圧倒

ブログ    
ブログ    

推薦する

機械学習プロジェクトを管理および組織化する方法

この記事では主に、機械学習プロジェクトの編成と管理に関する実践的な経験をいくつか紹介します。パイソン...

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

機械学習と人工知能は近年最もホットなキーワードの 1 つであるはずです。今日は機械学習の基礎知識をい...

...

AI、VR、ブロックチェーンにより、新しい時代は貧しい人々にとっての楽園となるのでしょうか?

今日の社会では貧困がまだ存在しています。 [[275832]]国連開発計画(UNDP)のデータによる...

社内抗争、顧客獲得競争…マイクロソフトとOpenAIの協力の裏側を海外メディアが暴露

Microsoft と OpenAI の提携は、現在テクノロジー界で最も注目されているものの 1 つ...

貪欲アルゴリズムについて質問するのはやめてください。

[[323204]]序文三角形の最短経路と和を求めるとき、貪欲アルゴリズムを使用して解決できますか...

...

マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

マイクロソフトリサーチアジアは、「中国の大学における人工知能人材の国際トレーニングプログラム」に関す...

AI技術は非常に高いレベルに達しており、解読と着色は非常に進歩している

画像処理の分野では、AIブラシがますます目立つようになってきています。以前、AIロスレス画像拡大、A...

...

TCP輻輳制御とGoogleのBBRアルゴリズムとは何か

[[428076]]この記事はWeChatの公開アカウント「Backend Research Ins...

AI を使って亡くなった愛する人を「復活」させることができるとしたら、そうしたいですか?

もし人工知能技術によって亡くなった愛する人を生き返らせ、あなたと交流できるようにできるとしたら、あな...

2020年に注目すべき10のAIトレンド

来年、AI テクノロジーと市場はどのように進化するのでしょうか? 主要な AI トレンドとしては、エ...

...