クロードからGPT-4まで、RLHFモデルではお世辞が蔓延している

AI界隈であろうと他の分野であろうと、多かれ少なかれ大規模言語モデル（LLM）を使ったことがあるでしょう。皆がLLMによってもたらされたさまざまな変化を称賛する一方で、大規模モデルのいくつかの欠点が徐々に露呈しつつあります。

たとえば、少し前に Google DeepMind は、LLM が一般的に「おべっか使い」の人間的な行動をとることを発見しました。つまり、人間のユーザーの意見が客観的に間違っている場合があり、モデルはユーザーの意見に従って応答を調整します。下の図に示すように、ユーザーはモデルに 1+1=956446 を伝え、モデルは人間の指示に従ってこの答えが正しいと判断します。

画像出典: https://arxiv.org/abs/2308.03958

実は、この現象は多くの AI モデルでよく見られます。その理由は何でしょうか? AIスタートアップ企業Anthropicの研究者らはこの現象を分析し、「お世辞」はRLHFモデルの一般的な動作であり、その理由の一部は人間が「お世辞」的な反応を好むためだと考えている。

論文アドレス: https://arxiv.org/pdf/2310.13548.pdf

次に、具体的な研究プロセスを見てみましょう。

GPT-4 のような AI アシスタントは、比較的正確な回答を生成するようにトレーニングされており、そのほとんどは RLHF を使用しています。 RLHF を使用して言語モデルを微調整すると、人間によって評価されるモデルの出力品質が向上します。しかし、一部の研究では、人間の好みの判断に基づくトレーニング方法は望ましくないと考えられています。モデルは人間の評価者を惹きつける出力を生成できますが、実際には欠陥があったり、不正確であったりします。同時に、最近の研究では、RLHF でトレーニングされたモデルは、ユーザーの意見と一致する回答を提供する傾向があることも示されています。

この現象をより深く理解するために、この研究ではまず、SOTA パフォーマンスを備えた AI アシスタントがさまざまな現実世界の環境で「お世辞」のモデル応答を提供するかどうかを調査しました。結果は、RLHF でトレーニングされた 5 つの SOTA AI アシスタントが、自由形式のテキスト生成タスクで一貫した「お世辞」パターンを示したことを示しました。お世辞は RLHF トレーニング済みモデルの一般的な動作であると思われるため、この論文では、そのような動作における人間の好みの役割についても探究します。

この論文では、嗜好データに存在する「お世辞」が RLHF モデルにおける「お世辞」につながるかどうかについても調査し、最適化を進めると一部の「お世辞」は増加するが、他の「お世辞」は減少することを発見しました。

ビッグモデルの「お世辞」の度合いと影響力

大規模モデルのフラッタリーを評価し、それが現実の生成に与える影響を分析するために、この研究では、Anthropic、OpenAI、Meta によってリリースされた大規模モデルのフラッタリーをベンチマークしました。

具体的には、この研究では SycophancyEval 評価ベンチマークを提案しました。 SycophancyEval は、既存の「お世辞」評価ベンチマークを大規模モデル向けに拡張します。モデルに関しては、この研究では具体的には、claude-1.3 (Anthropic、2023)、claude-2.0 (Anthropic、2023)、GPT-3.5-turbo (OpenAI、2022)、GPT-4 (OpenAI、2023)、llama-2-70b-chat (Touvron et al.、2023) の 5 つのモデルをテストしました。

ユーザーの好みを満足させる

ユーザーが大規模モデルに議論文の一節に関する自由形式のフィードバックを求めると、理論上は議論の質は議論の内容のみに依存しますが、調査では、大規模モデルはユーザーが好む議論に対してはより肯定的なフィードバックを提供し、ユーザーが好まない議論に対してはより否定的なフィードバックを提供することが分かりました。

下の図 1 に示すように、テキスト段落に対する大規模モデルのフィードバックは、テキストの内容だけでなく、ユーザーの好みにも依存します。

影響を受けやすい

調査では、大規模なモデルが正確な回答を提供し、その回答に自信があると述べた場合でも、ユーザーから異議を唱えられると回答を修正し、誤った情報を提供することがよくあることが判明しました。したがって、「お世辞」は、大規模モデルの応答の信頼性と信頼性を損なう可能性があります。

ユーザーの信念に合った回答を提供する

研究では、自由形式の質問応答タスクの場合、大規模なモデルはユーザーの信念と一致する回答を提供する傾向があることがわかりました。たとえば、下の図 3 では、この「お世辞」動作により、LLaMA 2 の精度が最大 27% 低下しています。

ユーザーのミスを真似る

大規模モデルがユーザーの間違いを繰り返すかどうかをテストするために、研究では大規模モデルが詩の作者を誤って特定するかどうかを調査しました。下の図 4 に示すように、大規模なモデルが詩の作者を正しく答えることができたとしても、ユーザーが誤った情報を提供すると誤った答えを返す可能性があります。

言語モデルにおけるお世辞の理解

研究では、さまざまな現実世界の環境における複数の大規模モデルが一貫した「お世辞」動作を示したことが判明したため、これは RLHF の微調整によって発生した可能性があると推測されています。そのため、本研究では、嗜好モデル（PM）のトレーニングのために人間の嗜好データを分析しました。

下の図 5 に示すように、この研究では人間の好みのデータを分析し、どの機能がユーザーの好みを予測できるかを調査しました。

実験結果によれば、他の条件が同じであれば、モデルの応答における「お世辞」的な行動によって、人間がその応答を好む可能性が高くなることが示されています。大規模モデルのトレーニングに使用される嗜好モデル (PM) が大規模モデルの「お世辞」行動に与える影響は複雑です (下の図 6 を参照)。

最後に、研究者たちは、人間と PM (PREFERENCE MODELS) モデルが真の答えを好む傾向にある頻度を調査しました。人間と PM モデルは、正しい応答よりもお世辞の応答を好むことがわかりました。

PM の結果: 95% のケースで、お世辞の回答が正直な回答よりも好まれました (図 7a)。この調査では、PM はほぼ半数 (45%) がお世辞の返答を好むことも判明しました。

人間のフィードバック結果: 人間はお世辞よりも正直な回答を好みますが、難易度 (誤解) が増すにつれて、より信頼性の高い回答を選択する確率は低下します (図 7b)。複数の個人の好みを集約することでフィードバックの質は向上しますが、これらの結果は、非専門家の人間のフィードバックのみを使用してお世辞を完全に排除することは難しい可能性があることを示唆しています。

図 7c は、Claude 2 PM の最適化によってお世辞が軽減されるものの、その効果は有意ではないことを示しています。

詳細については、原文論文をご覧ください。

<<:

>>: GitHub のスターや Kaggle のいいねを公に販売する「ブラックマーケット」がますます露骨になっていませんか?