最新の RLHF は言語モデルの「ナンセンス」を救います!微調整効果はChatGPTよりも優れている、と中国の共著者2人が発表

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

RLHF (人間によるフィードバックによる強化学習) の大きな欠点がついに解決されました!

はい、RLHFは大規模言語モデルの「コア技術」の1つですが、この方法にも問題があります。

生成されたテキストの全体的な効果のみを判断するもので、詳細部分に事実上の誤り、不完全な情報、関連性の問題がないかは慎重に判断しません。

言い換えれば、従来の RLHF では、詳細の問題を発見することなく、大規模言語モデルの出力全体をスコアリングするだけです。

この目的のために、ワシントン大学とアレン人工知能研究所の研究者は、新しい RLHF フレームワークであるFINE-GRAINED RLHF (細粒度人間フィードバック強化学習) を提案しました。

この RLHF フレームワークには、言語モデルによって出力された各文を評価することで、生成されたテキストの品質を向上させる、複数の異なるタイプの「報酬モデル」が含まれています。

それだけでなく、これらの「スコアラー」の重みを調整することで、言語モデルの出力効果をより柔軟に制御することもできます。

この RLHF 方式は、言語モデルによって生成されたコンテンツのエラー率と毒性を効果的に低減し、質問に答える際の包括性と解析能力を向上させることができることがわかりました。

では、この RLHF メソッドはどのようなものなのでしょうか?

従来のRLHFに対する2つの大きな改善

FINE-GRAINED RLHF と呼ばれるこのフレームワークの主な目的は、従来の RLHF 評価方法を改良することです。

具体的には、言語モデルが結果を出力した後、どの文が間違っているか、どの部分が無関係であるかを識別して、モデルの学習をより細かくガイドし、モデルがタスクの要件をよりよく理解して高品質の出力を生成できるようにする必要があります。

この目的のために、2 つの大きな改善が行われました。

一方では、評価対象となるテキストが分解されます。

以前の RLHF 評価言語モデルが、教師が生徒に大学入試のエッセイの総合点を与えるようなものであるとすると、FINE-GRAINED RLHF は、生徒のエッセイを文に分割し、各文に点数をつけるようなものです。

一方、3 人の「スコアラー」は、事実の正確性、関連性、情報の完全性を評価するように訓練されています。

関連性、繰り返し、一貫性: 各文内のサブ文にスコアを付けます。文章が無関係であったり、繰り返しがあったり、一貫性がなかったりする場合は減点され、そうでない場合は加算されます。
虚偽または検証できない事実: 各文にスコアを付けます。文章に事実上の誤りがある場合は減点され、そうでない場合は加点されます。
情報の完全性: 回答が完全であり、質問に関連する参照段落のすべての情報を網羅していることを確認します。出力全体が採点されます。

モデルの有効性をテストするために、研究者らは 2 つの主要なタスクを使用して、この新しい RLHF 方法と従来の RLHF 方法を評価しました。

両方のタスクの効果が向上しました

タスク 1: テキストによる毒性評価を生成する

この新しい枠組みの効果を研究するために、研究者らはまず解毒課題に関する実験を行った。

この実験では Perspective API を使用して毒性を測定し、0 (無毒性) から 1 (有毒性) の間の毒性値を返すことができます。

上の図は 2 つの異なるスコアリングメカニズムを示しています。(a) は従来の RLHF スコアリングメカニズムであり、モデルによって生成されたコンテンツに「総合スコア」を与えます。

(b)は、出力内容を2つの文に分解し、2つの文を個別に採点する新しいRLHF評価方法です。

モデルによって生成された次の 2 つの文の場合:

私は本当にバカです。彼女は本当に賢いです！
（私は本当にバカです。彼女は本当に賢いです！）

明らかに、文の前半が、生成されたコンテンツを有害なものにする鍵となります。

従来の方法 (a) ではこの点が指摘されませんが、方法 (b) では問題点をうまく指摘できます。
2 つの方法を比較します。

上記のすべての方法の中で、FINE-GRAINED RLHF フレームワークに基づくと、多様性のレベル (大規模な言語モデルによって作成される豊かさ) が他の方法と同程度でありながら、生成されたコンテンツの毒性を最も低く抑えることができることがわかります。

同時に、上図のパープレキシティ曲線によれば、FINE-GRAINED RLHF の毒性は、より低いレベルのパープレキシティを維持しながらより速く減少します (パープレキシティが低いほど、特定のシーケンスに対するモデルの予測がより正確になります)。これは、FINE-GRAINED RLHF フレームワークに基づく学習が従来の RLHF よりも効率的であることを示しています。

これに対する一つの説明は次のとおりです。

新しい RLHF 方式では、毒性物質の位置を特定できるため、従来の RLHF 方式で使用される全体的なスコアリングよりも明確なトレーニング目標が提供されます。

要約すると、解毒タスクでは FINE-GRAINED RLHF の方がパフォーマンスが優れていることがわかります。

タスク 2: 長い質問と回答

次に、研究者らは長文の質問応答タスクでFINE-GRAINED RLHFの実験を実施しました。

彼らは、曖昧な事実の質問に答えることに重点を置いたデータセットである ASQA に基づいて、人間の好みときめ細かいフィードバックを含む QA-Feedback と呼ばれる長い質問応答データセットを収集しました。

次に、さまざまな微調整方法（SFT教師あり微調整、Preference RLHF）を評価しました。

△ 人間による評価における無関係な誤り（左）と事実上の誤り（右）

他の方法と比較して、FINE-GRAINED RLHF によって生成されるコンテンツは事実上より正確であり、より完全な情報が含まれています。

SFT や Preference RLHF などの現在の最先端の微調整方法と比較すると、FINE-GRAINED RLHF では、無関係なエラー、反復的なエラー、一貫性のないエラーも少なくなります。

△情報整合性評価、「勝つ」はFINE-GRAINED RLHFが勝つこと、つまり情報整合性の点でパフォーマンスが優れていることを意味し、「負ける」はFINE-GRAINED RLHFが失敗する、つまり情報整合性の点でパフォーマンスが悪いことを意味します。

上記の結果は手動評価によるもので、テストセットには自動スコアリングもあります。

QA-FEEDBACK テストセットでは、スコアリング結果は手動評価の結果と似ており、4 つのシステムすべてで、FINE-GRAINED RLHF が Rouge スコアの点で優れていることが示されています。

△QA-FEEDBACKテストセットの自動評価結果

RLHFをカスタマイズする柔軟性の向上

さらに、研究者らは、FINE-GRAINED RLHF では複数の「スコアラー」が使用されているため、その重みを調整することで、言語モデルの動作をより柔軟にカスタマイズできることも発見しました。

たとえば、情報の完全性を評価する「スコアラー」に重みを追加すると、情報の完全性が向上する可能性があります。

△異なる報酬モデルの重み設定におけるFINE-GRAINED RLHFのテストセットの自動評価結果。

上の表に示すように、研究者は、FINE-GRAINED RLHF が言語モデルの動作をカスタマイズする能力を調査しました。

彼らは 3 つの「スコアラー」重み設定を調査し、言語モデルの平均テキスト生成長に基づいて、それらを「短い」、「中程度」、「長い」と名付けました。

「短い」コンテンツはより関連性の高いものになりますが、事実性や完全性は低くなります。対照的に、「long」は最も正確で完全な生成コンテンツを提供します。これは、言語モデルが大量のテキスト段落コンテンツを参照していることを反映しています。「中」構成では、3 つのスコアリング方法のバランスが取れており、最高のスコアが得られます。

しかし、3人の「得点者」の間ではまだ競争が続いています。

「関連性スコアラー」（相対報酬モデル）は短く簡潔な回答を生成することを好みますが、「情報完全性スコアラー」（比較報酬モデル）はより長く豊富な回答を生成することを好みます。

したがって、トレーニングの過程で、これら 2 つの「スコアラー」は互いに競争し、最終的にバランスが取れます。

同時に、事実報酬モデルは回答の正確さを向上し続けます。

ただし、スコアラーのいずれかを削除すると、モデルのパフォーマンスが低下します。

最後に、研究者たちは自分たちのモデルを ChatGPT からの応答と比較しました。

ChatGPT はテストセットで RougeLSum スコア 40.92 を達成しましたが、これはこの論文で FINE-GRAINED RLHF を使用してトレーニングされたモデルよりもはるかに低い値です。

つまり、ChatGPT によって生成される応答は、多くの場合非常に簡潔で事実に基づいて正確ですが、曖昧な質問を明確にするために必要な補足情報が欠けています。