LLM の成功に欠かせない基礎: RLHF とその代替技術

LLM について議論するときは、必ず「人間のフィードバックによる強化学習 (RLHF)」と呼ばれるプロセスが関係します。 RLHF は、最適化図に人間の好みを取り入れることができるため、現代の LLM トレーニングプロセスの不可欠な部分であり、モデルの有用性と安全性を向上させます。

この記事では、機械学習と AI の研究者である Sebastian Raschka が RLHF の作業プロセスを順を追って説明し、読者がその中核となるアイデアと重要性を理解できるようにします。この投稿では、ChatGPT と Llama 2 が RLHF を実装する方法も比較します。

この記事は、RLHF に代わる最近登場したいくつかの技術について簡単に紹介して終わります。

この記事の内容は次のとおりです。

人間のフィードバックによる強化学習 (RLHF)
ラマ2のRLHF
RLHFの代替技術

典型的なLLMトレーニングプロセス

ChatGPT や Llama 2 などの最新のトランスフォーマーベース LLM のトレーニングプロセスは、通常、次の 3 つのステップに分かれています。

事前トレーニング;
監督による微調整。
アライメント。

初期の事前トレーニング段階では、モデルは大量のラベルなしテキストデータセットから知識を吸収します。その後の教師あり微調整フェーズでは、これらのモデルを微調整して、特定の指示にさらにうまく従えるようにします。最後の調整フェーズでは、LLM を改良して、ユーザーのプロンプトに応答するときに、より有用で安全な結果が得られるようにします。

このトレーニングプロセスは、GPT-3 のトレーニングプロセスの詳細を説明した OpenAI の InstructGPT 論文「人間のフィードバックによる指示に従う言語モデルのトレーニング」に基づいていることに注意してください。 ChatGPT はこの方法を使用してトレーニングされたと一般に考えられています。後ほど、この方法を Meta の最新の Llama 2 で使用されている方法と比較します。

以下に示すように、最初の事前トレーニング手順から始めましょう。

LLMの事前トレーニング手順

事前トレーニングには通常、数十億、あるいは数兆ものトークンを含む非常に大規模なテキストコーパスを使用する必要があります。事前トレーニング段階のトレーニングタスクは非常に単純かつ直接的で、前のテキストに基づいて次の単語を予測するというものです。

このタイプの事前トレーニングにより、大規模なラベルなしデータセットを活用できるようになることを強調しておく価値があります。著作権を侵害したり、作成者の好みを無視したりすることなくデータを使用できる限り、人間が手動でラベルを付ける必要なく大規模なデータセットを使用できます。実際、この事前トレーニングのステップでは、「ラベル」はテキスト内の次の単語であり、すでにデータセットの一部になっています (このため、この事前トレーニング方法は自己教師あり学習と呼ばれることがよくあります)。

次のステップは教師あり微調整であり、そのプロセスを下の図に示します。

指示データに基づいて事前トレーニング済みモデルを微調整する

教師あり微調整フェーズでは、次のトークンの予測がもう一度実行されます。ただし、以前の事前トレーニング段階とは異なり、モデルは上の図に示すように、「指示と出力」のペアを処理します。ここで、指示はモデルに提供される入力です (タスクによってはオプションの入力テキストが含まれる場合もあります)。出力は、モデルによって返される、期待値に近い応答です。

以下に、「命令 - 出力」のペアの具体的な例を示します。

指示: 「ペリカンについてのリメリックを書いてください。」

出力: 「とても立派なペリカンがいました...」

モデルは、指示テキスト (ペリカンについてのリメリックを書いてください) を入力として受け取り、次のトークン予測を実行して出力テキスト (かつてとても素晴らしいペリカンがいました...) を取得します。

次のトークンを予測するというトレーニングの目的は似ていますが、教師あり微調整では通常、事前トレーニングよりもはるかに小さいデータセットが使用されます。これは、生のテキストだけでなく、命令と出力のペアが期待されるためです。このようなデータセットを構築するには、与えられた指示に基づいて目的の出力を書き込む人間 (または他の高品質の LLM) が必要です。このようなデータセットの作成は手間がかかります。

この教師あり微調整フェーズの後には、別の微調整フェーズがあります。これは「アライメント」ステップと呼ばれることが多く、その主な目的は LLM を人間の好みに合わせることです。ここで RLHF が登場します。

配置、右のチャートはInstructGPTの論文からのものです

次のセクションでは、RLHF ベースのアライメント手順について詳しく説明します。ただし、事前トレーニング済みの基本モデルとステップ 2 の教師あり微調整と比較したい場合は、InstructGPT 論文の上の図を参照してください。

上の図は、教師あり微調整後の GPT-3 モデル (1,750 億パラメータ) と他の方法を使用したモデルを比較したものです。画像の下部には、基本的な GPT-3 モデルがあります。

プロンプトエンジニアリング設計方法を採用すると、つまり複数のクエリを実行して最適な応答を選択する場合（GPT-3 + プロンプト）は、基本モデルよりも優れたパフォーマンスが得られ、期待どおりであることがわかります。

GPT-3 ベースモデルに教師あり微調整を使用すると、さらに優れたパフォーマンスを実現できます (GPT-3 + 教師あり微調整)。

ただし、ここで最もパフォーマンスの高いモデルは、依然として、教師あり微調整と RLHF (GPT-3 + 教師あり微調整 + RLHF) を使用する GPT-3 モデルです (図の上の 2 行)。 (研究者が 2 つの異なるサンプリング方法を試したため、ここに 2 つの線があることに注意してください。)

RLHF の手順については、以下で詳しく説明します。

人間のフィードバックによる強化学習 (RLHF)

前のセクションでは、ChatGPT や Llama-2-chat などの最新の LLM の背後にある 3 段階のトレーニングプロセスについて説明しました。このセクションでは、RLHF 部分に焦点を当てて、微調整フェーズについて詳しく説明します。

RLHF ワークフローは、事前トレーニング済みモデルを教師あり方式で微調整し (前のセクションのステップ 2)、次に近似ポリシー最適化 (PPO) によって調整します (前のセクションのステップ 3)。

簡単にするために、RLHF ワークフローを 3 つのステップに分けることができます。

RLHF ステップ 1: 事前トレーニング済みモデルの教師あり微調整。
RLHF ステップ 2: 報酬モデルを作成する。
RLHF ステップ 3: 近似ポリシー最適化による微調整。

以下に示すように、RLHF ステップ 1 は、さらなる RLHF 微調整のための基本モデルを作成するための教師あり微調整ステップです。

RLHF ステップ 1、InstructGPT 論文からの画像

RLHF ステップ 1 では、プロンプト (データベースなどから) を作成またはサンプリングし、人間に高品質の応答を書いてもらいます。このデータセットは、教師あり方式で事前トレーニング済みモデルを微調整するために使用されます。

RLHF ステップ 1 は、前のセクション「一般的な LLM トレーニングプロセス」のステップ 2 と似ていることに注意してください。これは RLHF の不可欠な部分であるため、ここで再度リストされています。

次に、RLHF ステップ 2 では、以下に示すように、教師ありの微調整モデルを使用して報酬モデルを作成します。

RLHF ステップ 2、InstructGPT 論文からの画像

上記のように、前の手順で作成された微調整された LLM を使用して、各プロンプトに対して 4 ～ 9 個の応答が生成されます。次に、人々は自分の好みに基づいてこれらの回答をランク付けするように求められました。このランキング付けプロセスは時間がかかりますが、教師あり微調整用のデータセットを作成するよりも労力は少ないと考えられます。これは、回答をランク付けする方が、回答を書くよりも簡単である場合が多いためです。

次に、これらのランキングを使用して構築されたデータセットに基づいて、RLHF ステップ 3 の後続の最適化フェーズで使用される報酬スコアを出力する報酬モデルを設計できます。この報酬モデルは通常、以前の教師あり微調整ステップで作成された LLM から派生します。以下では、報酬モデルを RM と呼び、教師あり微調整 LLM を SFT と呼びます。 RLHF ステップ 1 モデルを報酬モデルに変換するには、その出力層 (次のトークン分類層) を、単一の出力ノードを持つ回帰層に置き換える必要があります。

RLHF ワークフローのステップ 3 では、下の図に示すように、この報酬モデル (RM) を使用して、以前に教師ありの微調整済みモデル (SFT) を微調整します。

RLHF ステップ 3、InstructGPT 論文からの画像

最後のステップでもある RLHF ステップ 3 では、RLHF ステップ 2 で作成された RM の報酬スコアに応じて、近似ポリシー最適化 (PPO) を使用して SFT モデルを更新する必要があります。

PPO の詳細についてはこの記事の範囲外ですが、興味のある読者は、InstructGPT 論文に先立つ次の 4 つの論文で関連する数学的詳細を見つけることができます。

（１）「深層強化学習のための非同期手法」では、深層学習ベースの強化学習におけるQ学習に代わるポリシー勾配法を紹介しています。

（２）近似ポリシー最適化アルゴリズムは、修正された近似ポリシーに基づく強化学習プロセスを提案しており、これは前述の基本的なポリシー最適化アルゴリズムよりもデータ効率とスケーラビリティに優れています。

（３）人間の好みから言語モデルを微調整するでは、ポリシーが自然言語から大きく逸脱するのを防ぐためのKL正則化を含む、事前学習済み言語モデルのPPOと報酬学習の概念について説明します。

（4）「人間のフィードバックから要約を学ぶ」では、現在一般的に使用されている3段階のRLHFプロセスが紹介されました。このプロセスは、後のInstructGPT論文でも使用されました。

ラマ2のRLHF

前のセクションでは、OpenAI の InstructGPT 論文で説明されている RLHF プロセスを紹介しました。このプロセスは ChatGPT の開発にも使用されたと広く信じられています。しかし、Meta AI の最新の Llama 2 モデルと比較するとどうでしょうか?

Meta AI は、Llama-2-chat モデルを作成する際にも RLHF を使用しました。ただし、下の図に示すように、2 つのアプローチにはいくつかの違いがあります。

2つのRLHFの違い。画像はLlama-2の論文から引用

要約すると、Llama-2-chat は、InstructGPT の RLHF のステップ 1 と同じ、指示データに基づく教師あり微調整ステップに従います。ただし、RLHF ステップ 2 では、Llama-2-chat は 1 つではなく 2 つの報酬モデルを作成します。さらに、Llama-2-chat モデルは複数の進化段階を経て、Llama-2-chat で発生したエラーに基づいて報酬モデルが更新されます。追加の拒否サンプリング手順があります。

限界損失

上の図には示されていないもう 1 つの違いは、報酬モデルを生成するときにモデル応答がランク付けされる方法に関係しています。前述の InstructGPT で使用される標準 RLHF PPO では、研究者は、自らが作成した「k-choose-2」比較方法に基づいて 4 ～ 9 にランク付けされた出力応答を収集しました。

たとえば、人間の注釈者が A < C < D < B のように 4 つの応答 (AD) をランク付けする必要がある場合、「4 から 2 つを選択」= 6 回の比較が行われます。

A < C
A < D
A < B
C < D
C < B
D < B

同様に、Llama 2 データセットは、A < B などの応答のバイナリ比較に基づいています。ただし、各人間のマーカーは、マーキングの各ラウンドで 2 つの応答 (4 ～ 9 つの応答ではなく) のみを比較しました。

さらに、Llama 2 アプローチのもう 1 つの違いは、各バイナリランキングに対して「マージン」ラベル (「大きな利点」から「無視できる利点」までの範囲) が収集され、追加のマージンパラメーターを介してバイナリランキング損失 (オプション) で使用して、2 つの応答間の距離を計算できることです。

InstructGPT は、報酬モデルのトレーニングに次のクロスエントロピーベースのランキング損失を使用します。

ラマ2は、次のように嗜好評価の離散関数として限界量m(r)を追加します。

で：

r_θ(x,y)はプロンプトxと生成された応答yのスカラースコア出力です。
θはモデルの重みです。
σ はロジスティックシグモイド関数であり、レイヤー出力を 0 から 1 の間のスコアに変換します。
y_c は人間の注釈者によって選択された優先応答です。
y_r は、人間の注釈者によって選択された拒否された応答です。

たとえば、m(r) を介してより高いマージンを返すと、優先応答と拒否応答の報酬の差が小さくなり、損失が大きくなり、勾配が大きくなり、最終的にはポリシー勾配の更新中にモデルが変更されることになります。

2つの報酬モデル

前述したように、Llama 2 にはボーナスモデルが 1 つではなく 2 つあります。報酬モデルの 1 つは有用性に基づいており、もう 1 つは安全性に基づいています。モデルの最適化に使用される最終的な報酬関数は、これら 2 つのスコアの線形結合です。

InstructGPT論文の画像を基にしたLlama 2ランキング手法と報酬モデルの作成

拒否サンプリング

さらに、Llama 2 の作者は、複数の RLHF モデル (RLHF-V1 から RLHF-V5 まで) を反復的に生成できるトレーニングプロセスも採用しました。前述の PPO アプローチを使用した RLHF のみに依存するのではなく、RLHF の微調整に PPO と拒否サンプリングという 2 つのアルゴリズムを使用しました。

拒否サンプリングでは、まず K 個の出力がサンプリングされ、次に、下の図に示すように、最適化ステップで勾配更新のために最も高い報酬を持つ出力が選択されます。

ラマ2の拒否サンプリングステップでは、複数の応答を作成し、最も高い報酬を持つ応答を選択します。InstructGPT論文の画像から引用

拒否サンプリングの役割は、各反復で報酬スコアの高いサンプルを選択することです。その結果、一度に 1 つのサンプルに基づいてのみ更新できる PPO と比較して、より高い報酬を持つサンプルを使用してモデルを微調整できます。

教師あり微調整の初期段階の後、モデルは拒否サンプリングのみを使用してトレーニングされ、その後、拒否サンプリングと PPO が組み合わされます。

研究者らは、RLHF の各段階でのモデルパフォーマンスの変化をプロットし、RLHF によって微調整されたモデルはセキュリティと有用性の両方が向上したことを発見しました。

RLHF は機能する。画像は Llama 2 の論文から引用

研究者は、拒否サンプリングでモデルを更新した後、最後のステップで PPO を使用したことに注意してください。図中の RLHF-v5 (PPO あり) と RLHF-v5 (PPO なし) の位置を比較すると、拒否サンプリング後の最終段階で PPO を使用するとモデルのパフォーマンスが向上することがわかります。

RLHFの代替技術

ここまで、かなり複雑な RLHF プロセスについて説明し、定義してきましたが、その手間をかける価値があるかどうか疑問に思う人もいるかもしれません。上記の InstructGPT および Llama 2 論文のグラフ (および下記) は、RLHF が手間をかけるだけの価値があることを示しています。

しかし、より効率的な代替技術の開発に重点を置いた研究が数多く行われています。最も興味深い方法を以下にまとめます。

論文 1: 合憲的 AI: AI フィードバックによる無害性

論文アドレス: https://arxiv.org/abs/2212.08073

この憲法 AI 論文では、著者らは人間が提供するルールのリストに基づいた自己トレーニングメカニズムを提案しています。前述の InstructGPT 論文と同様に、ここで提案されている方法も一種の強化学習を使用します。

憲法AI論文より

上の画像の「レッドチーム」という用語は、冷戦時代の軍事演習に由来するテスト方法を指します。元々は、米国の戦略および防衛能力をテストするためにソ連の役割を演じた演習チームを指していました。

AI 研究のサイバーセキュリティの文脈では、レッドチームは現在、外部または内部の専門家が潜在的な敵を模倣し、現実世界の攻撃者の戦術、手法、ワークフローを模倣して、特定の対象システムに挑戦し、テストし、最終的に改善するプロセスを指します。

論文 2: 後知恵の知恵が言語モデルをより優れた指導フォロワーにする

論文アドレス: https://arxiv.org/abs/2302.05206

この論文で LLM の微調整に使用されている教師ありアプローチは、実際には非常にうまく機能します。ここでは、12 の BigBench タスクで RLHF を上回るパフォーマンスを発揮する、再ラベル付けに基づく教師あり微調整手法を提案します。

新しく提案された HIR (Hindsight Instruction Labeling) はどのように機能するのでしょうか?簡単に言えば、HIR メソッドはサンプリングとトレーニングという 2 つのステップで構成されます。サンプリングステップでは、プロンプトと指示が LLM に入力され、応答が収集されます。次に、アライメントスコアに基づいて、トレーニングフェーズ中に適切な場所に指示が再注釈付けされます。次に、ラベルが変更された指示と元のプロンプトを使用して LLM が微調整されます。この再ラベル付けアプローチを使用することで、研究者は失敗ケース（LLM の出力が元の指示と一致しないケース）を教師あり学習に役立つトレーニングデータに効果的に変換できます。

上記論文の方法と実験結果の比較

この研究は、ヒューリスティックなアプローチ（「ただし、ほとんどの人間のフィードバックデータは収集が難しいため、スクリプト化されたフィードバック機能を採用しました...」）を使用しているように見えるため、InstructGPT の RLHF 研究と直接比較することはできませんが、HIR の後知恵アプローチの結果は依然として非常に説得力があります。

論文 3: 直接的な嗜好最適化: 言語モデルは実は報酬モデルである

論文アドレス: https://arxiv.org/abs/2305.18290

直接選好最適化 (DPO) は、「PPO を使用した RLHF」の代替手法であり、著者らは、RLHF で報酬モデルを適合するために使用されるクロスエントロピー損失が、LLM を直接微調整するためにも使用できることを示しています。ベンチマークによると、DPO を使用する方が効率的で、応答品質の点では一般に RLHF/PPO よりも優れています。

対応する論文からのDPOとその効果の表示

この研究の詳細については、Machine Heart レポート「RLHF の「RL」は必要ですか?」を参照してください。バイナリクロスエントロピーを使用して LLM を直接微調整する人もいますが、その方がより良い結果が得られます。

論文 4: 言語モデルのための強化自己トレーニング (ReST)

論文アドレス: https://arxiv.org/abs/2308.08998

ReST は、LLM を人間の好みに合わせるために使用できる RLHF の代替手段でもあります。 ReST はサンプリング方式を使用してデータセットの改良版を作成し、品質が上がるサブセットを繰り返しトレーニングして報酬関数を微調整します。著者らによると、ReST はオフラインでトレーニングデータセットを生成できるため、標準的なオンライン RLHF 手法 (PPO を使用した RLHF など) よりも効率的ですが、この手法を InstructGPT や Llama 2 などで使用されている標準的な RLHF PPO 手法と完全に比較したわけではありません。

ReST メソッド図

この研究の詳細については、Machine Heart レポート「DeepMind の新しい研究: ReST は大規模なモデルを人間の好みに合わせて調整し、オンライン RLHF よりも効果的です」を参照してください。

論文 5: RLAIF: 人間のフィードバックから AI フィードバックによる強化学習のスケーリング

論文アドレス: https://arxiv.org/abs/2309.00267

人工知能フィードバックによる強化学習 (RLAIF) に関する最近の研究では、RLHF の報酬モデルをトレーニングするために使用される評価は必ずしも人間が提供する必要はなく、LLM (ここでは PaLM 2) を使用して生成することもできることが示されています。人間の評価者によると、従来の RLHF 法と RLAIF 法を使用してトレーニングされたモデルは同様の結果を得ました。

もう 1 つの興味深い発見は、RLHF モデルと RLAIF モデルの両方が、教師あり命令の微調整のみを使用してトレーニングされたモデルよりも大幅に優れていることです。

RLHF 法と RLAIF 法の比較と勝率

この研究の結果は、基本的に RLHF トレーニングをより効率的かつ低コストで行うことができることを意味するため、非常に有用かつ興味深いものです。しかし、これらの RLAIF モデルが、情報コンテンツの安全性と信頼性に関する定性的研究においてどの程度優れたパフォーマンスを発揮するかはまだ不明です (人間の嗜好に関する研究では、これを部分的にしか捉えることができません)。

この研究の詳細については、Machine Heart のレポート「RLHF vs RL "AI" F、Google の証拠: 大規模モデルトレーニングにおける人間のフィードバックは AI で置き換えることができる」を参照してください。