RLHF が LLM トレーニングの鍵となるのはなぜですか? AI専門家が5つの代替案を検討し、Llama 2のフィードバックメカニズムのアップグレードを説明

ChatGPTが主導する大規模言語モデルの時代において、避けては通れないトピックが「人間のフィードバックに基づく強化学習」（RLHF）です。これは、言語モデルのパフォーマンスを向上させるだけでなく、人間社会の価値観をモデルに注入することで、言語モデルがユーザーの問題解決を支援し、モデルのセキュリティを向上させることを可能にします。

しかし、ChatGPT以降、多数のモデルや関連技術が継続的にリリースされ、RLHFも更新・アップグレードされ、手作業を必要としない微調整手法もいくつか導き出され、効果は大幅に向上しました。

最近、Lightning AI の創設者であり AI 研究者でもある Sebastian Raschka 氏が、Llama 2 の RLHF メカニズムにオリジナルバージョンと比較して加えられた変更と改善について説明するブログ記事を公開し、RLHF アルゴリズムのいくつかの代替案も紹介しました。

典型的なLLMトレーニングプロセス

ChatGPT や Llama 2 などの現在の最先端の大規模な Transformer ベースの言語モデルには、通常、事前トレーニング、教師あり微調整、アライメントという 3 つのトレーニングステップが含まれます。

事前トレーニング段階では、モデルは大量のラベルなしテキストデータセットから知識を吸収し、次に教師あり微調整を使用してモデルを改良し、特定の指示に適切に従うようにします。最後に、アライメント手法を使用して、LLM がユーザーのプロンプトにさらに便利かつ安全に応答できるようにします。

1. 事前トレーニング

事前トレーニング段階では通常、数十億から数兆のトークンを含む膨大なテキストコーパスが必要ですが、トレーニングの目標は単純な「次の単語の予測」タスクであり、モデルは提供されたテキストに基づいて後続の単語またはトークンを予測する必要があります。

自己教師あり事前トレーニングにより、モデルは大規模なデータから学習できます。著作権を侵害したり作成者の好みを無視したりすることなくデータを収集できる限り、トレーニングラベルは実際にはテキストの次の単語であり、データセットにすでに暗黙的に含まれているため、手動のラベル付けに頼ることなくトレーニングを完了できます。

2. 教師あり微調整

2 番目のステージも通常は「次のトークン予測」タスクですが、手動でラベル付けされた指示データセットが必要です。モデルの入力は指示であり (タスクによってはテキストが含まれる場合もあります)、出力はモデルの予想される応答コンテンツです。

データ形式は次のようになります。

指示: 「ペリカンについて書いてください。」

指示: 「ペリカンについてのリメリックを書いてください。」

出力: 「とても立派なペリカンがいました...」

出力: 「昔々、とても...なペリカンがいました。」

モデルは命令テキストを入力として受け取り、トークンごとに出力します。トレーニングの目標は、期待される出力と同じになることです。

どちらのステージでも同様のトレーニング目標を使用しますが、教師あり微調整データセットは通常、事前トレーニングデータよりもはるかに小さく、指示データセットでは注釈結果を提供するために人間 (またはその他の高品質の LLM) が必要であるため、大規模に適用することはできません。

3. アライメント

第 3 段階はまだ微調整中ですが、その主な目標は言語モデルを人間の好みや価値観に合わせることであり、ここで RLHF メカニズムが役立ちます。

RLHF には主に 3 つのステップが含まれます。

ステップ1. 事前学習済みモデルの教師あり微調整

まず、プロンプト単語のセットを収集し、注釈者に高品質の応答を書くように依頼します。次に、このデータセットを使用して、教師あり方式で事前トレーニング済みの基本モデルを微調整します。

ステップ2. 報酬モデルを作成する

各プロンプトに対して、微調整された LLM は 4 ～ 9 個の応答を生成するように求められ、その後、注釈者は個人の好みに応じてすべての応答をランク付けします。

ソート処理には時間がかかりますが、作業負荷はデータセット構築の最初のステップよりは少ないです。

ランキング結果を処理する際、報酬モデル RM を設計して、微調整された言語モデル SFT の出力を回帰層 (単一出力ノード) を介して報酬スコアに変換し、その後の最適化を行うことができます。

ステップ3. PPOの微調整

SFT モデルは、報酬モデルによって提供される報酬スコアに基づいて、近似ポリシー最適化 (PPO) を使用してさらに最適化されます。

PPO の具体的な技術的詳細については、InstructGPT または以下の論文リストを参照してください。

深層強化学習のための非同期手法 (2016) ，https://arxiv.org/abs/1602.01783
近似ポリシー最適化アルゴリズム (2017)、https://arxiv.org/abs/1707.06347
人間の好みに基づいた言語モデルの微調整 (2020)
人間のフィードバックから要約を学ぶ (2022) ，https://arxiv.org/abs/2009.01325

ラマ2のRLHF

Meta AI も Llama-2-chat モデルを作成する際に RLHF テクノロジーを使用しましたが、ChatGPT と比べて微妙な違いがいくつかあります。

つまり、Llama-2-chat は RLHF 微調整の最初のステップで同じ指示データを使用しますが、2 番目のステップでは 2 つの報酬モデルを使用します。継続的な進化の複数の段階を通じて、報酬モデルも Llama-2-chat モデルのエラーに応じて更新され、拒否サンプリングステップが追加されます。

マージン損失

標準のInstructGPTで使用されるRLHF PPO法では、研究者は同じプロンプトの下で4〜9個のモデル出力を収集し、それらを並べ替える必要があります。たとえば、4つの応答の並べ替え結果がA<C<D<Bの場合、6つの比較結果が得られます：A < C、A < D、A < B、C < D、C < B、D < B

Llama 2 データセットでも同様のアプローチが使用されていますが、注釈者は比較のために一度に 2 つ (4 ～ 9 つではなく) の応答しか見ることができません。ただし、余白ラベルが追加され、比較結果が「大幅に優れている」または「無視できるほど優れている」場合があります。

ソーティングトレーニング中、Llama 2 は InstructGPT と比較して限界損失を増加させます。

ここで、rθ(x, y) はプロンプト x と生成された応答 y のスカラースコア出力です。θ はモデルの重みです。σ はレイヤー出力を 0 から 1 の範囲のスコアに変換するロジスティックシグモイド関数です。yc は注釈者が選択したより良い応答です。yr はより悪い応答です。

m(r) は 2 つの応答の差を調整できます。比較結果が「大幅に優れている」場合、勾配値が増加して更新が高速化されます。

2つの報酬モード

Llama 2 の 2 つの報酬モデルはそれぞれ「有用性」と「安全性」に重点を置いており、モデルの最適化に使用される最終的な報酬関数は 2 つのスコアを線形に組み合わせます。

拒否サンプリング

Llama 2 の著者は、PPO と拒否サンプリングアルゴリズムを使用するトレーニングパイプラインを使用して、複数の RLHF モデル (RLHF-V1 から RLHF-V5) を反復的に生成しました。モデルは拒否サンプリング時に K 個の出力を取得し、各最適化反復で最高報酬の出力が勾配更新用に選択されますが、PPO は一度に 1 つのサンプルに基づいてのみ更新されます。

実験結果から、RLHF 微調整モデルは無害性と有用性の両面で改善され、最終段階では RLHF-v5 が PPO アルゴリズムを使用して最高のパフォーマンスを発揮しました。

RLHF の代替

ご覧のとおり、RLHF はかなり複雑なプロセスです。このような慎重な設計は価値があるのでしょうか?

RLHF によってもたらされるパフォーマンスの向上は、InstructGPT および Llama 2 論文の実験結果で確認されていますが、より効果的な代替手段の開発に焦点を当てた関連研究もあります。

1. 憲法上のAI: 人工知能フィードバックの無害性

研究者らは、強化学習法も用いて、人間が提供するルールのリストに基づいた自己トレーニングのメカニズムを提案した。

論文タイトル: 憲法上の AI: AI フィードバックによる無害性

論文リンク: https://arxiv.org/abs/2212.08073

発行日: 2022年12月

上図の「レッドチーム」は、対象システムの防御能力をテストすることを指します。これは、外部または内部の専門家が潜在的な敵をシミュレートして、実際の攻撃者の戦術、技術、手順を模倣することで、システムに挑戦し、テストし、最終的にシステムを改善するプロセスです。

2. 後知恵の知恵

研究者らは、微調整のために教師あり再ラベル付け法 HIR を提案し、これは 12 の BigBench タスクで RLHF アルゴリズムよりも優れた結果を示しました。

後知恵の知恵が言語モデルをより良い指導フォロワーにする

論文リンク: https://arxiv.org/abs/2302.05206

発行日: 2023年2月

HIR メソッドは、サンプリングとトレーニングの 2 つのステップで構成されます。サンプリング中は、プロンプトと指示が LLM に送られて応答が収集され、アライメントスコアに基づいて、トレーニングフェーズ中に適切な場所で指示が再注釈付けされます。その後、新しい指示と元のプロンプトを使用して LLM が微調整されます。

再ラベル付けにより、失敗ケース (LLM によって作成された出力が元の指示と一致しないケース) を教師あり学習に役立つトレーニングデータに効果的に変換できます。

3. 直接的な嗜好の最適化

直接選好最適化 (DPO) は、PPO を使用した RLHF の代替手段です。実験結果によると、RLHF で報酬モデルを適合するために使用されるクロスエントロピー損失は、LLM を微調整するために直接使用でき、DPO はより効率的で、応答生成品質の点で一般に RLHF/PPO よりも優れています。

論文タイトル: 直接的な嗜好最適化: 言語モデルは実は報酬モデルである

論文リンク: https://arxiv.org/abs/2305.18290

発行日: 2023年5月

4. 強化自己トレーニング（ReST）

ReST は、LLM を人間の好みに合わせる RLHF の代替手段です。サンプリング手法を使用して改善されたデータセットを作成し、品質が上がるサブセットを繰り返しトレーニングして報酬関数を改良します。

論文タイトル: 言語モデルのための強化自己学習 (ReST)

論文リンク: https://arxiv.org/abs/2308.08998

発行日: 2023年8月

著者らによると、ReST はトレーニングデータセットをオフラインで生成することで、標準的なオンライン RLHF 方式 (PPO) よりも高い効率を実現しますが、InstructGPT や Llama 2 で使用される標準的な RLHF PPO 方式との包括的な比較は行われていません。

5. AIフィードバックに基づく強化学習

人工知能フィードバックによる強化学習 (RLAIF) に関する研究では、RLHF における報酬モデルトレーニングの評価は必ずしも人間が提供する必要はなく、LLM (PaLM 2 など) によって生成することもできることが示されています。

論文タイトル: RLAIF: 人間のフィードバックから AI フィードバックによる強化学習のスケーリング

論文リンク: https://arxiv.org/abs/2309.00267

発行日: 2023年9月

注釈者は半数のケースで RLAIF モデルを好みます。これは、2 つのモデル間のギャップが大きくなく、RLHF と RLAIF の両方が、純粋に教師ありの指示の微調整によってトレーニングされたモデルよりも大幅に優れていることを意味します。

この研究の結果は非常に有用であり、基本的には、RLHF のトレーニングデータをより簡単に取得できることを意味します。ただし、RLAIF モデルが定性研究でどのように機能するかはまだわかりません。この研究は、情報コンテンツのセキュリティと信頼性に焦点を当てており、人間の好みに関する研究を部分的にしか捉えていません。

ただし、RLHF を使用せずに Llama 2 や Code Llama に近いパフォーマンスを達成したモデルはまだないため、これらの代替手段が実際に価値があるかどうかはまだわかりません。

<<:

>>: NVIDIA は 3 か月で 800 トンの H100 を販売しました。黄氏が1兆ドル規模のGPU覇者の「3つのノー」戦略を明かす