RLHF にはもう人間は必要ありません! Googleチームの研究により、AIによる注釈が人間のレベルに達したことが証明される

たとえば、RLHF の「人間」が入れ替わった場合、それは実現可能でしょうか?

Google チームの最新の研究では、嗜好ラベル付けに人間の代わりに大規模なモデルを使用することを提案しており、これは AI フィードバック強化学習 (RLAIF) と呼ばれています。

論文アドレス: https://arxiv.org/abs/2309.00267

結果は、RLAIF が人間の注釈者に頼ることなく、勝率 50% で RLHF と同等の改善を実現できることを示しています。

同時に、Google の調査により、RLAIF と RLHF は教師あり微調整 (SFT) と比較して 70% を超える勝率を持つことが再び証明されました。

現在、RLHF は大規模言語モデルのトレーニングにおける重要なコンポーネントです。人間は AI の出力の品質を評価することで、応答をより有用なものにします。

しかし、これには多くの労力が必要であり、AI が出力する有害なコンテンツに多くの人間の注釈者がさらされることになります。

RLAIF は RLHF に匹敵するようになったため、将来のモデルでは人間によるフィードバックは必要なくなり、自己ループによって改善することもできます。

RLHFはもう人間を必要としない

現在、RLHF は、ChatGPT、Bard、およびこのパラダイムを採用するその他のモデルを含む大規模モデルを微調整するための中核的な方法となっています。

具体的には、RLHF は、教師あり微調整 LLM の事前トレーニング、報酬モデルをトレーニングするためのデータの収集、RL を使用したモデルの微調整という 3 つのステップに分かれています。

RLHF を使用すると、従来の SFT では区別が難しい複雑なシーケンスレベルの目的に合わせて大規模なモデルを最適化できます。

しかし、非常に現実的な問題は、RLHF には大規模で高品質な人間による注釈付きデータが必要であり、このデータが優れた結果を達成できるかどうかということです。

この Google の研究に先立ち、Anthropic の研究者は、AI の設定を使用して RL の微調整のための報酬モデルをトレーニングすることを初めて研究しました。

彼らは最初に「Constitutional AI」で RLAIF を提案し、LLM が人間の判断と非常に一致しており、いくつかのタスクでは人間を上回るパフォーマンスを発揮することを発見しました。

しかし、この研究では人間と AI のフィードバックを比較していないため、RLAIF が RLHF に取って代わることができるかどうかについては明確な答えがありません。

Google の最新の研究は主にこの問題を解決することを目的としています。

研究者らは、モデル要約タスクにおいて RLAIF と RLHF を直接比較しました。

テキストと 2 つの候補回答が与えられた場合、既製の LLM を使用して優先順位の注釈を付けます。

次に、LLM の好みと対照的損失に基づいて報酬モデル (RM) がトレーニングされます。最後に、強化学習を通じてポリシーモデルが微調整され、報酬モデルを使用して報酬が与えられます。

では、Google が提案した RLAIF アプローチは、Anthropic が提案したアプローチとどう違うのでしょうか?

Google自身が記事の中で説明している。

- Google: AI ラベル付けされた好みに基づいて報酬モデルをトレーニングし、RL の微調整を実行します。

- 憲法 AI: LLM に憲法に基づいてより良い応答を生成するよう繰り返し要求することで、教師あり学習モデルを改善します。

AIによる自己ラベリングと自己改善

Google が最新の研究で提案した RLAIF 方式とは何ですか?

嗜好ラベル付けのための大規模言語モデル

研究者たちは、2 人の候補者間の好みを注釈付けするために「既製の」 LLM を使用しました。

これは、一般的な使用のために事前トレーニングまたは命令調整されているが、特定のダウンストリームタスク用に微調整されていないモデルです。テキストと 2 つの要約候補が与えられた場合、LLM はどちらの要約が優れているかを評価するように求められます。 LLM の入力構造は次のとおりです。

1. 序文

手元のタスクを紹介し、説明するための指示

2. 複数のサンプルインスタンス（オプション）

テキスト、要約、アイデアの根拠、および好みの判断

3. ラベルを貼るサンプル

注釈を付けるテキストと要約のペア

4. 終わり

LLM の終了文字列のヒント (例: "Preferred Summary=")

研究者は、LLM に入力を提供した後、トークン「1」と「2」を生成する対数確率を取得し、ソフトマックスを計算して好みの分布を取得しました。

LLM から嗜好注釈を取得する方法は多数あります。たとえば、モデルからの自由形式の応答をデコードし、ヒューリスティックに嗜好を抽出したり (例: 出力 = 「最初の要約の方が優れている」)、嗜好分布をワンホット表現として表現したりします。しかし、研究者たちは、自分たちの方法がすでに高い精度を生み出していたため、これらの代替案を試さなかった。

研究者たちは、2 種類のプリアンブルを試しました。1 つ目の「Base」は、単に「どちらの要約が優れていますか?」と尋ねるもので、2 つ目の「OpenAI」は、OpenAI TL;DR Preference データセットを生成した人間の嗜好注釈者の評価指示を模倣し、強力な要約を構成するものに関する詳細な情報を含めました。下の図の通りです。

研究者らはまた、プロンプトに少数のサンプルを追加し、さまざまなトピックをカバーするために手動でサンプルを選択して、文脈学習の実験も行いました。位置偏差を解決します。

これまでの研究結果によると、候補者が LLM に提示される順序は、LLM がどの候補者を優先するかを判断する際に影響を及ぼす可能性があることが示唆されています。研究者らは、特に小さいサイズの注釈付き LLM に関して、この位置バイアスの証拠を発見しました。

優先順位の注釈付けにおける位置バイアスを軽減するために、候補の各ペアに対して 2 つの推論を実行し、候補が LLM に送信される順序を逆にします。次に、2 つの推論の結果を平均して、最終的な選好分布を取得します。

思考連鎖推論

研究者は、人間の好みとの一貫性を高めるために、AI アノテーターから思考の連鎖 (COT) 推論を引き出そうとしています。

研究者らは、標準的な締めくくりのプロンプト（例：「推奨される要約=」）を「各要約の一貫性、正確性、範囲、および全体的な品質を考慮し、どれが優れているかを説明してください。根拠：」に置き換え、LLM 応答を解読しました。

最後に、研究者は元のプロンプト、応答、および元の終了文字列「Preferred Summary=」を連結し、セクション 3.1 のスコアリングプロセスに従って、好みの分布を取得します。具体的なプロセスについては下の図を参照してください。

ゼロショットプロンプトでは、LLM は推論がどのようになるかについての例を示しませんが、数ショットプロンプトでは、研究者はモデルが従うべき COT 推論の例を示します。例については下の図を参照してください。

自己一貫性

思考連鎖プロンプトについては、研究者らは自己一貫性も試した。これは、複数の推論パスをサンプリングし、各パスの最後に生成された最終的な答えを集約することで、思考連鎖推論を改善する手法である。

非ゼロのデコード温度を使用して複数の根拠チェーンをサンプリングし、前のセクションと同様に各チェーンの LLM 優先分布を取得します。その後、結果を平均して最終的な嗜好分布を取得しました。

AIフィードバックによる強化学習

LLM が好みをラベル付けした後、報酬モデル (RM) が好みを予測するようにトレーニングされます。研究者の方法はソフトラベルを生成するため、報酬モデルで言及されている損失の代わりに、RM によって生成された報酬スコアのソフトマックスのクロスエントロピー損失を使用します。

Softmax は、RM の無制限のスコアを確率分布に変換します。

AI 注釈付きデータセットで RM をトレーニングすることは、モデル蒸留の一形態と見なすことができます。特に、研究者の AI 注釈者は一般に RM よりも大きく強力であるためです。

もう 1 つのアプローチは、RM をバイパスし、AI フィードバックを RL の報酬信号として直接使用することですが、このアプローチでは AI アノテーターが RM よりも大きいため、計算コストが高くなります。

研究者らは、訓練された RM を使用して、言語モデリング分野向けに適応された Advantage Actor Critic (A2C) アルゴリズムの修正バージョンを使用して強化学習を実行しました。

評価する

研究者たちは、AI アノテーターの調整、ペアリング精度、勝率という 3 つの指標を使用して結果を評価しました。

AI アノテーターは、人間の好みと比較した AI アノテーションの好みの精度を測定するために調整されています。

一例として、ソフト AI によって注釈が付けられた設定はバイナリ表現に変換されます。注釈が対象の人間の好みと一致している場合は 1 を割り当て、そうでない場合は 0 を割り当てます。

ペアリング精度は、保持された人間の好みのセットに対するトレーニングされた報酬モデルの精度の尺度です。

共有コンテキストと候補応答のペアが与えられた場合、RM が人間の注釈に従って優先候補を非優先候補よりも高く評価すると、ペアリング精度は 1 になります。それ以外の場合、値は 0 になります。この量は複数の例にわたって平均化され、RM の全体的な精度を測定します。

勝率は、人間が一方の戦略を他方の戦略よりも好む頻度を測定することにより、2 つの戦略のエンドツーエンドの品質を評価します。

入力と 2 つの生成結果が与えられると、人間の注釈者はどちらの生成結果が優先されるかを選択します。戦略 A が戦略 B を上回る場合の割合を「A 対 B 勝率」と呼びます。

実験の詳細

研究者らは、OpenAI がキュレーションしたフィルタリングされた Reddit TL;DR データセットを使用しました。 TL;DR には、さまざまなトピック (「サブレディット」とも呼ばれます) を網羅した Reddit からの約 300 万件の投稿と、元の投稿者によって書かれた投稿の要約が含まれています。

データは高品質を確保するために OpenAI によってフィルタリングされ、一般の人々が理解できる Reddit トピックのホワイトリストも使用されました。

さらに、要約に 24 ～ 48 個の注釈がある投稿のみが対象となりました。フィルタリングされたデータセットには 123,169 件の投稿が含まれており、そのうち約 5% が検証セットとして使用されます。

データセットの詳細については、元の論文をご覧ください。さらに、OpenAI はフィルタリングされた TL;DR データセットから人間の好みのデータセットをキュレートしました。

特定の投稿に対して、異なる戦略に従って 2 つの候補要約が生成され、注釈者は好みの要約を評価するように求められます。データセット全体には、約 92,000 のペアワイズ比較が含まれています。

LLMマーキング

AI 注釈技術の有効性 (迅速性、自己一貫性など) を評価するために、研究者は、人間の注釈者がより高い信頼性で要約を好む TL;DR 嗜好データセットから例を選択しました。

研究者らは、実験の反復を高速化するために、データセットのトレーニング分割のランダムな 15% のサブセットで AI Annotator Alignment を評価し、2,851 の評価例を生成しました。

報酬モデルのトレーニングでは、TL;DR 嗜好データセットの完全なトレーニング分割が LLM によって注釈付けされ、信頼スコアに関係なくトレーニングに使用されます。

モデルトレーニング

研究者らは、初期チェックポイントとして PaLM 2 Extra-Small (XS) を使用して、OpenAI でフィルタリングされた TL;DR データセットで SFT モデルをトレーニングしました。

次に研究者らは SFT モデルから RM を初期化し、OpenAI の TL;DR 人間の好みデータセットでトレーニングしました。

表1と5.1の結果では、PaLM 2Lを使用して「OpenAI + COT 0ショット」プロンプト（自己一貫性なし）を使用してAI注釈付きの好みを生成し、その後、完全な好みでRMデータセットをトレーニングしました。

強化学習では、研究者らは Advantage Actor Critic (A2C) を使用してポリシーをトレーニングしました。戦略モデルと価値モデルは両方とも SFT モデルから初期化されます。研究者たちは、フィルタリングされた Reddit TL;DR データセットを初期状態として使用して、戦略を開始しました。

人間による評価

研究者らは、RLHF 戦略と RLAIF 戦略を評価するために 1,200 件の人間による評価を収集しました。各評価タスクでは、評価者には投稿と、異なる戦略に従って生成された 4 つの要約 (RLAIF、RLHF、SFT、および人間の参照ごとに 1 つ) が与えられ、同点なしで品質順にランク付けするように求められました。

この投稿は、TL;DR の教師あり微調整データセットのホールドアウトセットから取得されたもので、他の評価には使用されません。これらのランキングを収集すると、任意の 2 つの戦略の勝率を計算できます。

勝率50%、引き分け

RLAIF 対 RLHF

記事の冒頭では、Google による RLAIF と RLHF の比較の利点を紹介しましたが、その結果、2 つの方法は同様のパフォーマンスを発揮することが示されました。

具体的には、人間の評価者は 71% のケースでベースライン SFT よりも RLAIF を好みました。 RLHF は 73% の症例で SFT より優れていました。

研究者らは、RLAIF と RLHF の勝率を直接比較し、どちらも同じように人気があること、つまり勝率が 50 パーセントであることも発見しました。

これら 2 つの戦略の違いをさらに理解するために、生成されたスニペットの定性的な比較を実施しました。

さらに、RLAIF と RLHF の要約を手動で作成された参考文献の要約と比較しました。 79% のケースでは、RLAIF によって生成された要約が参照要約よりも優れており、80% のケースでは、RLHF の結果が参照要約よりも優れていました。

RLAIF と RLHF と参考サマリーの勝率はわずか 1% であり、大きな差がないことがわかります。

研究者らは、上の表の赤い文字で示されているように、RLHF 戦略における幻覚の頻度が RLAIF 戦略における頻度よりも高いことが多いことも発見したことは注目に値します。

要約の長さを調整した後でも、RLAIF および RLHF 戦略はベースライン SFT を上回り、同様の勝率を達成しました。

これらの結果は、RLAIF は手動の注釈に依存する必要がなく、RLHF の実行可能な代替手段であることを示唆しています。

ヒント

ヒント技術を使用するにあたり、Google チームは、プリアンブルの特異性、CoT、および少数ショットのコンテキスト学習という 3 種類のヒント技術を試しました。

詳細な OpenAI のプリアンブルと CoT 推論からのプロンプトにより、AI アノテーターは 78% の一貫性を達成できることがわかりました。

また、文脈学習では精度は向上せず、むしろ悪化する可能性があります。

自己一貫性

研究者らは、デコード温度が 1 の 4 個および 16 個のサンプルを使用して自己一貫性実験を実行しました。

T = 1 で複数の思考連鎖原理をサンプリングすると、人間の好みとの一貫性が低い結果が得られました。

大規模モデルアノテーターの規模

この研究では、大規模なモデル注釈のパラメータサイズを大きくすると、より質の高い好み注釈が生成される可能性があることも判明しました。

好ましい例の数

報酬モデルの精度はトレーニング例によってどのように変化しますか?

研究者たちは、何千もの例でトレーニングした後、報酬モデルのパフォーマンスが完全なデータセットでトレーニングした場合のパフォーマンスに近づくことを発見しました。

結論は

研究者らは、RLAIF は人間の注釈者に頼ることなく、RLHF と同等の改善を実現できることを実証しました。

この研究は RLAIF の可能性を強調していますが、いくつかの制限もあります。

まず、この研究では要約タスクのみを調査したため、他のタスクへの一般化についてはさらなる研究が必要です。

第二に、研究者らは、LLM 推論が手動注釈よりも経済的に有利であるかどうかを推定しませんでした。

さらに、RLHF と RLAIF を組み合わせると、どちらかの方法を単独で使用した場合よりも優れたパフォーマンスを発揮できるかどうか、LLM を使用して報酬を直接分配することがどの程度効果的か、AI アノテーターの調整を改善すると最終的なポリシーが改善されるかどうか、ポリシーモデルと同じサイズのアノテーターで LLM を使用するとポリシーがさらに改善されるかどうか (つまり、モデルが「自己改善」できるかどうか) など、研究する価値のある興味深い質問がいくつかあります。

ネットユーザーの間で熱い議論

Google は RL に関する 2 つの論文を発表しました。

1. RLAIF: 人間のフィードバックに似た報酬モデルのトレーニング

2. ReST: 生成モデルを使用して自己学習を促進するこれら2つの論文を組み合わせることで、大量のデータを必要とするAIアルゴリズムのニーズを満たすことができます。

半月前、Google DeepMind は、大規模な言語モデルを人間の好みと一致させるための新しいアルゴリズム、ReST を提案しました。

具体的には、オフライン強化学習手法を通じて、大規模言語モデルの翻訳品質が向上し、人間の好みによりよく合うようになります。

ある研究者は、定性的なテストに基づくと、Anthropic の Claude モデルは GPT-4 よりも弱いようだと述べました。これは、RLHF/RLAIF アプローチまたは事前トレーニングによるものである可能性があります。これらの方法は、学術的なベンチマークでは優れたパフォーマンスを発揮したとしても、実際のアプリケーションでより一般化されるかどうかは不明です。

これによって人間による注釈の重要性が減るとは言いませんが、AI フィードバックによる RL によってコストを削減できることは確かです。一般化には人間による注釈付けが依然として非常に重要であり、RLHF + RLAIF ハイブリッドメソッドはどの単一のメソッドよりも優れたパフォーマンスを発揮します。

ほとんどのネットユーザーは、この論文は大きな進歩であると考えているが、数ヶ月前にAnthropicが提案したConstitute ClaudeのRLAIFと本質的な違いはないようだと考える人もいる。

<<: NYU のポスドクが、arXiv に 30 分遅れて論文を提出したというだけで ACL に拒否されたのですか?学者たちは憤慨し、ACLに二度と投票しないと誓う

>>: 未来のサイバー攻撃の原型: ChatGPT の 7 つの「邪悪な双子」