GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

背景

大規模言語モデル (LLM) は強力な機能を発揮していますが、不快な応答、虚偽の情報、漏洩した個人データなど、予測不可能で有害な出力を生成し、ユーザーや社会に害を及ぼす可能性もあります。これらのモデルの動作が人間の意図や価値観と一致していることを保証することは、差し迫った課題です。

人間によるフィードバックによる強化学習 (RLHF) は解決策を提供しますが、複雑なトレーニングアーキテクチャ、パラメーターに対する高い感度、異なるデータセット間での報酬モデルの不安定性など、複数の課題に直面しています。これらの要因により、RLHF 技術は実装が難しく、有効にするのが難しく、再現するのが困難になります。

これらの課題を克服するために、北京大学のチームは、新しい効率的なアライメントパラダイムであるAlignerを提案しました。その中核となるのは、アライメントされた回答とアライメントされていない回答の間の修正された残差を学習し、面倒な RLHF プロセスを回避することです。

Aligner は、残差学習とスケーラブルな監視のアイデアを活用して、単純な複製と残差修正の手順を通じてアライメントプロセスを簡素化し、Seq2Seq モデルを使用して暗黙の残差を学習し、アライメント効果を最適化します。

複数のモデルをトレーニングする必要がある RLHF の複雑さと比較すると、Aligner は、アライメントするモデルの後に追加のモジュールを接続するだけでアライメントを実現でき、必要なコンピューティングリソースは、上流モデルの規模ではなく、期待されるアライメント効果に主に依存します。実験では、Aligner-7B を使用すると、GPT-4 の有用性と安全性がそれぞれ 17.5% と 26.9% 大幅に向上することが示されています。

さらに、著者らは、Aligner フレームワークを使用して、弱モデル (Aligner-13B) の監視信号を通じて強モデル (Llama-70B) のパフォーマンスを強化し、弱から強への一般化を実現し、スーパーアライメントの実用的なソリューションを提供しました。

論文アドレス: https://arxiv.org/abs/2402.02416
プロジェクトのホームページとオープンソースアドレス: https://aligner2024.github.io
タイトル: アライナー: 弱から強への補正による効率的なアライメントの実現

アライナーとは何ですか?

中核的な洞察に基づく:

整列していない回答を修正する方が、整列した回答を生成するよりも簡単です。

一致した応答を生成するよりも、一致していない応答を修正する方が簡単です。

効率的なアライメント方法として、Aligner には次のような優れた機能があります。

自己回帰 Seq2Seq モデルとして、Aligner は Query-Answer-Correction (QAC) データセットでトレーニングされ、アライメントされた回答とアライメントされていない回答の違いを学習し、より正確なモデルアライメントを実現します。たとえば、70B LLM をアライメントする場合、Aligner-7B はトレーニングパラメータの量を大幅に削減します。これは、DPO の 16.67 倍、RLHF の 30.7 倍に小さくなります。
Aligner パラダイムは、Aligner モデル監視信号の少数のパラメータを使用して LLM の多数のパラメータを微調整することで、弱いモデルから強いモデルへの一般化を実現し、強いモデルのパフォーマンスを大幅に向上させます。たとえば、Aligner-13B の監視下で Llama2-70B を微調整すると、有用性と安全性がそれぞれ 8.2% と 61.6% 向上します。
Aligner はプラグアンドプレイであり、モデルパラメータに依存しないため、パラメータにアクセスできない GPT3.5、GPT4、Claude2 などのモデルをアライメントできます。 Aligner-7B は、たった 1 回のトレーニング実行で、クローズドソース、オープンソース、セキュア/非セキュアなアライメントモデルを含む 11 個のモデルの有用性と安全性を調整し、向上させます。その中で、Aligner-7B は GPT-4 の有用性と安全性をそれぞれ 17.5% と 26.9% 大幅に向上させました。

アライナーの全体的なパフォーマンス

著者らは、さまざまなサイズ (7B、13B、70B) のアライナーが、API ベースのモデルとオープンソースモデル (安全なアライメントの有無にかかわらず) の両方でパフォーマンスを向上できることを示しています。一般的に、モデルが大きくなるにつれて、Aligner のパフォーマンスは徐々に向上し、修正時に提供できる情報密度も徐々に増加し、修正された回答もより安全で役立つものになります。

Aligner モデルをトレーニングするにはどうすればいいですか?

1. クエリ回答（QA）データ収集

著者は、Stanford Alpaca、ShareGPT、HH-RLHF、その他のユーザー共有会話など、さまざまなオープンソースデータセットからクエリを取得します。これらの質問は、その後の回答と修正された回答の生成のために、パターンの除去と品質フィルタリングのプロセスを繰り返して実行されました。修正されていない応答は、Alpaca-7B、Vicuna-(7B、13B、33B)、Llama2-(7B、13B)-Chat、Alpaca2-(7B、13B)などのさまざまなオープンソースモデルを使用して生成されました。

2. 回答の訂正

著者らは、GPT-4、Llama2-70B-Chat、および手動アノテーションを使用して、大規模言語モデルの 3H 基準 (有用性、安全性、誠実さ) に従って QA データセット内の回答を修正します。

すでに基準を満たしている回答については、そのままにしておきます。変更プロセスは、回答の有用性と安全性の向上に重点を置いて、Seq2Seq モデルのトレーニングの制約を確立する、明確に定義された一連の原則に基づいています。修正前と修正後で回答の分布は大きく変化しました。次の図は、修正がデータセットに与えた影響を明確に示しています。

3. モデルのトレーニング

上記のプロセスに基づいて、著者らは、ユーザーの質問を表す新しい改訂データセットを構築しました。これは、質問に対する元の回答であり、確立された原則に従って改訂された回答です。

モデルのトレーニングプロセスは比較的簡単です。著者らは、によってパラメータ化された条件付き Seq2Seq モデルをトレーニングし、元の回答が整列された回答に再分配されるようにします。

上流の大規模言語モデルに基づいて整合された回答を生成するプロセスは次のとおりです。

トレーニング損失は次のとおりです。

2 番目の項目は、Aligner パラメータとは関係ありません。Aligner のトレーニング目標は、次のように導き出すことができます。

次の図は、Aligner の中間プロセスを動的に示しています。

注目すべきは、Aligner はトレーニングフェーズと推論フェーズの両方で上流モデルのパラメータにアクセスする必要がないことです。 Aligner の推論プロセスでは、ユーザーの質問と上流の大規模言語モデルによって生成された最初の回答を取得し、人間の価値観に沿った回答を生成するだけです。

直接回答するのではなく既存の回答を修正することで、Aligner は人間の価値観に簡単に合わせることができ、モデル機能に対する要件が大幅に軽減されます。

Aligner と既存のアライメントパラダイムの比較

アライナー vs SFT

Aligner とは対照的に、SFT はクエリのセマンティック空間から回答のセマンティック空間へのクロスドメインマッピングを直接作成します。このプロセスは、上流モデルに依存してセマンティック空間内のさまざまなコンテキストを推測およびシミュレートしますが、これは修正信号を学習するよりもはるかに困難です。

Aligner トレーニングパラダイムは、残余学習 (残余修正) の一種と考えることができます。著者は、Aligner で「コピー + 修正」学習パラダイムを作成しました。したがって、Aligner は本質的に、回答の意味空間から修正された回答の意味空間への残差マッピングを作成します。これらのマッピングは分布がより近くなります。

この目的のために、著者らは QAC トレーニングデータセットとは異なるスケールで QAA データを構築し、Aligner をトレーニングしてアイデンティティマッピング学習 (コピーマッピングとも呼ばれる) を実行しました (ウォームアップステップと呼ばれます)。これを基に、QAC トレーニングデータセット全体がトレーニングに使用されます。この残差学習パラダイムは、ResNet でも採用されており、ニューラルネットワークを深く積み重ねることによって発生する勾配消失の問題を解決します。実験結果によると、予熱率が 20% の場合、モデルは最高のパフォーマンスを達成できます。

アライナー vs RLHF

RLHF は、人間の好みのデータセットで報酬モデル (RM) をトレーニングし、この報酬モデルを使用して PPO アルゴリズムで LLM を微調整し、LLM の動作を人間の好みと一致させます。

具体的には、報酬モデルは最適化のために人間の嗜好データを離散数値空間から連続数値空間にマッピングする必要があります。しかし、テキスト空間での一般化能力が強い Seq2Seq モデルと比較すると、このタイプの数値報酬モデルはテキスト空間での一般化能力が弱いため、RLHF が異なるモデルに与える効果が不安定になります。

Aligner は、Seq2Seq モデルをトレーニングすることで、アライメントされた回答とアライメントされていない回答の差 (残差) を学習し、RLHF プロセスを効果的に回避して、RLHF よりも一般化されたパフォーマンスを実現します。

アライナー vs. プロンプトエンジニアリング

プロンプトエンジニアリングは、LLM の機能を刺激する一般的な方法です。ただし、この方法には、プロンプトの設計が難しく、モデルごとに異なる設計が必要であるなど、いくつかの重要な問題があります。最終的な効果はモデルの機能によって異なります。モデルの機能がタスクを解決するのに十分でない場合は、複数の反復が必要になる可能性があり、コンテキストウィンドウが無駄になります。小さなモデルの限られたコンテキストウィンドウは、プロンプトエンジニアリングの効果に影響します。大きなモデルの場合、コンテキストを長く占有すると、トレーニングのコストが大幅に増加します。

Aligner 自体は、あらゆるモデルのアライメントをサポートできます。1 回のトレーニングで、元のモデルのコンテキストウィンドウを占有することなく、11 種類の異なるモデルをアライメントできます。 Aligner を既存のキューワードエンジニアリング手法とシームレスに組み合わせて、1+1>2 の効果を実現できることは注目に値します。

一般的に、アライナーには次のような大きな利点があります。

1. アライナーのトレーニングが簡単になります。 RLHF の複雑な報酬モデル学習とこのモデルに基づく強化学習 (RL) の微調整プロセスと比較すると、Aligner の実装プロセスはより直接的で操作が簡単です。対照的に、Aligner は、RLHF に含まれる複数のエンジニアリングパラメータ調整の詳細と、RL アルゴリズムの固有の不安定性とハイパーパラメータ感度を考慮することで、エンジニアリングの複雑さを大幅に簡素化します。

2.Aligner はトレーニングデータが少なく、アライメント効果が大きくなります。 20K データに基づいて Aligner-7B モデルをトレーニングすると、GPT-4 の有用性が 12%、安全性が 26% 向上し、Vicuna 33B モデルの有用性が 29%、安全性が 45.3% 向上します。RLHF では、この効果を実現するために、より多くの好みデータと洗練されたパラメータ調整が必要です。

3.アライナーはモデルの重量に触れる必要はありません。 RLHF はモデルの調整に効果的であることが示されていますが、モデルの直接的なトレーニングに依存しています。 GPT-4 などのクローズドソース API ベースのモデルと、下流のタスクでの微調整要件に直面すると、RLHF の適用範囲は限られます。これに対し、Aligner では、モデルの元のパラメータを直接操作する必要はなく、アライメント要件を独立したアライメントモジュールに外部化することで、柔軟なアライメント方法を実現します。

4.アライナーはモデルの種類に依存しません。 RLHF フレームワークでは、さまざまなモデル (Llama2 や Alpaca など) を微調整するには、好みのデータを再収集するだけでなく、報酬モデルのトレーニングと RL ステージ中にトレーニングパラメータを調整する必要があります。 Aligner は、1 回のトレーニングを通じてあらゆるモデルのアライメントをサポートできます。たとえば、Aligner-7B は、改訂されたデータセットで 1 回のトレーニングを行うだけで、11 種類の異なるモデル (オープンソースモデル、GPT などの API モデルを含む) をアラインメントし、有用性とセキュリティの面でそれぞれ 21.9% と 23.8% のパフォーマンスを向上させることができます。

5.Aligner はトレーニングリソースの要求に関してより柔軟です。 RLHF による 70B モデルの微調整は、依然としてコンピューティングリソースに対する要求が非常に高く、数百枚の GPU カードが必要です。 RLHF メソッドでは、モデルパラメーターの数に相当する報酬モデル、アクターモデル、および Critic モデルの追加ロードも必要になるためです。したがって、単位時間あたりのトレーニングリソースの消費量に関して言えば、RLHF は実際には事前トレーニングよりも多くのコンピューティングリソースを必要とします。

対照的に、Aligner はより柔軟なトレーニング戦略を提供し、ユーザーは実際のコンピューティングリソースに基づいて Aligner トレーニングスケールを柔軟に選択できます。たとえば、70B モデルの位置合わせ要件を満たすために、ユーザーは実際に利用可能なリソースに基づいてさまざまなサイズ (7B、13B、70B など) の Aligner モデルを選択し、ターゲットモデルの効果的な位置合わせを実現できます。

この柔軟性により、コンピューティングリソースの絶対的な需要が削減されるだけでなく、限られたリソースを効率的に調整する可能性がユーザーに提供されます。

弱から強への一般化

「弱から強への一般化」で議論されている問題は、弱いモデルのラベルを使用して強いモデルをトレーニングし、強いモデルのパフォーマンスを向上させることができるかどうかです。 OpenAI はこのアナロジーを活用してスーパーアライメントの問題を解決しています。具体的には、グラウンドトゥルースラベルを使用して弱いモデルをトレーニングします。

OpenAIの研究者らはいくつかの予備実験を行った。例えば、テキスト分類のタスクでは、トレーニングデータセットを2つの部分に分け、前半の入力と真の値のラベルを使用して弱モデルをトレーニングし、後半のトレーニングデータには入力のみが保持され、ラベルは弱モデルによって生成された。強いモデルをトレーニングする場合、弱いモデルによって生成された弱いラベルのみが、強いモデルの監視信号を提供するために使用されます。

弱モデルを真の値ラベルでトレーニングする目的は、弱モデルが対応するタスクを解決する能力を獲得できるようにすることですが、弱ラベルを生成するために使用される入力は、弱モデルをトレーニングするために使用される入力と同じではありません。このパラダイムは、弱いモデルを使用して強いモデルを導くという「指導」の概念に似ています。

Aligner の特性に基づいて、著者らは新しい弱から強への一般化パラダイムを提案しました。

著者の中心的なアイデアは、Aligner を「巨人の肩の上に立つ監督者」として機能させることです。 OpenAI の「巨人」を直接監視するアプローチとは異なり、Aligner は、弱いモデルから強いモデルへの修正を通じてより強力なモデルを修正し、その過程でより正確なラベルを提供します。

具体的には、Aligner のトレーニング中、修正データには GPT-4、人間の注釈者、およびより大きなモデル注釈が含まれます。その後、著者らは Aligner を使用して新しい QA データセットに弱いラベル (つまり、修正) を生成し、その弱いラベルを使用して元のモデルを微調整しました。

実験結果は、このパラダイムによってモデルのアライメントパフォーマンスがさらに向上することを示しています。

実験結果

アライナー vs SFT/RLHF/DPO

著者らは、Aligner のクエリ-回答-修正トレーニングデータセットを使用し、それぞれ SFT/RLHF/DPO メソッドを使用して Alpaca-7B を微調整しました。

パフォーマンスを評価する際には、オープンソースの BeaverTails および HarmfulQA テストプロンプトデータセットを使用して、微調整されたモデルによって生成された回答と、Aligner を使用して修正された元の Alpaca-7B モデルの回答を、有用性と安全性の観点から比較しました。結果は次のとおりです。

実験結果によると、Aligner は SFT/RLHF/DPO などの成熟した LLM アライメントパラダイムよりも明らかに優れており、有用性とセキュリティの両方で大幅に優れていることがわかりました。

具体的な実験事例を分析すると、RLHF/DPO パラダイムを使用して微調整されたアライメントモデルは、安全性を向上させるために保守的な回答を生成する傾向があるが、有用性を向上させるプロセスでは安全性を考慮できず、回答内の危険な情報が増加する可能性があることがわかります。

アライナー vs プロンプトエンジニアリング

同じアップストリームモデルで Aligner-13B と CAI/Self-Critique 方式のパフォーマンス向上を比較した実験結果を下の図に示します。Aligner-13B は、CAI/Self-Critique 方式よりも有用性とセキュリティの両方で GPT-4 を向上させており、これは Aligner パラダイムが一般的に使用されるプロンプトエンジニアリング方式よりも明らかな利点があることを示しています。

注目すべきは、この実験では、CAI プロンプトは推論中にのみ使用され、回答を自己修正するように促すものであったことです。これもまた、自己改善の一形態です。

さらに、著者らはさらなる研究を行い、CAI方式で修正された解答をAlignerで修正し、Aligner前後の解答を直接比較しました。実験結果を下の図に示します。

方法A: CAI + アライナー方法B: CAIのみ

Aligner を使用して CAI で修正された回答に対して 2 回目の修正を実行したところ、セキュリティを損なうことなく、回答の有用性が大幅に向上しました。これは、Aligner が単独で使用された場合の競争力が非常に高いだけでなく、他の既存のアライメント方法と組み合わせてパフォーマンスをさらに向上させることもできることを示しています。

弱から強への一般化

方法: 弱から強へのトレーニングデータセットは (q、a、a′) トリプレットで構成されます。ここで、q は Aligner トレーニングデータセット (50K) からの質問を表し、a は Alpaca-7B モデルによって生成された回答を表し、a′ は Aligner-7B によって提供されたアライメントされた回答 (q、a) を表します。 a′ のみをグラウンドトゥルースラベルとして使用する SFT とは異なり、RLHF および DPO トレーニングでは a′ が a よりも優れていると見なされます。

著者らは、Aligner を使用して新しい QA データセットの元の回答を修正し、修正された回答を弱いラベルとして使用し、これらの弱いラベルをより大きなモデルをトレーニングするための監督信号として使用しました。このプロセスは、OpenAI のトレーニングパラダイムに似ています。

著者らは、SFT、RLHF、DPO の 3 つの方法を通じて、弱いラベルに基づく強いモデルをトレーニングします。上記の表の実験結果は、SFT を介して上流モデルを微調整すると、Aligner-7B と Aligner-13B の弱ラベルによって、すべてのシナリオで Llama2 シリーズの強モデルのパフォーマンスが向上することを示しています。

展望: アライナーの潜在的な研究方向

革新的なアライメント方法として、Aligner は大きな研究の可能性を秘めています。この論文では、著者らは Aligner のいくつかの応用シナリオを提案しました。

1. 複数ラウンドの対話シナリオでのアプリケーション。まばらな報酬に対処するという課題は、複数ターンの会話では特に深刻です。質問応答 (QA) ダイアログでは、スカラー形式の監視信号は通常、会話の最後にのみ利用できます。

このスパース性の問題は、複数ラウンドの会話（継続的な QA シナリオなど）ではさらに増幅され、強化学習ベースの人間によるフィードバック（RLHF）を効果的に行うことが難しくなります。複数ラウンドのダイアログのアライメント効果を向上させる Aligner の可能性を研究することは、さらに調査する価値のある分野です。

2. 報酬モデルへの人間の価値観の整合。人間の好みに基づいて報酬モデルを構築し、大規模言語モデル (LLM) を微調整する多段階のプロセスでは、LLM が特定の人間の価値観 (公平性、共感など) と一致するようにすることが大きな課題となります。

モデルの外部にある Aligner アライメントモジュールに値のアライメントタスクを委託し、特定のコーパスを使用して Aligner をトレーニングすることで、値のアライメントに関する新しいアイデアが提供されるだけでなく、Aligner がフロントモデルの出力を修正して特定の値を反映することも可能になります。

3. MoE-Aligner のストリーミングと並列処理。 Aligner を特化して統合することで、複数のハイブリッドセキュリティと値の調整のニーズを満たす、より強力で包括的な Hybrid of Expert (MoE) Aligner を作成できます。同時に、Aligner の並列処理能力をさらに向上させて推論時間の損失を減らすことは、実現可能な開発方向です。

4. モデルトレーニング中の融合。特定の重みレイヤーの後に Aligner レイヤーを統合することで、モデルのトレーニング中に出力にリアルタイムで介入できるようになります。この方法は、アライメントの効率を向上させるだけでなく、モデルのトレーニングプロセスを最適化し、より効率的なモデルアライメントを実現するのにも役立ちます。

チームについて

この研究は、北京大学人工知能研究所AIセキュリティ・ガバナンスセンターの楊耀東氏の研究グループが独自に完成させたものである。チームは、オープンソースの百万レベルの安全なアライメント設定データセットBeaverTails（NeurIPS 2023）や大規模言語モデル向けの安全なアライメントアルゴリズムSafeRLHF（ICLR 2024 Spotlight）など、大規模言語モデルのアライメント技術に深く取り組んできました。関連技術は、複数のオープンソースモデルに採用されています。彼は、業界初の人工知能アライメントに関する包括的なレビューを執筆し、リソースウェブサイト www.alignmentsurvey.com (元のテキストをクリックすると直接ジャンプします) を公開し、フィードバックからの学習、分布シフトでの学習、保証、ガバナンスという 4 つの観点から AI アライメントの問題を体系的に解説しました。チームのアラインメントとスーパーアラインメントに関する見解は、2024年の「三聯生活週刊」第5号の表紙に掲載されました。

<<: スタンフォード大学とOpenAIがメタプロンプティングを提案し、最も強力なゼロショットプロンプティング技術が誕生した。

>>: 2GBのDAYU200に大規模な言語モデルをローカルにデプロイする