背景大規模言語モデル (LLM) は強力な機能を発揮していますが、不快な応答、虚偽の情報、漏洩した個人データなど、予測不可能で有害な出力を生成し、ユーザーや社会に害を及ぼす可能性もあります。これらのモデルの動作が人間の意図や価値観と一致していることを保証することは、差し迫った課題です。 人間によるフィードバックによる強化学習 (RLHF) は解決策を提供しますが、複雑なトレーニング アーキテクチャ、パラメーターに対する高い感度、異なるデータセット間での報酬モデルの不安定性など、複数の課題に直面しています。これらの要因により、RLHF 技術は実装が難しく、有効にするのが難しく、再現するのが困難になります。 これらの課題を克服するために、北京大学のチームは、新しい効率的なアライメントパラダイムであるAlignerを提案しました。その中核となるのは、アライメントされた回答とアライメントされていない回答の間の修正された残差を学習し、面倒な RLHF プロセスを回避することです。 Aligner は、残差学習とスケーラブルな監視のアイデアを活用して、単純な複製と残差修正の手順を通じてアライメント プロセスを簡素化し、Seq2Seq モデルを使用して暗黙の残差を学習し、アライメント効果を最適化します。 複数のモデルをトレーニングする必要がある RLHF の複雑さと比較すると、Aligner は、アライメントするモデルの後に追加のモジュールを接続するだけでアライメントを実現でき、必要なコンピューティング リソースは、上流モデルの規模ではなく、期待されるアライメント効果に主に依存します。実験では、Aligner-7B を使用すると、GPT-4 の有用性と安全性がそれぞれ 17.5% と 26.9% 大幅に向上することが示されています。 さらに、著者らは、Aligner フレームワークを使用して、弱モデル (Aligner-13B) の監視信号を通じて強モデル (Llama-70B) のパフォーマンスを強化し、弱から強への一般化を実現し、スーパーアライメントの実用的なソリューションを提供しました。
アライナーとは何ですか?中核的な洞察に基づく: 整列していない回答を修正する方が、整列した回答を生成するよりも簡単です。 一致した応答を生成するよりも、一致していない応答を修正する方が簡単です。 効率的なアライメント方法として、Aligner には次のような優れた機能があります。
アライナーの全体的なパフォーマンス 著者らは、さまざまなサイズ (7B、13B、70B) のアライナーが、API ベースのモデルとオープンソース モデル (安全なアライメントの有無にかかわらず) の両方でパフォーマンスを向上できることを示しています。一般的に、モデルが大きくなるにつれて、Aligner のパフォーマンスは徐々に向上し、修正時に提供できる情報密度も徐々に増加し、修正された回答もより安全で役立つものになります。 Aligner モデルをトレーニングするにはどうすればいいですか?1. クエリ回答(QA)データ収集 著者は、Stanford Alpaca、ShareGPT、HH-RLHF、その他のユーザー共有会話など、さまざまなオープンソース データセットからクエリを取得します。これらの質問は、その後の回答と修正された回答の生成のために、パターンの除去と品質フィルタリングのプロセスを繰り返して実行されました。修正されていない応答は、Alpaca-7B、Vicuna-(7B、13B、33B)、Llama2-(7B、13B)-Chat、Alpaca2-(7B、13B)などのさまざまなオープンソースモデルを使用して生成されました。 2. 回答の訂正 著者らは、GPT-4、Llama2-70B-Chat、および手動アノテーションを使用して、大規模言語モデルの 3H 基準 (有用性、安全性、誠実さ) に従って QA データセット内の回答を修正します。 すでに基準を満たしている回答については、そのままにしておきます。変更プロセスは、回答の有用性と安全性の向上に重点を置いて、Seq2Seq モデルのトレーニングの制約を確立する、明確に定義された一連の原則に基づいています。修正前と修正後で回答の分布は大きく変化しました。次の図は、修正がデータセットに与えた影響を明確に示しています。 3. モデルのトレーニング 上記のプロセスに基づいて、著者らは、ユーザーの質問を表す新しい改訂データセットを構築しました。これは、質問に対する元の回答であり、確立された原則に従って改訂された回答です。 モデルのトレーニングプロセスは比較的簡単です。著者らは、 によってパラメータ化された条件付き Seq2Seq モデルをトレーニングし、元の回答が整列された回答に再分配されるようにします。 上流の大規模言語モデルに基づいて整合された回答を生成するプロセスは次のとおりです。 トレーニング損失は次のとおりです。 2 番目の項目は、Aligner パラメータとは関係ありません。Aligner のトレーニング目標は、次のように導き出すことができます。 次の図は、Aligner の中間プロセスを動的に示しています。 注目すべきは、Aligner はトレーニング フェーズと推論フェーズの両方で上流モデルのパラメータにアクセスする必要がないことです。 Aligner の推論プロセスでは、ユーザーの質問と上流の大規模言語モデルによって生成された最初の回答を取得し、人間の価値観に沿った回答を生成するだけです。 直接回答するのではなく既存の回答を修正することで、Aligner は人間の価値観に簡単に合わせることができ、モデル機能に対する要件が大幅に軽減されます。 Aligner と既存のアライメントパラダイムの比較アライナー vs SFT Aligner とは対照的に、SFT はクエリのセマンティック空間から回答のセマンティック空間へのクロスドメイン マッピングを直接作成します。このプロセスは、上流モデルに依存してセマンティック空間内のさまざまなコンテキストを推測およびシミュレートしますが、これは修正信号を学習するよりもはるかに困難です。 Aligner トレーニング パラダイムは、残余学習 (残余修正) の一種と考えることができます。著者は、Aligner で「コピー + 修正」学習パラダイムを作成しました。したがって、Aligner は本質的に、回答の意味空間から修正された回答の意味空間への残差マッピングを作成します。これらのマッピングは分布がより近くなります。 この目的のために、著者らは QAC トレーニング データセットとは異なるスケールで QAA データを構築し、Aligner をトレーニングしてアイデンティティ マッピング学習 (コピー マッピングとも呼ばれる) を実行しました (ウォームアップステップと呼ばれます)。これを基に、QAC トレーニング データ セット全体がトレーニングに使用されます。この残差学習パラダイムは、ResNet でも採用されており、ニューラル ネットワークを深く積み重ねることによって発生する勾配消失の問題を解決します。実験結果によると、予熱率が 20% の場合、モデルは最高のパフォーマンスを達成できます。 アライナー vs RLHF RLHF は、人間の好みのデータセットで報酬モデル (RM) をトレーニングし、この報酬モデルを使用して PPO アルゴリズムで LLM を微調整し、LLM の動作を人間の好みと一致させます。 具体的には、報酬モデルは最適化のために人間の嗜好データを離散数値空間から連続数値空間にマッピングする必要があります。しかし、テキスト空間での一般化能力が強い Seq2Seq モデルと比較すると、このタイプの数値報酬モデルはテキスト空間での一般化能力が弱いため、RLHF が異なるモデルに与える効果が不安定になります。 Aligner は、Seq2Seq モデルをトレーニングすることで、アライメントされた回答とアライメントされていない回答の差 (残差) を学習し、RLHF プロセスを効果的に回避して、RLHF よりも一般化されたパフォーマンスを実現します。 アライナー vs. プロンプトエンジニアリング プロンプト エンジニアリングは、LLM の機能を刺激する一般的な方法です。ただし、この方法には、プロンプトの設計が難しく、モデルごとに異なる設計が必要であるなど、いくつかの重要な問題があります。最終的な効果はモデルの機能によって異なります。モデルの機能がタスクを解決するのに十分でない場合は、複数の反復が必要になる可能性があり、コンテキスト ウィンドウが無駄になります。小さなモデルの限られたコンテキスト ウィンドウは、プロンプト エンジニアリングの効果に影響します。大きなモデルの場合、コンテキストを長く占有すると、トレーニングのコストが大幅に増加します。 Aligner 自体は、あらゆるモデルのアライメントをサポートできます。1 回のトレーニングで、元のモデルのコンテキスト ウィンドウを占有することなく、11 種類の異なるモデルをアライメントできます。 Aligner を既存のキューワード エンジニアリング手法とシームレスに組み合わせて、1+1>2 の効果を実現できることは注目に値します。 一般的に、アライナーには次のような大きな利点があります。 1. アライナーのトレーニングが簡単になります。 RLHF の複雑な報酬モデル学習とこのモデルに基づく強化学習 (RL) の微調整プロセスと比較すると、Aligner の実装プロセスはより直接的で操作が簡単です。対照的に、Aligner は、RLHF に含まれる複数のエンジニアリング パラメータ調整の詳細と、RL アルゴリズムの固有の不安定性とハイパーパラメータ感度を考慮することで、エンジニアリングの複雑さを大幅に簡素化します。 2.Aligner はトレーニング データが少なく、アライメント効果が大きくなります。 20K データに基づいて Aligner-7B モデルをトレーニングすると、GPT-4 の有用性が 12%、安全性が 26% 向上し、Vicuna 33B モデルの有用性が 29%、安全性が 45.3% 向上します。RLHF では、この効果を実現するために、より多くの好みデータと洗練されたパラメータ調整が必要です。 3.アライナーはモデルの重量に触れる必要はありません。 RLHF はモデルの調整に効果的であることが示されていますが、モデルの直接的なトレーニングに依存しています。 GPT-4 などのクローズドソース API ベースのモデルと、下流のタスクでの微調整要件に直面すると、RLHF の適用範囲は限られます。これに対し、Aligner では、モデルの元のパラメータを直接操作する必要はなく、アライメント要件を独立したアライメント モジュールに外部化することで、柔軟なアライメント方法を実現します。 4.アライナーはモデルの種類に依存しません。 RLHF フレームワークでは、さまざまなモデル (Llama2 や Alpaca など) を微調整するには、好みのデータを再収集するだけでなく、報酬モデルのトレーニングと RL ステージ中にトレーニング パラメータを調整する必要があります。 Aligner は、1 回のトレーニングを通じてあらゆるモデルのアライメントをサポートできます。たとえば、Aligner-7B は、改訂されたデータセットで 1 回のトレーニングを行うだけで、11 種類の異なるモデル (オープンソース モデル、GPT などの API モデルを含む) をアラインメントし、有用性とセキュリティの面でそれぞれ 21.9% と 23.8% のパフォーマンスを向上させることができます。 5.Aligner はトレーニング リソースの要求に関してより柔軟です。 RLHF による 70B モデルの微調整は、依然としてコンピューティング リソースに対する要求が非常に高く、数百枚の GPU カードが必要です。 RLHF メソッドでは、モデル パラメーターの数に相当する報酬モデル、アクター モデル、および Critic モデルの追加ロードも必要になるためです。したがって、単位時間あたりのトレーニング リソースの消費量に関して言えば、RLHF は実際には事前トレーニングよりも多くのコンピューティング リソースを必要とします。 対照的に、Aligner はより柔軟なトレーニング戦略を提供し、ユーザーは実際のコンピューティング リソースに基づいて Aligner トレーニング スケールを柔軟に選択できます。たとえば、70B モデルの位置合わせ要件を満たすために、ユーザーは実際に利用可能なリソースに基づいてさまざまなサイズ (7B、13B、70B など) の Aligner モデルを選択し、ターゲット モデルの効果的な位置合わせを実現できます。 この柔軟性により、コンピューティング リソースの絶対的な需要が削減されるだけでなく、限られたリソースを効率的に調整する可能性がユーザーに提供されます。 弱から強への一般化「弱から強への一般化」で議論されている問題は、弱いモデルのラベルを使用して強いモデルをトレーニングし、強いモデルのパフォーマンスを向上させることができるかどうかです。 OpenAI はこのアナロジーを活用してスーパーアライメントの問題を解決しています。具体的には、グラウンドトゥルースラベルを使用して弱いモデルをトレーニングします。 OpenAIの研究者らはいくつかの予備実験を行った。例えば、テキスト分類のタスクでは、トレーニングデータセットを2つの部分に分け、前半の入力と真の値のラベルを使用して弱モデルをトレーニングし、後半のトレーニングデータには入力のみが保持され、ラベルは弱モデルによって生成された。強いモデルをトレーニングする場合、弱いモデルによって生成された弱いラベルのみが、強いモデルの監視信号を提供するために使用されます。 弱モデルを真の値ラベルでトレーニングする目的は、弱モデルが対応するタスクを解決する能力を獲得できるようにすることですが、弱ラベルを生成するために使用される入力は、弱モデルをトレーニングするために使用される入力と同じではありません。このパラダイムは、弱いモデルを使用して強いモデルを導くという「指導」の概念に似ています。 Aligner の特性に基づいて、著者らは新しい弱から強への一般化パラダイムを提案しました。 著者の中心的なアイデアは、Aligner を「巨人の肩の上に立つ監督者」として機能させることです。 OpenAI の「巨人」を直接監視するアプローチとは異なり、Aligner は、弱いモデルから強いモデルへの修正を通じてより強力なモデルを修正し、その過程でより正確なラベルを提供します。 具体的には、Aligner のトレーニング中、修正データには GPT-4、人間の注釈者、およびより大きなモデル注釈が含まれます。その後、著者らは Aligner を使用して新しい QA データセットに弱いラベル (つまり、修正) を生成し、その弱いラベルを使用して元のモデルを微調整しました。 実験結果は、このパラダイムによってモデルのアライメント パフォーマンスがさらに向上することを示しています。 実験結果アライナー vs SFT/RLHF/DPO 著者らは、Aligner のクエリ-回答-修正トレーニング データセットを使用し、それぞれ SFT/RLHF/DPO メソッドを使用して Alpaca-7B を微調整しました。 パフォーマンスを評価する際には、オープンソースの BeaverTails および HarmfulQA テスト プロンプト データセットを使用して、微調整されたモデルによって生成された回答と、Aligner を使用して修正された元の Alpaca-7B モデルの回答を、有用性と安全性の観点から比較しました。結果は次のとおりです。 実験結果によると、Aligner は SFT/RLHF/DPO などの成熟した LLM アライメント パラダイムよりも明らかに優れており、有用性とセキュリティの両方で大幅に優れていることがわかりました。 具体的な実験事例を分析すると、RLHF/DPO パラダイムを使用して微調整されたアライメント モデルは、安全性を向上させるために保守的な回答を生成する傾向があるが、有用性を向上させるプロセスでは安全性を考慮できず、回答内の危険な情報が増加する可能性があることがわかります。 アライナー vs プロンプトエンジニアリング 同じアップストリーム モデルで Aligner-13B と CAI/Self-Critique 方式のパフォーマンス向上を比較した実験結果を下の図に示します。Aligner-13B は、CAI/Self-Critique 方式よりも有用性とセキュリティの両方で GPT-4 を向上させており、これは Aligner パラダイムが一般的に使用されるプロンプト エンジニアリング方式よりも明らかな利点があることを示しています。 注目すべきは、この実験では、CAI プロンプトは推論中にのみ使用され、回答を自己修正するように促すものであったことです。これもまた、自己改善の一形態です。 さらに、著者らはさらなる研究を行い、CAI方式で修正された解答をAlignerで修正し、Aligner前後の解答を直接比較しました。実験結果を下の図に示します。 方法A: CAI + アライナー 方法B: CAIのみ Aligner を使用して CAI で修正された回答に対して 2 回目の修正を実行したところ、セキュリティを損なうことなく、回答の有用性が大幅に向上しました。これは、Aligner が単独で使用された場合の競争力が非常に高いだけでなく、他の既存のアライメント方法と組み合わせてパフォーマンスをさらに向上させることもできることを示しています。 弱から強への一般化 方法: 弱から強へのトレーニング データセットは (q、a、a′) トリプレットで構成されます。ここで、q は Aligner トレーニング データセット (50K) からの質問を表し、a は Alpaca-7B モデルによって生成された回答を表し、a′ は Aligner-7B によって提供されたアライメントされた回答 (q、a) を表します。 a′ のみをグラウンドトゥルースラベルとして使用する SFT とは異なり、RLHF および DPO トレーニングでは a′ が a よりも優れていると見なされます。 著者らは、Aligner を使用して新しい QA データセットの元の回答を修正し、修正された回答を弱いラベルとして使用し、これらの弱いラベルをより大きなモデルをトレーニングするための監督信号として使用しました。このプロセスは、OpenAI のトレーニング パラダイムに似ています。 著者らは、SFT、RLHF、DPO の 3 つの方法を通じて、弱いラベルに基づく強いモデルをトレーニングします。上記の表の実験結果は、SFT を介して上流モデルを微調整すると、Aligner-7B と Aligner-13B の弱ラベルによって、すべてのシナリオで Llama2 シリーズの強モデルのパフォーマンスが向上することを示しています。 展望: アライナーの潜在的な研究方向革新的なアライメント方法として、Aligner は大きな研究の可能性を秘めています。この論文では、著者らは Aligner のいくつかの応用シナリオを提案しました。 1. 複数ラウンドの対話シナリオでのアプリケーション。まばらな報酬に対処するという課題は、複数ターンの会話では特に深刻です。質問応答 (QA) ダイアログでは、スカラー形式の監視信号は通常、会話の最後にのみ利用できます。 このスパース性の問題は、複数ラウンドの会話(継続的な QA シナリオなど)ではさらに増幅され、強化学習ベースの人間によるフィードバック(RLHF)を効果的に行うことが難しくなります。複数ラウンドのダイアログのアライメント効果を向上させる Aligner の可能性を研究することは、さらに調査する価値のある分野です。 2. 報酬モデルへの人間の価値観の整合。人間の好みに基づいて報酬モデルを構築し、大規模言語モデル (LLM) を微調整する多段階のプロセスでは、LLM が特定の人間の価値観 (公平性、共感など) と一致するようにすることが大きな課題となります。 モデルの外部にある Aligner アライメント モジュールに値のアライメント タスクを委託し、特定のコーパスを使用して Aligner をトレーニングすることで、値のアライメントに関する新しいアイデアが提供されるだけでなく、Aligner がフロント モデルの出力を修正して特定の値を反映することも可能になります。 3. MoE-Aligner のストリーミングと並列処理。 Aligner を特化して統合することで、複数のハイブリッド セキュリティと値の調整のニーズを満たす、より強力で包括的な Hybrid of Expert (MoE) Aligner を作成できます。同時に、Aligner の並列処理能力をさらに向上させて推論時間の損失を減らすことは、実現可能な開発方向です。 4. モデルトレーニング中の融合。特定の重みレイヤーの後に Aligner レイヤーを統合することで、モデルのトレーニング中に出力にリアルタイムで介入できるようになります。この方法は、アライメントの効率を向上させるだけでなく、モデルのトレーニング プロセスを最適化し、より効率的なモデル アライメントを実現するのにも役立ちます。 チームについてこの研究は、北京大学人工知能研究所AIセキュリティ・ガバナンスセンターの楊耀東氏の研究グループが独自に完成させたものである。チームは、オープンソースの百万レベルの安全なアライメント設定データセットBeaverTails(NeurIPS 2023)や大規模言語モデル向けの安全なアライメントアルゴリズムSafeRLHF(ICLR 2024 Spotlight)など、大規模言語モデルのアライメント技術に深く取り組んできました。関連技術は、複数のオープンソースモデルに採用されています。彼は、業界初の人工知能アライメントに関する包括的なレビューを執筆し、リソース ウェブサイト www.alignmentsurvey.com (元のテキストをクリックすると直接ジャンプします) を公開し、フィードバックからの学習、分布シフトでの学習、保証、ガバナンスという 4 つの観点から AI アライメントの問題を体系的に解説しました。チームのアラインメントとスーパーアラインメントに関する見解は、2024年の「三聯生活週刊」第5号の表紙に掲載されました。 |
<<: スタンフォード大学とOpenAIがメタプロンプティングを提案し、最も強力なゼロショットプロンプティング技術が誕生した。
>>: 2GBのDAYU200に大規模な言語モデルをローカルにデプロイする
一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。彼はこう質問...
宝くじで生計を立てる可能性はどれくらいありますか? 2005年、MITの学生グループが集まり、ギャン...
アドビは10月11日、先日開催されたAdobe MAXクリエイティブカンファレンスにおいて、同社のA...
テスラと「レース」を敢行する四輪ロボットを見たことがありますか?以下に示すように、かなり高速であるよ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ディープラーニングは、機械学習の中で最も急速に成長し、最もエキサイティングな分野の 1 つになりまし...
サイバー犯罪者の目から見れば、クレジットカード会社は間違いなく最も重要な攻撃ターゲットの一つです。彼...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
オープンソースは技術革新と急速な発展の中核です。この投稿では、Python 機械学習のオープンソース...
9月に、TIOBE Indexは改良されたアルゴリズムを使用してプログラミング言語の人気度を計算しま...