過去数か月間、私たちは大規模言語モデル (LLM) が高品質のテキストを生成し、幅広い言語タスクを解決する驚くべき能力を持っていることを目の当たりにしてきました。しかし、LLM は、生成される出力が人間の好みと大きく一致しないというジレンマに直面しています。適切なアライメントがないと、言語モデルは安全でないコンテンツを出力する可能性があります。さらに、LLM を調整すると、下流のタスクの改善にも役立ちます。 一部の研究者は、人間の好みを利用してアライメント問題を解決するために、人間のフィードバックに基づく強化学習 (RLHF) を提案しました。 一般的に言えば、RLHF は PPO や A2C などのオンライン RL 手法に依存していますが、これらの手法は計算コストが高く、攻撃に対して脆弱です。オフライン RL はオンライン RL の欠陥を回避できますが、オフライン学習の品質はオフライン データセットの特性に過度に依存します。したがって、適切にキュレーションされたデータセットは、オフライン強化学習にとって非常に重要です。 この論文では、Google DeepMind の研究者が LLM を人間の好みに合わせるためのシンプルなアルゴリズムを提案し、この方法を ReST (Reinforced Self-Training) と名付けました。人間のフィードバックを使用して言語モデルを改善する RLHF とは異なり、ReST はオフライン データを生成してトレーニングに使用するため、LLM が人間の好みに合うようになります。 初期の LLM ポリシーが与えられると、ReST はそのポリシーに基づいてデータセットを生成し、それをオフライン RL アルゴリズムに基づいて LLM ポリシーを改善するために使用できます。 ReST は、トレーニング データセットがオフラインで生成され、データの再利用が可能になるため、一般的なオンライン RLHF 方法よりも効果的です。 研究チームは、ReST はすべての生成タスクに使用できるが、この論文の焦点は機械翻訳であると述べた。結果は、ReST によって翻訳品質が大幅に向上することを示しています。 論文アドレス: https://arxiv.org/pdf/2308.08998.pdf ある研究者は次のようにコメントしています。「DeepMind は、自然言語生成における反復的な自己改善を実証しました。彼らは、人間のフィードバック強化学習 (RLHF) ループから「人間」を取り除き、ReST を提案しました。」 次に具体的な実装方法を見ていきましょう。 方法の紹介この研究では、言語モデルの出力を人間の好みに合わせることができる、強化自己トレーニング (ReST) と呼ばれる RLHF アルゴリズムが提案されました。シーケンスに対する人間の好みは、学習された報酬関数を使用してモデル化されます。 ReST アルゴリズムは、一般的な RL パイプラインのデータセットの増加 (Grow) とポリシーの改善 (Improve) を 2 つの別々のオフライン ステージに分離します。 下の図 1 に示すように、ReST メソッドは、内側のループ (改善ステップ) と外側のループ (成長ステップ) の 2 つのループで構成されます。また、オンラインまたはオフライン RL の一般的な RLHF 方式と比較して、ReST には次の利点があります。
この研究では、まず、シーケンスペアデータセットDが与えられた場合、式(1)のNLL損失を使用して入力シーケンス𝒙を出力シーケンス𝒚にマッピングする初期モデルをトレーニングします。 次に、成長ステップでは、モデルからのサンプルを使用して初期トレーニング データセットを拡張する新しいデータセット D_𝑔 を作成します。 ここで、条件付け入力は、自己トレーニングの場合と同様に、元のデータセットから再サンプリングされますが、𝑝(𝒙) にアクセスできる場合は、そこから直接サンプリングすることもできます。たとえば、テキストグラフモデルでは、テキスト入力の分布は言語モデル𝑝(𝒙)からサンプリングできます。 次に、改善ステップではD_𝑔を使用してポリシー𝜋_𝜃を微調整します。この研究では、戦略が発散しないようにするために、トレーニングで元のデータセットを保持したことは注目に値します。 ReST アルゴリズム全体は、以下のアルゴリズム 1 に示されています。これには、複数のデータ セットの増加と戦略の改善の手順が含まれています。 実験研究者らは、IWSLT 2014、WMT 2020、Web Domain などのテストベンチマークを使用して、機械翻訳タスクに関する実験を実施しました。 図 3 は、複数の改善ステップでの平均報酬をプロットしたものです。改善ステップが増えるにつれて、3 つのデータセットすべてで翻訳モデルのパフォーマンスが向上していることがわかります。 成長ステップ (G) を増やすと、報酬モデルのスコアが向上しますか?この疑問を念頭に置いて、研究者たちは別の実験を行った。結果は図 4 に示されています。1 つの Grow ステップを持つ方法は、IWSLT 2014 および Web ドメイン データセットで改善されています。Grow ステップが 2 の場合、モデルのスコアは 77.8 から 80.5 に改善され、5.3 の改善が見られます。 ReST は監督付きトレーニングよりも優れていますか?結果は図 5 に示されています。最初の成長ステップの後でも、ReST のさまざまなバリアント (紫) は、教師あり学習 (灰色) を大幅に上回っています。 推論時に Best-of-N サンプリングを使用することで、ReST をさらに改善できますか?図 6 は、BC (動作クローニング) と ReST バリアント間の Best-of-N サンプリング結果を示しています。 ReST のパフォーマンスは、𝑁 と改善ステップの数の増加とともに向上します。 ReST は依然として Best-of-N サンプリングの恩恵を受けることができることが判明しました。 ReST はオンライン RL とどう違うのでしょうか?この研究では、ReST と、RLHF で広く使用されているオンライン RL アルゴリズムである PPO を比較します。結果は表1にまとめられています。 下の図は、すべての ReST バリアントが人間によるスコアリングの点で BC メソッドよりも優れていることを示しています。 |
>>: 中山大学、AIGCの大規模応用を促進するためにソース拡散モデル統合コードフレームワークを公開
[[204589]] AIの発展に伴い、コンピュータービジョン技術の応用範囲は徐々に広がっています...
今日は、非常に実用的な 5 つの指示を紹介します。これらの指示は、出力コンテンツの一貫性、記事のスタ...
[[216638]]韓国メディアは、中国の囲碁棋士である柯潔氏が2018年春にテンセントが開発した人...
マスク氏の脳コンピューターインターフェース企業 Neuralink が新たな進歩を遂げました。さらに...
[[234276]]機械学習は、確率論や統計などの複雑な分野を含む人工知能の中核分野の 1 つです...
今年の315ガラでは、いくつかの有名ブランド店が顔情報を違法に収集していたことが摘発された。これらの...
人工知能は急速に発展していますが、問題も頻繁に発生しています。 OpenAI の新しい GPT ビジ...
MITの研究者らは新型コロナウイルスとの戦いに役立つ新しいロボットを開発した。この自律型機械は、微生...
文字列の照合は、コンピューターの基本的なタスクの 1 つです。たとえば、「BBC ABCDAB AB...