DeepMind の新しい研究: ReST は大規模なモデルを人間の好みに合わせて調整し、オンライン RLHF よりも効果的です

DeepMind の新しい研究: ReST は大規模なモデルを人間の好みに合わせて調整し、オンライン RLHF よりも効果的です

過去数か月間、私たちは大規模言語モデル (LLM) が高品質のテキストを生成し、幅広い言語タスクを解決する驚くべき能力を持っていることを目の当たりにしてきました。しかし、LLM は、生成される出力が人間の好みと大きく一致しないというジレンマに直面しています。適切なアライメントがないと、言語モデルは安全でないコンテンツを出力する可能性があります。さらに、LLM を調整すると、下流のタスクの改善にも役立ちます。

一部の研究者は、人間の好みを利用してアライメント問題を解決するために、人間のフィードバックに基づく強化学習 (RLHF) を提案しました。

一般的に言えば、RLHF は PPO や A2C などのオンライン RL 手法に依存していますが、これらの手法は計算コストが高く、攻撃に対して脆弱です。オフライン RL はオンライン RL の欠陥を回避できますが、オフライン学習の品質はオフライン データセットの特性に過度に依存します。したがって、適切にキュレーションされたデータセットは、オフライン強化学習にとって非常に重要です。

この論文では、Google DeepMind の研究者が LLM を人間の好みに合わせるためのシンプルなアルゴリズムを提案し、この方法を ReST (Reinforced Self-Training) と名付けました。人間のフィードバックを使用して言語モデルを改善する RLHF とは異なり、ReST はオフライン データを生成してトレーニングに使用するため、LLM が人間の好みに合うようになります。

初期の LLM ポリシーが与えられると、ReST はそのポリシーに基づいてデータセットを生成し、それをオフライン RL アルゴリズムに基づいて LLM ポリシーを改善するために使用できます。 ReST は、トレーニング データセットがオフラインで生成され、データの再利用が可能になるため、一般的なオンライン RLHF 方法よりも効果的です。

研究チームは、ReST はすべての生成タスクに使用できるが、この論文の焦点は機械翻訳であると述べた。結果は、ReST によって翻訳品質が大幅に向上することを示しています。

論文アドレス: https://arxiv.org/pdf/2308.08998.pdf

ある研究者は次のようにコメントしています。「DeepMind は、自然言語生成における反復的な自己改善を実証しました。彼らは、人間のフィードバック強化学習 (RLHF) ループから「人間」を取り除き、ReST を提案しました。」

次に具体的な実装方法を見ていきましょう。

方法の紹介

この研究では、言語モデルの出力を人間の好みに合わせることができる、強化自己トレーニング (ReST) と呼ばれる RLHF アルゴリズムが提案されました。シーケンスに対する人間の好みは、学習された報酬関数を使用してモデル化されます。 ReST アルゴリズムは、一般的な RL パイプラインのデータセットの増加 (Grow) とポリシーの改善 (Improve) を 2 つの別々のオフライン ステージに分離します。

下の図 1 に示すように、ReST メソッドは、内側のループ (改善ステップ) と外側のループ (成長ステップ) の 2 つのループで構成されます。また、オンラインまたはオフライン RL の一般的な RLHF 方式と比較して、ReST には次の利点があります。

  • オンライン RL と比較して、ReST は Grow ステップの出力を Improve ステップで利用するため、計算負荷が大幅に軽減されます。
  • 新しいトレーニング データは Grow ステップからサンプリングされるため、ポリシーの品質は元のデータセットの品質によって制限されなくなります (オフライン RL など)。
  • 改善ステップと成長ステップが分離されているため、データの品質をチェックし、アライメントを判断することが容易になります。
  • ReST はシンプルで安定しており、調整するハイパーパラメータはわずかです。


この研究では、まず、シーケンスペアデータセットDが与えられた場合、式(1)のNLL損失を使用して入力シーケンス𝒙を出力シーケンス𝒚にマッピングする初期モデルをトレーニングします。

次に、成長ステップでは、モデルからのサンプルを使用して初期トレーニング データセットを拡張する新しいデータセット D_𝑔 を作成します。

ここで、条件付け入力は、自己トレーニングの場合と同様に、元のデータセットから再サンプリングされますが、𝑝(𝒙) にアクセスできる場合は、そこから直接サンプリングすることもできます。たとえば、テキストグラフモデルでは、テキスト入力の分布は言語モデル𝑝(𝒙)からサンプリングできます。

次に、改善ステップではD_𝑔を使用してポリシー𝜋_𝜃を微調整します。この研究では、戦略が発散しないようにするために、トレーニングで元のデータセットを保持したことは注目に値します。

ReST アルゴリズム全体は、以下のアルゴリズム 1 に示されています。これには、複数のデータ セットの増加と戦略の改善の手順が含まれています。

実験

研究者らは、IWSLT 2014、WMT 2020、Web Domain などのテストベンチマークを使用して、機械翻訳タスクに関する実験を実施しました。

図 3 は、複数の改善ステップでの平均報酬をプロットしたものです。改善ステップが増えるにつれて、3 つのデータセットすべてで翻訳モデルのパフォーマンスが向上していることがわかります。

成長ステップ (G) を増やすと、報酬モデルのスコアが向上しますか?この疑問を念頭に置いて、研究者たちは別の実験を行った。結果は図 4 に示されています。1 つの Grow ステップを持つ方法は、IWSLT 2014 および Web ドメイン データセットで改善されています。Grow ステップが 2 の場合、モデルのスコアは 77.8 から 80.5 に改善され、5.3 の改善が見られます。

ReST は監督付きトレーニングよりも優れていますか?結果は図 5 に示されています。最初の成長ステップの後でも、ReST のさまざまなバリアント (紫) は、教師あり学習 (灰色) を大幅に上回っています。

推論時に Best-of-N サンプリングを使用することで、ReST をさらに改善できますか?図 6 は、BC (動作クローニング) と ReST バリアント間の Best-of-N サンプリング結果を示しています。 ReST のパフォーマンスは、𝑁 と改善ステップの数の増加とともに向上します。 ReST は依然として Best-of-N サンプリングの恩恵を受けることができることが判明しました。

ReST はオンライン RL とどう違うのでしょうか?この研究では、ReST と、RLHF で広く使用されているオンライン RL アルゴリズムである PPO を比較します。結果は表1にまとめられています。

下の図は、すべての ReST バリアントが人間によるスコアリングの点で BC メソッドよりも優れていることを示しています。

<<:  AIが「エッジ」に必要である理由

>>:  中山大学、AIGCの大規模応用を促進するためにソース拡散モデル統合コードフレームワークを公開

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

...

Tencent Youtu:ビジュアルAIはどこまで発展したのか?

[[204589]] AIの発展に伴い、コンピュータービジョン技術の応用範囲は徐々に広がっています...

5つのユニークで興味深いChatGPTコマンド

今日は、非常に実用的な 5 つの指示を紹介します。これらの指示は、出力コンテンツの一貫性、記事のスタ...

韓国メディア:中国の技術発展は速すぎて米国を脅かしており、米国から制裁を受けるだろう

[[216638]]韓国メディアは、中国の囲碁棋士である柯潔氏が2018年春にテンセントが開発した人...

...

退屈な「機械学習」がこのように学べるとは思ってもいませんでした!

[[234276]]機械学習は、確率論や統計などの複雑な分野を含む人工知能の中核分野の 1 つです...

中国消費者協会:所有者や消費者は顔認識を強制されることはない。情報が漏洩すると非常に有害だからだ。

今年の315ガラでは、いくつかの有名ブランド店が顔情報を違法に収集していたことが摘発された。これらの...

大規模モデル幻覚率ランキング:GPT-4は3%と最も低いが、Google Palmは最大27.2%

人工知能は急速に発展していますが、問題も頻繁に発生しています。 OpenAI の新しい GPT ビジ...

MITの自律ロボットはUVC光を使用して表面のコロナウイルス粒子を殺します

MITの研究者らは新型コロナウイルスとの戦いに役立つ新しいロボットを開発した。この自律型機械は、微生...

文字列マッチングのためのKMPアルゴリズム

文字列の照合は、コンピューターの基本的なタスクの 1 つです。たとえば、「BBC ABCDAB AB...

...

...