DeepMind の新しい研究: ReST は大規模なモデルを人間の好みに合わせて調整し、オンライン RLHF よりも効果的です

DeepMind の新しい研究: ReST は大規模なモデルを人間の好みに合わせて調整し、オンライン RLHF よりも効果的です

過去数か月間、私たちは大規模言語モデル (LLM) が高品質のテキストを生成し、幅広い言語タスクを解決する驚くべき能力を持っていることを目の当たりにしてきました。しかし、LLM は、生成される出力が人間の好みと大きく一致しないというジレンマに直面しています。適切なアライメントがないと、言語モデルは安全でないコンテンツを出力する可能性があります。さらに、LLM を調整すると、下流のタスクの改善にも役立ちます。

一部の研究者は、人間の好みを利用してアライメント問題を解決するために、人間のフィードバックに基づく強化学習 (RLHF) を提案しました。

一般的に言えば、RLHF は PPO や A2C などのオンライン RL 手法に依存していますが、これらの手法は計算コストが高く、攻撃に対して脆弱です。オフライン RL はオンライン RL の欠陥を回避できますが、オフライン学習の品質はオフライン データセットの特性に過度に依存します。したがって、適切にキュレーションされたデータセットは、オフライン強化学習にとって非常に重要です。

この論文では、Google DeepMind の研究者が LLM を人間の好みに合わせるためのシンプルなアルゴリズムを提案し、この方法を ReST (Reinforced Self-Training) と名付けました。人間のフィードバックを使用して言語モデルを改善する RLHF とは異なり、ReST はオフライン データを生成してトレーニングに使用するため、LLM が人間の好みに合うようになります。

初期の LLM ポリシーが与えられると、ReST はそのポリシーに基づいてデータセットを生成し、それをオフライン RL アルゴリズムに基づいて LLM ポリシーを改善するために使用できます。 ReST は、トレーニング データセットがオフラインで生成され、データの再利用が可能になるため、一般的なオンライン RLHF 方法よりも効果的です。

研究チームは、ReST はすべての生成タスクに使用できるが、この論文の焦点は機械翻訳であると述べた。結果は、ReST によって翻訳品質が大幅に向上することを示しています。

論文アドレス: https://arxiv.org/pdf/2308.08998.pdf

ある研究者は次のようにコメントしています。「DeepMind は、自然言語生成における反復的な自己改善を実証しました。彼らは、人間のフィードバック強化学習 (RLHF) ループから「人間」を取り除き、ReST を提案しました。」

次に具体的な実装方法を見ていきましょう。

方法の紹介

この研究では、言語モデルの出力を人間の好みに合わせることができる、強化自己トレーニング (ReST) と呼ばれる RLHF アルゴリズムが提案されました。シーケンスに対する人間の好みは、学習された報酬関数を使用してモデル化されます。 ReST アルゴリズムは、一般的な RL パイプラインのデータセットの増加 (Grow) とポリシーの改善 (Improve) を 2 つの別々のオフライン ステージに分離します。

下の図 1 に示すように、ReST メソッドは、内側のループ (改善ステップ) と外側のループ (成長ステップ) の 2 つのループで構成されます。また、オンラインまたはオフライン RL の一般的な RLHF 方式と比較して、ReST には次の利点があります。

  • オンライン RL と比較して、ReST は Grow ステップの出力を Improve ステップで利用するため、計算負荷が大幅に軽減されます。
  • 新しいトレーニング データは Grow ステップからサンプリングされるため、ポリシーの品質は元のデータセットの品質によって制限されなくなります (オフライン RL など)。
  • 改善ステップと成長ステップが分離されているため、データの品質をチェックし、アライメントを判断することが容易になります。
  • ReST はシンプルで安定しており、調整するハイパーパラメータはわずかです。


この研究では、まず、シーケンスペアデータセットDが与えられた場合、式(1)のNLL損失を使用して入力シーケンス𝒙を出力シーケンス𝒚にマッピングする初期モデルをトレーニングします。

次に、成長ステップでは、モデルからのサンプルを使用して初期トレーニング データセットを拡張する新しいデータセット D_𝑔 を作成します。

ここで、条件付け入力は、自己トレーニングの場合と同様に、元のデータセットから再サンプリングされますが、𝑝(𝒙) にアクセスできる場合は、そこから直接サンプリングすることもできます。たとえば、テキストグラフモデルでは、テキスト入力の分布は言語モデル𝑝(𝒙)からサンプリングできます。

次に、改善ステップではD_𝑔を使用してポリシー𝜋_𝜃を微調整します。この研究では、戦略が発散しないようにするために、トレーニングで元のデータセットを保持したことは注目に値します。

ReST アルゴリズム全体は、以下のアルゴリズム 1 に示されています。これには、複数のデータ セットの増加と戦略の改善の手順が含まれています。

実験

研究者らは、IWSLT 2014、WMT 2020、Web Domain などのテストベンチマークを使用して、機械翻訳タスクに関する実験を実施しました。

図 3 は、複数の改善ステップでの平均報酬をプロットしたものです。改善ステップが増えるにつれて、3 つのデータセットすべてで翻訳モデルのパフォーマンスが向上していることがわかります。

成長ステップ (G) を増やすと、報酬モデルのスコアが向上しますか?この疑問を念頭に置いて、研究者たちは別の実験を行った。結果は図 4 に示されています。1 つの Grow ステップを持つ方法は、IWSLT 2014 および Web ドメイン データセットで改善されています。Grow ステップが 2 の場合、モデルのスコアは 77.8 から 80.5 に改善され、5.3 の改善が見られます。

ReST は監督付きトレーニングよりも優れていますか?結果は図 5 に示されています。最初の成長ステップの後でも、ReST のさまざまなバリアント (紫) は、教師あり学習 (灰色) を大幅に上回っています。

推論時に Best-of-N サンプリングを使用することで、ReST をさらに改善できますか?図 6 は、BC (動作クローニング) と ReST バリアント間の Best-of-N サンプリング結果を示しています。 ReST のパフォーマンスは、𝑁 と改善ステップの数の増加とともに向上します。 ReST は依然として Best-of-N サンプリングの恩恵を受けることができることが判明しました。

ReST はオンライン RL とどう違うのでしょうか?この研究では、ReST と、RLHF で広く使用されているオンライン RL アルゴリズムである PPO を比較します。結果は表1にまとめられています。

下の図は、すべての ReST バリアントが人間によるスコアリングの点で BC メソッドよりも優れていることを示しています。

<<:  AIが「エッジ」に必要である理由

>>:  中山大学、AIGCの大規模応用を促進するためにソース拡散モデル統合コードフレームワークを公開

ブログ    
ブログ    

推薦する

中国は人工知能(AI)で世界をリードしており、多くの技術が世界をリードしている。

[[217124]] [[217125]] [[217126]]ディープラーニングは最も急速に成長...

...

AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

人工知能をより良くするための競争において、MIT リンカーン研究所は、電力消費の削減、効率的なトレー...

ガートナーは、世界のIT支出が2024年に6.8%増加すると予測している。

テクノロジー業界ではレイオフの波が起こっているものの、IT 市場は依然として成長を続けています。ガー...

MLP は視覚研究に潜在的な驚きをもたらすでしょうか?最近のMLP画像分類作業の概要と分析

画像分類は、コンピューター ビジョン研究において常に非常に基本的で重要なタスクです。過去 10 年間...

人工知能とクラウドコンピューティングはアプリケーションエコシステムの形成を加速させている

現在、人工知能は生産性の向上を可能にし、さまざまな産業のインテリジェント化と新旧の運動エネルギーの変...

メタバースの目!メタの機械式バイオニックアイの特許が明らかになり、バイオニック人体に搭載される予定

ロボットの皮膚、空気圧触覚手袋... Meta は将来のメタバースに、よりリアルな触覚インタラクショ...

2017 年の Quora における機械学習の 5 つの主要な応用シナリオ

[[194046]] 2015 年、Quora のエンジニアリング部門長である Xavier Ama...

Baidu UNITが小能科技を支援し、ハイアールグループと提携してインテリジェントクラウド顧客サービスをアップグレード

インテリジェントな顧客サービスの分野は、2018 年に急速な発展を遂げました。企業の人件費を抑制する...

機械学習の運用が増加している

データにラベルを付け、正確な機械学習モデルを開発することはデータ サイエンティストにとって困難であり...

200 の優れた機械学習チュートリアルの要約「史上最も完全」

この記事には、これまでで最も優れたチュートリアル コンテンツであると一般に考えられている内容が含まれ...

水中ロボットが極地でその能力を披露

水中ロボットが極地でその能力を披露[[439571]]科学研究員らが甲板上で展​​開準備を進めている...

データセンターにおける AI の未来

人工知能 (AI) はもはや未来的な概念ではなく、スーパーマーケットの物流から医療研究まで、ビジネス...

必要なものを教えていただければ、当社のAIがコードを作成します

何をしたいのかを伝えるだけで、AI が自動的にコードを作成します。今、私たちはこの目標に一歩近づきま...

...