過去数か月間、私たちは大規模言語モデル (LLM) が高品質のテキストを生成し、幅広い言語タスクを解決する驚くべき能力を持っていることを目の当たりにしてきました。しかし、LLM は、生成される出力が人間の好みと大きく一致しないというジレンマに直面しています。適切なアライメントがないと、言語モデルは安全でないコンテンツを出力する可能性があります。さらに、LLM を調整すると、下流のタスクの改善にも役立ちます。 一部の研究者は、人間の好みを利用してアライメント問題を解決するために、人間のフィードバックに基づく強化学習 (RLHF) を提案しました。 一般的に言えば、RLHF は PPO や A2C などのオンライン RL 手法に依存していますが、これらの手法は計算コストが高く、攻撃に対して脆弱です。オフライン RL はオンライン RL の欠陥を回避できますが、オフライン学習の品質はオフライン データセットの特性に過度に依存します。したがって、適切にキュレーションされたデータセットは、オフライン強化学習にとって非常に重要です。 この論文では、Google DeepMind の研究者が LLM を人間の好みに合わせるためのシンプルなアルゴリズムを提案し、この方法を ReST (Reinforced Self-Training) と名付けました。人間のフィードバックを使用して言語モデルを改善する RLHF とは異なり、ReST はオフライン データを生成してトレーニングに使用するため、LLM が人間の好みに合うようになります。 初期の LLM ポリシーが与えられると、ReST はそのポリシーに基づいてデータセットを生成し、それをオフライン RL アルゴリズムに基づいて LLM ポリシーを改善するために使用できます。 ReST は、トレーニング データセットがオフラインで生成され、データの再利用が可能になるため、一般的なオンライン RLHF 方法よりも効果的です。 研究チームは、ReST はすべての生成タスクに使用できるが、この論文の焦点は機械翻訳であると述べた。結果は、ReST によって翻訳品質が大幅に向上することを示しています。 論文アドレス: https://arxiv.org/pdf/2308.08998.pdf ある研究者は次のようにコメントしています。「DeepMind は、自然言語生成における反復的な自己改善を実証しました。彼らは、人間のフィードバック強化学習 (RLHF) ループから「人間」を取り除き、ReST を提案しました。」 次に具体的な実装方法を見ていきましょう。 方法の紹介この研究では、言語モデルの出力を人間の好みに合わせることができる、強化自己トレーニング (ReST) と呼ばれる RLHF アルゴリズムが提案されました。シーケンスに対する人間の好みは、学習された報酬関数を使用してモデル化されます。 ReST アルゴリズムは、一般的な RL パイプラインのデータセットの増加 (Grow) とポリシーの改善 (Improve) を 2 つの別々のオフライン ステージに分離します。 下の図 1 に示すように、ReST メソッドは、内側のループ (改善ステップ) と外側のループ (成長ステップ) の 2 つのループで構成されます。また、オンラインまたはオフライン RL の一般的な RLHF 方式と比較して、ReST には次の利点があります。
この研究では、まず、シーケンスペアデータセットDが与えられた場合、式(1)のNLL損失を使用して入力シーケンス𝒙を出力シーケンス𝒚にマッピングする初期モデルをトレーニングします。 次に、成長ステップでは、モデルからのサンプルを使用して初期トレーニング データセットを拡張する新しいデータセット D_𝑔 を作成します。 ここで、条件付け入力は、自己トレーニングの場合と同様に、元のデータセットから再サンプリングされますが、𝑝(𝒙) にアクセスできる場合は、そこから直接サンプリングすることもできます。たとえば、テキストグラフモデルでは、テキスト入力の分布は言語モデル𝑝(𝒙)からサンプリングできます。 次に、改善ステップではD_𝑔を使用してポリシー𝜋_𝜃を微調整します。この研究では、戦略が発散しないようにするために、トレーニングで元のデータセットを保持したことは注目に値します。 ReST アルゴリズム全体は、以下のアルゴリズム 1 に示されています。これには、複数のデータ セットの増加と戦略の改善の手順が含まれています。 実験研究者らは、IWSLT 2014、WMT 2020、Web Domain などのテストベンチマークを使用して、機械翻訳タスクに関する実験を実施しました。 図 3 は、複数の改善ステップでの平均報酬をプロットしたものです。改善ステップが増えるにつれて、3 つのデータセットすべてで翻訳モデルのパフォーマンスが向上していることがわかります。 成長ステップ (G) を増やすと、報酬モデルのスコアが向上しますか?この疑問を念頭に置いて、研究者たちは別の実験を行った。結果は図 4 に示されています。1 つの Grow ステップを持つ方法は、IWSLT 2014 および Web ドメイン データセットで改善されています。Grow ステップが 2 の場合、モデルのスコアは 77.8 から 80.5 に改善され、5.3 の改善が見られます。 ReST は監督付きトレーニングよりも優れていますか?結果は図 5 に示されています。最初の成長ステップの後でも、ReST のさまざまなバリアント (紫) は、教師あり学習 (灰色) を大幅に上回っています。 推論時に Best-of-N サンプリングを使用することで、ReST をさらに改善できますか?図 6 は、BC (動作クローニング) と ReST バリアント間の Best-of-N サンプリング結果を示しています。 ReST のパフォーマンスは、𝑁 と改善ステップの数の増加とともに向上します。 ReST は依然として Best-of-N サンプリングの恩恵を受けることができることが判明しました。 ReST はオンライン RL とどう違うのでしょうか?この研究では、ReST と、RLHF で広く使用されているオンライン RL アルゴリズムである PPO を比較します。結果は表1にまとめられています。 下の図は、すべての ReST バリアントが人間によるスコアリングの点で BC メソッドよりも優れていることを示しています。 |
>>: 中山大学、AIGCの大規模応用を促進するためにソース拡散モデル統合コードフレームワークを公開
[[217124]] [[217125]] [[217126]]ディープラーニングは最も急速に成長...
人工知能をより良くするための競争において、MIT リンカーン研究所は、電力消費の削減、効率的なトレー...
テクノロジー業界ではレイオフの波が起こっているものの、IT 市場は依然として成長を続けています。ガー...
画像分類は、コンピューター ビジョン研究において常に非常に基本的で重要なタスクです。過去 10 年間...
現在、人工知能は生産性の向上を可能にし、さまざまな産業のインテリジェント化と新旧の運動エネルギーの変...
ロボットの皮膚、空気圧触覚手袋... Meta は将来のメタバースに、よりリアルな触覚インタラクショ...
[[194046]] 2015 年、Quora のエンジニアリング部門長である Xavier Ama...
インテリジェントな顧客サービスの分野は、2018 年に急速な発展を遂げました。企業の人件費を抑制する...
データにラベルを付け、正確な機械学習モデルを開発することはデータ サイエンティストにとって困難であり...
この記事には、これまでで最も優れたチュートリアル コンテンツであると一般に考えられている内容が含まれ...
水中ロボットが極地でその能力を披露[[439571]]科学研究員らが甲板上で展開準備を進めている...
人工知能 (AI) はもはや未来的な概念ではなく、スーパーマーケットの物流から医療研究まで、ビジネス...
何をしたいのかを伝えるだけで、AI が自動的にコードを作成します。今、私たちはこの目標に一歩近づきま...