大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

皆さんもご存知のとおり、大規模言語モデル (LLM) はディープラーニングの状況を変えつつあり、人間品質のテキストを生成し、さまざまな言語タスクを解決する優れた能力を発揮しています。業界では、人間が収集したデータに対する監督下での微調整を通じて特定のタスクのパフォーマンスをさらに向上させてきましたが、高品質の人間データの取得には大きなボトルネックがあります。これは、複雑な問題解決を必要とし、多大なリソースと専門知識を必要とするタスクに特に当てはまります。

どうすれば解決できるでしょうか?モデルによって生成された合成データは、データの品質が保証されている限り、スケーラブルでコスト効率の高い有望な代替手段です。

LLM は生成されたデータを自己評価できますが、この論文では、生成された各サンプルの品質指標として外部スカラーフィードバック信号を使用する、より単純な設定について説明します。

論文アドレス: https://arxiv.org/pdf/2312.06585.pdf

モデル生成データのトレーニングを研究するために、研究者らは、モデルに基づいてサンプルを生成する機能と、スコアリングメカニズムを使用してこれらのサンプルを評価する機能の 2 つの機能のみを必要とする、シンプルだが強力な言語モデルの自己トレーニング方法を検討しました。

明確さと一貫性を確保するために、研究者らは強化自己トレーニング法ReST^𝐸𝑀を採用し、この方法が強化学習に期待最大化（EM）を使用できることを証明しました。具体的には、ReST^𝐸𝑀 は期待ステップと最大化ステップを交互に実行します。

生成 (E ステップ): 言語モデルは、入力コンテキストごとに複数の出力サンプルを生成し、バイナリ報酬を使用してこれらのサンプルをフィルタリングし、トレーニングデータセットを収集します。
改善 (M ステップ): 元の言語モデルは、前の E ステップのトレーニングデータセットの監督下で微調整され、次の E ステップで使用されます。

研究者らは、ReST^𝐸𝑀とその変種が、機械翻訳、意味解析、嗜好アライメント、グラウンデッド推論など、さまざまな分野で言語モデルの強化に成功したことを実証しました。

さらに、これまでの研究では、比較的小規模なモデル（最大 70 億のパラメータ）に主に ReST^𝐸𝑀 を使用していたため、大規模なモデルへのスケーラビリティが制限されていました。したがって、本論文の目的は、競技レベルの数学的問題解決 (MATH) とコード生成 (APPS) という、困難でありながら十分に研究されていない 2 つの分野において、モデルによって生成された合成データと人間が生成したデータの有効性とスケーラビリティを調査することです。

実験結果によると、ReST^𝐸𝑀をさまざまなサイズの PaLM 2 モデルに適用すると、数学的推論とコード生成タスクで大幅なパフォーマンスの向上が達成されます。モデルによって生成された合成データで微調整されたモデルは、人間が作成したデータでトレーニングされたモデルと比較して、より大きなパフォーマンスの向上を達成しました。興味深いことに、ReST^𝐸𝑀 の反復回数が一定回数を超えるとパフォーマンスが低下し、少数のトレーニング問題で過剰適合が発生する可能性があることが示唆されます。

さらに、ReST^𝐸𝑀で微調整されたモデルは、pass@kメトリックと多数決のパフォーマンスを向上させます。これらの微調整されたモデルは、数学の問題 (GSM8K およびハンガリーの高校最終試験)、コーディング (HumanEval)、Big-Bench Hard タスクなど、関連しているものの保留中のベンチマークでもパフォーマンスの向上を示しています。

要約すると、私たちの結果は、フィードバックによる自己トレーニングが人間のデータへの依存を減らす有望なアプローチであることを示唆しています。

強化自己トレーニングの期待最大値（EM）

まず、本研究では Dayan と Hinton の以前の研究を基に、言語モデルを使用した EM ベースの強化学習フレームワークについて説明します。具体的には、まずバイナリ最適変数 O を定義し、𝑝(𝑂= 1|𝒙，𝒚)∝𝑓(𝑟(𝒙，𝒚)) とし、次に非減少関数 𝑓 : ℝ → ℝ+ に対して観測値 𝑂= 1 (高い報酬を得る) を最大化し、次の式を得ました。

しかし、上記の式における数列 𝒚 の和を解くのは難しいです。したがって、本論文では、log𝑝(𝑂 = 1;𝒙)を最大化するのではなく、パラメータ𝜃と変分分布𝑞(𝑦|𝑥)に関してELBO𝐿(𝑝𝜃,𝑞)を最大化することを検討する。具体的には：

式（２）のEMアルゴリズムはEステップ（期待値）とMステップ（最大化）を交互に繰り返す。

ReST^𝐸𝑀: EM フレームワークに触発されて、この論文では Gulcehre らが提案した ReST メソッドの簡略化されたバージョンについて説明します。わかりやすくするために、この論文ではこのアプローチを ReST^𝐸𝑀 と呼んでいます。これは、RL パイプラインでデータ収集 (E ステップ) とポリシー最適化 (M ステップ) を分離します。アルゴリズム 1 に示すように:

生成（Eステップ） ：このステップでは、現在のポリシー 𝑝𝜃 から出力シーケンスをサンプリングしてデータセットを生成します。ここで、入力は元のデータセットから再サンプリングされます。出力シーケンスは、バイナリ報酬関数 𝑟(𝒙,𝒚) を使用してスコア付けされます。

改善（Mステップ） ：𝑖回目の反復では、Eステップの新しいデータセットを使用してポリシー𝑝𝜃を微調整します。 Gulcehre の研究とは異なり、彼らはタスク固有の過剰適合を最小限に抑え、ベースモデルからの逸脱を最小限に抑えるために、ベースの事前トレーニング済み言語モデルを微調整します。微調整のために、報酬加重負対数尤度損失を最小化します。戦略が改善されると、より高品質のサンプルを含む新しいデータセットを再度作成できるようになります。

実験と分析

この論文の実験の主な目的は、以下の質問に答えることです。

ReST^𝐸𝑀は人間が生成したデータの微調整と比べてどうですか?
最適なパフォーマンスを達成するには何回の反復が必要ですか? ReST^𝐸𝑀 がトレーニングセットの過剰適合につながる頻度はどのくらいですか?
ReST^𝐸𝑀は pass@k と多数決のパフォーマンスにどのように影響しますか?
ユーザーがモデルによって生成されたデータを使用して特定のタスクでモデルを微調整した場合、その調整は他のタスクに転送されますか?微調整されたモデルをさまざまなタスクで評価すると、ベースモデルと比較してパフォーマンスが低下しますか?
ReST^𝐸𝑀によるパフォーマンス向上を最大限に得るには、おおよそどのくらいの入力データが必要ですか? ReST^𝐸𝑀の 1 回の反復で十分ですか?

この研究では、PaLM 2-S (Bison)、PaLM 2-S* (Codey)、PaLM 2-L (Unicorn) などの PaLM 2 モデルと Google Cloud 上の公開 API を使用して実験を実施しました。トレーニングデータセットでは、MATH データセットと APPS データセットを使用します。

図2と図3は、それぞれMATHデータセットとAPPSデータセットでトレーニングされたReST^𝐸𝑀のパフォーマンスを示しています。 MATH テストセットのパフォーマンスと GSM8K への移行の両方の点で、MATH は ReST^𝐸𝑀 の複数回の反復から恩恵を受けると結論付けることができます。一方、APPS の利点のほとんどは最初の反復から得られ、反復回数が増えると APPS と HumanEval のパフォーマンスが低下することがわかります。

トレーニングとテストのパフォーマンスのギャップ。図 4 は、トレーニングセットのパフォーマンスは ReST^𝐸𝑀 の反復回数に応じて直線的に増加するのに対し、テストセットのパフォーマンスは増加しないことを示しています。 MATH の場合、最初の反復後のテストパフォーマンスの改善はわずかですが、APPS の場合、2 回目の反復でパフォーマンスの低下が見られます。この研究では、パフォーマンスの低下は過剰適合によるものである可能性があると推測した。 APPS データセットのサイズは MATH データセットの約 3 分の 1 であるため、この問題の影響を受けやすくなります。

図 5 は、pass@K メトリックにおける Palm-2-L モデルのパフォーマンスを示しています。結果は、微調整後に得られた ReST^𝐸𝑀 モデルがすべての K 値に対してより強力であり、パフォーマンスギャップが通常 K=1 のときに最大になることを示しています。

<<: Huawei NoahのPangu Agentは、インテリジェントエージェントが構造化推論を学習するのを支援します

>>: Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する