皆さんもご存知のとおり、大規模言語モデル (LLM) はディープラーニングの状況を変えつつあり、人間品質のテキストを生成し、さまざまな言語タスクを解決する優れた能力を発揮しています。業界では、人間が収集したデータに対する監督下での微調整を通じて特定のタスクのパフォーマンスをさらに向上させてきましたが、高品質の人間データの取得には大きなボトルネックがあります。これは、複雑な問題解決を必要とし、多大なリソースと専門知識を必要とするタスクに特に当てはまります。 どうすれば解決できるでしょうか?モデルによって生成された合成データは、データの品質が保証されている限り、スケーラブルでコスト効率の高い有望な代替手段です。 LLM は生成されたデータを自己評価できますが、この論文では、生成された各サンプルの品質指標として外部スカラーフィードバック信号を使用する、より単純な設定について説明します。 論文アドレス: https://arxiv.org/pdf/2312.06585.pdf モデル生成データのトレーニングを研究するために、研究者らは、モデルに基づいてサンプルを生成する機能と、スコアリング メカニズムを使用してこれらのサンプルを評価する機能の 2 つの機能のみを必要とする、シンプルだが強力な言語モデルの自己トレーニング方法を検討しました。 明確さと一貫性を確保するために、研究者らは強化自己トレーニング法ReST^𝐸𝑀を採用し、この方法が強化学習に期待最大化(EM)を使用できることを証明しました。具体的には、ReST^𝐸𝑀 は期待ステップと最大化ステップを交互に実行します。
研究者らは、ReST^𝐸𝑀とその変種が、機械翻訳、意味解析、嗜好アライメント、グラウンデッド推論など、さまざまな分野で言語モデルの強化に成功したことを実証しました。 さらに、これまでの研究では、比較的小規模なモデル(最大 70 億のパラメータ)に主に ReST^𝐸𝑀 を使用していたため、大規模なモデルへのスケーラビリティが制限されていました。したがって、本論文の目的は、競技レベルの数学的問題解決 (MATH) とコード生成 (APPS) という、困難でありながら十分に研究されていない 2 つの分野において、モデルによって生成された合成データと人間が生成したデータの有効性とスケーラビリティを調査することです。 実験結果によると、ReST^𝐸𝑀をさまざまなサイズの PaLM 2 モデルに適用すると、数学的推論とコード生成タスクで大幅なパフォーマンスの向上が達成されます。モデルによって生成された合成データで微調整されたモデルは、人間が作成したデータでトレーニングされたモデルと比較して、より大きなパフォーマンスの向上を達成しました。興味深いことに、ReST^𝐸𝑀 の反復回数が一定回数を超えるとパフォーマンスが低下し、少数のトレーニング問題で過剰適合が発生する可能性があることが示唆されます。 さらに、ReST^𝐸𝑀で微調整されたモデルは、pass@kメトリックと多数決のパフォーマンスを向上させます。これらの微調整されたモデルは、数学の問題 (GSM8K およびハンガリーの高校最終試験)、コーディング (HumanEval)、Big-Bench Hard タスクなど、関連しているものの保留中のベンチマークでもパフォーマンスの向上を示しています。 要約すると、私たちの結果は、フィードバックによる自己トレーニングが人間のデータへの依存を減らす有望なアプローチであることを示唆しています。 強化自己トレーニングの期待最大値(EM)まず、本研究では Dayan と Hinton の以前の研究を基に、言語モデルを使用した EM ベースの強化学習フレームワークについて説明します。具体的には、まずバイナリ最適変数 O を定義し、𝑝(𝑂= 1|𝒙,𝒚)∝𝑓(𝑟(𝒙,𝒚)) とし、次に非減少関数 𝑓 : ℝ → ℝ+ に対して観測値 𝑂= 1 (高い報酬を得る) を最大化し、次の式を得ました。 しかし、上記の式における数列 𝒚 の和を解くのは難しいです。したがって、本論文では、log𝑝(𝑂 = 1;𝒙)を最大化するのではなく、パラメータ𝜃と変分分布𝑞(𝑦|𝑥)に関してELBO𝐿(𝑝𝜃,𝑞)を最大化することを検討する。具体的には: 式(2)のEMアルゴリズムはEステップ(期待値)とMステップ(最大化)を交互に繰り返す。 ReST^𝐸𝑀: EM フレームワークに触発されて、この論文では Gulcehre らが提案した ReST メソッドの簡略化されたバージョンについて説明します。わかりやすくするために、この論文ではこのアプローチを ReST^𝐸𝑀 と呼んでいます。これは、RL パイプラインでデータ収集 (E ステップ) とポリシー最適化 (M ステップ) を分離します。アルゴリズム 1 に示すように: 生成(Eステップ) :このステップでは、現在のポリシー 𝑝𝜃 から出力シーケンスをサンプリングしてデータセットを生成します。ここで、入力は元のデータセットから再サンプリングされます。出力シーケンスは、バイナリ報酬関数 𝑟(𝒙,𝒚) を使用してスコア付けされます。 改善(Mステップ) :𝑖回目の反復では、Eステップの新しいデータセットを使用してポリシー𝑝𝜃を微調整します。 Gulcehre の研究とは異なり、彼らはタスク固有の過剰適合を最小限に抑え、ベースモデルからの逸脱を最小限に抑えるために、ベースの事前トレーニング済み言語モデルを微調整します。微調整のために、報酬加重負対数尤度損失を最小化します。戦略が改善されると、より高品質のサンプルを含む新しいデータセットを再度作成できるようになります。 実験と分析この論文の実験の主な目的は、以下の質問に答えることです。
この研究では、PaLM 2-S (Bison)、PaLM 2-S* (Codey)、PaLM 2-L (Unicorn) などの PaLM 2 モデルと Google Cloud 上の公開 API を使用して実験を実施しました。トレーニング データセットでは、MATH データセットと APPS データセットを使用します。 図2と図3は、それぞれMATHデータセットとAPPSデータセットでトレーニングされたReST^𝐸𝑀のパフォーマンスを示しています。 MATH テスト セットのパフォーマンスと GSM8K への移行の両方の点で、MATH は ReST^𝐸𝑀 の複数回の反復から恩恵を受けると結論付けることができます。一方、APPS の利点のほとんどは最初の反復から得られ、反復回数が増えると APPS と HumanEval のパフォーマンスが低下することがわかります。 トレーニングとテストのパフォーマンスのギャップ。図 4 は、トレーニング セットのパフォーマンスは ReST^𝐸𝑀 の反復回数に応じて直線的に増加するのに対し、テスト セットのパフォーマンスは増加しないことを示しています。 MATH の場合、最初の反復後のテスト パフォーマンスの改善はわずかですが、APPS の場合、2 回目の反復でパフォーマンスの低下が見られます。この研究では、パフォーマンスの低下は過剰適合によるものである可能性があると推測した。 APPS データセットのサイズは MATH データセットの約 3 分の 1 であるため、この問題の影響を受けやすくなります。 図 5 は、pass@K メトリックにおける Palm-2-L モデルのパフォーマンスを示しています。結果は、微調整後に得られた ReST^𝐸𝑀 モデルがすべての K 値に対してより強力であり、パフォーマンス ギャップが通常 K=1 のときに最大になることを示しています。 |
<<: Huawei NoahのPangu Agentは、インテリジェントエージェントが構造化推論を学習するのを支援します
>>: Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する
【51CTO.com 速訳】ディープラーニングの課題過去数年間で、ディープラーニング モデルの主要構...
Hackbright でメンターをしているときに、技術的な背景が限られている学生に MapReduc...
教室に人工知能機器を導入することは、「スマート教育」の重要な形態の一つです。江蘇省宿遷市泗洪県第一実...
私を含め、ほとんどの人は人間の感情の変化を正確に把握することはできませんが、コンピューターはそれがで...
執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
[[261230]]エイプリルフールは私たちにとってただ楽しい日です。親にとって、ネット上の噂は日々...
今日、サイバー犯罪者は機械学習や人工知能などの新しいテクノロジーを使用して、標的の行動をより深く理解...
12月15日から17日まで、2020年(第4回)高工インテリジェント自動車年次大会および高工ゴールデ...
10 年前、ほとんどの人は、今日では現金やカードを持ち歩かずに携帯電話だけを持って街を歩き回り、買...
[[398945]]中国ビジネスネットワーク特別コメンテーター、宋清輝(経済学者)最近、第5回世界知...
ビジネスニーズを予測するには、AI を活用し、研究開発を新たなレベルに引き上げる必要があります。この...