大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

皆さんもご存知のとおり、大規模言語モデル (LLM) はディープラーニングの状況を変えつつあり、人間品質のテキストを生成し、さまざまな言語タスクを解決する優れた能力を発揮しています。業界では、人間が収集したデータに対する監督下での微調整を通じて特定のタスクのパフォーマンスをさらに向上させてきましたが、高品質の人間データの取得には大きなボトルネックがあります。これは、複雑な問題解決を必要とし、多大なリソースと専門知識を必要とするタスクに特に当てはまります。

どうすれば解決できるでしょうか?モデルによって生成された合成データは、データの品質が保証されている限り、スケーラブルでコスト効率の高い有望な代替手段です。

LLM は生成されたデータを自己評価できますが、この論文では、生成された各サンプルの品質指標として外部スカラーフィードバック信号を使用する、より単純な設定について説明します。

論文アドレス: https://arxiv.org/pdf/2312.06585.pdf

モデル生成データのトレーニングを研究するために、研究者らは、モデルに基づいてサンプルを生成する機能と、スコアリング メカニズムを使用してこれらのサンプルを評価する機能の 2 つの機能のみを必要とする、シンプルだが強力な言語モデルの自己トレーニング方法を検討しました。

明確さと一貫性を確保するために、研究者らは強化自己トレーニング法ReST^𝐸𝑀を採用し、この方法が強化学習に期待最大化(EM)を使用できることを証明しました。具体的には、ReST^𝐸𝑀 は期待ステップと最大化ステップを交互に実行します。

  1. 生成 (E ステップ): 言語モデルは、入力コンテキストごとに複数の出力サンプルを生成し、バイナリ報酬を使用してこれらのサンプルをフィルタリングし、トレーニング データセットを収集します。
  2. 改善 (M ステップ): 元の言語モデルは、前の E ステップのトレーニング データセットの監督下で微調整され、次の E ステップで使用されます。

研究者らは、ReST^𝐸𝑀とその変種が、機械翻訳、意味解析、嗜好アライメント、グラウンデッド推論など、さまざまな分野で言語モデルの強化に成功したことを実証しました。

さらに、これまでの研究では、比較的小規模なモデル(最大 70 億のパラメータ)に主に ReST^𝐸𝑀 を使用していたため、大規模なモデルへのスケーラビリティが制限されていました。したがって、本論文の目的は、競技レベルの数学的問題解決 (MATH) とコード生成 (APPS) という、困難でありながら十分に研究されていない 2 つの分野において、モデルによって生成された合成データと人間が生成したデータの有効性とスケーラビリティを調査することです。

実験結果によると、ReST^𝐸𝑀をさまざまなサイズの PaLM 2 モデルに適用すると、数学的推論とコード生成タスクで大幅なパフォーマンスの向上が達成されます。モデルによって生成された合成データで微調整されたモデルは、人間が作成したデータでトレーニングされたモデルと比較して、より大きなパフォーマンスの向上を達成しました。興味深いことに、ReST^𝐸𝑀 の反復回数が一定回数を超えるとパフォーマンスが低下し、少数のトレーニング問題で過剰適合が発生する可能性があることが示唆されます。

さらに、ReST^𝐸𝑀で微調整されたモデルは、pass@kメトリックと多数決のパフォーマンスを向上させます。これらの微調整されたモデルは、数学の問題 (GSM8K およびハンガリーの高校最終試験)、コーディング (HumanEval)、Big-Bench Hard タスクなど、関連しているものの保留中のベンチマークでもパフォーマンスの向上を示しています。

要約すると、私たちの結果は、フィードバックによる自己トレーニングが人間のデータへの依存を減らす有望なアプローチであることを示唆しています。

強化自己トレーニングの期待最大値(EM)

まず、本研究では Dayan と Hinton の以前の研究を基に、言語モデルを使用した EM ベースの強化学習フレームワークについて説明します。具体的には、まずバイナリ最適変数 O を定義し、𝑝(𝑂= 1|𝒙,𝒚)∝𝑓(𝑟(𝒙,𝒚)) とし、次に非減少関数 𝑓 : ℝ → ℝ+ に対して観測値 𝑂= 1 (高い報酬を得る) を最大化し、次の式を得ました。

しかし、上記の式における数列 𝒚 の和を解くのは難しいです。したがって、本論文では、log𝑝(𝑂 = 1;𝒙)を最大化するのではなく、パラメータ𝜃と変分分布𝑞(𝑦|𝑥)に関してELBO𝐿(𝑝𝜃,𝑞)を最大化することを検討する。具体的には:

式(2)のEMアルゴリズムはEステップ(期待値)とMステップ(最大化)を交互に繰り返す。

ReST^𝐸𝑀: EM フレームワークに触発されて、この論文では Gulcehre らが提案した ReST メソッドの簡略化されたバージョンについて説明します。わかりやすくするために、この論文ではこのアプローチを ReST^𝐸𝑀 と呼んでいます。これは、RL パイプラインでデータ収集 (E ステップ) とポリシー最適化 (M ステップ) を分離します。アルゴリズム 1 に示すように:


生成(Eステップ) :このステップでは、現在のポリシー 𝑝𝜃 から出力シーケンスをサンプリングしてデータセットを生成します。ここで、入力は元のデータセットから再サンプリングされます出力シーケンスは、バイナリ報酬関数 𝑟(𝒙,𝒚) を使用してスコア付けされます。

改善(Mステップ) :𝑖回目の反復では、Eステップの新しいデータセットを使用してポリシー𝑝𝜃を微調整します。 Gulcehre の研究とは異なり、彼らはタスク固有の過剰適合を最小限に抑え、ベースモデルからの逸脱を最小限に抑えるために、ベースの事前トレーニング済み言語モデルを微調整します。微調整のために、報酬加重負対数尤度損失を最小化します。戦略が改善されると、より高品質のサンプルを含む新しいデータセットを再度作成できるようになります。

実験と分析

この論文の実験の主な目的は、以下の質問に答えることです。

  1. ReST^𝐸𝑀は人間が生成したデータの微調整と比べてどうですか?
  2. 最適なパフォーマンスを達成するには何回の反復が必要ですか? ReST^𝐸𝑀 がトレーニング セットの過剰適合につながる頻度はどのくらいですか?
  3. ReST^𝐸𝑀は pass@k と多数決のパフォーマンスにどのように影響しますか?
  4. ユーザーがモデルによって生成されたデータを使用して特定のタスクでモデルを微調整した場合、その調整は他のタスクに転送されますか?微調整されたモデルをさまざまなタスクで評価すると、ベースモデルと比較してパフォーマンスが低下しますか?
  5. ReST^𝐸𝑀によるパフォーマンス向上を最大限に得るには、おおよそどのくらいの入力データが必要ですか? ReST^𝐸𝑀の 1 回の反復で十分ですか?

この研究では、PaLM 2-S (Bison)、PaLM 2-S* (Codey)、PaLM 2-L (Unicorn) などの PaLM 2 モデルと Google Cloud 上の公開 API を使用して実験を実施しました。トレーニング データセットでは、MATH データセットと APPS データセットを使用します。

図2と図3は、それぞれMATHデータセットとAPPSデータセットでトレーニングされたReST^𝐸𝑀のパフォーマンスを示しています。 MATH テスト セットのパフォーマンスと GSM8K への移行の両方の点で、MATH は ReST^𝐸𝑀 の複数回の反復から恩恵を受けると結論付けることができます。一方、APPS の利点のほとんどは最初の反復から得られ、反復回数が増えると APPS と HumanEval のパフォーマンスが低下することがわかります。


トレーニングとテストのパフォーマンスのギャップ。図 4 は、トレーニング セットのパフォーマンスは ReST^𝐸𝑀 の反復回数に応じて直線的に増加するのに対し、テスト セットのパフォーマンスは増加しないことを示しています。 MATH の場合、最初の反復後のテスト パフォーマンスの改善はわずかですが、APPS の場合、2 回目の反復でパフォーマンスの低下が見られます。この研究では、パフォーマンスの低下は過剰適合によるものである可能性があると推測した。 APPS データセットのサイズは MATH データセットの約 3 分の 1 であるため、この問題の影響を受けやすくなります。

図 5 は、pass@K メトリックにおける Palm-2-L モデルのパフォーマンスを示しています。結果は、微調整後に得られた ReST^𝐸𝑀 モデルがすべての K 値に対してより強力であり、パフォーマンス ギャップが通常 K=1 のときに最大になることを示しています。

<<:  Huawei NoahのPangu Agentは、インテリジェントエージェントが構造化推論を学習するのを支援します

>>:  Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する

ブログ    
ブログ    

推薦する

トポロジカルデータ分析(TDA)は、人工知能のブラックボックスを破ると期待される魔法のアルゴリズムです。

本稿では、トポロジカルデータ分析 (TDA) の基本原理を紹介し、事例を示し、この方法が視覚分析を効...

...

米国は戦闘における人工知能の活用を推進し続けている

海外メディアの報道によると、米国防総省は最近、トップレベルの設計を強化し、関連技術の急速な発展を促進...

インテリジェントAIのサポートにより、Xiaomi YoupinはYESOUL Wild Beast高反発腹筋ホイールをクラウドファンディング

YESOUL高反発腹筋ローラーは、1月7日よりXiaomi Youpinでクラウドファンディングで販...

2024 年のビッグデータ業界予測 (パート 3)

ディープラーニングディープフェイクの危険性: 2024 年には、特に仮想顧客サービス環境において、消...

製造業者はデジタルツインをどのように活用して生産性を向上できるでしょうか?

メーカーは、競争上の優位性を獲得し、コストを削減し、顧客によりカスタマイズされた体験を提供するために...

JavaScript でアルゴリズムの複雑さを学ぶ

この記事では、アルゴリズムの文脈における「二次」や「n log(n)」などの用語の意味について説明し...

AI採用を本当に公平にすることは難しいかもしれない

アマゾンのAI採用ツールが女性差別をしていたことが発覚し、公式がチーム解散を発表。これで一件落着か?...

機械学習プロジェクトに十分なデータがありませんか?ここに5つの良い解決策があります

人工知能プロジェクトに着手する企業の多くは素晴らしいビジネスアイデアを持っていますが、企業の AI ...

このGitHubの8000スターAIリアルタイム顔変換プロジェクトにはアプリがある

人間のロールプレイングへの熱意は決して衰えることがなく、だからこそ AI による顔の変形が人気を博し...

ディープラーニングデータセットを管理するための新しいアプローチ

ハブの紹介 Activeloop の Hub は、Numpy のような配列にデータを配置するオープン...

銀行におけるクラウドコンピューティングと人工知能の利点

クラウド コンピューティング プロバイダーは、データを分析し、スキルの低いユーザー (または予算が限...

解釈可能な機械学習のための Python ライブラリ

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AI が企業のランサムウェア対策やクラウド セキュリティ侵害防止にどのように役立つか

サイバーセキュリティの状況は毎年、組織が対処する必要のある新たな課題や障害をもたらしており、たとえば...

AIがサプライチェーンを変革する7つの方法

ビジネスにおける AI の役割は拡大し続けています。これは、サプライ チェーンとビジネス プロセスの...