UCLA Chineseが新しい自動演奏メカニズムを提案しました！ LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている

合成データは、大規模言語モデルの進化において最も重要な基礎となっています。

昨年末、一部のネットユーザーは、OpenAIの元主任科学者であるイリヤ氏が、LLMの開発にはデータのボトルネックはなく、合成データはほとんどの問題を解決できると何度も述べていたことを掘り起こした。

写真

最近の一連の論文を読んだ後、Nvidia の上級科学者 Jim Fan 氏も、合成データの使用と、ゲームや画像の生成に使用される従来の技術的アイデアを組み合わせることで、LLM は大幅な自己進化を達成できると考えています。

写真

この方法を正式に提案した論文は、UCLAの中国チームによって執筆されました。

写真

論文アドレス: https://arxiv.org/abs/2401.01335v1

彼らは、自己再生メカニズム (SPIN) を通じて合成データを生成し、その後、新しいデータセットを使用せずに自己微調整方式を採用することで、パフォーマンスの低い LLM の平均スコアを Open LLM Leaderboard Benchmark で 58.14 から 63.16 に向上させました。

研究者らは、SPIN と呼ばれる自己微調整法を提案しました。これは、LLM が以前の反復と競合することで、自己再生を通じて言語モデルのパフォーマンスを徐々に向上させます。

写真

このようにして、人間が注釈を付けた追加のデータや、より高度な言語モデルからのフィードバックを必要とせずに、モデルは独自に進化することができます。

メインモデルと対戦モデルのパラメータは全く同じです。 2 つの異なるバージョンを使用して自分自身と対戦します。

ゲームのプロセスは次のように要約できます。

写真

自己対戦チェスのトレーニング方法は次のようにまとめられます。

メインモデルは、敵対モデルによって生成された応答と人間のターゲット応答を区別するようにトレーニングされます。敵対モデルは、できるだけ区別がつかない応答を生成することを目的とした反復的な言語モデルです。

t回目の反復で得られた言語モデルパラメータをθtとすると、t+1回目の反復ではθtが対戦相手として使用され、θtを使用して教師あり微調整データセット内の各プロンプトxに対する応答y'が生成されます。

次に、新しい言語モデルパラメータθt+1が最適化され、教師あり微調整データセット内の人間の応答yとy'を区別できるようになります。これにより、段階的なプロセスが形成され、徐々に目標の応答分布に近づきます。

ここで、メインモデルの損失関数は、yとy'の関数値の差を考慮して、対数損失を採用しています。

対戦モデルは、モデルパラメータが大きく逸脱するのを防ぐために、KL ダイバージェンス正規化を追加します。

具体的な敵対的ゲームのトレーニング目標は、式 4.7 に示されています。理論的な分析から、言語モデルの応答分布がターゲット応答分布と等しい場合、最適化プロセスが収束することがわかります。

ゲーム後に生成された合成データをトレーニングに使用し、その後 SPIN を使用して自己微調整を行うと、LLM のパフォーマンスを効果的に向上できます。

写真

ただし、最初の微調整データで再度微調整するだけでは、パフォーマンスが低下します。

SPIN には初期モデル自体と既存の微調整データセットのみが必要なため、LLM は SPIN を通じて自己改善を実現できます。

特に、SPIN は、DPO を介して追加の GPT-4 設定データを使用してトレーニングされたモデルよりも優れたパフォーマンスを発揮します。

写真

さらに、実験により、反復トレーニングは、より多くのエポックでのトレーニングよりもモデルのパフォーマンスをより効果的に向上できることが示されています。

写真

1 回の反復のトレーニング期間を長くしても SPIN のパフォーマンスは低下しませんが、限界に達します。

反復回数が増えるほど、SPIN の効果は明らかになります。

この論文を読んだネットユーザーはため息をついた。

合成データは大規模言語モデルの開発を支配するでしょう。これは大規模言語モデルの研究者にとって非常に良いニュースとなるでしょう。

写真

自己再生によりLLMは継続的に改善できる

具体的には、研究者らが開発した SPIN システムは、相互作用し合う 2 つのモデルから構成されるシステムです。

前回の反復 t の LLMで示され、手動で注釈が付けられた SFT データセット内のプロンプト x に対する応答 y を生成するために使用します。

次の目標は、生成された応答 y と人間が生成した応答 y' を区別できる新しい LLM を見つけることです。

このプロセスは、2 人のプレイヤーによるゲームとして考えることができます。

メインプレイヤーまたは新しい LLM は、対戦相手のプレイヤーの応答と人間が生成した応答を識別しようとしますが、対戦相手または古い LLM は、人間が注釈を付けた SFT データセットの応答にできるだけ類似した応答を生成します。

古い LLM を微調整して得られた新しい LLM は応答を優先し、より一致する分布をもたらします。

次の反復では、新しく獲得した LLM が応答生成の相手となり、自己対戦プロセスの目標は、最強の LLM が以前に生成した応答バージョンと人間が生成したバージョンを区別できなくなるような状態に LLM が最終的に収束することです。

SPINを使用してモデルのパフォーマンスを向上させる方法

研究者らは、LLM によって生成された応答と人間によって生成された応答を区別することを主なモデルの目標とする 2 人用ゲームを設計しました。同時に、敵対者は人間の反応と区別がつかない反応を生み出すように機能します。研究者のアプローチの中心となるのは、メインモデルをトレーニングすることです。

まず、LLM 応答と人間の応答を区別するためにメインモデルをトレーニングする方法を説明します。

研究者のアプローチの中心にあるのは、主なプレイヤーと対戦相手の両方が同じ LLM であるが異なる反復からのものであるという自己プレイメカニズムです。

より具体的には、対戦相手は前回の反復からの古い LLM であり、マスタープレーヤーは現在の反復で学習される新しい LLM です。反復t+1では、次の2つのステップが実行されます:(1)メインモデルのトレーニングと(2)対戦モデルの更新。

メインモデルのトレーニング

まず研究者らは、マスタープレイヤーに LLM の反応と人間の反応を区別するようトレーニングする方法を示します。積分確率測定基準 (IPM) に着想を得て、研究者らは目的関数を次のように定式化しました。

写真

対戦相手モデルの更新

敵対モデルの目標は、プライマリモデルの p データと区別がつかない応答を生成する、より優れた LLM を見つけることです。

実験

SPINはベンチマークパフォーマンスを効果的に向上させます

研究者らは、SPIN の有効性を実証するための広範な評価として、HuggingFace Open LLM Leaderboard を使用しました。

下の図では、研究者は、0 ～ 3 回の反復後に SPIN で微調整されたモデルのパフォーマンスを、ベースモデル zephyr-7b-sft-full と比較しました。

研究者は、ベースモデルが十分に微調整された SFT データセットをさらに活用することで、SPIN がモデルのパフォーマンスを大幅に向上させる結果を示していることを観察できます。

反復 0 では、zephyr-7b-sft-full からモデル応答が生成され、研究者は平均スコアが全体で 2.66% 向上したことを確認しました。

この改善は特に TruthfulQA および GSM8k ベンチマークで顕著で、それぞれ 5% と 10% を超える向上が見られました。

反復 1 では、アルゴリズム 1 で概説されているプロセスに従って、反復 0 の LLM モデルを使用して SPIN の新しい応答を生成します。

この反復により、平均でさらに 1.32% の向上が実現され、これは Arc Challenge および TruthfulQA ベンチマークで特に顕著です。

その後の反復では、さまざまなタスクで段階的な改善の傾向が継続されました。同時に、反復t+1での改善は当然小さくなる。

写真

zephyr-7b-beta は、zephyr-7b-sft-full から派生したモデルで、DPO を使用して約 62,000 の好みデータでトレーニングされています。

研究者らは、DPO では好みを判断するために人間の入力や高レベル言語モデルのフィードバックが必要なので、データ生成はかなりコストのかかるプロセスであると指摘しています。

対照的に、研究者の SPIN では初期モデル自体のみが必要です。

さらに、新しいデータソースを必要とする DPO とは異なり、研究者のアプローチでは既存の SFT データセットを最大限に活用します。

下の図は、反復 0 および 1 (50k SFT データを使用) での SPIN および DPO トレーニングのパフォーマンス比較を示しています。

写真

研究者は、DPO が新しいソースからより多くのデータを活用するのに対し、既存の SFT データに基づく SPIN は反復 1 から開始し、リーダーボードベンチマークでは SPIN が DPO を上回っていることを観察できます。

参考文献:

https://arxiv.org/abs/2401.01335v1

<<: 2歳、1年半の教育経験：赤ちゃんAIトレーナーがサイエンスに登場

>>: 匿名の論文が驚くべきアイデアを提案！大規模なモデルと長いテキストの能力を強化する

うつ病に苦しむ5400万人の人々に直面し、600人のボランティアはAIを使って彼らを救うつもりだ

ブログ

Google が史上最強の人間の脳の「地図」を公開、3D ニューロンの「森」がオンラインで閲覧可能に

ブログ

UCLA Chineseが新しい自動演奏メカニズムを提案しました！ LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている

SPINはベンチマークパフォーマンスを効果的に向上させます

うつ病に苦しむ5400万人の人々に直面し、600人のボランティアはAIを使って彼らを救うつもりだ

FPGA と GPU を使用したニューラルネットワークの作成

脳コンピューターインターフェースが人間の思考を制御するのではないかと心配ですか?神経科学者：考えすぎ

JD.com がオープンソースの顔認識ツールキットを公開: 最も強力なモデルをカバーし、トレーニングとスコアの実行をサポート

あなたのデータは本当に安全ですか?ハッカーが機械学習を使ってデータを盗む7つの方法

Google が史上最強の人間の脳の「地図」を公開、3D ニューロンの「森」がオンラインで閲覧可能に

推薦する

ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー

未来を自分の目で目撃しよう: 人工知能を使って加齢黄斑変性を治療する

はい、純粋なSQLクエリステートメントでニューラルネットワークを実装できます。

強化学習を使用して、顧客が注目する広告を選択する方法

英国最高裁：特許の「発明者」は人工知能ではなく自然人でなければならない

ブロックチェーンのコア技術「ハッシュと暗号化アルゴリズム」を公開

人工知能は科学研究に革命を起こす力を持っている

ChatGPT で質問するときによくある誤解 10 選

OpenAI は GPT-4 をすべての有料 API ユーザーに公開します

転移学習: データが不十分な場合に深く学習する方法

深度に関するあらゆる情報: 大規模なラベルなしデータから深度推定を解き放つ

Google、チャットボットデータ分析プラットフォーム「Chatbase」の開設を発表