UCLA Chineseが新しい自動演奏メカニズムを提案しました! LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている

UCLA Chineseが新しい自動演奏メカニズムを提案しました! LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている

合成データは、大規模言語モデルの進化において最も重要な基礎となっています。

昨年末、一部のネットユーザーは、OpenAIの元主任科学者であるイリヤ氏が、LLMの開発にはデータのボトルネックはなく、合成データはほとんどの問題を解決できると何度も述べていたことを掘り起こした。

写真

最近の一連の論文を読んだ後、Nvidia の上級科学者 Jim Fan 氏も、合成データの使用と、ゲームや画像の生成に使用される従来の技術的アイデアを組み合わせることで、LLM は大幅な自己進化を達成できると考えています。

写真

この方法を正式に提案した論文は、UCLAの中国チームによって執筆されました。

写真

論文アドレス: https://arxiv.org/abs/2401.01335v1

彼らは、自己再生メカニズム (SPIN) を通じて合成データを生成し、その後、新しいデータセットを使用せずに自己微調整方式を採用することで、パフォーマンスの低い LLM の平均スコアを Open LLM Leaderboard Benchmark で 58.14 から 63.16 に向上させました。

研究者らは、SPIN と呼ばれる自己微調整法を提案しました。これは、LLM が以前の反復と競合することで、自己再生を通じて言語モデルのパフォーマンスを徐々に向上させます。

写真

このようにして、人間が注釈を付けた追加のデータや、より高度な言語モデルからのフィードバックを必要とせずに、モデルは独自に進化することができます。

メインモデルと対戦モデルのパラメータは全く同じです。 2 つの異なるバージョンを使用して自分自身と対戦します。

ゲームのプロセスは次のように要約できます。

写真

自己対戦チェスのトレーニング方法は次のようにまとめられます。

メイン モデルは、敵対モデルによって生成された応答と人間のターゲット応答を区別するようにトレーニングされます。敵対モデルは、できるだけ区別がつかない応答を生成することを目的とした反復的な言語モデルです。

t回目の反復で得られた言語モデルパラメータをθtとすると、t+1回目の反復ではθtが対戦相手として使用され、θtを使用して教師あり微調整データセット内の各プロンプトxに対する応答y'が生成されます。

次に、新しい言語モデルパラメータθt+1が最適化され、教師あり微調整データセット内の人間の応答yとy'を区別できるようになります。これにより、段階的なプロセスが形成され、徐々に目標の応答分布に近づきます。

ここで、メインモデルの損失関数は、yとy'の関数値の差を考慮して、対数損失を採用しています。

対戦モデルは、モデルパラメータが大きく逸脱するのを防ぐために、KL ダイバージェンス正規化を追加します。

具体的な敵対的ゲームのトレーニング目標は、式 4.7 に示されています。理論的な分析から、言語モデルの応答分布がターゲット応答分布と等しい場合、最適化プロセスが収束することがわかります。

ゲーム後に生成された合成データをトレーニングに使用し、その後 SPIN を使用して自己微調整を行うと、LLM のパフォーマンスを効果的に向上できます。

写真

ただし、最初の微調整データで再度微調整するだけでは、パフォーマンスが低下します。

SPIN には初期モデル自体と既存の微調整データセットのみが必要なため、LLM は SPIN を通じて自己改善を実現できます。

特に、SPIN は、DPO を介して追加の GPT-4 設定データを使用してトレーニングされたモデルよりも優れたパフォーマンスを発揮します。

写真

さらに、実験により、反復トレーニングは、より多くのエポックでのトレーニングよりもモデルのパフォーマンスをより効果的に向上できることが示されています。

写真

1 回の反復のトレーニング期間を長くしても SPIN のパフォーマンスは低下しませんが、限界に達します。

反復回数が増えるほど、SPIN の効果は明ら​​かになります。

この論文を読んだネットユーザーはため息をついた。

合成データは大規模言語モデルの開発を支配するでしょう。これは大規模言語モデルの研究者にとって非常に良いニュースとなるでしょう。

写真

自己再生によりLLMは継続的に改善できる

具体的には、研究者らが開発した SPIN システムは、相互作用し合う 2 つのモデルから構成されるシステムです。

前回の反復 t の LLMで示され、手動で注釈が付けられた SFT データセット内のプロンプト x に対する応答 y を生成するために使用します。

次の目標は、生成された応答 y と人間が生成した応答 y' を区別できる新しい LLM を見つけることです。

このプロセスは、2 人のプレイヤーによるゲームとして考えることができます。

メインプレイヤーまたは新しい LLM は、対戦相手のプレイヤーの応答と人間が生成した応答を識別しようとしますが、対戦相手または古い LLM は、人間が注釈を付けた SFT データセットの応答にできるだけ類似した応答を生成します。

古い LLM を微調整して得られた新しい LLM は応答を優先しより一致する分布をもたらします

次の反復では、新しく獲得した LLM が応答生成の相手となり、自己対戦プロセスの目標は、最強の LLM が以前に生成した応答バージョンと人間が生成したバージョンを区別できなくなるような状態に LLM が最終的に収束することです。

SPINを使用してモデルのパフォーマンスを向上させる方法

研究者らは、LLM によって生成された応答と人間によって生成された応答を区別することを主なモデルの目標とする 2 人用ゲームを設計しました。同時に、敵対者は人間の反応と区別がつかない反応を生み出すように機能します。研究者のアプローチの中心となるのは、メインモデルをトレーニングすることです。

まず、LLM 応答と人間の応答を区別するためにメイン モデルをトレーニングする方法を説明します。

研究者のアプローチの中心にあるのは、主なプレイヤーと対戦相手の両方が同じ LLM であるが異なる反復からのものであるという自己プレイ メカニズムです。

より具体的には、対戦相手は前回の反復からの古い LLM であり、マスター プレーヤーは現在の反復で学習される新しい LLM です。反復t+1では、次の2つのステップが実行されます:(1)メインモデルのトレーニングと(2)対戦モデルの更新。

メインモデルのトレーニング

まず研究者らは、マスタープレイヤーに LLM の反応と人間の反応を区別するようトレーニングする方法を示します。積分確率測定基準 (IPM) に着想を得て、研究者らは目的関数を次のように定式化しました。

写真

対戦相手モデルの更新

敵対モデルの目標は、プライマリモデルの p データと区別がつかない応答を生成する、より優れた LLM を見つけることです。

実験

SPINはベンチマークパフォーマンスを効果的に向上させます

研究者らは、SPIN の有効性を実証するための広範な評価として、HuggingFace Open LLM Leaderboard を使用しました。

下の図では、研究者は、0 ~ 3 回の反復後に SPIN で微調整されたモデルのパフォーマンスを、ベース モデル zephyr-7b-sft-full と比較しました。

研究者は、ベースモデルが十分に微調整された SFT データセットをさらに活用することで、SPIN がモデルのパフォーマンスを大幅に向上させる結果を示していることを観察できます。

反復 0 では、zephyr-7b-sft-full からモデル応答が生成され、研究者は平均スコアが全体で 2.66% 向上したことを確認しました。

この改善は特に TruthfulQA および GSM8k ベンチマークで顕著で、それぞれ 5% と 10% を超える向上が見られました。

反復 1 では、アルゴリズム 1 で概説されているプロセスに従って、反復 0 の LLM モデルを使用して SPIN の新しい応答を生成します。

この反復により、平均でさらに 1.32% の向上が実現され、これは Arc Challenge および TruthfulQA ベンチマークで特に顕著です。

その後の反復では、さまざまなタスクで段階的な改善の傾向が継続されました。同時に、反復t+1での改善は当然小さくなる。

写真

zephyr-7b-beta は、zephyr-7b-sft-full から派生したモデルで、DPO を使用して約 62,000 の好みデータでトレーニングされています。

研究者らは、DPO では好みを判断するために人間の入力や高レベル言語モデルのフィードバックが必要なので、データ生成はかなりコストのかかるプロセスであると指摘しています。

対照的に、研究者の SPIN では初期モデル自体のみが必要です。

さらに、新しいデータ ソースを必要とする DPO とは異なり、研究者のアプローチでは既存の SFT データセットを最大限に活用します。

下の図は、反復 0 および 1 (50k SFT データを使用) での SPIN および DPO トレーニングのパフォーマンス比較を示しています。

写真

研究者は、DPO が新しいソースからより多くのデータを活用するのに対し、既存の SFT データに基づく SPIN は反復 1 から開始し、リーダーボード ベンチマークでは SPIN が DPO を上回っていることを観察できます。

参考文献:

https://arxiv.org/abs/2401.01335v1

<<:  2歳、1年半の教育経験:赤ちゃんAIトレーナーがサイエンスに登場

>>:  匿名の論文が驚くべきアイデアを提案!大規模なモデルと長いテキストの能力を強化する

ブログ    
ブログ    

推薦する

プロのアニメーターがGANを使って「怠け者」を助ければ、数週間かかる仕事を数分で終わらせられる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

初心者に適した機械学習アルゴリズムの選び方

この記事の主な対象読者は、機械学習の愛好家やデータサイエンスの初心者、そして機械学習アルゴリズムを学...

...

AIとビッグデータに焦点を当て、インテルとToutiaoが技術革新研究所を設立

[原文は51CTO.comより] 8月22日、インテルとToutiaoの共同戦略協力記者会見と「デー...

AI時代に人間が持つべき9つのソフトスキル。あなたはいくつ持っていますか?

今日の人工知能、ビッグデータ、自動化の時代では、技術的なスキルとデータリテラシーが非常に重要です。し...

人工知能はビッグデータ天体物理学の時代へのマスターキーとなるのでしょうか?

[[386945]]私はかつて「ウォーリーと一緒に星を見上げる」というタイトルの記事を書き、ビッグ...

...

[ディープラーニングシリーズ] PaddlePaddleとTensorflowによる画像分類

先月は、ディープラーニングにおける「Hello World」であるMNIST画像認識を中心に、畳み込...

健康コードがないと旅行するのは難しいですか?顔認識により健康コードのバリアフリー利用が可能に

「公共交通機関では健康コードの提示が求められますが、提示できない場合はどうすればよいですか?」予防と...

...

慎重なソート - よく使われる 10 のディープラーニング アルゴリズム

過去 10 年間で、機械学習への関心は爆発的に高まりました。機械学習は、コンピューター プログラム、...

...

...

RLHF が LLM トレーニングの鍵となるのはなぜですか? AI専門家が5つの代替案を検討し、Llama 2のフィードバックメカニズムのアップグレードを説明

ChatGPTが主導する大規模言語モデルの時代において、避けては通れないトピックが「人間のフィードバ...