LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

金庸の武侠小説には両手で戦うという武術が登場します。これは周伯同が桃花島の洞窟で10年以上の厳しい修行を経て編み出した武術です。当初の発想は、左手で右手で戦うという自己娯楽でした。このアイデアは、武道の練習だけでなく、近年人気の高い敵対的生成ネットワーク（GAN）などの機械学習モデルのトレーニングにも使用できます。

大規模モデル (LLM) の時代に入り、研究者たちは左右の戦闘を利用する独創的な方法を発見しました。最近、カリフォルニア大学ロサンゼルス校のQuanquan Gu氏のチームは、追加の微調整データを使用せずに、自己再生のみでLLMの機能を大幅に向上できる新しい方法、SPIN（Self-Play Fine-Tuning）を提案しました。 Quanquan Gu教授は次のように語っています。「魚を与えるよりも、魚の釣り方を教える方がよいのです。自己ゲーム微調整（SPIN）を通じて、すべての大規模モデルを弱いものから強いものへと改善することができます。」

この研究はソーシャルネットワークでも多くの議論を巻き起こしました。たとえば、ペンシルバニア大学ウォートン校のイーサンモリック教授は次のように述べています。「AI は、トレーニングに使用できる人間が作成したコンテンツの量によって制限されないことを示す証拠が増えています。この論文は、AI が作成したデータを使用して AI をトレーニングすると、人間が作成したデータのみを使用する場合よりも高品質の結果が得られることを改めて示しています。」

さらに、多くの研究者がこのアプローチに興奮しており、2024年の関連方向の進歩に大きな期待を表明しています。 Quanquan Gu教授はSyncedに次のように語った。「GPT-4を超える大規模なモデルをトレーニングしたい場合、これは間違いなく試してみる価値のある技術です。」

論文アドレス: https://arxiv.org/pdf/2401.01335.pdf

大規模言語モデル (LLM) は、複雑な推論と専門知識を必要とする幅広いタスクを並外れた能力で解決できる、人工汎用知能 (AGI) の画期的な新時代を切り開きます。 LLM の専門分野には、数学的推論/問題解決、コード生成/プログラミング、テキスト生成、要約、クリエイティブライティングなどが含まれます。

LLM における重要な進歩は、トレーニング後の調整プロセスです。これにより、モデルの動作が要件をより適切に満たすことができますが、このプロセスは多くの場合、高価な人間による注釈付きデータに依存しています。従来のアライメント方法には、人間のデモンストレーションに基づく教師あり微調整 (SFT) と、人間の好みのフィードバックによる強化学習 (RLHF) が含まれます。

これらのアライメント方法はすべて、人間が注釈を付けた大量のデータを必要とします。したがって、研究者は、アライメントプロセスを効率化するために、人間のデータを効果的に活用できる微調整方法を開発したいと考えています。

これは、この研究の目標でもあります。つまり、微調整されたモデルがさらに強化されるように新しい微調整方法を開発することであり、この微調整プロセスでは、微調整データセット外で人間が注釈を付けたデータを使用する必要はありません。

実際、機械学習コミュニティは、追加のトレーニングデータを使用せずに弱いモデルを強力なモデルに改善する方法を常に検討しており、この研究はブースティングアルゴリズムにまで遡ることができます。また、自己学習アルゴリズムは、追加のラベル付きデータを必要とせずに、ハイブリッドモデルで弱い学習者を強い学習者に変換できることも示されています。しかし、外部からの指導なしに LLM 機能を自動的に改善することは複雑であり、ほとんど研究されていません。これにより、次の疑問が生じます。

人間が注釈を付けた追加のデータなしで、LLM を自己改善することはできますか?

方法

技術的な詳細では、前回の反復からの LLM を pθt として表すことができます。これは、人間が注釈を付けた SFT データセット内のプロンプト x に対する応答 y' を生成します。次の目標は、pθtによって生成された応答y'と人間が与えた応答yを区別する能力を持つ新しいLLM pθ{t+1}を見つけることです。

このプロセスは、2 人のプレーヤーによるゲームとして考えることができます。メインプレーヤーは新しい LLM pθ{t+1} であり、その目標は、対戦相手のプレーヤー pθt の応答を人間が生成した応答と区別することです。対戦相手のプレーヤーは古い LLM pθt であり、そのタスクは、人間が注釈を付けた SFT データセットに可能な限り近い応答を生成することです。

新しい LLM pθ{t+1} は、古い LLM pθt を微調整することによって得られます。トレーニングプロセスは、新しい LLM pθ{t+1} が、pθt によって生成された応答 y' と人間が与えた応答 y を区別する能力を高めることです。このトレーニングにより、新しい LLM pθ{t+1} はメインプレーヤーとして優れた識別能力を実現できるだけでなく、次の反復ラウンドで対戦相手プレーヤーとして SFT データセットとより一致する応答を返すことも可能になります。次の反復では、新たに得られたLLM pθ{t+1}が、それに応じて生成された対戦相手プレイヤーになります。

この自己再生プロセスの目標は、LLM が最終的に pθ∗ = p_data に収束するようにすることです。これにより、存在し得る最も強力な LLM によって生成される応答が、以前のバージョンや人間によって生成される応答と変わらなくなります。

興味深いことに、この新しいアプローチは、Rafailov らによって最近提案された直接選好最適化 (DPO) 法と類似点を示していますが、新しいアプローチは自己ゲームメカニズムを採用している点で大きく異なります。これにより、新しいアプローチには大きな利点が生まれます。つまり、追加の人間の好みデータは必要ありません。

さらに、この新しい方法と敵対的生成ネットワーク (GAN) との類似点も明確に確認できます。ただし、新しい方法では、識別器 (メインプレーヤー) とジェネレーター (対戦相手) が、2 つの隣接する反復後に同じ LLM のインスタンスになる点が異なります。

研究チームはこの新しい方法を理論的にも証明し、その結果、LLM の分布がターゲットデータの分布と等しい場合、つまり p_θ_t=p_data の場合にのみ、この方法が収束できることが示されました。

実験

実験では、チームは Mistral-7B から微調整された LLM インスタンス zephyr-7b-sft-full を使用しました。

結果は、新しい方法が連続した反復で zephyr-7b-sft-full を継続的に改善できることを示しています。対照的に、SFT データセット Ultrachat200k での継続的なトレーニングに SFT 方法を使用すると、評価スコアがパフォーマンスのボトルネックに達するか、低下することさえあります。

さらに興味深いのは、新しい方法で使用されるデータセットが、Ultrachat200k データセットの 50k サイズのサブセットにすぎないことです。

新しい方法 SPIN には、もう 1 つの成果があります。HuggingFace Open LLM リーダーボードでの基本モデル zephyr-7b-sft-full の平均スコアを 58.14 から 63.16 に効果的に向上させることができ、GSM8k と TruthfulQA では 10% を超える驚異的な向上が見られ、MT-Bench では 5.94 から 6.78 に向上しました。

特に、Open LLM リーダーボードでは、SPIN で微調整されたモデルは、追加の 62,000 の嗜好データセットでトレーニングされたモデルよりも優れたパフォーマンスを発揮します。

結論は

SPIN は、人間がラベル付けしたデータを最大限に活用することで、大規模なモデルを自己ゲームを通じて弱いモデルから強いモデルへと成長させることを可能にします。人間の嗜好フィードバック (RLHF) による強化学習と比較して、SPIN では、追加の人間によるフィードバックやより強力な LLM フィードバックなしで LLM が自己改善できるようになります。 HuggingFace Open LLM リーダーボードを含む複数のベンチマークデータセットでの実験では、SPIN は LLM のパフォーマンスを大幅かつ安定的に向上させ、追加の AI フィードバックでトレーニングされたモデルを上回りました。

SPIN は大規模モデルの進化と改善に役立ち、最終的には人間のレベルを超える人工知能を実現すると期待されています。

<<: 1080ti だけで、リモートセンシング画像内のピクセルレベルでターゲットを見つけることができます。コードデータセットがオープンソース化されました!

>>: ヴィンセントビデオの「ダークホース」モーフスタジオが登場: 使いやすく、1080P、7秒の長さ、無料