LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

金庸の武侠小説には両手で戦うという武術が登場します。これは周伯同が桃花島の洞窟で10年以上の厳しい修行を経て編み出した武術です。当初の発想は、左手で右手で戦うという自己娯楽でした。このアイデアは、武道の練習だけでなく、近年人気の高い敵対的生成ネットワーク(GAN)などの機械学習モデルのトレーニングにも使用できます。

大規模モデル (LLM) の時代に入り、研究者たちは左右の戦闘を利用する独創的な方法を発見しました。最近、カリフォルニア大学ロサンゼルス校のQuanquan Gu氏のチームは、追加の微調整データを使用せずに、自己再生のみでLLMの機能を大幅に向上できる新しい方法、SPIN(Self-Play Fine-Tuning)を提案しました。 Quanquan Gu教授は次のように語っています。「魚を与えるよりも、魚の釣り方を教える方がよいのです。自己ゲーム微調整(SPIN)を通じて、すべての大規模モデルを弱いものから強いものへと改善することができます。」

この研究はソーシャル ネットワークでも多くの議論を巻き起こしました。たとえば、ペンシルバニア大学ウォートン校のイーサン モリック教授は次のように述べています。「AI は、トレーニングに使用できる人間が作成したコンテンツの量によって制限されないことを示す証拠が増えています。この論文は、AI が作成したデータを使用して AI をトレーニングすると、人間が作成したデータのみを使用する場合よりも高品質の結果が得られることを改めて示しています。」

さらに、多くの研究者がこのアプローチに興奮しており、2024年の関連方向の進歩に大きな期待を表明しています。 Quanquan Gu教授はSyncedに次のように語った。「GPT-4を超える大規模なモデルをトレーニングしたい場合、これは間違いなく試してみる価値のある技術です。」

論文アドレス: https://arxiv.org/pdf/2401.01335.pdf

大規模言語モデル (LLM) は、複雑な推論と専門知識を必要とする幅広いタスクを並外れた能力で解決できる、人工汎用知能 (AGI) の画期的な新時代を切り開きます。 LLM の専門分野には、数学的推論/問題解決、コード生成/プログラミング、テキスト生成、要約、クリエイティブ ライティングなどが含まれます。

LLM における重要な進歩は、トレーニング後の調整プロセスです。これにより、モデルの動作が要件をより適切に満たすことができますが、このプロセスは多くの場合、高価な人間による注釈付きデータに依存しています。従来のアライメント方法には、人間のデモンストレーションに基づく教師あり微調整 (SFT) と、人間の好みのフィードバックによる強化学習 (RLHF) が含まれます。

これらのアライメント方法はすべて、人間が注釈を付けた大量のデータを必要とします。したがって、研究者は、アライメントプロセスを効率化するために、人間のデータを効果的に活用できる微調整方法を開発したいと考えています。

これは、この研究の目標でもあります。つまり、微調整されたモデルがさらに強化されるように新しい微調整方法を開発することであり、この微調整プロセスでは、微調整データセット外で人間が注釈を付けたデータを使用する必要はありません。

実際、機械学習コミュニティは、追加のトレーニングデータを使用せずに弱いモデルを強力なモデルに改善する方法を常に検討しており、この研究はブースティングアルゴリズムにまで遡ることができます。また、自己学習アルゴリズムは、追加のラベル付きデータを必要とせずに、ハイブリッド モデルで弱い学習者を強い学習者に変換できることも示されています。しかし、外部からの指導なしに LLM 機能を自動的に改善することは複雑であり、ほとんど研究されていません。これにより、次の疑問が生じます。

人間が注釈を付けた追加のデータなしで、LLM を自己改善することはできますか?

方法

技術的な詳細では、前回の反復からの LLM を pθt として表すことができます。これは、人間が注釈を付けた SFT データセット内のプロンプト x に対する応答 y' を生成します。次の目標は、pθtによって生成された応答y'と人間が与えた応答yを区別する能力を持つ新しいLLM pθ{t+1}を見つけることです。

このプロセスは、2 人のプレーヤーによるゲームとして考えることができます。メイン プレーヤーは新しい LLM pθ{t+1} であり、その目標は、対戦相手のプレーヤー pθt の応答を人間が生成した応答と区別することです。対戦相手のプレーヤーは古い LLM pθt であり、そのタスクは、人間が注釈を付けた SFT データセットに可能な限り近い応答を生成することです。

新しい LLM pθ{t+1} は、古い LLM pθt を微調整することによって得られます。トレーニング プロセスは、新しい LLM pθ{t+1} が、pθt によって生成された応答 y' と人間が与えた応答 y を区別する能力を高めることです。このトレーニングにより、新しい LLM pθ{t+1} はメイン プレーヤーとして優れた識別能力を実現できるだけでなく、次の反復ラウンドで対戦相手プレーヤーとして SFT データセットとより一致する応答を返すことも可能になります。次の反復では、新たに得られたLLM pθ{t+1}が、それに応じて生成された対戦相手プレイヤーになります。


この自己再生プロセスの目標は、LLM が最終的に pθ∗ = p_data に収束するようにすることです。これにより、存在し得る最も強力な LLM によって生成される応答が、以前のバージョンや人間によって生成される応答と変わらなくなります。

興味深いことに、この新しいアプローチは、Rafailov らによって最近提案された直接選好最適化 (DPO) 法と類似点を示していますが、新しいアプローチは自己ゲーム メカニズムを採用している点で大きく異なります。これにより、新しいアプローチには大きな利点が生まれます。つまり、追加の人間の好みデータは必要ありません。

さらに、この新しい方法と敵対的生成ネットワーク (GAN) との類似点も明確に確認できます。ただし、新しい方法では、識別器 (メイン プレーヤー) とジェネレーター (対戦相手) が、2 つの隣接する反復後に同じ LLM のインスタンスになる点が異なります。

研究チームはこの新しい方法を理論的にも証明し、その結果、LLM の分布がターゲット データの分布と等しい場合、つまり p_θ_t=p_data の場合にのみ、この方法が収束できることが示されました。

実験

実験では、チームは Mistral-7B から微調整された LLM インスタンス zephyr-7b-sft-full を使用しました。

結果は、新しい方法が連続した反復で zephyr-7b-sft-full を継続的に改善できることを示しています。対照的に、SFT データセット Ultrachat200k での継続的なトレーニングに SFT 方法を使用すると、評価スコアがパフォーマンスのボトルネックに達するか、低下することさえあります。

さらに興味深いのは、新しい方法で使用されるデータセットが、Ultrachat200k データセットの 50k サイズのサブセットにすぎないことです。

新しい方法 SPIN には、もう 1 つの成果があります。HuggingFace Open LLM リーダーボードでの基本モデル zephyr-7b-sft-full の平均スコアを 58.14 から 63.16 に効果的に向上させることができ、GSM8k と TruthfulQA では 10% を超える驚異的な向上が見られ、MT-Bench では 5.94 から 6.78 に向上しました。

特に、Open LLM リーダーボードでは、SPIN で微調整されたモデルは、追加の 62,000 の嗜好データセットでトレーニングされたモデルよりも優れたパフォーマンスを発揮します。

結論は

SPIN は、人間がラベル付けしたデータを最大限に活用することで、大規模なモデルを自己ゲームを通じて弱いモデルから強いモデルへと成長させることを可能にします。人間の嗜好フィードバック (RLHF) による強化学習と比較して、SPIN では、追加の人間によるフィードバックやより強力な LLM フィードバックなしで LLM が自己改善できるようになります。 HuggingFace Open LLM リーダーボードを含む複数のベンチマーク データセットでの実験では、SPIN は LLM のパフォーマンスを大幅かつ安定的に向上させ、追加の AI フィードバックでトレーニングされたモデルを上回りました。

SPIN は大規模モデルの進化と改善に役立ち、最終的には人間のレベルを超える人工知能を実現すると期待されています。

<<:  1080ti だけで、リモートセンシング画像内のピクセルレベルでターゲットを見つけることができます。コードデータセットがオープンソース化されました!

>>:  ヴィンセントビデオの「ダークホース」モーフスタジオが登場: 使いやすく、1080P、7秒の長さ、無料

ブログ    
ブログ    

推薦する

人工知能を活用して顧客サービスを向上させる方法

顧客エンゲージメント、パーソナライゼーションなど、5 つの異なる領域で AI を使用して顧客サービス...

人工知能温度測定が「スタンドガード」に登場!立ち止まる必要がなく、複数人が同時に温度を測定できます

この期間中、自宅に留まっている人々は、定期的にスーパーマーケットに行って商品を購入するという問題にも...

...

OpenAIが「Copyright Shield」機能を開始、AI著作権問題の支払いプラットフォーム

IT Homeは11月7日、本日開催されたOpenAI初の開発者会議で、OpenAIが「Copyri...

AIの未来: 汎用人工知能

人工知能を真に理解するために、研究者は、環境に対する人間のような理解を再現できる基礎的な AGI 技...

人工知能は第五の変革をもたらします。あなたはこのチャンスをつかむことができますか?

人工知能の急速な発展は、新しい小売業者に力を与え、小売業界の「人、商品、場所」の要素を効果的に再構築...

人工知能とモノのインターネットを組み合わせた5つの技術応用トレンド

今年末までに、世界中で接続されるデバイスの数は 500 億台に達すると予測されており、モノのインター...

2022 AIOPS のトレンドと予測: 知っておくべきことすべて

人工知能、機械学習、自動化などの高度なテクノロジーの登場により、最先端のビジネスシナリオは大きな変化...

AIはプログラマーの仕事を破壊する最初のものとなるでしょうか?プログラマーの90%は就職が難しくなっていると考えており、大学生もキャリアプランの調整が必要

一夜にしてプログラマーは仕事を見つけられなくなるようですね?海外メディアのマザーボードとブラインドが...

生成AIビッグモデルが人類の進化に与える影響

日々の仕事は ChatGPT などの言語生成モデルと切り離せないものだと思いますか? Midjour...

世界の技術大国の人工知能+インテリジェント製造戦略の展開を振り返る

1. アメリカ合衆国2016 年 10 月、米国政府は「人工知能の未来への準備」と「国家人工知能研究...

...

アルゴリズムに関する漫画: コンシステント・ハッシュとは何ですか?

1年前——同システムでは、今後2年間で総注文数が約1億件に達すると予測している。 1 つの MyS...

公共の安全とスマートシティ:AIがどのように役立つか

近年、人工知能の進歩により、私たちのコミュニティの安全性は大幅に向上しました。この技術は、緊急管理者...

100 日で機械学習: モデルのトレーニングが完了したら、次は何をする?

機械学習をマスターするための 100 日 | 1 日目から 62 日目までのコレクションみなさんこん...