LLaMA や Mistral などの大規模言語モデルの成功により、大手企業やスタートアップ企業は独自の大規模言語モデルを作成するようになりました。ただし、新しい大規模言語モデルを最初からトレーニングするコストは非常に高く、新しいモデルと古いモデルの間で機能に冗長性が生じる可能性があります。 最近、中山大学とテンセント AI ラボの研究者らが、「複数の異種の大規模モデルを融合」するために使用される FuseLLM を提案しました。 これまでのモデル統合や重みのマージとは異なり、前者は推論中に複数の大規模言語モデルを同時に展開する必要があり、後者はマージされたモデルが同じ結果を持つことを必要とします。FuseLLM は、複数の異種大規模言語モデルからの知識を外部化し、軽量の継続的なトレーニングを通じて、それぞれの知識と機能を融合された大規模言語モデルに転送できます。 論文がarXivで公開されるとすぐに、ネットユーザーから多くの注目とリポストが集まりました。 ある人は、「このアプローチは、別の言語でモデルをトレーニングしたいときに非常に興味深いものになるだろう」と考え、「私はこれについて考えていた」と言いました。 この論文はICLR 2024に採択されました。
方法の紹介FuseLLM の鍵は、確率分布表現の観点から大規模言語モデルの融合を探求することです。同じ入力テキストに対して、異なる大規模言語モデルによって生成された表現は、これらのテキストを理解する上での固有の知識を反映できると著者は考えています。そのため、FuseLLM は、まず複数のソースの大規模言語モデルを使用して表現を生成し、それらの集合的な知識とそれぞれの利点を外部化し、次に生成された複数の表現をそれぞれの長所と短所を活用して融合し、最後に軽量の継続的なトレーニングを通じてそれらをターゲットの大規模言語モデルに移行します。次の図は、FuseLLM アプローチの概要を示しています。 複数の異種大規模言語モデルのトークナイザーと語彙の違いを考慮すると、複数の表現を融合する際には、単語の分割結果をどのように調整するかが重要な問題となります。FuseLLM は、トークン レベルでの完全一致に加えて、最小編集距離に基づいて語彙レベルの調整を設計し、表現で利用可能な情報を最大限に保持します。 複数の大規模言語モデルの集合的な知識を、それぞれの長所を維持しながら組み合わせるためには、モデルによって生成された表現を融合するための慎重に設計された戦略が必要です。具体的には、FuseLLM は、生成された表現とラベル テキスト間のクロス エントロピーを計算することで、さまざまな大規模言語モデルによるテキストの理解を評価し、次に 2 つのクロス エントロピー ベースの融合関数を導入します。
継続的なトレーニング フェーズでは、FuseLLM は融合表現をターゲットとして使用して融合損失を計算し、言語モデルの損失も保持します。最終的な損失関数は、融合損失と言語モデル損失の合計です。 実験結果実験セクションでは、著者らは、ソース モデルの構造や機能に共通性がほとんどない、一般的ではあるが困難な大規模言語モデル融合シナリオを検討します。具体的には、70億規模の実験を行い、融合する大規模モデルとして、Llama-2、OpenLLaMA、MPTという3つの代表的なオープンソースモデルを選択しました。 著者らは、一般推論、常識推論、コード生成、テキスト生成、指示追従などのシナリオで FuseLLM を評価し、すべてのソース モデルおよび継続的トレーニング ベースライン モデルと比較して大幅なパフォーマンスの向上が達成されたことを発見しました。 一般的な推論と常識的な推論 一般的な推論能力をテストする Big-Bench Hard Benchmark では、継続的なトレーニングの後、Llama-2 CLM は Llama-2 と比較して 27 のタスクで平均 1.86% の改善を達成しましたが、FuseLLM は Llama-2 と比較して 5.16% の改善を達成し、Llama-2 CLM を大幅に上回りました。これは、FuseLLM が複数の大規模言語モデルの利点を組み合わせてパフォーマンスの向上を実現できることを示しています。 常識的推論能力をテストする Common Sense Benchmark では、FuseLLM はすべてのソース モデルとベースライン モデルを上回り、すべてのタスクで最高のパフォーマンスを達成しました。 コード生成とテキスト生成 コード生成機能をテストする MultiPL-E ベンチマークでは、FuseLLM は 10 タスクのうち 9 タスクで Llama-2 を上回り、平均 6.36% のパフォーマンス向上を達成しました。 FuseLLM が MPT や OpenLLaMA を上回らない理由は、ターゲットの大規模言語モデルとして Llama-2 を使用しているためと考えられます。Llama-2 はコード生成能力が弱く、継続的なトレーニング コーパスにおけるコード データの割合もわずか 7.59% 程度と低いためです。 知識質問応答 (TrivialQA)、読解 (DROP)、コンテンツ分析 (LAMBADA)、機械翻訳 (IWSLT2017)、定理適用 (SciBench) を測定する複数のテキスト生成ベンチマークでも、FuseLLM はすべてのタスクですべてのソース モデルを上回り、タスクの 80% で Llama-2 CLM を上回ります。 従うべき指示 FuseLLM は、融合のために複数のソース モデルの表現を抽出し、ターゲット モデルを継続的にトレーニングするだけでよいため、大規模言語モデルの命令の微調整の融合にも使用できます。命令追従機能を評価する Vicuna ベンチマークでも、FuseLLM はすべてのソース モデルと CLM を上回る優れたパフォーマンスを達成しました。 FuseLLM と Knowledge Distillation、Model Ensemble、Weight Merge の比較 知識蒸留は表現を使用して大規模言語モデルのパフォーマンスを向上させる方法でもあることを考慮して、著者らは FuseLLM を Llama-2 13B から蒸留された Llama-2 KD と比較しました。結果は、FuseLLM が、異なるアーキテクチャを持つ 3 つの 7B モデルを融合することで、単一の 13B モデルから抽出されたパフォーマンスを上回ることを示しています。 FuseLLM を既存の融合方法 (モデル アンサンブルや重みのマージなど) と比較するために、著者らは、複数のソース モデルが同じ構造を持つベース モデルから取得され、異なるコーパスで継続的にトレーニングされるシナリオをシミュレートし、さまざまなテスト ベンチマークでさまざまな方法の難しさについてテストしました。すべての融合技術は複数のソース モデルの利点を組み合わせることができますが、FuseLLM は最も低い平均パープレキシティを達成できることがわかります。これは、FuseLLM がモデル アンサンブルや重みマージ方法よりも効果的にソース モデルの集合的な知識を組み合わせる可能性があることを示しています。 最後に、コミュニティは現在、大規模モデルの融合に注目していますが、現在の実践は主に重みのマージに基づいており、異なる構造や規模のモデル融合シナリオに拡張することはできません。 FuseLLM は異種モデル融合に関する予備研究に過ぎませんが、現在のテクノロジー コミュニティには構造やスケールが異なる言語、視覚、音声、マルチモーダルの大規模モデルが多数存在することを考えると、今後これらの異種モデルの融合によってどのような驚くべきパフォーマンスが生み出されるのでしょうか。待って見てみましょう! |
<<: 3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成
>>: ChatGPT 素晴らしいアップデート! @300万GPTをあなたのために働かせましょう
[[274313]] [51CTO.com クイック翻訳] 周知のとおり、人工知能は継続的に発展し...
近年、社会構造の転換と国民の権利意識の強化に伴い、中国の裁判所が受理する事件の規模は毎年二桁増加し、...
人工知能は医療業界のシステムと方法を変えています。半世紀以上にわたり、人工知能とヘルスケアは一緒に発...
[[185868]]スピーチの基本概念スピーチは複雑な現象です。それがどのように生成され、どのように...
一般的に、AIGC とは、人間が作成したコンテンツに非常によく似た画像、音楽、テキストなどのコンテン...
ますます激化する労働市場で人材獲得競争に勝つための新たな可能性を模索するビジネスリーダーや人事マネー...
大規模言語モデル (LLM) は、適切なプロンプトがあれば、多くの自然言語処理タスクにとって強力なツ...
人工知能はもはや未来の技術ではありません。私たちの日常の作業を自動化する機械はますます賢くなり、人工...
ビデオ マーケティングで人工知能 (AI) を使用すると、企業はユーザーの好みを分析してカスタマイズ...
Transformer の高性能は非常に高い計算能力に依存しており、モバイル NLP に大きな制限が...