Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

LLaMA や Mistral などの大規模言語モデルの成功により、大手企業やスタートアップ企業は独自の大規模言語モデルを作成するようになりました。ただし、新しい大規模言語モデルを最初からトレーニングするコストは非常に高く、新しいモデルと古いモデルの間で機能に冗長性が生じる可能性があります。

最近、中山大学とテンセント AI ラボの研究者らが、「複数の異種の大規模モデルを融合」するために使用される FuseLLM を提案しました。

これまでのモデル統合や重みのマージとは異なり、前者は推論中に複数の大規模言語モデルを同時に展開する必要があり、後者はマージされたモデルが同じ結果を持つことを必要とします。FuseLLM は、複数の異種大規模言語モデルからの知識を外部化し、軽量の継続的なトレーニングを通じて、それぞれの知識と機能を融合された大規模言語モデルに転送できます。

論文がarXivで公開されるとすぐに、ネットユーザーから多くの注目とリポストが集まりました。


ある人は、「このアプローチは、別の言語でモデルをトレーニングしたいときに非常に興味深いものになるだろう」と考え、「私はこれについて考えていた」と言いました。


この論文はICLR 2024に採択されました。


  • 論文タイトル: 大規模言語モデルの知識融合
  • 論文アドレス: https://arxiv.org/abs/2401.10491
  • 論文リポジトリ: https://github.com/fanqiwan/FuseLLM

方法の紹介

FuseLLM の鍵は、確率分布表現の観点から大規模言語モデルの融合を探求することです。同じ入力テキストに対して、異なる大規模言語モデルによって生成された表現は、これらのテキストを理解する上での固有の知識を反映できると著者は考えています。そのため、FuseLLM は、まず複数のソースの大規模言語モデルを使用して表現を生成し、それらの集合的な知識とそれぞれの利点を外部化し、次に生成された複数の表現をそれぞれの長所と短所を活用して融合し、最後に軽量の継続的なトレーニングを通じてそれらをターゲットの大規模言語モデルに移行します。次の図は、FuseLLM アプローチの概要を示しています。

複数の異種大規模言語モデルのトークナイザーと語彙の違いを考慮すると、複数の表現を融合する際には、単語の分割結果をどのように調整するかが重要な問題となります。FuseLLM は、トークン レベルでの完全一致に加えて、最小編集距離に基づいて語彙レベルの調整を設計し、表現で利用可能な情報を最大限に保持します。

複数の大規模言語モデルの集合的な知識を、それぞれの長所を維持しながら組み合わせるためには、モデルによって生成された表現を融合するための慎重に設計された戦略が必要です。具体的には、FuseLLM は、生成された表現とラベル テキスト間のクロス エントロピーを計算することで、さまざまな大規模言語モデルによるテキストの理解を評価し、次に 2 つのクロス エントロピー ベースの融合関数を導入します。

  • MinCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、最小のクロスエントロピーを持つ表現を出力します。
  • AvgCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、クロスエントロピーの加重平均に基づいて表現を出力します。

継続的なトレーニング フェーズでは、FuseLLM は融合表現をターゲットとして使用して融合損失を計算し、言語モデルの損失も保持します。最終的な損失関数は、融合損失と言語モデル損失の合計です。

実験結果

実験セクションでは、著者らは、ソース モデルの構造や機能に共通性がほとんどない、一般的ではあるが困難な大規模言語モデル融合シナリオを検討します。具体的には、70億規模の実験を行い、融合する大規模モデルとして、Llama-2、OpenLLaMA、MPTという3つの代表的なオープンソースモデルを選択しました。

著者らは、一般推論、常識推論、コード生成、テキスト生成、指示追従などのシナリオで FuseLLM を評価し、すべてのソース モデルおよび継続的トレーニング ベースライン モデルと比較して大幅なパフォーマンスの向上が達成されたことを発見しました。

一般的な推論と常識的な推論

一般的な推論能力をテストする Big-Bench Hard Benchmark では、継続的なトレーニングの後、Llama-2 CLM は Llama-2 と比較して 27 のタスクで平均 1.86% の改善を達成しましたが、FuseLLM は Llama-2 と比較して 5.16% の改善を達成し、Llama-2 CLM を大幅に上回りました。これは、FuseLLM が複数の大規模言語モデルの利点を組み合わせてパフォーマンスの向上を実現できることを示しています。

常識的推論能力をテストする Common Sense Benchmark では、FuseLLM はすべてのソース モデルとベースライン モデルを上回り、すべてのタスクで最高のパフォーマンスを達成しました。

コード生成とテキスト生成

コード生成機能をテストする MultiPL-E ベンチマークでは、FuseLLM は 10 タスクのうち 9 タスクで Llama-2 を上回り、平均 6.36% のパフォーマンス向上を達成しました。 FuseLLM が MPT や OpenLLaMA を上回らない理由は、ターゲットの大規模言語モデルとして Llama-2 を使用しているためと考えられます。Llama-2 はコード生成能力が弱く、継続的なトレーニング コーパスにおけるコード データの割合もわずか 7.59% 程度と低いためです。

知識質問応答 (TrivialQA)、読解 (DROP)、コンテンツ分析 (LAMBADA)、機械翻訳 (IWSLT2017)、定理適用 (SciBench) を測定する複数のテキスト生成ベンチマークでも、FuseLLM はすべてのタスクですべてのソース モデルを上回り、タスクの 80% で Llama-2 CLM を上回ります。

従うべき指示

FuseLLM は、融合のために複数のソース モデルの表現を抽出し、ターゲット モデルを継続的にトレーニングするだけでよいため、大規模言語モデルの命令の微調整の融合にも使用できます。命令追従機能を評価する Vicuna ベンチマークでも、FuseLLM はすべてのソース モデルと CLM を上回る優れたパフォーマンスを達成しました。

FuseLLM と Knowledge Distillation、Model Ensemble、Weight Merge の比較

知識蒸留は表現を使用して大規模言語モデルのパフォーマンスを向上させる方法でもあることを考慮して、著者らは FuseLLM を Llama-2 13B から蒸留された Llama-2 KD と比較しました。結果は、FuseLLM が、異なるアーキテクチャを持つ 3 つの 7B モデルを融合することで、単一の 13B モデルから抽出されたパフォーマンスを上回ることを示しています。

FuseLLM を既存の融合方法 (モデル アンサンブルや重みのマージなど) と比較するために、著者らは、複数のソース モデルが同じ構造を持つベース モデルから取得され、異なるコーパスで継続的にトレーニングされるシナリオをシミュレートし、さまざまなテスト ベンチマークでさまざまな方法の難しさについてテストしました。すべての融合技術は複数のソース モデルの利点を組み合わせることができますが、FuseLLM は最も低い平均パープレキシティを達成できることがわかります。これは、FuseLLM がモデル アンサンブルや重みマージ方法よりも効果的にソース モデルの集合的な知識を組み合わせる可能性があることを示しています。

最後に、コミュニティは現在、大規模モデルの融合に注目していますが、現在の実践は主に重みのマージに基づいており、異なる構造や規模のモデル融合シナリオに拡張することはできません。 FuseLLM は異種モデル融合に関する予備研究に過ぎませんが、現在のテクノロジー コミュニティには構造やスケールが異なる言語、視覚、音声、マルチモーダルの大規模モデルが多数存在することを考えると、今後これらの異種モデルの融合によってどのような驚くべきパフォーマンスが生み出されるのでしょうか。待って見てみましょう!

<<:  3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

>>:  ChatGPT 素晴らしいアップデート! @300万GPTをあなたのために働かせましょう

推薦する

2019 年の ML と NLP におけるトップ 10 の研究ホットスポット

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能を活用して顧客サービス体験を向上させる 5 つの方法

人々がデジタルの世界に移行するにつれて、組織と顧客の関係はここ数年で変化してきました。顧客の期待はか...

なぜ人工知能は宇宙の謎を解く鍵となるのでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

再び攻撃! AI+教育に注力する学百軍は、年間10億元という小さな目標を設定

「今年末までに、学覇君は年間売上高10億元を確保するという小さな目標を達成する予定です」と張凱蕾氏は...

マスク氏のChatGPTバージョンが急成長中! Pythonなしで11人が2か月間懸命に働いた

マスク氏は突如行動を起こし、OpenAI開発者会議の前に大型モデルGrokをリリースした。他の Ch...

人間と踊る!中国の6団体が制作したヒューマノイドロボットがストリートショーに進出

注意してください、小帥は振り向きましたが、スウェットシャツのフードの中には何もありませんでした。さて...

市場規模は100億元を超える可能性あり。これら4種類の医療用ロボットをご存知ですか?

2020年、突然の公衆衛生事件により、医療用ロボットに大きな注目が集まりました。医療用ロボットは、...

次世代人工知能

[[390934]] AI と機械学習の最近の研究では、一般的な学習と、ますます大規模なトレーニング...

人工知能ガバナンスには「人工知能」の有効活用が必要

最近では、営業所での顔認証が標準装備になったというニュースが話題となり、個人情報セキュリティの問題が...

AIとコネクテッドデバイスの急成長が新たなデジタル格差を生み出している理由

接続デバイスと AI 言語モデルの急速な成長により、私たちの生活、仕事、コミュニケーションの方法が変...

調査によると、人工知能ソフトウェア市場は2025年までに370億ドルに達すると予想されている。

Forrester は、2025 年までの市場規模をより現実的に把握するために、AI ソフトウェア...

マイクロソフトは、ほぼ100年前の量子理論の新たな証明を示した。

量子コンピューティングは、人類が直面している最も困難な課題のいくつかを解決するのに役立つと期待されて...