Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

Llama-2+Mistral+MPT=? 複数の異種大規模モデルの融合が驚くべき結果を示す

LLaMA や Mistral などの大規模言語モデルの成功により、大手企業やスタートアップ企業は独自の大規模言語モデルを作成するようになりました。ただし、新しい大規模言語モデルを最初からトレーニングするコストは非常に高く、新しいモデルと古いモデルの間で機能に冗長性が生じる可能性があります。

最近、中山大学とテンセント AI ラボの研究者らが、「複数の異種の大規模モデルを融合」するために使用される FuseLLM を提案しました。

これまでのモデル統合や重みのマージとは異なり、前者は推論中に複数の大規模言語モデルを同時に展開する必要があり、後者はマージされたモデルが同じ結果を持つことを必要とします。FuseLLM は、複数の異種大規模言語モデルからの知識を外部化し、軽量の継続的なトレーニングを通じて、それぞれの知識と機能を融合された大規模言語モデルに転送できます。

論文がarXivで公開されるとすぐに、ネットユーザーから多くの注目とリポストが集まりました。


ある人は、「このアプローチは、別の言語でモデルをトレーニングしたいときに非常に興味深いものになるだろう」と考え、「私はこれについて考えていた」と言いました。


この論文はICLR 2024に採択されました。


  • 論文タイトル: 大規模言語モデルの知識融合
  • 論文アドレス: https://arxiv.org/abs/2401.10491
  • 論文リポジトリ: https://github.com/fanqiwan/FuseLLM

方法の紹介

FuseLLM の鍵は、確率分布表現の観点から大規模言語モデルの融合を探求することです。同じ入力テキストに対して、異なる大規模言語モデルによって生成された表現は、これらのテキストを理解する上での固有の知識を反映できると著者は考えています。そのため、FuseLLM は、まず複数のソースの大規模言語モデルを使用して表現を生成し、それらの集合的な知識とそれぞれの利点を外部化し、次に生成された複数の表現をそれぞれの長所と短所を活用して融合し、最後に軽量の継続的なトレーニングを通じてそれらをターゲットの大規模言語モデルに移行します。次の図は、FuseLLM アプローチの概要を示しています。

複数の異種大規模言語モデルのトークナイザーと語彙の違いを考慮すると、複数の表現を融合する際には、単語の分割結果をどのように調整するかが重要な問題となります。FuseLLM は、トークン レベルでの完全一致に加えて、最小編集距離に基づいて語彙レベルの調整を設計し、表現で利用可能な情報を最大限に保持します。

複数の大規模言語モデルの集合的な知識を、それぞれの長所を維持しながら組み合わせるためには、モデルによって生成された表現を融合するための慎重に設計された戦略が必要です。具体的には、FuseLLM は、生成された表現とラベル テキスト間のクロス エントロピーを計算することで、さまざまな大規模言語モデルによるテキストの理解を評価し、次に 2 つのクロス エントロピー ベースの融合関数を導入します。

  • MinCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、最小のクロスエントロピーを持つ表現を出力します。
  • AvgCE: 複数の大規模モデルを入力して現在のテキストの表現を生成し、クロスエントロピーの加重平均に基づいて表現を出力します。

継続的なトレーニング フェーズでは、FuseLLM は融合表現をターゲットとして使用して融合損失を計算し、言語モデルの損失も保持します。最終的な損失関数は、融合損失と言語モデル損失の合計です。

実験結果

実験セクションでは、著者らは、ソース モデルの構造や機能に共通性がほとんどない、一般的ではあるが困難な大規模言語モデル融合シナリオを検討します。具体的には、70億規模の実験を行い、融合する大規模モデルとして、Llama-2、OpenLLaMA、MPTという3つの代表的なオープンソースモデルを選択しました。

著者らは、一般推論、常識推論、コード生成、テキスト生成、指示追従などのシナリオで FuseLLM を評価し、すべてのソース モデルおよび継続的トレーニング ベースライン モデルと比較して大幅なパフォーマンスの向上が達成されたことを発見しました。

一般的な推論と常識的な推論

一般的な推論能力をテストする Big-Bench Hard Benchmark では、継続的なトレーニングの後、Llama-2 CLM は Llama-2 と比較して 27 のタスクで平均 1.86% の改善を達成しましたが、FuseLLM は Llama-2 と比較して 5.16% の改善を達成し、Llama-2 CLM を大幅に上回りました。これは、FuseLLM が複数の大規模言語モデルの利点を組み合わせてパフォーマンスの向上を実現できることを示しています。

常識的推論能力をテストする Common Sense Benchmark では、FuseLLM はすべてのソース モデルとベースライン モデルを上回り、すべてのタスクで最高のパフォーマンスを達成しました。

コード生成とテキスト生成

コード生成機能をテストする MultiPL-E ベンチマークでは、FuseLLM は 10 タスクのうち 9 タスクで Llama-2 を上回り、平均 6.36% のパフォーマンス向上を達成しました。 FuseLLM が MPT や OpenLLaMA を上回らない理由は、ターゲットの大規模言語モデルとして Llama-2 を使用しているためと考えられます。Llama-2 はコード生成能力が弱く、継続的なトレーニング コーパスにおけるコード データの割合もわずか 7.59% 程度と低いためです。

知識質問応答 (TrivialQA)、読解 (DROP)、コンテンツ分析 (LAMBADA)、機械翻訳 (IWSLT2017)、定理適用 (SciBench) を測定する複数のテキスト生成ベンチマークでも、FuseLLM はすべてのタスクですべてのソース モデルを上回り、タスクの 80% で Llama-2 CLM を上回ります。

従うべき指示

FuseLLM は、融合のために複数のソース モデルの表現を抽出し、ターゲット モデルを継続的にトレーニングするだけでよいため、大規模言語モデルの命令の微調整の融合にも使用できます。命令追従機能を評価する Vicuna ベンチマークでも、FuseLLM はすべてのソース モデルと CLM を上回る優れたパフォーマンスを達成しました。

FuseLLM と Knowledge Distillation、Model Ensemble、Weight Merge の比較

知識蒸留は表現を使用して大規模言語モデルのパフォーマンスを向上させる方法でもあることを考慮して、著者らは FuseLLM を Llama-2 13B から蒸留された Llama-2 KD と比較しました。結果は、FuseLLM が、異なるアーキテクチャを持つ 3 つの 7B モデルを融合することで、単一の 13B モデルから抽出されたパフォーマンスを上回ることを示しています。

FuseLLM を既存の融合方法 (モデル アンサンブルや重みのマージなど) と比較するために、著者らは、複数のソース モデルが同じ構造を持つベース モデルから取得され、異なるコーパスで継続的にトレーニングされるシナリオをシミュレートし、さまざまなテスト ベンチマークでさまざまな方法の難しさについてテストしました。すべての融合技術は複数のソース モデルの利点を組み合わせることができますが、FuseLLM は最も低い平均パープレキシティを達成できることがわかります。これは、FuseLLM がモデル アンサンブルや重みマージ方法よりも効果的にソース モデルの集合的な知識を組み合わせる可能性があることを示しています。

最後に、コミュニティは現在、大規模モデルの融合に注目していますが、現在の実践は主に重みのマージに基づいており、異なる構造や規模のモデル融合シナリオに拡張することはできません。 FuseLLM は異種モデル融合に関する予備研究に過ぎませんが、現在のテクノロジー コミュニティには構造やスケールが異なる言語、視覚、音声、マルチモーダルの大規模モデルが多数存在することを考えると、今後これらの異種モデルの融合によってどのような驚くべきパフォーマンスが生み出されるのでしょうか。待って見てみましょう!

<<:  3D生成の中核理論の再構築:VAST、香港大学、清華大学が「ゼロ」のトレーニングデータで3Dモデルを生成

>>:  ChatGPT 素晴らしいアップデート! @300万GPTをあなたのために働かせましょう

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

レノボとブラジルのイノベーションセンターCESARは、聴覚障害者が手話を理解できるように人工知能を活用している。

レノボとブラジルのレシフェにある先端研究システムセンター(CESAR)は、聴覚障害者向けに手話を「翻...

Baidu CTO 王海峰氏:PaddlePaddle ディープラーニング プラットフォームは新しいインフラストラクチャの重要な部分です

産業インテリジェンスの急速かつ徹底的な進歩に伴い、人工知能インフラの構築は不可欠となっています。 5...

Li Ziqing教授はPBODの主任コンピュータービジョン科学者を務めています。

最近、中国のビッグデータおよび人工知能製品と技術の大手プロバイダーであるPERCENTは、コンピュー...

あなたが知らないかもしれないゲームにおける AI に関する 5 つの予測

仮想現実ゲームの発展により、ゲームのプレイ方法や交流の仕方が急速に変化しています。仮想現実はゲームの...

...

...

6つの主要なソートアルゴリズム

6 つの一般的なソート アルゴリズムの GIF アニメーションがあり、ソートの考え方をより簡単に理解...

...

データサイエンティストもAIに置き換えられる可能性がある

AI が人間の活動に取って代わるかどうかについての議論が激化するにつれ、データ サイエンティストは ...

MITが世界の画期的な技術トップ10をランク付け、アリババはそのうち4つを研究中

2月22日のニュース:昨日、権威あるアメリカの科学雑誌「MITテクノロジーレビュー」は、2018年の...

両国の自動運転車に対する信頼度は大きく異なる。アメリカ人の70%が反対、中国人の70%が支持

テクノロジー・トラベラー、北京、12 月 27 日: AI 開発に関する最近の調査、研究、予測、その...

...

アルゴリズム問題演習 - 大規模ブラックリスト IP マッチング

多くの IT 企業では、アルゴリズムは面接で非常に重要な部分を占めていますが、実際の仕事でアルゴリズ...

テンセントクラウドがAIペイント製品をリリース、25以上の生成スタイルをサポート

9月10日、テンセントクラウドは9月7日に開催された2023テンセントグローバルデジタルエコシステム...