小型モデルは大型モデルとどう比較できるのか？北京理工大学はMindの大型モデルであるMindLLMをリリースし、小型モデルの大きな可能性を示した。

大規模言語モデル (LLM) は、さまざまな自然言語タスクで優れたパフォーマンスを発揮しています。ただし、大規模パラメータモデルのトレーニングと推論には大量のコンピューティングリソースが必要となり、コストが高くなるため、専門分野で大規模言語モデルを適用するには依然として多くの実用的な問題が残っています。そのため、BIT チームは、データとモデルの利点を最大限に活用し、特定の分野にさらに貢献し、下流のタスクのトレーニングと推論のコストを削減することを目指して、軽量モデルから始めました。

10月24日、北京理工大学自然言語処理チームは、大規模モデルの開発過程で蓄積された経験を全面的に導入し、データ構築、モデルアーキテクチャ、評価、アプリケーションプロセスの各詳細ステップを網羅したバイリンガル軽量大規模言語モデル「Ming De LLM - MindLLM」シリーズをリリースした。 MindLLM はゼロからトレーニングされており、1.3B と 3B の 2 つのバージョンがあり、特定の公開ベンチマークで他のオープンソースの大規模モデルのパフォーマンスと一貫して同等かそれを上回ります。 MindLLM は、小型モデルの機能を効果的に強化するために、小型モデルに合わせた革新的な命令調整フレームワークも導入しています。さらに、MindLLM は、法律や金融などの特定の垂直分野へのアプリケーションにおいても優れたドメイン適応性を備えています。

論文アドレス: https://arxiv.org/abs/2310.15777

MindLLMのハイライト

高品質で高比率のウェブテキストの維持、書籍や会話などの長期データの保存、数学データのダウンサンプリング、コードデータのアップサンプリングなど、データ処理に関する経験を共有しました。能力学習のためにデータを均一にシャッフルし、少数ショット学習シナリオのためにいくつかのサンプルをチャンク化することを提案します。
私たちの評価結果は、いくつかの大規模モデルよりも優れています。命令の微調整とアライメントを使用しない場合、MindLLM モデルは、MMLU および AGIEval 評価で MPT-7B や GPT-J-6B などの大規模モデルよりも優れたパフォーマンスを発揮します。中国語の場合、MindLLM は C-Eval および CMMLU のより大きなパラメータモデルと同等のパフォーマンスを示します。具体的には、MindLLM-3B は、数学的能力において MOSS-Base-16B や MPT-7B などのより大規模なモデルよりも優れており、バイリンガル能力においては Baichuan2-7B や MOSS-Base-16B を上回っています。さらに、MindLLM-1.3B は、同じサイズの GPT-Neo-1.3B よりも数学的に優れています。
バイリンガル学習のための 2 つの異なるトレーニング戦略を比較し、事前トレーニング中にデータを均一に分散させるかどうかの影響を調査します。容量が限られている軽量モデル（≤7B）の場合、新しい知識を既存の知識と統合することが難しいため、事前トレーニングを行ってから転送トレーニングを行って数学、推論、バイリンガルアライメントなどの複雑な機能を実現する戦略は最適ではないと結論付けています。対照的に、より効果的な戦略は、最初から始めて、下流のタスクの要件に応じて複数のデータタイプを統合し、必要な機能を安定的かつ効率的に取得できるようにすることです。
命令のチューニング中に特定の機能に合わせて調整されたデータを活用すると、総合的な推論能力や主題の知識能力など、軽量モデルの特定の機能を大幅に強化できることがわかりました。
エントロピーベースの品質フィルタリング戦略を使用して命令セットを構築するアプローチを紹介し、軽量モデル用の高品質命令チューニングデータをフィルタリングする際の有効性を実証します。軽量モデルのコンテキストでは、単にデータ量を増やすのではなく、命令チューニングデータの品質を向上させることで、モデルのパフォーマンスをより効果的に最適化できることを示します。
当社のモデルは、特に法律や金融などの特定の領域で優れたパフォーマンスを発揮しています。モデルパラメータのサイズの違いは特定のドメイン内では大きな違いをもたらさず、小さいモデルの方が大きいモデルよりもパフォーマンスが優れていることがわかりました。私たちのモデルは、特定のドメインにおいて、パラメータサイズが 13 億から 30 億の範囲にあるすべてのモデルよりも優れており、パラメータサイズが 60 億から 130 億の範囲にあるモデルと競合しています。さらに、特定のドメインにおけるモデルの分類能力は、COT メソッドによって大幅に強化されています。

データ関連

データ処理

英語と中国語の両方のトレーニングデータを使用します。英語のデータは Pile データセットから取得され、さらに処理されます。中国語データには、Wudao、CBooks などのオープンソースのトレーニングデータと、インターネットからクロールしたデータが含まれています。データの品質を保証するために、特に Web からクロールされたデータに対しては、厳格なデータ処理方法を採用しました。

当社が使用するデータ処理方法には、以下の側面が含まれます。

フォーマットのクリーニング: Web ページパーサーを使用して、ソース Web ページからテキストコンテンツを抽出し、クリーニングします。このフェーズでは、テキストの滑らかさを確保するために、不要な HTML、CSS、JS ロゴ、絵文字を削除します。さらに、フォーマットの不一致にも対処しました。また、モデルが古代の文学や詩を学習できるように、繁体字中国語も保持しています。
低品質データのフィルタリング: Web ページ内のテキストとコンテンツの比率に基づいてデータの品質を評価します。具体的には、テキスト密度が 75% 未満、または中国語の文字数が 100 未満の Web ページは除外されます。このしきい値は、Web ページのサンプルに対する予備テストを通じて決定されました。
データ重複排除: WuDao のデータも Web ページから取得されるため、一部の Web サイトでは同じ情報を繰り返し公開する場合があります。そのため、トレーニングデータの多様性を維持しながら重複コンテンツを削除するために、局所性に敏感なハッシュアルゴリズムを採用しました。
機密情報のフィルタリング: Web ページには機密性の高いコンテンツが含まれることが多いため、ポジティブ言語モデルを構築するために、ヒューリスティック手法と機密性の高い語彙を使用して、そのようなコンテンツを検出し、フィルタリングします。プライバシーを保護するために、ID 番号、電話番号、電子メールアドレスなどの個人情報を識別し、特別なトークンに置き換えるために正規表現を使用します。
情報量の少ないデータのフィルタリング: 広告などの情報量の少ないデータは、重複コンテンツとして表示されることが多いです。したがって、Web ページのテキストコンテンツ内のフレーズの頻度を分析することで、このタイプのコンテンツを識別します。同じウェブサイトから頻繁に繰り返されるフレーズは、モデルの学習に悪影響を及ぼす可能性があると考えています。したがって、当社のフィルターは、広告や未認証の Web サイトで連続して繰り返されるフレーズに焦点を当てています。

最終的に、次のデータを取得しました。

スケーリングの法則

ディープラーニングや大規模言語モデルのトレーニングコストが増大する中で最適なパフォーマンスを確保するために、データ量とモデル容量の関係、つまりスケーリング則を調査しました。数十億のパラメータを持つ大規模な言語モデルのトレーニングに進む前に、まずは小規模なモデルをトレーニングして、大規模なモデルをトレーニングするためのスケーリングルールを確立します。当社のモデルのサイズは 1,000 万から 5 億のパラメータに及び、各モデルは最大 100 億のトークンを含むデータセットでトレーニングされます。これらのトレーニングでは、一貫したハイパーパラメータ設定と上記と同じデータセットが使用されました。さまざまなモデルの最終的な損失を分析することで、トレーニング FLOP (浮動小数点演算) から損失へのマッピングを確立できます。下の図に示すように、異なるサイズのモデルでは、飽和するために必要なトレーニングデータの量が異なります。モデルのサイズが大きくなるにつれて、必要なトレーニングデータも増加します。対象モデルの正確なデータ要件を満たすために、べき乗法則を使用してモデルの拡張法則を適合させ、トレーニングデータの量と3Bパラメータモデルの損失値を予測し、実際の結果（図の星印）と比較しました。

データミキシングとデータコース

データがモデルに与える影響は、主に次の 2 つの側面に及びます。(1) 混合比。これは、限られたトレーニング予算内で、さまざまなソースからのデータを組み合わせて特定のサイズのデータセットを構築する方法に関係します。(2) データカリキュラム。これは、さまざまなソースからのデータの配置に関係し、モデル固有のスキルをトレーニングします。

各データソースを均等に縮小して、1500 万個のパラメータを持つモデルをトレーニングしました。下の図に示すように、データの種類によって学習効率やモデルの最終結果に異なる影響が及びます。たとえば、数学の問題データは最終損失が低く、学習速度が速いため、パターンがより明白で学習しやすいことがわかります。対照的に、情報量の多い書籍や多様な Web テキストからのデータには、より長い適応時間が必要です。技術関連のデータや百科事典など、分野が似ているデータの中には、損失が近いものもあります。

単一のデータから他のデータに一般化するモデルのパフォーマンスをさらに調査するために、単一のデータでトレーニングされたこれらのモデルを使用して他のデータでテストします。結果を次の図に示します。

異なるデータセットは、異なる程度の一般化能力を示します。たとえば、Web テキスト、百科事典、質問応答データでトレーニングされたモデルは、複数のデータソースに対して強力な一般化能力を示し、そのコンテンツにさまざまな分野の多様な情報が含まれていることを示しています。対照的に、学術論文データとコードデータでトレーニングされたモデルは、数学的能力は優れていますが、ドメイン特異性と固有の形式情報が原因で、一般化が弱いと考えられます。

さらに、さまざまなスキルとデータタイプにわたってモデルのパフォーマンスのバランスをとるために、複数のデータスケーリング調整を実行しました。私たちの実験に基づいて、最終的にデータ混合比率のいくつかの原則を決定しました。

多様性を考慮し、高品質の Web テキストと百科事典データを高い割合で維持します。
過剰適合を避けるために数学的データの割合を減らします。
コードと学術データを使用することで、多様なサンプリングと適切な処理を通じてフォーマットの影響を軽減しながら、数学的機能を強化します。
会話や本のデータを保存しておくと、長期的な依存関係を学習するのに役立ちます。

混合比率に加えて、データカリキュラム（データのトレーニング順序）もモデルの学習能力に影響します。実験では、さまざまなソースからのデータによりモデルがさまざまなスキルを学習できることが示されており、スキル間の相関関係により、特定の学習順序を採用するとモデルが新しいスキルを学習するのに役立つ可能性があります。私たちの実験は、異種データの混合と言語転移学習がモデル機能に与える影響に焦点を当てています。私たちの実験では、不均一に混合されたデータにより、モデルは同じタイプのデータで継続的にトレーニングされることが示されました。これはコンテキスト内学習の状況に近くなり、したがって、少数ショット学習でのパフォーマンスが向上します。ただし、学習の不均一性により、後で重大な忘却が発生する可能性があります。さらに、言語転移学習はモデルがバイリンガル機能を獲得するのに役立ち、言語の調整によって全体的なパフォーマンスが向上する可能性がありますが、混合言語データを使用したトレーニングの方がモデル機能の分散と獲得につながると考えています。

MindLLMs モデルアーキテクチャ

MindLLM-1.3B は GPT Neo-1.3B と同じモデルアーキテクチャを使用しますが、MindLLM-3B ではこれに基づいていくつかの改善が追加されています。トレーニングの安定性とモデル機能を考慮して、回転位置エンコーディング (RoPE)、DeepNorm、RMS Norm、FlashAttention-2、GeGLU などの最適化演算子を使用します。

GPT Neo-1.3B に基づいて中国語の語彙を追加し、転移学習戦略を使用して MindLLM-1.3B のバイリンガル機能をトレーニングしました。 MindLLM-3B では、SentencePiece の BPE を使用してデータをトークン化し、Tokenizer の最終的な語彙サイズは 125,700 になります。 2 つの異なるバイリンガルトレーニング方法を通じて、一般的に実用的な事前トレーニング方法をいくつかまとめました。

事前トレーニング

事前トレーニングの詳細

バイリンガルモデル MindLLM をゼロからトレーニングするために、2 つの異なる戦略を使用しました。 MindLLM-3B では、中国語と英語の混合バイリンガルデータで直接 800,000 ステップを事前トレーニングし、中国語と英語の両方の機能を学習しました。MindLLM-1.3B では、最初に英語のデータセットで 101,100 ステップを事前トレーニングし、次に中国語と英語の混合データを使用して 105,900 ステップをトレーニングしました。事前トレーニングの詳細は次のとおりです。

事前トレーニング評価

小型モデルは大型モデルに勝てる

モデルの中国語と英語の機能を評価するために、MMLU (5 ショット) と AGIEval (4 ショット) を使用してモデルの英語の機能を評価し、C-Eval (5 ショット) と CMMLU (4 ショット) を使用してモデルの中国語の機能を評価します。 AGIEval では、英語セクションで複数選択式の質問セクションを使用します。評価結果は次のとおりです。

英語のパフォーマンスに関しては、MindLLMs の平均レベルは、GPT-J-6B、MPT-7B、MOSS-Base-16B などのより大規模なモデルのそれを上回り、より大規模なモデルサイズとより多くの事前トレーニングデータを持つ Falcon-7B に近いです。中国語能力の点では、MindLLM はオープンソースの LLM に匹敵するパフォーマンスを発揮します。 MindLLMs はまだトレーニングと強化の段階にあることは言及する価値があります。

さらに、中国語と英語のデータでトレーニングされたがデータが少ないMindLLM-1.3Bは、MMLUでGPT-Neo-1.3Bよりも優れたパフォーマンスを発揮することがわかりました。これは、異なる言語の能力に共通点があるため、バイリンガル学習によってもたらされた利点である可能性があると推測しています。詳細な実験と分析については、論文のセクション 4.4 を参照してください。

小型モデルは特定の機能に大きな可能性を秘めている

軽量モデルの場合、下流のタスクに適用する場合、関連する機能において優れたパフォーマンスを示すことのみが必要です。したがって、このセクションでは、特定の機能 (≤7B) の観点から、MindLLM とその他の軽量 LLM のパフォーマンスと影響要因を調査します。

私たちは主に、数学的能力、推論能力、バイリンガルアライメント能力という 3 つの観点からさまざまなモデルのパフォーマンスを評価します。これは、これら 3 つの能力が複雑であり、バイリンガルモデルの適用にとって比較的重要であるためです。

（１）数学

モデルの算術機能を評価するには、算術 (5 ショット) データセットを使用し、モデルの一般的な数学的機能を評価するには、GSM8K (4 ショット) と MATH (4 ショット) を使用します。評価結果は次のとおりです。

MindLLM-3B は数学的能力において平均スコア 16.01 を達成し、MOSS-Base-16B (15.71)、MPT-7B (13.42)、GPT-J-6B (13.15) を上回っていることがわかりました。さらに、MindLLM-1.3Bの平均数学レベルも、同じサイズのGPT-Neo-1.3Bを上回っています。上記の結果は、軽量モデルが大きな数学的可能性を秘めていること、また、特定の領域では小型モデルでも大型モデルよりも優れたパフォーマンスを発揮できる、あるいは同等のパフォーマンスを発揮できることを示しています。さらに、比較的数学的能力が優れているもの（平均スコア ≥ 15）は、MindLLM-3Bを除いて、すべてスコア 7B 前後のモデルであることがわかります。これは、数学的能力などの複雑な能力の完全な習得がモデルのサイズによって制限される可能性があることを示唆しており、この仮説はモデルのバイリンガル能力と推論能力の評価にもさらに反映されています。

（２）推論

モデルの言語推論能力 (5 ショット) を評価するために HellaSwag と WinoGrande を使用し、モデルの論理推論能力 (5 ショット) を評価するために LogiQA を使用し、モデルの知識推論能力 (5 ショット) を評価するために PubMedQA、PIQA、および MathQA を使用し、モデルの総合推論能力 (3 ショット) を評価するために BBH を使用します。具体的な評価結果は以下のとおりです。

まず、モデル能力が限られている状況では、バイリンガル能力によってもたらされる能力の向上と、言語学習によるモデル能力の消費とのバランスを取る必要があるかもしれない。言語学習はモデルの能力の一部を占めるため、推論能力などの複雑な機能を完全に獲得することは不可能になります。たとえば、MindLLM-1.3B は英語の MMLU 評価指標では GPT-Neo-1.3B よりも優れていますが、推論能力の平均レベルでは後者よりも劣っています (35.61 対 38.95)。ブルームズの推論能力は特に優れているわけではありませんでしたが、その後の評価ではバイリンガル能力が優れており、ある程度上記の見解を裏付けています。第二に、より大きな事前トレーニングデータセットには、より多くの世界知識が含まれる可能性があり、これはモデルが推論タスクを実行するのに役立ちます。たとえば、Open-LLaMA-3B の推論パフォーマンスは、より大きなモデルのそれに匹敵し、その事前トレーニングデータは 1 TB であり、同じサイズの他のモデルで使用される事前トレーニングデータを上回っています。したがって、より小さなモデルでも、より大きなモデルと同等の推論機能のパフォーマンスを達成できる可能性があります。さらに、MOSS の推論レベルは、以前のコードデータの学習からメリットを得てパフォーマンスが向上するようには見えないことがわかりました (MOSS は CodeGen でトレーニングを継続しました)。ただし、関連する研究では、コードはモデルの推論能力の向上に確かに役立つことが示されています。そのため、モデルの推論能力を強化するために、トレーニングにコードデータを追加する方法とタイミングについては、さらに議論する価値があります。

（３）バイリンガル能力

Flores-101（8ショット）のzh-en部分を使用して、中国語と英語間のバイリンガルまたはマルチリンガルモデルのアライメント能力を評価します。評価用に、LLaMA-2-7B をベースに中国語領域に適応させたモデルである Chinese-LLaMA-2-7B を追加しました。結果は以下のようになります。

このモデルは英語から繁体字中国語への翻訳ではパフォーマンスが低いことがわかりました。主な原因は、繁体字中国語が事前トレーニングデータに占める割合が小さいことです。さらに、中国語から英語、英語から中国語への双方向言語アライメントでは、Blooms と MindLLM-3B のみが優れたパフォーマンスを発揮し、LLaMA-2-7B と MOSS-Base-16B がそれに続きました。ただし、LLaMA-7B と Open-LLaMA-7B は中国語を英語に合わせることしかできません。モデルの事前トレーニングデータを組み合わせると、Blooms と MindLLM-3B の事前トレーニングデータでは中国語と英語の比率が比較的バランスが取れているのに対し、LLaMA-2-7B では中国語データの割合が英語よりもはるかに低く、LLaMA-7B と Open-LLaMA-7B の事前トレーニングデータでは中国語データの割合がさらに低いことがわかります。

したがって、2 つの結論があります。1 つは、モデルが特定の言語で大量のトレーニングを行うことで言語表現を学習できると同時に、少量の別の言語を混ぜることで、LLaMA-7B や Open-LLaMA-7B のパフォーマンスのような一方向アライメントを理解して実行できるということです。次に、より優れたバイリンガルまたはマルチリンガルのアライメント機能を取得する必要がある場合は、Blooms や MindLLM-3B などの事前トレーニングの開始時に、バイリンガルまたはマルチリンガルのデータの比率をよりバランスよくする必要があります。さらに、MOSS-Base-16B と Chinese-LLaMA-2-7B は中国語と英語のデータの比率が適切であるものの、バイリンガルアライメントがまだ示されていないことがわかりました。モデルがすでにこの時点で多くの知識を持っているため、転送トレーニング中にバイリンガルアライメント機能を追加することは困難であり、容量が小さいと競合が発生するというのが私たちの仮説です。これは、容量が小さく、初期の単一言語トレーニングからのデータが少ない MindLLM-1.3B が、バイリンガル言語をアラインメントする能力をまだ獲得していない理由も説明しています。 Baichuan2-7Bは他の面でも優れているため、より大きな容量を占有し、より優れた双方向アライメント機能を学習できない可能性があります。

（４）まとめ

事前トレーニング段階の結果を評価すると、次の 2 つの結論が得られます。

軽量モデルは、特定の領域や機能において、大型モデルを上回るか、そのレベルに達する大きな可能性を秘めています。
容量が限られているモデル（≤7B）の場合、下流タスクの特定の機能要件に応じて、事前トレーニングデータ内のデータの割合を合理的に割り当てることができます。これにより、モデルは安定して学習し、ターゲット機能をゼロから獲得し、さまざまな知識と機能を統合して促進できるようになります。

さらに、この論文では、均一なデータ分布を維持することがモデルの事前トレーニングのパフォーマンスに与える影響も比較しています。実験結果によると、コース学習に似たデータ構築方法は、初期段階でトレーニングされたモデルと均一に混合されたデータ構築方法に匹敵するパフォーマンスを発揮する可能性がありますが、最終的には壊滅的な忘却が発生し、パフォーマンスが突然低下する可能性があります。後者はより一貫して安定して機能し、取得された事前トレーニングデータの知識はより包括的であり、これも上記の2番目の結論を裏付けています。さらに、カリキュラム学習に似たデータ構築方法により、モデルのコンテキスト学習機能の強化につながるデータ分布がさらに生成される可能性があることもわかりました。詳細については、論文のセクション 4.5 を参照してください。

指示の微調整

軽量モデル上のさまざまなカテゴリのデータセットに対する微調整命令のパフォーマンスを調査したいと考えています。次の表は、再構築した中国語データセット MingLi、公開データセット Tulu (英語)、中国語と英語のバイリンガルデータセット MOSS など、使用した命令の微調整データセットを示しています。

MindLLM の場合、命令の微調整のためのデータ品質はデータ量よりも重要です。

異なるデータ命令で微調整した後の C-Eval での MindLLM-1.3B および MindLLM-3B モデルのパフォーマンスは次のとおりです。実験結果から、慎重に選択された 50,000 命令の微調整データセットを使用してトレーニングされたモデルのパフォーマンスは、多様性が高くデータ量が多い命令の微調整データセットを使用してトレーニングされたモデルのパフォーマンスよりも高いことがわかりました。同様に、英語の指標 MMLU でも、モデルは同じパフォーマンスを示しています (詳細については、論文の表 14 を参照)。したがって、軽量モデルの場合、高品質の指示微調整データセットをどのように定義し、選別するかが非常に重要です。

データエントロピーに基づくデータスクリーニング戦略の微調整命令

高品質な命令チューニングデータを定義するにはどうすればよいでしょうか?一部の学者は、命令の微調整データの多様性が命令の微調整データセットのデータ品質を表すことができると提案しています。しかし、私たちの実験によれば、命令の微調整によるデータエントロピーとデータ長が軽量モデルのパフォーマンスに大きな影響を与えることがわかりました。事前トレーニング済みモデル上の各データのクロスエントロピー損失をデータのデータエントロピーとして定義し、K-Means アルゴリズムを使用してデータエントロピーに従ってデータをクラスタ化し、異なるデータクラスターを取得します。各データクラスターの指示を微調整し、C-Eval を実行した後の MindLLM の結果は次の表に示されています (MMLU の結果については、論文の表 19 を参照してください)。

表の結果によると、異なるデータクラスターにおける MindLLM-1.3B と MindLLM-3B のパフォーマンスは大幅に異なります。さらに、図に示すように、C-Eval と MMLU のデータエントロピーとモデルの精度の関係について関数フィッティング分析を実行しました。

画像内の赤い五芒星の点は、事前トレーニング済みモデルのエントロピー値です。分析によると、データのエントロピーが事前トレーニング済みモデルのエントロピーより 1 ～ 1.5 高い場合、この範囲のデータ指示で微調整した後、モデルは最高のパフォーマンスを発揮します。そこで、データエントロピーを通じて高品質データを定義し、高品質データを選別する方法を提案します。

MindLLMは、指定された指示を通じて特定の機能を取得するためにデータセットを微調整することができます。

MindLLM が命令の微調整を通じて特定の機能を効果的に向上できるかどうかを調べるために、Wanjuan データセットの試験データを使用してモデルを部分的に微調整し、モデルの主題知識機能を強化します。 C-Eval で評価を実施した結果は次のとおりです。

指示を微調整した後、モデルの主題知識能力が大幅に向上したことがわかります。1.3B MindLLM のパフォーマンスは、ChatGLM-6B や Chinese-Alpaca-33B などの大規模モデルを上回っています。したがって、MindLLM は、指示を微調整することで特定の機能を強化できると考えています。軽量な特性を考えると、下流の垂直フィールドタスクでの展開に適しています。

フィールドアプリケーション

特定の分野における小規模モデルの有効性を実証するために、金融と法律の 2 つの公開データセットを使用して検証を行いました。結果から、モデルのパラメータサイズがドメインのパフォーマンスに一定の影響を与えることがわかりますが、パフォーマンスは明らかではありません。 MindLLM のパフォーマンスは、ドメインアプリケーションにおいて同様のサイズの他のモデルを上回り、より大きなモデルに匹敵します。これは、小型モデルが現場での応用に大きな可能性を秘めていることをさらに証明しています。

金融セクター

この分野では、感情を考慮した分類タスクが金融データに対して実行されます。まず、Eastmoney.comから2011年5月13日から2023年8月31日までのデータをクロールし、その後の株価変動に応じてデータをマークしました。次に、データは日付に応じてトレーニングセットとテストセットに分割されます。カテゴリーの不均衡を考慮してデータをサンプリングし、最終的に 320,000 個のデータをトレーニングセットとして使用し、20,000 個のデータをテストセットとして使用しました。

2 つの異なるトレーニング方法を使用して、さまざまなモデルのパフォーマンスを比較します。まず、テキスト分類のトレーニングには、単純な教師あり微調整 (SFT) のみが使用されます。次に、推論プロセスデータが ChatGPT から抽出され、具体的には COT (Chain-Of-Thought) トレーニングメソッドを使用して、補助データとしてトレーニングに追加されます。

実験結果によると、補助情報を補足することで、すべてのベースラインモデルと MindLLM モデルの効果をさまざまな程度まで改善できることがわかりました。さらに、COT トレーニングにより、SFT トレーニングパフォーマンスと比較して、MindLLM-1.3B と 3B のパフォーマンスがそれぞれ 27.81% と 26.28% 向上することが確認できます。Baichuan-7B を除き、MindLLM の改善は他のモデルよりも顕著です。さらに、MindLLM-1.3B と 3B は同じスケールで最高のパフォーマンスを達成し、ChatGLM2-6B と Open-LLaMA-7B を上回ります。

法務分野

私たちはいくつかの公開法定データを収集し、それをいくつかの一般的な命令データと組み合わせて、MindLLM で命令の微調整 (SFT) を実行しました。データのトークンの長さが特定の分野でのモデルのパフォーマンスにどのように影響するかを調べるために、異なる長さのデータを使用して MindLLM を個別にトレーニングしました。まず、長さが 450 未満であるすべてのデータを除外し、次に MindLLM-1.3B と MindLLM-3B のトークナイザーを使用して、それぞれ長さが 200 ～ 300 と 300 ～ 450 のデータを除外しました。データの統計と対応するトレーニングモデルを次の表に示します。

人間による評価の偏りや専門知識不足によるエラーを避けるため、評価器にはChatGPTを使用します。具体的な方法は以下の通りです。 ChatGPT によって生成された複数ラウンドの法律相談対話データセット。そのうち 100 件が評価データとして抽出されました。 ChatGPT を使用して、法律相談に対するモデルの応答を評価し、ChatGPT にモデルの応答をランク付けさせ、ランク付け結果に基づいて Elo スコアを計算します。最終的に、他のオープンソースモデルと比較するために、MindLLM-Law が最適なモデルとして選択されました。

Bloom、GPT-Neo、Open-LLaMA モデルでは、MindLLM-Law と同じデータセットが微調整に使用されました。比較結果を以下に示します。

結果は、MindLLM-Law が 13B パラメータと ChatGLM2-6B のモデルをまだ上回っていないことを示しています。主な理由は、事前トレーニング段階での法的データが不十分で、より大きな利益をもたらすことができなかったことです。しかし、Baichuan2-7B-Chat、微調整されたOpen-LLaMA-7B、および同規模の他のモデルと比較すると、MindLLMには明らかな全体的な利点があります。

要約する

この記事では、現在 2 つの軽量大規模言語モデルを含む MindLLM シリーズのモデルを紹介します。データ処理、事前トレーニング、微調整、ドメインアプリケーションなどのトレーニングプロセスについて詳しく議論し、これらの分野で蓄積された貴重な経験と技術的アプリケーションを共有しました。 MindLLM のパラメータサイズは比較的小さいにもかかわらず、複数のパフォーマンステストで優れたパフォーマンスを発揮し、いくつかの面ではより大規模なモデルを上回っています。 MindLLM は、他の軽量モデルと比較して、ドメイン適応において優れたパフォーマンスを示します。同時に、大規模なモデルよりも高速なトレーニング速度と少ないトレーニングリソースで同等の結果を達成できます。上記の分析に基づいて、小型モデルには依然として大きな可能性があると考えています。データ品質をさらに向上させ、モデルのトレーニングプロセスを最適化し、モデルの規模を拡大することで、MindLLM のパフォーマンスを多次元的に向上させます。今後は、より多くの下流タスクと特定の分野で実験を行い、軽量大規模モデルの特定のアプリケーションをさらに実装する予定です。

<<: 生成された分子は、逆分子設計の誘導拡散モデリングに対してほぼ100％有効です。

>>: テレンス・タオの論文の抜け穴をAIが発見。定理の名前から研究の方向性を推測。専門家はAIの能力はすごいと語る