1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。

LLaMA-1 と比較して、LLaMA-2 はより高品質のコーパスを導入し、大幅なパフォーマンスの向上を実現し、完全に商用化されているため、オープンソースコミュニティの繁栄をさらに刺激し、大規模モデルのアプリケーション想像空間を拡大します。しかし、大規模なモデルをゼロから事前トレーニングするコストは非常に高く、冗談めかして「導入に5,000万ドルかかる」と言われており、多くの企業や開発者がそれを躊躇しています。では、どうすれば低コストで独自の大規模モデルを構築できるのでしょうか?

Colossal-AIチームは、大規模モデルのコスト削減と効率化のリーダーとして、LLaMA-2の基本機能を最大限に活用し、効率的なトレーニング方法を採用しました。わずか約85億トークンのデータ、15時間、数千元のトレーニングコストを使用して、複数の評価リストで優れたパフォーマンスを発揮する高性能な中国製LLaMA-2の構築に成功しました。

オリジナルの LLaMA-2 と比較すると、中国語機能の向上に成功したことをベースに、英語機能がさらに向上し、そのパフォーマンスはオープンソースコミュニティの同規模の事前トレーニング済み SOTA モデルに匹敵します。 Colossal-AI チームのオープンソース原則に従い、トレーニングプロセス全体、コード、重み付けは完全にオープンソースで、商用制限はなく、低コストで再現性を実現するために完全な評価システムフレームワーク ColossalEval が提供されています。関連するソリューションは、あらゆる垂直分野に移行して適用することもでき、ゼロから事前トレーニングされた大規模なモデルを低コストで構築することもできます。

オープンソースコードと重み: https://github.com/hpcaitech/ColossalAI

パフォーマンス

注: ColossalEval スコアに基づき、括弧内のスコアは対応するモデルの公式リストスコアから取得され、C-Eval スコアは公式リーダーボードから取得されます。

中国語と英語の共通評価リストを見ると、英語のMMLUリストでは、Colossal-LLaMA-2-7B-baseが低コストの増分事前トレーニングのサポートにより壊滅的な忘却の問題を克服し、その能力は徐々に向上し（44.47 -> 53.06）、すべての7Bスケールモデルの中で優れたパフォーマンスを発揮していることがわかります。

中国語のリストでは、CMMLU、AGIEVAL、GAOKAO、C-Eval が主に比較されており、その結果は LLaMA-2 に基づく他の中国語ローカリゼーションモデルよりもはるかに優れています。中国語のコーパスを使用し、ゼロから事前トレーニングするのに数千万元のコストがかかる可能性のある他の有名なモデルと比較しても、Colossal-LLaMA-2 は同じ規模で依然として優れたパフォーマンスを発揮します。特に、オリジナルの LLaMA-2 と比較すると、中国語能力に質的な飛躍が見られました (CMMLU: 32.97 -> 49.89)。

しかし、 SFT や LoRA などの方法による微調整を通じてベースモデルに効果的に注入できる知識と機能は非常に限られており、高品質のドメイン知識や垂直モデルアプリケーションの構築のニーズを満たすことができません。

モデルのパフォーマンスをより適切に評価するために、Colossal-AI チームは定量的な指標に頼るだけでなく、モデルのさまざまな側面について手動評価も行っています。次に例をいくつか示します。

トレーニング全体の損失記録から判断すると、Colossal-AIシステムのコスト削減と効率化の能力を活用しながら、モデルの収束も完全に保証されています。わずか約85億トークン（85億トークン）と数千元の計算コストで、モデルはこのような驚くべき効果を達成しました。しかし、市場に出回っている大規模なモデルでは、有効性を確保するためにトレーニングに数兆個のトークンが必要になることが多く、非常にコストがかかります。

では、Colossal-AI チームはどのようにしてトレーニングコストを削減し、このような結果を達成したのでしょうか?

語彙の拡張とモデルの初期化

オリジナルの LLaMA-2 語彙は中国語に特化されておらず、中国語の単語が限られているため、中国語コーパスの理解が不十分になります。そこで、まずは LLaMA-2 の語彙を拡張しました。

Colossal-AI チームは次のことを発見しました。

語彙の拡張により、文字列シーケンスのエンコードの効率が効果的に向上するだけでなく、エンコードされたシーケンスにさらに効果的な情報が含まれるようになり、段落レベルのエンコードと理解にさらに役立ちます。
ただし、増分事前トレーニングデータの量が少ないため、単語をさらに拡張すると、一部の単語または組み合わせに実用的な意味がなくなり、増分事前トレーニングデータセットで完全に学習することが難しくなり、最終的な効果に影響します。
語彙が大きすぎると、埋め込み関連のパラメータの数が増え、トレーニングの効率に影響します。

そのため、Colossal-AI チームは、実験を繰り返し、トレーニングの品質と効率の両方を考慮した後、最終的に LLaMA-2 の語彙を元の 32,000 から 69,104 に拡張することを決定しました。

拡張された語彙を使用して、次のステップは、元の LLaMA-2 に基づいて新しい語彙の埋め込みを初期化することです。 LLaMA-2 の本来の機能をより適切に移行し、元の LLaMA-2 から中国の LLaMA-2 への迅速な移行を実現するために、Colossal-AI チームは元の LLaMA-2 の重みを使用して、新しい埋め込みの平均初期化を実行しました。これにより、新しく初期化されたモデルの英語能力が初期状態で影響を受けないことが保証されるだけでなく、英語能力を可能な限りシームレスに中国語に転送できるようになります。

データ構築

トレーニングのコストを大幅に削減するには、高品質のデータが重要な役割を果たします。特に、データの品質と配布に対する要件が非常に高い増分事前トレーニングでは重要です。高品質なデータをより適切に選別するために、Colossal-AI チームは、増分事前トレーニング用に高品質なデータを選別する完全なデータクリーニングシステムとツールキットを構築しました。

次の図は、Colossal-AI チームのデータガバナンスの完全なプロセスを示しています。

一般的なヒューリスティックスクリーニングとデータの重複排除に加えて、重要なデータもスコア付けされ、分類されます。適切なデータは、英語の致命的な忘却問題を克服しながら、LLaMA-2 の中国語能力を刺激する上で重要な役割を果たします。

最後に、トレーニングの効率を向上させるために、Colossal-AI チームは、同じトピックのデータについて、データの長さをソートし、最大長の 4096 に従って連結しました。

トレーニング戦略

多段階トレーニング

トレーニングに関しては、増分事前トレーニングの特性に基づいて、Colossal-AI チームは、トレーニングプロセスを 3 つの段階に分割した、多段階の階層型増分事前トレーニングソリューションを設計しました。

大規模な事前トレーニングフェーズ: 目標は、大量のコーパスを使用してモデルをトレーニングし、比較的流暢なテキストを生成できるようにすることです。この段階は LLaMA-2 によって完了します。この段階の後、モデルは多くの英語の知識を習得し、次のトークン予測に基づいて流暢な結果を出力できるようになります。
中国語知識注入段階: この段階では、高品質の中国語知識に依存します。一方では、モデルの中国語知識の習得度を高め、他方では、新しく追加された中国語語彙の単語に対するモデルの理解度を向上させます。
関連知識の再生段階: この段階では、モデルの知識の理解と一般化機能を強化し、壊滅的な忘却の問題を軽減することに重点が置かれます。

複数の段階が互いに補完し合い、最終的にはモデルの中国語と英語の機能が並行して向上することを保証します。

バケツトレーニング

増分事前トレーニングはデータ分布に非常に敏感なので、バランスが特に重要です。そのため、データのバランスの取れた分散を確保するために、Colossal-AI チームは、同じ種類のデータを 10 個の異なるビンに分割するデータバケット化戦略を設計しました。トレーニングプロセス中、各データバケットには各タイプのデータのビンが均等に含まれるため、モデルによって各タイプのデータが均等に利用されることが保証されます。

評価システム

モデルのパフォーマンスをより適切に評価するために、Colossal-AI チームは、大規模な言語モデルを多次元で評価することを目指して、完全な評価システムである ColossalEval を構築しました。プロセスフレームワークコードは完全にオープンソースであり、結果の再現をサポートするだけでなく、ユーザーが独自のアプリケーションシナリオに応じてデータセットと評価方法をカスタマイズすることもサポートします。評価フレームワークの特徴は次のようにまとめられます。

MMLU、CMMLU などの大規模言語モデルの知識予備容量を評価するための共通データセットをカバーします。多肢選択問題の場合、ABCD の確率を比較する一般的な計算方法に加えて、絶対マッチング、多肢選択の困惑度など、より包括的な計算方法が追加され、モデルの知識習得度をより包括的に測定します。
複数選択および長文テキストの評価をサポートします。
マルチラウンドダイアログ、ロールプレイング、情報抽出、コンテンツ生成など、さまざまなアプリケーションシナリオの評価方法をサポートします。ユーザーは、ニーズに応じてモデルのさまざまな側面を選択的に評価し、カスタムプロンプトと評価方法の拡張をサポートできます。

一般的な大規模モデルから垂直的な大規模モデルへの移行のための橋渡しを構築する

Colossal-AI チームの経験に基づくと、LLaMA-2 に基づくモデルの中国語版の構築は、基本的に次のプロセスに分けられます。

それで、このソリューションは再利用できるのでしょうか?

答えは「はい」であり、ビジネス実装シナリオでは非常に有意義です。

ChatGPTがもたらした人工知能の波により、世界中の大手インターネット企業、AI企業、スタートアップ、大学、研究機関が、汎用大規模モデルの競争を繰り広げています。しかし、一般的な大規模モデルの一般的な機能は、特定の分野に関する知識の不足に基づいている場合が多く、そのため、実際の実装では、大規模モデル錯覚の問題が特に深刻になります。ビジネスを微調整することで一定の利益が得られる可能性はありますが、大規模な垂直モデルが不足すると、アプリケーションの実装でパフォーマンスのボトルネックが発生します。大規模垂直モデルを迅速かつ安価に構築し、その大規模垂直モデルに基づいてビジネスを微調整することができれば、ビジネスの実装をさらに進め、主導権と優位性を獲得できるようになります。

上記のプロセスを知識移転のあらゆる分野に適用することで、あらゆる分野の大規模な垂直ベースモデル用の軽量プロセスを低コストで構築できます。

事前トレーニングを通じて基本的な大規模モデルをゼロから構築する場合も、上記の経験と Colossal-AI のコスト削減および効率化機能を活用して、最低コストで効率的に完了することができます。

システム最適化

Colossal-LLaMA-2 の上記のような優れた性能とコスト優位性は、低コストの AI 大規模モデル開発システム Colossal-AI を基盤として構築されています。

Colossal-AI は PyTorch をベースにしています。効率的な多次元並列処理と異種メモリにより、大規模な AI モデルのトレーニング/微調整/推論の開発およびアプリケーションコストを削減し、モデルタスクのパフォーマンスを向上させ、GPU 要件を削減できます。わずか1年余りで、GitHubオープンソースコミュニティで3万以上のGitHubスターを獲得し、大規模モデル開発ツールとコミュニティセグメントで世界第1位を獲得しました。Fortune Global 500を含む多くの有名メーカーと共同で、数千億/数百億のパラメータを持つ大規模な事前トレーニング済みモデルの開発/最適化や垂直モデルの作成を行っています。

巨大なAIクラウドプラットフォーム

Colossal-AIは、AI大規模モデルの開発と展開の効率をさらに向上させるために、Colossal-AIクラウドプラットフォームにさらにアップグレードされました。これにより、ユーザーはローコード/ノーコード方式で低コストでクラウド上で大規模モデルのトレーニング、微調整、展開が可能になり、さまざまなモデルをパーソナライズされたアプリケーションにすばやく接続できるようになります。

現在、Colossal-AIクラウドプラットフォームには、Stable diffusionやLLaMA-2などの主流のモデルとソリューションがプリインストールされています。ユーザーは、自分のデータをアップロードするだけで微調整できます。また、微調整したモデルをAPIとして展開し、コンピューティングクラスターや各種インフラストラクチャを自分で維持することなく、A10、A800、H800などのGPUリソースを手頃な価格で利用できます。より多くのアプリケーションシナリオ、さまざまな分野、さまざまなバージョンのモデル、企業の民営化プラットフォームの展開などが継続的に繰り返されています。

ColossalAI クラウドプラットフォームが一般公開テストに公開されました。登録するとバウチャーを入手できます。ぜひご参加いただき、フィードバックをお寄せください。