1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。

1,000元の予算で半日のトレーニングを実施し、その効果は主流の大型モデル、オープンソース、市販の中国製LLaMA-2に匹敵する。

LLaMA-1 と比較して、LLaMA-2 はより高品質のコーパスを導入し、大幅なパフォーマンスの向上を実現し、完全に商用化されているため、オープンソース コミュニティの繁栄をさらに刺激し、大規模モデルのアプリケーション想像空間を拡大します。しかし、大規模なモデルをゼロから事前トレーニングするコストは非常に高く、冗談めかして「導入に5,000万ドルかかる」と言われており、多くの企業や開発者がそれを躊躇しています。では、どうすれば低コストで独自の大規模モデルを構築できるのでしょうか?

Colossal-AIチームは、大規模モデルのコスト削減と効率化のリーダーとして、LLaMA-2の基本機能を最大限に活用し、効率的なトレーニング方法を採用しました。わずか約85億トークンのデータ、15時間、数千元のトレーニングコストを使用して、複数の評価リストで優れたパフォーマンスを発揮する高性能な中国製LLaMA-2の構築に成功しました。

オリジナルの LLaMA-2 と比較すると、中国語機能の向上に成功したことをベースに、英語機能がさらに向上し、そのパフォーマンスはオープンソース コミュニティの同規模の事前トレーニング済み SOTA モデルに匹敵します。 Colossal-AI チームのオープン ソース原則に従い、トレーニング プロセス全体、コード、重み付けは完全にオープン ソースで、商用制限はなく、低コストで再現性を実現するために完全な評価システム フレームワーク ColossalEval が提供されています。関連するソリューションは、あらゆる垂直分野に移行して適用することもでき、ゼロから事前トレーニングされた大規模なモデルを低コストで構築することもできます。

オープンソースコードと重み: https://github.com/hpcaitech/ColossalAI

パフォーマンス

注: ColossalEval スコアに基づき、括弧内のスコアは対応するモデルの公式リスト スコアから取得され、C-Eval スコアは公式リーダーボードから取得されます。

中国語と英語の共通評価リストを見ると、英語のMMLUリストでは、Colossal-LLaMA-2-7B-baseが低コストの増分事前トレーニングのサポートにより壊滅的な忘却の問題を克服し、その能力は徐々に向上し(44.47 -> 53.06)、すべての7Bスケールモデルの中で優れたパフォーマンスを発揮していることがわかります。

中国語のリストでは、CMMLU、AGIEVAL、GAOKAO、C-Eval が主に比較されており、その結果は LLaMA-2 に基づく他の中国語ローカリゼーション モデルよりもはるかに優れています。中国語のコーパスを使用し、ゼロから事前トレーニングするのに数千万元のコストがかかる可能性のある他の有名なモデルと比較しても、Colossal-LLaMA-2 は同じ規模で依然として優れたパフォーマンスを発揮します。特に、オリジナルの LLaMA-2 と比較すると、中国語能力に質的な飛躍が見られました (CMMLU: 32.97 -> 49.89)。

しかし、 SFT や LoRA などの方法による微調整を通じてベース モデルに効果的に注入できる知識と機能は非常に限られており、高品質のドメイン知識や垂直モデル アプリケーションの構築のニーズを満たすことができません。

モデルのパフォーマンスをより適切に評価するために、Colossal-AI チームは定量的な指標に頼るだけでなく、モデルのさまざまな側面について手動評価も行っています。次に例をいくつか示します。


トレーニング全体の損失記録から判断すると、Colossal-AIシステムのコスト削減と効率化の能力を活用しながら、モデルの収束も完全に保証されています。わずか約85億トークン(85億トークン)と数千元の計算コストで、モデルはこのような驚くべき効果を達成しました。しかし、市場に出回っている大規模なモデルでは、有効性を確保するためにトレーニングに数兆個のトークンが必要になることが多く、非常にコストがかかります。

では、Colossal-AI チームはどのようにしてトレーニング コストを削減し、このような結果を達成したのでしょうか?

語彙の拡張とモデルの初期化

オリジナルの LLaMA-2 語彙は中国語に特化されておらず、中国語の単語が限られているため、中国語コーパスの理解が不十分になります。そこで、まずは LLaMA-2 の語彙を拡張しました。

Colossal-AI チームは次のことを発見しました。

  • 語彙の拡張により、文字列シーケンスのエンコードの効率が効果的に向上するだけでなく、エンコードされたシーケンスにさらに効果的な情報が含まれるようになり、段落レベルのエンコードと理解にさらに役立ちます。
  • ただし、増分事前トレーニング データの量が少ないため、単語をさらに拡張すると、一部の単語または組み合わせに実用的な意味がなくなり、増分事前トレーニング データセットで完全に学習することが難しくなり、最終的な効果に影響します。
  • 語彙が大きすぎると、埋め込み関連のパラメータの数が増え、トレーニングの効率に影響します。

そのため、Colossal-AI チームは、実験を繰り返し、トレーニングの品質と効率の両方を考慮した後、最終的に LLaMA-2 の語彙を元の 32,000 から 69,104 に拡張することを決定しました。

拡張された語彙を使用して、次のステップは、元の LLaMA-2 に基づいて新しい語彙の埋め込みを初期化することです。 LLaMA-2 の本来の機能をより適切に移行し、元の LLaMA-2 から中国の LLaMA-2 への迅速な移行を実現するために、Colossal-AI チームは元の LLaMA-2 の重みを使用して、新しい埋め込みの平均初期化を実行しました。これにより、新しく初期化されたモデルの英語能力が初期状態で影響を受けないことが保証されるだけでなく、英語能力を可能な限りシームレスに中国語に転送できるようになります。

データ構築

トレーニングのコストを大幅に削減するには、高品質のデータが重要な役割を果たします。特に、データの品質と配布に対する要件が非常に高い増分事前トレーニングでは重要です。高品質なデータをより適切に選別するために、Colossal-AI チームは、増分事前トレーニング用に高品質なデータを選別する完全なデータクリーニング システムとツールキットを構築しました。

次の図は、Colossal-AI チームのデータ ガバナンスの完全なプロセスを示しています。

一般的なヒューリスティックスクリーニングとデータの重複排除に加えて、重要なデータもスコア付けされ、分類されます。適切なデータは、英語の致命的な忘却問題を克服しながら、LLaMA-2 の中国語能力を刺激する上で重要な役割を果たします。

最後に、トレーニングの効率を向上させるために、Colossal-AI チームは、同じトピックのデータについて、データの長さをソートし、最大長の 4096 に従って連結しました。

トレーニング戦略

多段階トレーニング

トレーニングに関しては、増分事前トレーニングの特性に基づいて、Colossal-AI チームは、トレーニング プロセスを 3 つの段階に分割した、多段階の階層型増分事前トレーニング ソリューションを設計しました。

  • 大規模な事前トレーニング フェーズ: 目標は、大量のコーパスを使用してモデルをトレーニングし、比較的流暢なテキストを生成できるようにすることです。この段階は LLaMA-2 によって完了します。この段階の後、モデルは多くの英語の知識を習得し、次のトークン予測に基づいて流暢な結果を出力できるようになります。
  • 中国語知識注入段階: この段階では、高品質の中国語知識に依存します。一方では、モデルの中国語知識の習得度を高め、他方では、新しく追加された中国語語彙の単語に対するモデルの理解度を向上させます。
  • 関連知識の再生段階: この段階では、モデルの知識の理解と一般化機能を強化し、壊滅的な忘却の問題を軽減することに重点が置かれます。

複数の段階が互いに補完し合い、最終的にはモデルの中国語と英語の機能が並行して向上することを保証します。

バケツトレーニング

増分事前トレーニングはデータ分布に非常に敏感なので、バランスが特に重要です。そのため、データのバランスの取れた分散を確保するために、Colossal-AI チームは、同じ種類のデータを 10 個の異なるビンに分割するデータ バケット化戦略を設計しました。トレーニング プロセス中、各データ バケットには各タイプのデータのビンが均等に含まれるため、モデルによって各タイプのデータが均等に利用されることが保証されます。

評価システム

モデルのパフォーマンスをより適切に評価するために、Colossal-AI チームは、大規模な言語モデルを多次元で評価することを目指して、完全な評価システムである ColossalEval を構築しました。プロセス フレームワーク コードは完全にオープン ソースであり、結果の再現をサポートするだけでなく、ユーザーが独自のアプリケーション シナリオに応じてデータ セットと評価方法をカスタマイズすることもサポートします。評価フレームワークの特徴は次のようにまとめられます。

  • MMLU、CMMLU などの大規模言語モデルの知識予備容量を評価するための共通データセットをカバーします。多肢選択問題の場合、ABCD の確率を比較する一般的な計算方法に加えて、絶対マッチング、多肢選択の困惑度など、より包括的な計算方法が追加され、モデルの知識習得度をより包括的に測定します。
  • 複数選択および長文テキストの評価をサポートします。
  • マルチラウンドダイアログ、ロールプレイング、情報抽出、コンテンツ生成など、さまざまなアプリケーションシナリオの評価方法をサポートします。ユーザーは、ニーズに応じてモデルのさまざまな側面を選択的に評価し、カスタム プロンプトと評価方法の拡張をサポートできます。

一般的な大規模モデルから垂直的な大規模モデルへの移行のための橋渡しを構築する

Colossal-AI チームの経験に基づくと、LLaMA-2 に基づくモデルの中国語版の構築は、基本的に次のプロセスに分けられます。

それで、このソリューションは再利用できるのでしょうか?

答えは「はい」であり、ビジネス実装シナリオでは非常に有意義です。

ChatGPTがもたらした人工知能の波により、世界中の大手インターネット企業、AI企業、スタートアップ、大学、研究機関が、汎用大規模モデルの競争を繰り広げています。しかし、一般的な大規模モデルの一般的な機能は、特定の分野に関する知識の不足に基づいている場合が多く、そのため、実際の実装では、大規模モデル錯覚の問題が特に深刻になります。ビジネスを微調整することで一定の利益が得られる可能性はありますが、大規模な垂直モデルが不足すると、アプリケーションの実装でパフォーマンスのボトルネックが発生します。大規模垂直モデルを迅速かつ安価に構築し、その大規模垂直モデルに基づいてビジネスを微調整することができれば、ビジネスの実装をさらに進め、主導権と優位性を獲得できるようになります。

上記のプロセスを知識移転のあらゆる分野に適用することで、あらゆる分野の大規模な垂直ベース モデル用の軽量プロセスを低コストで構築できます。

事前トレーニングを通じて基本的な大規模モデルをゼロから構築する場合も、上記の経験と Colossal-AI のコスト削減および効率化機能を活用して、最低コストで効率的に完了することができます。

システム最適化

Colossal-LLaMA-2 の上記のような優れた性能とコスト優位性は、低コストの AI 大規模モデル開発システム Colossal-AI を基盤として構築されています。

Colossal-AI は PyTorch をベースにしています。効率的な多次元並列処理と異種メモリにより、大規模な AI モデルのトレーニング/微調整/推論の開発およびアプリケーション コストを削減し、モデル タスクのパフォーマンスを向上させ、GPU 要件を削減できます。わずか1年余りで、GitHubオープンソースコミュニティで3万以上のGitHubスターを獲得し、大規模モデル開発ツールとコミュニティセグメントで世界第1位を獲得しました。Fortune Global 500を含む多くの有名メーカーと共同で、数千億/数百億のパラメータを持つ大規模な事前トレーニング済みモデルの開発/最適化や垂直モデルの作成を行っています。

巨大なAIクラウドプラットフォーム

Colossal-AIは、AI大規模モデルの開発と展開の効率をさらに向上させるために、Colossal-AIクラウドプラットフォームにさらにアップグレードされました。これにより、ユーザーはローコード/ノーコード方式で低コストでクラウド上で大規模モデルのトレーニング、微調整、展開が可能になり、さまざまなモデルをパーソナライズされたアプリケーションにすばやく接続できるようになります。

現在、Colossal-AIクラウドプラットフォームには、Stable diffusionやLLaMA-2などの主流のモデルとソリューションがプリインストールされています。ユーザーは、自分のデータをアップロードするだけで微調整できます。また、微調整したモデルをAPIとして展開し、コンピューティングクラスターや各種インフラストラクチャを自分で維持することなく、A10、A800、H800などのGPUリソ​​ースを手頃な価格で利用できます。より多くのアプリケーションシナリオ、さまざまな分野、さまざまなバージョンのモデル、企業の民営化プラットフォームの展開などが継続的に繰り返されています。

ColossalAI クラウド プラットフォームが一般公開テストに公開されました。登録するとバウチャーを入手できます。ぜひご参加いただき、フィードバックをお寄せください。

  • Colossal-AI クラウド プラットフォーム: platform.luchentech.com
  • Colossal-AI クラウド プラットフォームのドキュメント: https://docs.platform.colossalai.com/
  • Colossal-AI オープンソース アドレス: https://github.com/hpcaitech/ColossalAI

<<:  K2 K2、上海交通大学チームが70億パラメータの地球科学言語モデルを発表

>>:  画像内のテキストを心配する必要はありません。TextDiffuserは高品質のテキストレンダリングを提供します。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

製造業におけるロボット:脅威か、それともチャンスか?

過去10年間で製造業におけるロボットの使用が増加しています。先進オートメーション協会が最近発表した調...

OpenAI API 高度な関数呼び出し実装プラグイン!

関数呼び出しの紹介関数呼び出しとは何ですか? OpenAI Chat API公式ドキュメント: Ch...

5年後に最もホットなものは何でしょうか? 2025 年のトップ 10 トレンド: ゼロ検索時代の到来

[[273076]]ファーウェイは8月8日、世界産業展望GIV@2025を発表し、次のように予測した...

宮崎駿のアニメで新垣結衣を見たことがありますか?このオープンソースのアニメジェネレーターは、写真を数秒で手描きの日本のアニメに変換します

写真を撮るだけで、宮崎駿や新海誠などの日本のアニメ巨匠の手描き風に変換できます。アニメ画像を生成する...

Dynatrace のフルスタック AI モニタリングは、企業が AWS クラウドで飛躍するのを助けます

2018 年 10 月 31 日、上海 - 世界有数のソフトウェア インテリジェンス企業である Dy...

...

...

ムスク・ニューラリンクに挑戦!スタンフォード大学の新しい脳コンピューターインターフェースは脳とシリコンベースのチップを直接接続する

[[319624]]最近、スタンフォード大学の研究者らは、脳をシリコンベースの技術に直接接続できる新...

人工知能産業の急速な発展の背後にある4つの大きな無駄

[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...

独占 | R で Keras と TensorFlow を使用してディープラーニング モデルを構築する方法を教えます

[[197801]]導入: R と Python のどちらを選択するかは、常に熱く議論されているトピ...

人工知能の7つの応用シナリオ

人工知能とは、人間の行動や思考をシミュレートし、トレーニングを通じて特定の問題を解決できる機械によっ...

AIがセキュリティの自動化、分析、対応にどのように役立つか

人工知能 (AI) は、チャットボットから自動運転車まで、あらゆるものを説明するために使用できる幅広...

...

JD Search EE リンクの進化

検索システムにはヘッド効果が存在する可能性が高く、高品質のミッドテールおよびロングテール製品が十分な...