ByteDance、最大6.9倍のパフォーマンス向上を実現した大規模モデルトレーニングフレームワークveGiantModelをオープンソース化

ByteDance、最大6.9倍のパフォーマンス向上を実現した大規模モデルトレーニングフレームワークveGiantModelをオープンソース化

背景

近年、NLPの応用分野では大きな進歩がありました。Bert、GPT、GPT-3などの超大規模モデルがさまざまなNLPテストを席巻した後、モデルパラメータが大きいほどアルゴリズムのパフォーマンスが向上することがわかりました。そのため、大規模モデルの方向への開発が急速に進み、モデルサイズが爆発的に増加しました。大規模モデルのトレーニングが既存のトレーニング システムにもたらす主な課題は、メモリの負荷、コンピューティングの負荷、および通信の負荷です。

言語モデルのサイズは指数関数的に増加しています (出典: https://huggingface.co/blog/large-language-models)

Volcano Engine 大規模モデルトレーニングフレームワーク veGiantModel

この需要に応えるために、ByteDance の AML チームは、Volcano Engine 用の大規模モデル トレーニング フレームワークである veGiantModel を開発しました。 veGiantModel は、PyTorch フレームワークをベースに、Megatron と DeepSpeed をベースにした高性能な大規模モデル トレーニング フレームワークです。機能は次のとおりです:

  • データ並列処理、演算子セグメンテーション、パイプライン並列処理の 3 つの分散並列処理戦略と、自動化およびカスタマイズされた並列処理戦略をサポートします。
  • ByteCCL 高性能非同期通信ライブラリに基づいて、他のオープンソース フレームワークと比較してトレーニング タスクのスループットが 1.2 倍~ 3.5 倍向上します。
  • より使いやすく柔軟なパイプライン サポートを提供し、モデル開発の反復に必要な人員を削減します。
  • GPU 上で数十億から数千億のパラメータを持つ大規模モデルを効率的にサポートできます。
  • 帯域幅要件が低く、プライベート展開では RDMA に大きく依存しません。

このうち、ByteCCLはByteDanceが開発したBytePSのアップグレード版であり、A100/V100などのさまざまなモデルトポロジー向けに階層化プロトコルの最適化が行われ、allgatherやalltoallなどのより包括的な通信プリミティブをサポートしています。

veGiantModel パフォーマンス

ハードウェア構成

VeGiantModel のパフォーマンスを実証するために、veGiantModel チームは自社のコンピュータ ルームで物理マシンを使用し、A100 モデルと V100 モデルのテストを実施しました。実験構成は次のとおりです。

  • V100 テスト: マシンあたり 8 個の Tesla V100 32G GPU、ネットワーク帯域幅 100G
  • A100 テスト: マシンあたり 8 個の Ampere A100 40G GPU、ネットワーク帯域幅 800G

モデルとコントロールグループの選択

veGiantModel は評価用に GPT-13B モデルを選択しました。シーケンス長は 256、グローバル バッチ サイズは 1536 です。 GPT は、市場で最も人気のあるトランスフォーマーベースの言語モデルです。パフォーマンス制御グループは、最も人気のあるオープンソース コミュニティ ツールである Megatron と DeepSpeed を選択しました。

テスト結果

  1. V100/TCP: 100Gb/s TCP ネットワーク帯域幅、マシン 4 台、マシンあたり 8 個の Tesla V100 32G GPU
  2. V100/RDMA: 100Gb/s RDMA ネットワーク帯域幅、マシン 4 台、マシンあたり 8 個の Tesla V100 32G GPU
  3. A100/TCP: 800Gb/s TCP ネットワーク帯域幅、マシン 4 台、マシンあたり 8 個の Tesla A100 40G GPU
  4. A100/RDMA: 800Gb/s RDMA ネットワーク帯域幅、マシン 4 台、マシンあたり 8 個の Tesla A100 40G GPU
  • モデル: GPT-13B
  • Megatron: v2.4、tensor-model-parallel-size は 4 に設定され、pipeline-model-parallel-size は 4 に設定されています
  • DeepSpeed: v0.4.2、DeepSpeedExamples オープンソース コミュニティのデフォルトの zero3 構成を使用
  • 動作環境
  • 統計: スループット (サンプル/秒)

上記のデータから、次のことがわかります。

  1. veGiantModel のパフォーマンスが優れています: veGiantModel は、V100 と A100 の両方で Megatron と DeepSpeed を上回り、高帯域幅と低帯域幅の両方のシナリオで最大 6.9 倍の改善が見られます。
  2. veGiantModel はネットワーク帯域幅の要件が低く、帯域幅の変化によるスループットへの影響は比較的最小限 (<10%) ですが、DeepSpeed ​​(ZeRO) は帯域幅要件が最も高く、その差は最大で約 5 倍になります。

原因分析

veGiantModel が Megatron や DeepSpeed よりも高速なのはなぜですか?理由は次のとおりです。

  • ByteCCL (BytePS) 高性能非同期通信ライブラリ。
  • パフォーマンスの最適化を極限まで高めることができるカスタマイズされた並列戦略をサポートします。
  • veGiantModel は、データ並列処理、演算子分割、パイプライン並列処理という 3 つの分散並列戦略をサポートする際に、マシン間の帯域幅を総合的に考慮し、トポロジの配置を自動的に調整します。

ポータル

veGiantModel は現在、次のアドレスの GitHub でオープンソース化されています。

https://github.com/volcengine/veGiantModel

GitHub では、veGiantModel の使用方法と、veGiantModel を使用して GPT 事前トレーニングをすばやく実行する方法について詳しく説明しています。 Volcano Engine 機械学習プラットフォームは、veGiantModel をネイティブにサポートしています。このプラットフォームは現在パブリック ベータ版であり、誰でも試すことができます: https://www.volcengine.com/product/ml-platform

<<:  AIカーゴのロープロファイルバージョン?ネットユーザーがCNN1台を使って「ニード・フォー・スピード9」でレース

>>:  ML アルゴリズムが製造業に及ぼす影響

ブログ    
ブログ    
ブログ    

推薦する

DeepFakeはもう人々を騙せません!米国の大手テクノロジー企業7社が共同でAI生成コンテンツに透かしを追加

最近、OpenAIとGoogleが率いるアメリカのテクノロジー大手7社が共同で次のような発表を行った...

マスク氏の Grok 大型モデルがプレイ可能になりました!彼の口は彼自身と同じくらい悪い。

友達に大きなサプライズ!マスク氏は突然、Grokの大型モデルを大量の有料ユーザーに開放すると発表した...

...

パーソナライズされた推奨事項は、馴染みのあるものに偏っていますか?アルゴリズムは公平性を侵害できない

北京日報によると、異なる消費者が同じ電子商取引プラットフォーム上で同じキーワードを使用して商品を検索...

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

[[240152]]人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意...

...

機械は倫理的な判断を下せるのか?

ロボットや機械が下す決定は必ずしも道徳的に正しいとは限りません。テクノロジー企業が機械倫理に注目する...

MLP および Re-Parameter シリーズに関する人気の論文を含む、注目メカニズムの 17 個の PyTorch 実装

[[415286]]注意メカニズムは、最初はコンピューター ビジョンで使用され、その後 NLP の分...

マスクを着用していても、AIはあなたが何を言っているか理解できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

寒波警報(黄色)発令中、ドローンの使用にはご注意ください!

11月3日、中央気象台は今年初の黄色寒波警報を発令し、最強の寒波が来ています!警報によると、11月...

AIがデータセンター運営者が直面する課題をどう解決するか

業界の専門家が、業界内で発生する運用上の課題の解決に AI がどのように役立つか、データ センター業...

iQIYI機械学習プラットフォーム構築実践

機械学習プラットフォームを構築する以前、iQiyi にはすでに比較的成熟したディープラーニング プラ...

マイクロソフトは、Power Platform 向け Copilot サービスの開始を正式に発表しました。これにより、AI によるアプリ開発が一文で可能になります。

マイクロソフトは10月27日、エンタープライズアプリケーションカンファレンスにおいて、ローコードプラ...

...