ByteDance Wanka Cluster の技術詳細が明らかに: GPT-3 トレーニングが 2 日間で完了、コンピューティング パワーの使用率は Nvidia Megatron-LM を上回る

ByteDance Wanka Cluster の技術詳細が明らかに: GPT-3 トレーニングが 2 日間で完了、コンピューティング パワーの使用率は Nvidia Megatron-LM を上回る

Sora のテクノロジーの分析が進むにつれて、 AI インフラストラクチャの重要性がますます明らかになります。

今回注目を集めたのは、ByteDanceと北京大学の新しい論文だ。

記事では、ByteDanceが構築したWankaクラスターがGPT-3スケールモデル(175B)のトレーニングを1.75日で完了できることを明らかにした。

具体的には、ByteDance は、Wanka クラスターで大規模モデルをトレーニングする際に直面する効率性と安定性の課題に対処することを目的とした、 MegaScaleと呼ばれる生産システムを提案しました。

12,288 個の GPU で 1,750 億個のパラメータを持つ大規模な言語モデルをトレーニングした場合、MegaScale は 55.2% のコンピューティング パワー使用率(MFU)を達成しました。これは NVIDIA Megatron-LM の 1.34 倍です。

また、同論文では、ByteDanceが2023年9月時点で1万枚以上のカードを搭載したAmpereアーキテクチャGPU (A100/A800)クラスターを構築しており、現在は大規模なHopperアーキテクチャ(H100/H800)クラスターを構築中であることも明らかにした。

ワンカクラスターに適した生産システム

ビッグモデルの時代において、GPU の重要性は自明です。

しかし、大規模モデルのトレーニングは、単にカードの数を増やすだけでは実現できない。GPU クラスターの規模が「数万」レベルに達すると、いかに効率的かつ安定したトレーニングを実現するかは、それ自体が困難なエンジニアリング上の問題となる。

最初の課題は効率性です。

大規模な言語モデルのトレーニングは、単純な並列タスクではありません。モデルを複数の GPU に分散する必要があり、これらの GPU は頻繁に通信して共同でトレーニング プロセスを進める必要があります。通信に加えて、オペレーターの最適化、データの前処理、GPU メモリの消費などの要素はすべて、トレーニング効率の指標であるコンピューティング パワー使用率 (MFU)に影響を与えます。

MFU は、実際のスループットと理論上の最大スループットの比率です。

2 番目の課題: 安定性。

大規模な言語モデルのトレーニングには非常に長い時間がかかることが多く、トレーニング プロセスでの失敗や遅延は珍しいことではありません。

障害のコストは高いため、障害回復時間をいかに短縮するかが特に重要になります。

これらの課題に対処するため、ByteDance の研究者は MegaScale を構築し、それを ByteDance のデータセンターに導入して、さまざまな大規模モデルのトレーニングをサポートしました。

MegaScale は、Nvidia の Megatron-LM の改良版です。

具体的な改善点としては、アルゴリズムとシステム コンポーネントの共同設計、通信と計算の重複の最適化、演算子の最適化、データ パイプラインの最適化、ネットワーク パフォーマンスのチューニングなどがあります。

  • アルゴリズムの最適化: 研究者らは、モデルの収束性を犠牲にすることなくトレーニング効率を向上させるために、並列化された Transformer ブロック、スライディング ウィンドウ アテンション メカニズム(SWA) 、および LAMB オプティマイザーをモデル アーキテクチャに導入しました。
  • 通信の重複: 3D並列処理(データ並列処理、パイプライン並列処理、テンソル並列処理)における各コンピューティングユニットの操作の詳細な分析に基づいて、研究者は、非クリティカルな実行パスでの操作によって発生する遅延を効果的に削減し、モデルトレーニングの各ラウンドの反復時間を短縮するための技術戦略を設計しました。
  • 効率的な演算子: GEMM 演算子が最適化され、LayerNorm や GeLU などの操作が融合されて複数のカーネルを起動する際のオーバーヘッドが削減され、メモリ アクセス パターンが最適化されます。
  • データ パイプラインの最適化: 非同期データ前処理と冗長データ ローダーの排除により、データの前処理と読み込みを最適化し、GPU のアイドル時間を短縮します。
  • 集団通信グループの初期化: 分散トレーニングにおける NVIDIA のマルチカード通信フレームワーク NCCL の初期化プロセスを最適化しました。最適化を行わない場合、2048 個の GPU のクラスターの初期化時間は 1047 秒ですが、最適化後は 5 秒未満に短縮できます。Wanka GPU クラスターの初期化時間は 30 秒未満に短縮できます。
  • ネットワーク パフォーマンスのチューニング: 3D 並列処理におけるマシン間トラフィックを分析し、ネットワーク トポロジの設計、ECMP ハッシュ競合の削減、輻輳制御、再送信タイムアウト設定など、ネットワーク パフォーマンスを向上させる技術ソリューションを設計しました。
  • フォールト トレランス: Wanka クラスターでは、ソフトウェアおよびハードウェアの障害を回避することは困難です。研究者らは、自動障害識別と迅速な回復を実現するためのトレーニング フレームワークを設計しました。具体的には、システムコンポーネントやイベントを監視するための診断ツールの開発、高頻度のトレーニングプロセスを節約するためのチェックポイントの最適化などが含まれます。

この論文では、MegaScale はソフトウェアおよびハードウェアの障害の 90% 以上を自動的に検出し、修復できると述べられています。

実験結果によると、MegaScale は 12,288 個の GPU で 175B の大規模言語モデルをトレーニングしたときに 55.2% の MFU を達成しました。これは、Megatrion-LM の計算能力使用率の 1.34 倍です。

530B 大規模言語モデルのトレーニングにおける MFU 比較結果は次のとおりです。

もう一つ

この技術論文が議論を巻き起こしたちょうどその頃、ByteDance の Sora 製品に関する新たなニュースも出てきました。

Jianying傘下のSora型AIビデオツールが招待制の内部テストを開始した。

基礎は整ったようですね。ByteDanceの大型モデル製品に期待していいですか?

論文アドレス: https://arxiv.org/abs/2402.15627

<<:  ControlNet作者の新作:AIペイントはレイヤー分けが可能に!このプロジェクトはオープンソース化されていないにもかかわらず、660個のスターを獲得しました

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

ロボットが石油・ガス生産をより安全にする方法

石油とガスの生産は世界で最も危険な仕事の一つです。石油掘削、掘削作業、保守テストなどの作業により、毎...

医療AIの深淵:まだ解決すべき大きな問題

5Gに加えて、人工知能は今年も引き続きホットな話題です。筆者は最近、医療人工知能のコンテストを間近で...

...

...

あなたは人工知能の前で「透明な人」ですか?

プライバシーがないと感じる人が増えているのは紛れもない事実です。最も直接的な例は、買い物をしたい場合...

認知と論理的思考の観点から自然言語理解を議論する

[[425002]]自然言語理解 (NLU) は難しい問題です。数十年前の AI の誕生から現在に至...

...

...

...

産業用 IoT を実装するための 3 つの重要なステップ

老朽化するインフラ、コスト圧力、変動する利益率、規制の監視などにより、より効率的で強力なメンテナンス...

...

...

...