Sora のテクノロジーの分析が進むにつれて、 AI インフラストラクチャの重要性がますます明らかになります。 今回注目を集めたのは、ByteDanceと北京大学の新しい論文だ。 記事では、ByteDanceが構築したWankaクラスターがGPT-3スケールモデル(175B)のトレーニングを1.75日で完了できることを明らかにした。 具体的には、ByteDance は、Wanka クラスターで大規模モデルをトレーニングする際に直面する効率性と安定性の課題に対処することを目的とした、 MegaScaleと呼ばれる生産システムを提案しました。 12,288 個の GPU で 1,750 億個のパラメータを持つ大規模な言語モデルをトレーニングした場合、MegaScale は 55.2% のコンピューティング パワー使用率(MFU)を達成しました。これは NVIDIA Megatron-LM の 1.34 倍です。 また、同論文では、ByteDanceが2023年9月時点で1万枚以上のカードを搭載したAmpereアーキテクチャGPU (A100/A800)クラスターを構築しており、現在は大規模なHopperアーキテクチャ(H100/H800)クラスターを構築中であることも明らかにした。 ワンカクラスターに適した生産システムビッグモデルの時代において、GPU の重要性は自明です。 しかし、大規模モデルのトレーニングは、単にカードの数を増やすだけでは実現できない。GPU クラスターの規模が「数万」レベルに達すると、いかに効率的かつ安定したトレーニングを実現するかは、それ自体が困難なエンジニアリング上の問題となる。 最初の課題は効率性です。 大規模な言語モデルのトレーニングは、単純な並列タスクではありません。モデルを複数の GPU に分散する必要があり、これらの GPU は頻繁に通信して共同でトレーニング プロセスを進める必要があります。通信に加えて、オペレーターの最適化、データの前処理、GPU メモリの消費などの要素はすべて、トレーニング効率の指標であるコンピューティング パワー使用率 (MFU)に影響を与えます。 MFU は、実際のスループットと理論上の最大スループットの比率です。 2 番目の課題: 安定性。 大規模な言語モデルのトレーニングには非常に長い時間がかかることが多く、トレーニング プロセスでの失敗や遅延は珍しいことではありません。 障害のコストは高いため、障害回復時間をいかに短縮するかが特に重要になります。 これらの課題に対処するため、ByteDance の研究者は MegaScale を構築し、それを ByteDance のデータセンターに導入して、さまざまな大規模モデルのトレーニングをサポートしました。 MegaScale は、Nvidia の Megatron-LM の改良版です。 具体的な改善点としては、アルゴリズムとシステム コンポーネントの共同設計、通信と計算の重複の最適化、演算子の最適化、データ パイプラインの最適化、ネットワーク パフォーマンスのチューニングなどがあります。
この論文では、MegaScale はソフトウェアおよびハードウェアの障害の 90% 以上を自動的に検出し、修復できると述べられています。 実験結果によると、MegaScale は 12,288 個の GPU で 175B の大規模言語モデルをトレーニングしたときに 55.2% の MFU を達成しました。これは、Megatrion-LM の計算能力使用率の 1.34 倍です。 530B 大規模言語モデルのトレーニングにおける MFU 比較結果は次のとおりです。 もう一つこの技術論文が議論を巻き起こしたちょうどその頃、ByteDance の Sora 製品に関する新たなニュースも出てきました。 Jianying傘下のSora型AIビデオツールが招待制の内部テストを開始した。 基礎は整ったようですね。ByteDanceの大型モデル製品に期待していいですか? 論文アドレス: https://arxiv.org/abs/2402.15627 |
<<: ControlNet作者の新作:AIペイントはレイヤー分けが可能に!このプロジェクトはオープンソース化されていないにもかかわらず、660個のスターを獲得しました
EUCAIM (EUropean Federation for CAncer IMages) プロジ...
認知技術は世界最大の課題を解決するために使用されています。この記事では、企業が認知 AI をどのよう...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
エッジ AI は、今日のデジタル変革の時代に台頭している 2 つのテクノロジー、エッジ コンピューテ...
[[329133]] DeepMind は今週、強化学習最適化フレームワーク Acme をリリース...
人工知能は医療と医療の分野で大きな力を発揮することが証明されている 人工知能は、特に医療分野において...
C# を使用して文字列反転アルゴリズムを実装することに関する面接の質問を見てみましょう。文字列反転の...
意識のアップロードは、人間が将来の自分たちの存在を想像する方法として常に存在してきました。このアイデ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
ウォール・ストリート・ジャーナルによると、グーグルのMed-PaLM 2は今年4月からメイヨー・クリ...