OpenAI は機械学習をサポートするために k8s を 7,500 ノードに拡張

OpenAI は機械学習をサポートするために k8s を 7,500 ノードに拡張

GPT-3、CLIP、DALL+などの大規模モデルのニーズや、ニューラル言語モデルに似たスケーリング法則に関する小規模で迅速な反復研究のニーズを満たすために、OpenAIはインフラストラクチャk8sクラスターを7,500ノードに拡張しました。

説明によると、大規模な機械学習ジョブの場合、ノードは通常 1 つのポッドによって占有され、OpenAI によって展開されたクラスターは二分帯域幅を備えているため、ノード数が多くてもスケジューラへの負荷は比較的低く、新しいタスクが一度に数百のポッドを作成する場合にのみスケジューリング負荷が発生します。

さらに、OpenAIは、エイリアスベースのIPアドレスへの切り替えによる多数のノードのネットワーク問題の解決、負荷を分散するために専用ノードにetcdとAPIサーバーを展開すること、PrometheusとGrafanaを使用して指標を収集する際にOOM問題を特定すること、クラスターのヘルスチェックを設計すること、チーム間でクラスターリソースを合理的に割り当てることなど、k8sクラスターの拡張における重要な作業についても詳しく説明しました。

しかし、OpenAIは、大規模環境でのPrometheusの内蔵TSDBストレージエンジンの圧縮速度が遅く、WAL(書き込み事前記録)の再起動に時間がかかる、クラスターを拡張すると各ポッドに一定量の帯域幅が必要であると計算されるためネットワーク帯域幅の圧迫が生じるなど、k8sクラスターの拡張時に解決すべき問題がまだいくつかあるとも指摘している。ただし、まだ改善の余地は大きいものの、k8s は優れたスケーラビリティにより研究ニーズを満たすことができます。

この記事はOSCHINAから転載したものです

この記事のタイトル: OpenAI が機械学習をサポートするために k8s を 7500 ノードに拡張

この記事のアドレス: https://www.oschina.net/news/127949/openai-scale-k8s-7500

<<:  AIと機械学習でデータセンターを強化

>>:  人工知能がデジタル変革の課題に対処できる 5 つの分野

ブログ    
ブログ    

推薦する

北京冬季オリンピックのブラックテクノロジーが外国人に賞賛される:このロボットがある限り、防疫は安全

昨日、北京冬季オリンピックはブラックテクノロジーでいっぱいだとネットユーザーが言っているのを見ました...

実際のシナリオにおける知識グラフに基づく大規模モデル幻覚の原因、評価、緩和戦略の探究

大規模モデルの実用化の問題に関しては、現在業界では大規模モデルを使用して質疑応答を行うのが一般的です...

...

ByteDance アルゴリズムの面接の質問、解けますか?

数日前、私の友人がByteDanceの面接を受けました。面接官は彼にリンクリストアルゴリズムの質問を...

人工知能の簡単な歴史 | (1) ディープラーニング、人工知能の新たな盛り上がり

人工知能はまだ少し遠く、Google の巨大なデータセンターの部屋や神秘的な MIT ロボット工学研...

...

...

...

...

...

...

...

...

...

アルゴリズムの大きな進歩! AIニューラルネットワークは量子システムをシミュレートする

[[269803]]最近、研究者たちはニューラルネットワークに基づく新しいアルゴリズムを使用して量子...