OpenAI は機械学習をサポートするために k8s を 7,500 ノードに拡張

OpenAI は機械学習をサポートするために k8s を 7,500 ノードに拡張

GPT-3、CLIP、DALL+などの大規模モデルのニーズや、ニューラル言語モデルに似たスケーリング法則に関する小規模で迅速な反復研究のニーズを満たすために、OpenAIはインフラストラクチャk8sクラスターを7,500ノードに拡張しました。

説明によると、大規模な機械学習ジョブの場合、ノードは通常 1 つのポッドによって占有され、OpenAI によって展開されたクラスターは二分帯域幅を備えているため、ノード数が多くてもスケジューラへの負荷は比較的低く、新しいタスクが一度に数百のポッドを作成する場合にのみスケジューリング負荷が発生します。

さらに、OpenAIは、エイリアスベースのIPアドレスへの切り替えによる多数のノードのネットワーク問題の解決、負荷を分散するために専用ノードにetcdとAPIサーバーを展開すること、PrometheusとGrafanaを使用して指標を収集する際にOOM問題を特定すること、クラスターのヘルスチェックを設計すること、チーム間でクラスターリソースを合理的に割り当てることなど、k8sクラスターの拡張における重要な作業についても詳しく説明しました。

しかし、OpenAIは、大規模環境でのPrometheusの内蔵TSDBストレージエンジンの圧縮速度が遅く、WAL(書き込み事前記録)の再起動に時間がかかる、クラスターを拡張すると各ポッドに一定量の帯域幅が必要であると計算されるためネットワーク帯域幅の圧迫が生じるなど、k8sクラスターの拡張時に解決すべき問題がまだいくつかあるとも指摘している。ただし、まだ改善の余地は大きいものの、k8s は優れたスケーラビリティにより研究ニーズを満たすことができます。

この記事はOSCHINAから転載したものです

この記事のタイトル: OpenAI が機械学習をサポートするために k8s を 7500 ノードに拡張

この記事のアドレス: https://www.oschina.net/news/127949/openai-scale-k8s-7500

<<:  AIと機械学習でデータセンターを強化

>>:  人工知能がデジタル変革の課題に対処できる 5 つの分野

ブログ    
ブログ    

推薦する

...

星が輝くとき - WOT グローバル テクノロジー イノベーション カンファレンス 2021 が間もなく開催されます

【51CTO.comオリジナル記事】​​​ 100年前、シュテファン・ツヴァイクは彼の有名な著作「星...

マイクロソフト、生成AIシステムのリスクを特定するためのPyRITをリリース

海外メディアの報道によると、マイクロソフトは2月26日、生成AIシステムのリスクを積極的に特定するた...

世界人工知能会議の最高栄誉である2020年SAIL賞のトップ30プロジェクトが発表されました

世界人工知能会議の最高賞であるSAIL賞(スーパーAIリーダー)は、「卓越性を追求し、未来をリードす...

...

人間がロボットや AI より得意とする 7 つの仕事

ロボットや AI は人間が行う多くの作業を実行できますが、人間がロボットよりも上手にできる仕事もまだ...

TensorFlow2を使用して細胞画像が感染しているかどうかを判断する方法を教えます

[[405128]]このチュートリアルでは、TensorFlow (Keras API) を使用して...

中国科学院のチームは、最初のLLMモデル圧縮レビューを発表しました。剪定、知識蒸留、量子化技術の詳細な議論です。

最近、大規模言語モデル (LLM) はさまざまなタスクで優れたパフォーマンスを示しています。しかし、...

ChatGPTのモバイル収益は9月に460万ドルという過去最高を記録し、成長疲れが現れ始めている。

10月10日、人工知能チャットボットChatGPTのモバイル分野での取り組みは大きな成果をもたらし...

このAIは、監視対象を素早く検索するのに役立ちます:テキスト配置キーフレーム、24時間のビデオ録画10分処理

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ロビン・リー、馬化騰、ジャック・マーがAIについて語る: 世界は劇的に変化しています。心配するのではなく、責任を取るべきです。

[[333020]]ロビン・リー:業界の人々はAIに大きな可能性があることを知っており、悲観的な時...

...

多くの企業が自社のサービスはAIだと主張しているが、実際はAIのふりをしている人間である。

[[235932]] 「疑似AI」の台頭:テクノロジー企業がボットの仕事を人間にひそかに任せる方法...