人工知能によりデータセンターの設計が再考される

人工知能によりデータセンターの設計が再考される

AI が企業で大規模に導入されるにつれて、データセンターのワークロードのより大きな割合が AI によって消費されるようになります。

AI はデータセンターに対する需要を加速させ、投資に対する新たなインセンティブを生み出すだけでなく、データセンターの持続可能性戦略や導入されるインフラストラクチャの性質にも影響を与えます。

たとえば、Tirias Research は、現状では、生成 AI データセンターのサーバー インフラストラクチャと運用コストが 2028 年までに 7,600 万ドルを超え、Amazon AWS の現在の推定年間運用コストの 2 倍以上、世界のクラウド サービス市場の 3 分の 1 に達すると予測しています。

ハードウェア コンピューティング パフォーマンスが 400 パーセント増加するという予測は、処理ワークロードが 50 倍増加するという Tirias の推定と比べると見劣りします。

高密度

シュナイダーエレクトリックの新しいホワイトペーパーによると、大規模なトレーニング クラスターと小型のエッジ推論サーバーの急増は、ラック電力密度の上昇も意味します。

「AIの新興企業、企業、コロケーションプロバイダー、インターネット大手は、これらの密度がデータセンターの物理インフラストラクチャの設計と管理に与える影響を考慮する必要がある」とホワイトペーパーには記されている。

シュナイダーエネルギー管理研究センターは、AI がエネルギー需要に与える影響について独自の予測を立てています。 AIは現在4.3GWの電力需要を占めており、2028年までに年平均成長率26%~36%で成長すると推定されています。

これにより、総需要は 13.5GW ~ 20GW となり、データセンター全体の電力需要の 2 ~ 3 倍の増加となります。 2028 年までに、AI ワークロードはデータセンターの総エネルギーの 20% を消費することになります。

シュナイダー氏は、トレーニング クラスターよりも多くの電力を消費すると予想されるものの、推論ワークロードはさまざまなラック密度で実行できると指摘しました。

「一方、AIトレーニングのワークロードは非常に高密度で実行されており、ラックあたりの電力は20〜100kWの範囲以上になっています。」

「ネットワークの需要とコストにより、これらのトレーニング ラックが統合されます。これらの非常に高電力密度のクラスターは、データ センターの電力、冷却、ラック、およびソフトウェア管理の設計に根本的な課題をもたらします。」

パワートレインの課題

シュナイダー氏は、電力、冷却、ラック、ソフトウェア管理という 4 つの主要分野における影響の可能性を概説しました。

電力面では、AI ワークロードは配電システムやスイッチギアの電力システムに課題をもたらします。

現在使用されている電圧の中には導入が非現実的であるものもあり、また配電ブロックのサイズが小さいと IT スペースが無駄になる可能性があります。ラックの温度が高くなると、故障や危険の可能性も高まります。

冷却は極めて重要であり、データセンターが半世紀以上にわたってプロフェッショナル向け高性能コンピューティングで使用されてきた液体冷却に移行するにつれて、大幅な変更が必要となる領域の 1 つになります。

「空冷は当面の間は継続されるだろうが、AI クラスターを備えたデータセンターでは、空冷から液冷への移行が望ましい、あるいは必須のソリューションになると予測している」とシュナイダー氏は述べた。

「液体冷却は、プロセッサの信頼性とパフォーマンスの向上、スペースの節約とラック密度の向上、パイプ内の水の熱慣性の向上、水使用量の削減など、空冷に比べて多くの利点があります。」

AI クラスターの場合、サーバーの奥行きが深くなり、電力要件が大きくなり、冷却がより複雑になります。

したがって、ラックにはより高い密度と耐荷重能力が必要です。

デジタルツイン

最後に、DCIM、BMS、電気設計ツールなどのソフトウェア ツールが AI クラスターの管理に重要になります。

適切に構成および実装されたソフトウェアは、データセンターのデジタル ツインを提供して、電力制約と冷却リソースのパフォーマンスを特定し、より適切なレイアウト決定に役立ちます。

ますますダイナミックな環境では、エラーの余地が少なくなり、運用上のリスクが高まります。そのため、シュナイダーは、ラック内の機器や仮想マシンを含む IT スペース全体のデジタル ツインを作成することを推奨しています。

「IT 負荷をデジタルで追加または移動することで、サポートするのに十分な電力、冷却、床荷重容量があることを確認できます。これにより、リソースの無駄を回避し、ダウンタイムの原因となる人為的エラーを最小限に抑えるための意思決定が可能になります。」

<<:  34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

>>:  サプライチェーン管理においてAIがすでに優れた成果を上げている分野

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

Google Project Ellman が Gemini AI モデルのシナリオを公開

Googleチームは、AI技術を使ってユーザーの写真や検索エンジンのクエリ情報を処理し、ユーザーの生...

自動運転のスケールアップ問題

[[280016]]最近のニュースによると、Google傘下の自動運転企業Waymoがユーザーにメー...

...

スタンフォードグローバルAIレポート:人材需要は2年間で35倍に増加し、中国のロボット導入は500%増加

先ほど、スタンフォード グローバル AI レポートが正式に発表されました。スタンフォード大学は昨年か...

家庭用ロボットを作り、独自の研究開発の道を歩む

ロボットを作ることは私の子供の頃からの夢でした。 2011年に私はハルビン工業大学に入学し、そこが私...

人工知能をゼロから学ぶのは難しくない

「人工知能」という用語は、1956年にダートマス協会で初めて提案されました。それ以来、研究者は多くの...

AI を活用して災害による損失を評価し、救助活動を支援する

地震、ハリケーン、洪水などの自然災害は、広大な地域と何百万人もの人々に影響を及ぼし、物流上の大きな課...

『Thinking Chain: Six Intuitions about Big Models』の著者、ジェイソン・ウェイ氏

ジェイソン・ウェイを覚えていますか?思考連鎖の創始者は、命令チューニングに関する初期の研究を共同で主...

...

パートナーはいますか? Facebookの従業員が休暇中にロボットを家に持ち帰り、死に関する質問に答える

[[286539]]ビッグデータダイジェスト制作著者: 張大毓如、陳若夢春節が近づいてきました!叔母...

...

高校時代の位相除算と位相減算のアルゴリズムについて

[[356850]]プログラミングの本質はアルゴリズムから来ており、アルゴリズムの本質は数学から来て...