人工知能の成長がデータセンターの再設計を促している

人工知能の成長がデータセンターの再設計を促している

現在進行中のデータ センターの再設計の主な側面は、AI の大規模で複雑なワークロードと、グラフィックス プロセッシング ユニット (GPU)、テンソル プロセッシング ユニット (TPU)、またはアクセラレータをさらに追加する必要性です。

これらのセルに必要な電力と発生する熱により、設計者は、何が可能で、最適なレイアウト設計なのかを再考する必要に迫られました。さらに、再設計のコストも増加しています。

その結果、Tirias Researchによると、地主は2028年までに新しいAIデータセンターインフラに年間760億ドルを費やす可能性があるという。

データセンターが直面している現在の課題: 今日の高密度GPUベースのクラスター

Tom's Hardware の Anton Shilov 氏は最近、AI ワークロード向け GPU の需要が非常に大きいと評価しました。

  • オムディアは、Nvidiaが2023年第2四半期に実際に900トンのH100プロセッサを販売したと述べた。
  • Omdiaは、Nvidiaが第2四半期に人工知能(AI)および高性能コンピューティング(HPC)アプリケーション向けのH100コンピューティングGPUを900トン(180万ポンド)以上販売したと推定している。 Omdia は、クーラー付きの Nvidia H100 コンピューティング GPU の平均重量が 3 キログラム (6.6 ポンド) を超えるため、Nvidia は第 2 四半期に 30 万台以上の H100 を出荷したと考えています。

その結果、Nvidia H100 グラフィックス プロセッシング ユニット (GPU) 1 個の重量は、軽量のボウリング ボールとほぼ同じ重量になります。上記の Omdia によって計算された重量には、関連するケーブルや液体冷却は含まれていません。

シュナイダーエレクトリックのデータセンターイノベーション担当副社長スティーブン・カルリーニ氏は、AIに使用されるラックは余分な重量と熱に対応するために再設計する必要があると述べた。これは、今日の AI サーバーの密集したクラスターと、現代の AI が本格的に開発され、整然とした列が密集したホット ラン クラスターに変わる前に一般的だった、通常のサーバー ラックの「整然と分散された」列を対比したものです。

カルリーニ氏は、これらの AI クラスターはラックあたり最大 100 キロワットを消費する可能性があるが、従来の非 AI データセンター ラックではラックあたり 20 キロワットしか消費しないと述べた。シュナイダーエレクトリックのエネルギー管理研究センターの上級研究アナリストで、カルリーニ氏の同僚であるビクター・アベラー氏は、Nvidia H100 の消費電力は 1 台あたり 700 ワットであるのに対し、依然として需要が高い旧型の A100 の消費電力は 400 ワットであると指摘した。どちらのタイプの GPU も液体冷却が必要です。

各 GPU 内の 800 億個のトランジスタが密集したシリコン領域が、ほとんどの熱を発生させます。 Amazon、Googleなどの企業は、このGPUを8個搭載したAIサーバーを導入している。適切に設計されていれば、AI サーバー クラスターは、非 AI アプリケーションのサーバー使用率がはるかに低いのに対し、継続的に 100% で実行できます。

データセンターのエネルギー管理に関する長期的な視点

今日の AI ワークロードをホストする主要なデータセンターの所有者は、環境への影響を軽減することに長年取り組んでおり、エネルギー管理に関しては長期的な視点を持つ傾向があります。エネルギー消費量がかつてないほど増加しているのは事実ですが、現在、主要なデータセンターの多くで再生可能エネルギーが利用されているため、所有者は他のゼロ排出の代替手段を模索しています。例えば、マイクロソフトは5月に、2028年から核融合エネルギーの新興企業ヘリオン社から少なくとも50メガワットの電力を購入する契約を締結した。

Victor Avelar は、今日のデータセンターのライフサイクル全体にわたる二酸化炭素排出量を定量化し、将来のデータセンターのレイアウトと設計の最適化に取り組んでいます。 Avelar は、データセンターの建設に使用されるコンクリートの調達、製造、注入中に排出される炭素などの組み込まれた炭素と、データセンターの運用中に生成される炭素の両方を考慮する、無料のデータセンターライフサイクル CO2 等価計算機でこれを実証しました。

コスト計算ツールは、プランナーが代替案を検討し、最適な設計基準を選択するのに役立ちます。たとえば、シュナイダーエレクトリックは電源に関する研究を実施しました。アヴェラール氏はウェストバージニア州の石炭火力発電所とフランスの原子力発電所を比較した。

スコープ別の年間総 CO2 換算排出量を見ると、ウェストバージニア州のオプションのスコープ 2 (地元の電力会社から購入した電力) 排出量が、ミックスのかなり大きな部分を占めていることがわかります。対照的に、フランスの選択肢では、スコープ 3 (新しいデータ センターのコンクリートに含まれる炭素などの間接エネルギー) の割合が大きくなります。スコープ 1 および 2 の排出量は、計画者の制御範囲内にあります。

データセンターの所有権の移行

カルリーニ氏は、歴史的にデータセンターはアンカーテナントとブティックストアを備えたショッピングモールのようなモデルに従う傾向があり、所有者は地元の需要を満たす建物の運営とスペースのリース管理のみに重点を置いていると指摘した。

しかし最近では、新しいデータセンター建設の割合において、大手クラウド、メディア、SaaS プロバイダーが優位に立っています。所有者/運営者にとって、標準的なデータセンター設計は存在しません。データ センターはそれぞれ異なり、現在の環境における主な課題は、発生しているすべての変化に対応することです。

<<:  ビジネスリーダーがAIを導入する際に指針となる5つの基本原則

>>:  未来を決定づけるトップ10の人工知能技術

ブログ    
ブログ    

推薦する

決定木からランダムフォレストへ: ツリーベースアルゴリズムの原理と実装

この記事では、決定木の数学的詳細(およびさまざまな Python の例)とその長所と短所について説明...

インテリジェンスの時代: 新たな進歩、新たな傾向、新たな取り組み。第 2 回世界インテリジェンス会議が来月開催されます。

4月18日、北京メディアセンターで第2回世界情報会議の記者会見が開催された。記者会見では、中国共産...

顔認識がまた失敗しました。アクセス制御システムは引き続き使用できますか?

旅行がますます便利になるにつれ、旅行の際には携帯電話だけを持って行けばよくなります。これは、モバイル...

...

自動化プロジェクトの成功は、ビジネスとITの高度な連携にかかっています。

[[399107]]ウー・ウェイ UiPath Greater China 社長前回 UiPath...

コンピュータアーキテクチャにおける機械学習

[[428279]]機械学習 (ML) の最近の進歩に大きく貢献したものの 1 つは、Google ...

Meituanグラフニューラルネットワークトレーニングフレームワークの実践と探索

著者 | Fu Haoxian、Peng Xiangzhou 他グラフニューラルネットワークの長期的...

完全なマーケティング効果評価におけるベイズ構造モデルの応用

著者についてCtrip のデータアナリストである Yiwen 氏は、ユーザー増加、因果推論、データサ...

機械学習とデータサイエンスのための最も人気のある Python ライブラリ トップ 10

2018 年は人工知能と機械学習が急速に発展する年となるでしょう。一部の専門家は、Python は...

AIを活用して産業データの価値を見出す

すべての業界に共通するものが 1 つあります。それは、大量のデータです。データ量は、個人用デバイス、...

医療AIの将来に注目すべき3つのトレンド

COVID-19の流行、メンタルヘルスの危機、医療費の高騰、人口の高齢化により、業界のリーダーたちは...

AIプロジェクトが失敗する6つの理由

データの問題は、企業の AI プロジェクトが意図した目標を達成できない主な理由です。しかし、企業が失...

人工知能の応用は何ですか?

近年の人工知能の波の台頭により、無人運転車が再び話題となり、国内外の多くの企業が自動運転や無人運転車...

適切な機械学習アルゴリズムを簡単に選択する方法を教えます。

[[327632]] 【51CTO.com クイック翻訳】この質問に対する単純で明確な答えはありま...