データセンター不足がAIの未来を阻害している理由

データセンター不足がAIの未来を阻害している理由

多くの企業が AI テクノロジーの開発と導入に数十億ドルを投資しています。知的財産の問題、潜在的な規制の枠組み、GPU 不足が AI アプリケーションの開発を遅らせる可能性があることは多くの人が説明しているものの、より大きなボトルネックである、AI アプリケーションのトレーニングと実行に必要なデータセンターの電力とスペースの不足については誰も認識していないようです。

AIの未来に影響を与えるデータセンターストレージの4つの課題

  • 新しいデータセンターの構築コスト
  • 新しいデータセンターの構築には時間がかかる
  • 既存のデータセンターのスペース不足
  • 電力制限

AI モデルのトレーニングには多くのリソースが必要であり、展開するには多額の資本、時間、スペース、電力が必要です。最終的には、AI の進歩はデータセンター不足の問題を解決することになるかもしれません。

AIにとってデータセンターが重要な理由

データセンターは私たちの日常生活において重要な役割を果たしていますが、しばしば当然のこととみなされたり、完全に無視されたりすることがあります。ソーシャルメディアを閲覧したり、メッセージを送信したり、Taobao で掃除機を注文したり、銀行で送金したりするたびに、私たちはデータセンターを利用してあらゆるデジタル操作を処理しています。これらは当社の IT インフラストラクチャの基礎です。

しかし、AI の需要が爆発的に増加するにつれて、データセンターの容量は減少し、需要が供給を明らかに上回っています。 AI に関する会話の多くは、チップや ChatGPT、AI 製品が数十億ドルの収益をもたらす方法に焦点を当てていますが、私たちが焦点を当てるべきなのは、AI の需要が現在のインフラストラクチャがサポートできる範囲を超えた場合に何が起こるかという疑問への答えです。

答えは簡単なようです。容量不足を克服するには、容量をさらに増やす必要があります。しかし、実際にはこれははるかに困難になります。

データセンター不足の4つの理由

人工知能の発展に伴い、計算能力に対する需要が爆発的に増加し、トレーニングには集中的かつ複雑な計算能力が必要になりました。

データ センター業界は、既存の企業のデジタル変革とパブリック クラウドの使用の需要を満たすようすでにプレッシャーを受けています。新しいビルドを展開するにはコストと時間がかかるため、データ センターは予測される需要に基づいてジャストインタイムで提供されるように構築されることがよくあります。すでに供給が逼迫している状況に加え、AI の急速な導入により、前例のない需要が高まっています。

生成 AI には、従来のワークロードの 5 倍のパワーが必要です。 ChatGPT-4 は大幅に優れた知能を持っていると言われており、トレーニングにはより多くのパワーが必要です。 AI の開発競争は、お金、時間、スペース、電力という 4 つの主要な供給制約に帰着します。

1. 資本

データセンターの構築には費用がかかります。 250,000平方フィートの中規模データセンタービルを完全に建設するには、約5億ドルの費用がかかります。

AIの需要は数百メガワットからギガワットに及ぶと予想されており、総価格は数百億ドルに達するとみられる。それは大金だ。金利が高く、資本の調達が困難な場合、データセンターの価格が上昇し、必要な資本を調達して需要を満たすことがより困難になります。また、必要な資金を調達するのにも時間がかかり、建設期間が延びて、すべてがさらに遅くなります。

最近、多くの従来のデータセンタープロバイダーは、再編や倒産により混乱したり停滞したりしており、容量をタイムリーに提供することがさらに困難になっています。データセンター運営者は、これらの資金を新しい容量の資金調達に引き続き使用できますが、ゼロ金利時代ほど簡単ではありません。勝者となるのは、資本を効果的に配分し、効率的に運営してきた実績を持つ企業です。

2. 時間

データセンターの構築には24〜36か月かかります。もちろん、プロバイダーは複数のプロジェクトを同時に進めることができますが、ほとんどのプロジェクトは完了するまでに数か月から数年かかります。現在の需要の急増以前は、多くのプロジェクトはより控えめな需要予測に基づいて構築されていました。

それに加えて、業界は、現代のデータセンターの電力供給と冷却に必要な機械、電気、冷却システムを供給するためのサプライチェーンの課題に依然として取り組んでいます。これらのスケジュールは、2年前の12~24週間から52~80週間に短縮されました。

新しい容量がオンラインになるまでには時間がかかり、オンラインになったとしても十分ではない可能性があります。ただし、データセンターの下にある不動産を所有し、複数施設のキャンパス戦略を追求している事業者は、土地利用を制御し、市場投入までの時間を短縮することで、迅速に規模を拡大できる最適な立場にあります。

3. スペース

業界全体で利用可能なスペースはほとんど残っておらず、特に追加容量に対する優先購入権 (ROFR) を持つ顧客は需要が供給よりも速く増加しており、現在それらのオプションを要求しているためです。

GPU を搭載した高性能コンピューティング (HPC) クラスターは、多くの企業で人工知能アプリケーションのトレーニングに採用されていますが、データセンターのスペース需要を促進する唯一の要因ではありません。ハイパースケールのパブリッククラウドと従来のエンタープライズテクノロジーの導入における有機的な成長も引き続き堅調に推移し、今後 12 ~ 18 か月間で供給にさらなる圧力がかかると予想されます。このままの道を進み続けると、予想外の技術革新は起こらないでしょう。

この課題の解決策は、データ センター プロバイダーが、従来の上げ床、空冷式のエンタープライズ アプリケーションから、スラブ床、水冷式のハイパースケール クラウドまたは HPC ワークロードまで、さまざまなワークロードに対応できる新しい施設を設計することです。これにより、オンラインになる容量が何であっても、市場の最も重要なボトルネックに対して迅速に適応できるようになります。

4. 電源

すべてはパワーの問題です。 AI 向けのこれらの高性能コンピューティング クラスターで使用される GPU は、従来のワークロードよりも 5 倍の電力を消費します。

大手データセンター市場では、すでに約束されている拡張電力の供給に対する制限が発表されており、電力はすでに不足しています。この傾向は今後も続くと予想されており、需要の増加により送電網への負担が大きくなり、再生可能エネルギーへの移行には調整と改善に時間がかかり、さらなるボトルネックが生じることになる。

スマートなデータセンタープロバイダーは、効率性の向上、発電源の近くに複数の施設を構えるキャンパスの設置、さらには独自のアウトステーションの展開などにより、先頭に立っています。

データセンター不足が続くとどうなるでしょうか?

これら 4 つの領域を検討した後、1 つの疑問が残ります。「これらの制限を克服できない場合はどうなるのでしょうか?」その影響は重大であると同時に、見落とされやすいものです。

まず、AI アプリケーション開発者が、基盤となる大規模言語モデル (LLM) のトレーニングに必要な GPU 搭載 HPC クラスターを展開できる速度、および/またはこれらの LLM 上に構築されたアプリケーションへのアクセスの需要がある最終推論フェーズが妨げられる可能性があります。

また、既存のワークロードを追加しているクラウド プロバイダーや企業からの需要を満たすデータ センターの容量が制限される可能性もあります。誰もが、SaaS アプリケーション、ソーシャル メディア、ビデオ ストリーミング、ゲーム、電子商取引、現代のコネクテッド ワールドの利便性、さらには将来の AI 駆動型アプリケーションを実現するために、すでにこれらに依存しています。

<<:  Googleは、生成AI製品のユーザーを著作権侵害の申し立てから保護することを約束

>>:  企業が生産性向上のためにAIを活用しようとする中、最高AI責任者の必要性が高まっている。

ブログ    
ブログ    
ブログ    

推薦する

GitHub CEO: AIはプログラマーに取って代わることはできない

GitHub の CEO である Thomas Dohmke 氏は最近、人工知能とソフトウェア開発の...

人工知能と機械学習がもたらす劇的な変化を示す6つの事例

[[219896]]現在、人工知能 (AI) と機械学習 (ML) ほど注目されているテクノロジーは...

機械学習の7つの大罪:信頼性に影響を与える7つのよくある間違い

機械学習は私たちの世界を変える素晴らしいツールです。機械学習(特にディープラーニング)が従来の方法よ...

ALPHGOがイ・セドルを破ってから500日が経ち、BATは人工知能のために何をしたのか?

[[201115]] 2016年3月15日、ALPHGOが韓国の囲碁プレイヤー、イ・セドルを4対1...

よく使われる 3 つの C# ソート アルゴリズム

C# アルゴリズムは、C# 言語学習の重要な部分です。C# ソート アルゴリズムは、言語の基礎とデー...

...

オックスフォード大学とケンブリッジ大学は「顔面を叩き」、ChatGPTの使用を許可し、段階的にチュートリアルも教えた。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Spring-Smart-DI は実装クラスを動的に切り替えます。非常に優れています。

実際のシステム開発のシナリオでは、同じ機能を複数のサービスプロバイダーに接続する必要があるというタイ...

...

Nuscenes 最新 SOTA | DynamicBEV が PETRv2/BEVDepth を上回る!

1. 論文情報2. はじめにこの論文では、自動運転、ロボット工学、監視などのアプリケーションに不可...

K8S向け機械学習ツール「Kubeflow」の詳しい解説

[51CTO.com オリジナル記事] Kubeflowには多くのコンポーネントがあり、各コンポーネ...