人工知能とデータセンター: AI がリソースを大量に必要とする理由

2023 年末までに AI 生成にどれだけのエネルギーが必要になるかについての予測は不正確です。たとえば、見出しでは「AI には 5 倍、10 倍、30 倍の電力が必要になる」や「10 万世帯に電力を供給するのに十分な電力」といった推測が書かれる傾向があります。一方、Data Center News などの専門誌のレポートでは、電力密度がラックあたり 50kW または 100kW に上昇すると予想されています。

生成 AI はなぜそれほどリソースを消費するのでしょうか?潜在的なエネルギーコストと二酸化炭素排出量を計算するためにどのような手順が踏まれているのでしょうか?アナリストは特定のワークロードシナリオについて独自の予測を行っていますが、モデル構築の最前線にいるクラウドハイパースケーラーが公開データをほとんど持っていないため、利用できる確かなデータはほとんどありません。

トレーニングから推論まで AI モデルを実行する際の炭素コストを分析すると、驚くべき数字が浮かび上がりました。ハーバード・ビジネス・レビューのレポートによると、研究者らは、OpenAIのGPT-4やGoogleのPaLMなどの「単一の大規模言語ディープラーニングモデル」のトレーニングには約300トンの二酸化炭素が消費されると推定している。

他の研究者は、ニューラルアーキテクチャ検索と呼ばれる技術を使用して中規模の生成AIモデルをトレーニングすると、電気とエネルギーで626,000トンの二酸化炭素排出量に相当する量が消費されると計算しています。

では、人工知能がこれほどまでに電力を消費するのは一体なぜでしょうか?

それはデータセット、つまりデータの量ですか?使用されるパラメータはいくつですか?トランスフォーマーモデル？エンコード、デコード、微調整？処理時間は？もちろん、答えは上記のすべてを組み合わせたものになります。

Gen AI の大規模言語モデル (LLM) と自然言語処理 (NLP) には大量のトレーニングデータが必要であるとよく言われます。しかし、従来のデータストレージの観点から見ると、これは実際には当てはまりません。

ChatGPT-3 は 45 TB の Commoncrawl プレーンテキストでトレーニングされ、その後 570 GB のテキストデータにフィルター処理されました。オープンソース AI データへの貢献として、AWS で無料でホストされます。

しかし、Web、Wikipedia、その他の場所から収集した数十億のWebページやデータのトークンを保存し、エンコード、デコード、微調整を行ってChatGPTやその他のモデルをトレーニングすることは、データセンターに大きな影響を与えることはないはずです。

同様に、テキスト読み上げ、テキスト画像、またはテキスト動画のモデルをトレーニングするために必要なテラバイトまたはペタバイトのデータは、数百または数千ペタバイトのデータを格納および処理する IT 機器をホストするために構築されたデータセンターの電源および冷却システムに特別な負担をかけるものではありません。

テキストから画像へのモデルの例としては、数十億枚の画像が入力されたドイツの AI モデルである LAION (Large Scale AI Open Networks) があります。 LAION 400m と呼ばれるモデルの 1 つには、10 TB のネットワークデータセットがあります。もう 1 つは LAION 5B で、58 億 5,000 万のクリップおよびフィルタリングされたテキストと画像のペアが含まれています。

トレーニングデータの量が管理可能なままである理由の 1 つは、ほとんどの AI モデルビルダーが、ゼロからトレーニングされた検索モデルではなく、事前トレーニング済みモデル (PTM) を使用していることです。私たちがよく知っている PTM の 2 つの例としては、Bidirectional Encoder Representations from Transformers (BERT) と、ChatGPT などの Generative Pretrained Transformers (GPT) ファミリがあります。

AIパラメータとトランスフォーマー

AI トレーニングにおいてデータセンターオペレーターが関心を持つもう 1 つの指標は、パラメーターです。

生成 AI モデルはトレーニング中に AI パラメータを使用します。パラメータの数が多いほど、期待される結果の予測がより正確になります。 ChatGPT-3 は 1,750 億個のパラメータに基づいて構築されています。

しかし、AIの場合、パラメータの数はすでに急速に増加しています。中国の LLM の最初のバージョンである WUDao では、1 兆 7,500 億個のパラメータが使用されました。大規模な言語モデルである WUDao は、テキストから画像への変換サービスやテキストからビデオへの変換サービスも提供します。今後もその数は増え続けると予想されます。

確かなデータがないため、1.7兆個のパラメータを持つモデルを実行するために必要な計算能力は膨大なものになるだろうと推測するのは妥当です。 AI ビデオ生成の領域が拡大するにつれて、モデルで使用されるデータの量とパラメータの数は爆発的に増加します。

Transformer は、シーケンス変換またはニューラル機械翻訳の問題を解決するために設計されたニューラルネットワークアーキテクチャです。これは、入力シーケンスを出力シーケンスに変換するタスクを意味します。

Transformer レイヤーはループに依存しているため、入力データが 1 つの Transformer レイヤーに移動すると、データはその上のレイヤーにループバックし、次のレイヤーに出力されます。これらのレイヤーにより、次に何が起こるかの予測出力が向上します。音声認識、テキスト読み上げなどの機能の向上に役立ちます。

どのくらいの電力があれば十分でしょうか?

S&P Globalの「AIの力：AIによる大胆な電力需要予測が業界を不安にさせる」と題されたレポートでは、複数の情報源を引用している。「米国の電力需要に関しては、ChatGPTのようなものがどれだけの需要を必要とするかを数値化するのは難しいが、マクロの数字で言えば、2030年までにAIは世界の電力需要の3～4％を占めることになる。Googleによると、AIは現在、同社の電力使用量の10～15％、つまり年間2.3TWhを占めている。」

ChatGPT などの生成 AI をあらゆる Web 検索に使用するには、合計 410 万個のグラフィックスプロセッシングユニット (GPU) を搭載した 50 万台以上の Nvidia A100 HGX サーバーが必要になると推定されています。各サーバーの電力需要が6.5kWの場合、1日の電力消費量は80GWh、年間の電力消費量は29.2TWhとなります。

スウェーデンの研究機関RI.SEは、AIモデルのトレーニングに使用される実際の電力の計算結果を提供した。「1.7兆個のパラメータを持ち、13兆個のトークン（単語の断片）を使用するGPT-4のような非常に大規模な言語モデルをトレーニングするのは困難な作業です。OpenAIは、1億ドルを費やし、100日を費やし、25,000台のNvidia

A100 GPU。これらの GPU を搭載した各サーバーは約 6.5kW を使用し、トレーニング中に消費されるエネルギーは推定 50GWh になります。 ”

AI が使用するエネルギーが急速に世間の議論の話題になりつつあるため、これは重要です。 AI 業界の全体的なフットプリントに関する推定値は公表されておらず、AI 分野は急速に拡大しているため、正確な数値を得ることはほぼ不可能です。

機械学習と人工知能の過去と現在の電力使用量に関するデータが明らかになるのを待つ間、モデルが製造され使用されるようになれば、エクサバイトやエクサフロップスの規模になるだろうことは明らかです（コンピューターは少なくとも 10^18、つまり 1 秒あたり 100 兆回の浮動小数点演算を実行できます）。データセンターの電力と冷却に関しては、ここで本当に興味深く、より困難なことが起こります。

<<: AIと暗号通貨により、2026年までにデータセンターのエネルギー消費量は倍増する

>>: 機械学習がデータセンター管理をどう変えるか