AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

人工知能をより良くするための競争において、MIT リンカーン研究所は、電力消費の削減、効率的なトレーニング、透明なエネルギー使用を実現する方法の開発に取り組んでいます。

Google でフライトを検索すると、各フライトの二酸化炭素排出量の推定値が料金の横に表示されるようになったことに気づいたかもしれません。これは、顧客に環境への影響について知らせ、その情報を意思決定に考慮できるようにする方法です。

コンピュータ業界の二酸化炭素排出量が航空業界全体の排出量を上回っているにもかかわらず、このような透明性はまだ存在していません。このエネルギー需要は AI モデルによって増大しています。 ChatGPT のような大人気のモデルは大規模 AI へのトレンドを予感させ、2030 年までにデータセンターが世界の電力供給の 21% を消費すると予測されています。

マサチューセッツ工科大学 (MIT) リンカーン研究所スーパーコンピューティングセンター (LLSC) は、データセンターのエネルギー使用を制御するのに役立つテクノロジを開発しています。彼らの手法は、ハードウェアの電力上限を調整するといったシンプルだが効果的な変更から、AI のトレーニングを早期に停止できる新しいツールの導入まで多岐にわたります。重要なのは、これらの手法がモデルのパフォーマンスに与える影響は最小限であることが判明したことです。

より広い視点から見ると、彼らの仕事はグリーンコンピューティングの研究を活性化し、透明性の文化を促進することです。「エネルギーを考慮したコンピューティングは、誰もが自分のデータを保管しているため、実際には研究分野ではありませんでした」と、エネルギーを考慮した研究活動を率いるLLSCの4年生、ビジェイ・ガデパリ氏は語った。「誰かが始めなければならず、他の人もそれに続くことを願っています。

電力と冷却の抑制

多くのデータセンターと同様に、LLSC でもハードウェア上で実行される AI ジョブの数が大幅に増加しています。エネルギー使用量の増加に気づいた LLSC のコンピューター科学者たちは、ジョブをより効率的に実行する方法について興味を持つようになりました。グリーンコンピューティングはセンターの原則であり、完全にカーボンフリーのエネルギーで稼働しています。

AI モデルのトレーニング (膨大なデータセットからパターンを学習するプロセス) には、電力を大量に消費するハードウェアであるグラフィックスプロセッシングユニット (GPU) を使用する必要があります。たとえば、GPT-3 (ChatGPT の前身) のトレーニングに使用された GPU は、推定 1,300 メガワット時の電力を消費しました。これは、平均的なアメリカの家庭 1,450 軒が 1 か月に使用する電力とほぼ同等です。

ほとんどの人はコンピューティング能力を求めて GPU を求めていますが、メーカーは GPU が消費できる電力量を制限する方法を提供しています。「私たちは電力制限の影響を研究し、モデルに応じてエネルギー消費を約12～15パーセント削減できることを発見しました」とLLSCの研究員シッダールト・サムシ氏は語った。

電力制限の影響はタスク時間の増加です。GPU がタスクを完了するのにかかる時間が約 3% 長くなりますが、モデルのトレーニングには通常数日、場合によっては数か月かかるため、この増加は「ほとんど気付かない」と Gadepally 氏は述べています。実験の 1 つでは、GPU 電力を 150 ワットに制限して、人気の BERT 言語モデルをトレーニングしました。これにより、トレーニング時間は 2 時間 (80 時間から 82 時間) 増加しましたが、米国の家庭の 1 週間分のエネルギーに相当する節約が実現しました。

その後、チームはこの電力制限機能を、広く使用されているスケジューラシステムである Slurm に組み込むソフトウェアを構築しました。このソフトウェアを使用すると、データセンターの所有者はシステム内またはジョブごとに制限を設定できます。

「この介入は今日からでも実施可能であり、すでにすべてのシステムで実施している」とガデパリー氏は語った。

副次的な利点として、電力制限の導入以降、LLSC スーパーコンピューターの GPU はより安定した温度 (華氏約 30 度) で動作するようになり、冷却システムへの負担が軽減されました。ハードウェアクーラーを稼働させると、信頼性と寿命も向上します。彼らは、新しいハードウェアの使用によって得られる効率がその炭素排出量を相殺するまで、新しいハードウェアの購入を延期することを検討できるようになりました。これにより、センターの「組み込み炭素」、つまり機器の製造によって生じる排出量が削減されます。また、夜間や冬季に運用を戦略的にスケジュールすることで、冷房の必要性を減らす方法も模索しています。

「データセンターは、コードやインフラストラクチャを変更することなく、これらの簡単に実装できる方法を使用して効率を向上させることができます」とガデパリー氏は述べています。

データセンターの運用を包括的に理解してコスト削減の機会を特定するには、時間がかかる場合があります。このプロセスを他の人にとってもより簡単にするために、チームはノースイースタン大学のデベシュ・ティワリ教授とバオリン・リー教授と共同で、高性能コンピューティングシステムのカーボンフットプリントを分析するための包括的なフレームワークを最近開発し、公開しました。システム実践者は、この分析フレームワークを使用して、現在のシステムの持続可能性をより深く理解し、次世代システムへの変更を検討できます。

モデルのトレーニング方法と使用方法を調整する

チームは、データセンターの運用を調整するだけでなく、AI モデルの開発をより効率的にする方法も設計しています。

モデルをトレーニングする場合、AI 開発者は通常、精度の向上と以前のモデルの構築に重点を置きます。望ましい出力を得るには、どのパラメータを使用するかを判断する必要があり、そのためには何千もの構成をテストする必要がある場合もあります。ハイパーパラメータ最適化と呼ばれるこのプロセスは、LLSC の研究者がエネルギーの無駄を削減するのに適していると判断する分野です。

「私たちは基本的に、特定の構成がどれだけ速く学習できるかを調べるモデルを開発しました」とガデパリ氏は語った。この比率を考慮すると、彼らのモデルは予想されるパフォーマンスを予測しました。パフォーマンスの悪いモデルは早期に停止されます。「最良のモデルは100モデル中トップ10に入るだろうという非常に正確な見積もりを早い段階で提供できる」と彼は語った。

彼らの研究では、この早期停止によって、モデルのトレーニングに使用されるエネルギーが 80% 削減されるという大きな節約が実現しました。彼らはこの技術を、コンピュータービジョン、自然言語処理、マテリアルデザインアプリケーション向けに開発されたモデルに適用しました。

「私の意見では、この技術はAIモデルのトレーニング方法を進歩させる最大の可能性を秘めています」とガデパリー氏は語った。

トレーニングは AI モデルパイプラインの一部にすぎません。時間の経過に伴う排出量の最大の要因は、モデル推論、つまりユーザーが ChatGPT とチャットするときなど、モデルをリアルタイムで実行するプロセスです。迅速に応答するために、これらのモデルは冗長ハードウェアを使用し、常に実行されて、ユーザーからの質問を待機します。

推論効率を向上させる 1 つの方法は、最も適切なハードウェアを使用することです。さらに、チームはノースイースタン大学と協力し、推論の計算集約型部分には高出力の GPU を、それほど要求の厳しくない部分には低電力の中央処理装置 (CPU) を使用するなど、モデルを最も炭素効率の高いハードウェアの組み合わせに一致させる最適化ツールを作成しました。この研究は最近、高性能並列および分散コンピューティングに関する国際 ACM シンポジウムで最優秀論文賞を受賞しました。

このオプティマイザーを使用すると、同じ「サービス品質目標」(モデルの応答性) を満たしながら、エネルギー使用量を 10 ～ 20% 削減できます。

このツールは、データセンターからシステムをレンタルし、何千ものオプションからハードウェアを選択する必要があるクラウド顧客にとって特に便利です。「ほとんどの顧客は自分のニーズを過大評価し、単によく知らないという理由で過剰なハードウェアを選択してしまう」とガデパリ氏は語った。

グリーンコンピューティングへの意識の高まり

これらの介入を実施することで節約されるエネルギーにより、AI の開発に関連するコストも、多くの場合 1 対 1 の比率で削減されます。実際、コストはエネルギー消費の代理としてよく使用されます。これだけコストが削減されているのに、なぜもっと多くのデータセンターがグリーンテクノロジーに投資しないのでしょうか?

「これはインセンティブの不一致の問題だと思う」とサムシ氏は語った。「より大きく、より良いモデルを作るための競争が激化しており、二次的な考慮事項はほとんど無視されています。

一部のデータセンターは再生可能エネルギークレジットを購入しているものの、こうした再生可能エネルギー源は増大するエネルギー需要を満たすのに十分ではないと指摘した。データセンターに供給される電力の多くは化石燃料から供給されており、冷却に使用される水は流域に負担をかけています。

また、AI 開発者に何を使用しているかを示すツールがなければ透明性を実現するのは難しいことも認識しています。彼らは、家庭のエネルギーレポートと同様に、各ジョブごとに、すべての LLSC ユーザーに対して、どれだけのエネルギーを消費したか、そのエネルギー量が他のエネルギー量とどのように比較されるかを表示できるようにしたいと考えています。

この取り組みの一環として、ハードウェアメーカーとより緊密に連携し、ハードウェアからこのデータをより簡単かつ正確に取得できるようにする必要があります。メーカーがデータの読み取り方法を標準化できれば、省エネおよびレポートツールをさまざまなハードウェアプラットフォームに適用できます。この問題に対処するために、LLSC の研究者と Intel の協力が進行中です。

AI の膨大なエネルギー需要を認識している AI 開発者であっても、そのエネルギー消費を抑えるために独自にできることはあまりありません。 LLSC チームは、他のデータセンターがこれらの介入を適用し、ユーザーにエネルギーに配慮したオプションを提供できるように支援したいと考えています。彼らの最初のパートナーシップは、この研究のスポンサーである米国空軍とのもので、米国空軍は数千のデータセンターを運営しており、これらの技術を適用することでエネルギー消費とコストを大幅に削減できる可能性がある。

<<: TPCアライアンス設立：科学的発見の推進に向け、1兆以上のパラメータを持つAIモデルを目指す

>>: Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張