ディープラーニングモデルは「大きいほど良い」というわけではなく、気候変動問題を引き起こす可能性がある

ディープラーニングモデルは「大きいほど良い」というわけではなく、気候変動問題を引き起こす可能性がある

今月初め、OpenAIは、史上最大の人工知能モデルを構築したと発表した。これは「GPT-3」と名付けられた驚異的なスケールのモデルであり、印象的な技術的成果である。しかし、これは人工知能の分野における隠れた危険性を浮き彫りにしている。

現代の AI モデルは大量のエネルギーを消費しますが、このエネルギー要件は驚くべき速度で増加しています。ディープラーニングの時代では、最先端の AI モデルを作成するために必要なコンピューティング リソースは平均して 3.4 か月ごとに 2 倍になります。つまり、2012 年から 2018 年の間にエネルギー要件が 30 万倍に増加したことになります。そして、「GPT-3」は、この指数関数的な成長軌道における最新のノードにすぎません。

[[331050]]

ディープラーニングモデルは大きいほど本当に優れているのでしょうか?

現在、AI の二酸化炭素排出量は重大なものですが、業界の傾向が続くと、すぐにさらに悪化するでしょう。私たちが今日の AI 研究の方向性を再評価し、改革する意志を持たない限り、AI 分野は今後数年間で気候変動との戦いにおける最大の敵になる可能性があります。

GPT-3 はこの現象をよく表しています。このモデルには 1,750 億ものパラメータが含まれています。この数字をどう理解すればいいのでしょうか?参考までに、昨年リリースされた当時は最先端と考えられていた前身モデル「GPT-2」には、わずか15億個のパラメータしかありませんでした。昨年、GPT-2のトレーニングには1日あたり数十ギガバイトの計算が必要でしたが、これはすでに非常に大きな計算入力数であり、GPT-3に必要な数はGPT-2の数千倍になる可能性があります。

AI テクノロジーを進化させるためにますます大規模なモデルに依存することの問題点は、これらのモデルの構築と展開に大量のエネルギー消費が必要となり、その結果、炭素排出が発生することです。

2019 年に広く議論された研究「NLP におけるディープラーニングのエネルギーとポリシーの考慮事項」では、エマ・ストラベル率いる研究チームが、単一のディープラーニング モデルのトレーニングにかかる​​エネルギー消費量が二酸化炭素排出量で 626,155 ポンドにも上ると推定しました。これは、自動車 5 台のライフサイクル全体の二酸化炭素排出量にほぼ相当します。比較すると、平均的なアメリカ人は毎年約36,156ポンドの二酸化炭素を排出しています。

確かに、このレビューは特にエネルギーを大量に消費するモデルに関するものです。現在、標準的な規模の機械学習モデルをトレーニングすると、626,155 ポンドよりもはるかに少ない炭素排出量が生成されるはずです。

また、この分析が行われた時点では、GPT-2 が研究に利用できる最大のモデルであり、研究者はそれをモデルサイズの上限と見なしていたことも注目に値します。しかし、わずか 1 年後、GPT-2 は後継機の 100 分の 1 ほどの大きさに小さく見えます。

では、なぜ機械学習モデルはこれほど多くのエネルギーを消費するのでしょうか?

最初の理由は、これらのモデルをトレーニングするために使用されるデータセットのサイズが絶えず拡大していることです。 2018 年、BERT モデルは 30 億語のデータセットでトレーニングされ、クラス最高の NLP (自然言語処理) パフォーマンスを達成しました。 XLNet は 320 億語のデータセットでトレーニングされ、BERT を上回るパフォーマンスを発揮しました。その後すぐに、GPT-2 は 400 億語のデータセットでトレーニングされました。これまでのすべての研究をはるかにしのぐのは、GPT-3 が 5,000 億語の加重データセットを使用してトレーニングされることです。

トレーニング中、ニューラル ネットワークは入力データごとに長い一連の数学演算 (順方向伝播と逆方向伝播の両方) を実行し、複雑な方法でパラメータを更新します。したがって、データ セットが大きくなると、コンピューティングとエネルギーの要件が急速に増大します。

人工知能の膨大なエネルギー消費のもう一つの理由は、モデルの開発に必要な大量の実験と調整です。今日の機械学習は、依然として主に試行錯誤の繰り返しです。実践者は通常、トレーニング プロセス中に特定のモデルの何百もの異なるバージョンを構築し、さまざまなニューラル アーキテクチャとハイパーパラメータを試してから、最適な設計を決定します。

前述の2019年の研究論文では、ケーススタディが説明されています。研究者たちは、GPT-3のような目を引く巨大なモデルよりもはるかに小さい平均サイズのモデルを選択し、最終バージョンのトレーニングに必要なエネルギーを調べただけでなく、それを作成するのに実行されたさまざまなテストの全体的なエネルギー消費も測定しました。

6 か月にわたって、4,789 種類の異なるバージョンのモデルをトレーニングしましたが、これには合計 9,998 日の GPU 時間 (27 年以上) がかかりました。研究者らは、これらすべての要素を考慮すると、モデルの構築によって合計78,000ポンドの二酸化炭素が排出されるだろうと推定している。これは平均的なアメリカ人の成人が2年間に排出する量を上回る。

これまでのところ、この説明では機械学習モデルのトレーニング段階についてのみ説明しました。しかし、トレーニングはモデルのライフサイクルの出発点にすぎません。モデルがトレーニングされると、実際の世界に適用されます。

AI モデルを展開して現実世界の環境でアクションを実行できるようにするプロセス (推論と呼ばれる) は、トレーニングよりも多くのエネルギーを消費します。実際、Nvidia は、ニューラル ネットワークで消費されるエネルギーの 80% ~ 90% がトレーニング中ではなく推論中に発生すると推定しています。

たとえば、自動運転車の人工知能について考えてみましょう。まず、運転方法を学習できるようにニューラル ネットワークをトレーニングする必要があります。自動運転車でトレーニングされ、展開されると、モデルは環境をナビゲートするために継続的に推論し、このプロセスは車が使用されている限り毎日継続されます。

言うまでもなく、モデルのパラメータが増えるほど、この継続的な推論に必要なエネルギーも高くなります。

エネルギー使用と炭素排出量

人工知能のエネルギー消費と炭素排出量の関係についてはすでに述べました。では、この関係について考える最善の方法は何でしょうか?

EPA によれば、米国では 1 キロワット時のエネルギー消費で平均 0.954 ポンドの二酸化炭素が排出されます。この平均は、米国のエネルギー網におけるさまざまなエネルギー源(再生可能エネルギー、原子力、天然ガス、石炭など)の相対的な割合と炭素排出量の変化を反映しています。

上記の 2019 年の分析では、米国全体の平均値を使用して、さまざまな AI モデルのエネルギー要件に基づいて炭素排出量を計算しました。これは合理的な仮定です。たとえば、Amazon Web Services の電力源構成は、米国全体の電力源をほぼ反映しており、人工知能モデルの大部分はクラウドでトレーニングされています。

もちろん、AI モデルが主に再生可能エネルギーから生成された電力を使用してトレーニングされる場合、二酸化炭素排出量はそれに応じて低くなります。たとえば、Google Cloud Platform では、AWS よりも再生可能エネルギーに重点を置いた電力ミックスを採用しています。 (上記で引用した2019年の研究論文では、その数字はそれぞれ56%と17%となっている。)

あるいは、別の例を挙げると、太平洋岸北西部のハードウェアでモデルをトレーニングすると、その地域にきれいな水が豊富にあるため、他の国よりも炭素排出量が少なくなる可能性があります。そしてこの点では、すべてのクラウドプロバイダーがカーボンオフセットへの投資を宣伝しています。

全体的に、米国全体のエネルギー平均を使用すると、AI モデルの二酸化炭素排出量を大まかに正確に推定できるはずです。

収穫逓減

ますます大きなモデルを通じて AI の進歩を追求することで、モデルのサイズとモデルのパフォーマンスの関係が浮き彫りになります。次のデータは、モデルのサイズを大きくすると、最終的にはパフォーマンスのリターンが急激に減少することを明確に示しています。

たとえば、ResNet は 2015 年にリリースされた有名なコンピューター ビジョン モデルです。このモデルの改良版である ResNeXt が 2017 年に登場しました。 ResNet と比較すると、ResNeXt は 35% 多くの計算リソース (合計浮動小数点演算で測定) を必要とし、精度は 0.5% しか向上しません。

Allen AI Institute の 2019 年の論文では、AI のさまざまなタスク、モデル、サブフィールドにわたる収穫逓減の問題を文書化した詳細なデータが示されました。 GPT-2と比較すると、最近リリースされた大規模モデルGPT-3では、明らかに収穫逓減の兆候が見られます。

AI コミュニティが現在の研究の道を進み続けると、ますます大きなモデルを構築し続け、ますます小さなパフォーマンスの向上を達成するために、ますます多くのエネルギーを消費することになります。あらゆる費用対効果分析はますます不均衡になります。

収益減少の問題を考慮すると、モデルの規模が拡大し続ける原動力は何でしょうか?大きな理由の 1 つは、現在の AI コミュニティが「最高の」パフォーマンス ベンチマーク結果を得ることに非常に重点を置いていることです。パフォーマンスベンチマークで新たな精度記録を樹立する新しいモデルを構築すると、たとえわずかな改善であっても、研究者からの評価と賞賛を得ることができます。

UCLA のガイ・ヴァン・デン・ブルック教授は次のように述べている。「このことを最もよく例えるとすれば、石油の豊富な国が非常に高い超高層ビルを建設できるということだと思います。もちろん、そのようなビルを建設するには多額の費用がかかり、多くの工学的作業が必要です。そして、その超高層ビルを建設する際には「最先端技術」を駆使することができます。しかし、そこには本質的な科学的進歩はありません。」

現在の人工知能研究の分野を支配している「大きいほど良い」という考え方は、今後数年間で環境に重大な損害を与える可能性があります。 AI 技術の開発をより持続可能かつ生産的なものにするためには、この分野では思慮深くも大胆な変化が必要です。

将来に向けて

まず、すべての AI 実践者は、研究が二酸化炭素排出量に与える影響を軽減するために、短期間で「迅速な成果」を達成する方法を検討する必要があります。

重要な第一歩は、この問題の透明性と測定を高めることです。 AI 研究者が新しいモデルの結果を公開するときは、パフォーマンスと精度の指標に加えて、モデルの開発にどれだけのエネルギーが消費されたかに関するデータも公開する必要があります。

徹底的な分析を行った結果、アレン研究所のチームは、研究者が追跡する最も一般的かつ効果的なエネルギー効率の指標として「浮動小数点演算」を使用することを推奨しています。別の研究者グループは、実践者が構築したモデルの二酸化炭素排出量(ハードウェア、クラウド サービス プロバイダー、地理的地域などの要素に基づいて)を評価するために使用できる機械学習排出量計算機を作成しました。

これらの考え方に従い、エネルギーコストとパフォーマンスの利点を総合的に考慮することが、研究者がモデルをトレーニングする際のベストプラクティスになります。この関係を明確に定量化することで、研究者は収穫逓減の状況下で資源配分についてより情報に基づいたバランスの取れた決定を下すことができるようになります。

持続可能な AI の実践が広まるにつれて、AI コミュニティが AI 研究を評価する際に、今日私たちが精度などの従来のパフォーマンス指標について行っているように、これらの効率指標を考慮し始め、会議論文の提出、プレゼンテーション、学術的役割においてそれらを考慮するようになることを期待しています。

近い将来、人工知能技術の二酸化炭素排出量を削減するのに役立つ、比較的成熟した方法もいくつかあります。たとえば、より効果的なハイパーパラメータ検索方法の使用、トレーニング中の不要な実験数の削減、よりエネルギー効率の高いハードウェアの使用などです。

しかし、これらの対策だけでは問題を解決するのに十分ではありません。 AI の分野では、より根本的で長期的な変化が必要です。

私たちは一歩下がって、単にニューラル ネットワークを大きくしていくだけでは汎用知能への正しい道ではないことを認識する必要があります。私たちは、機械の知能をモデル化するためのよりエレガントで効果的な方法を発見するために努力する必要があります。私たちは気候変動との戦い、つまり地球の未来のための戦いを続けています。

AI の伝説的人物であり、ディープラーニングのゴッドファーザーであるジェフ・ヒントン氏の言葉を引用します。「未来は、私が言うことすべてに懐疑的な大学院生にかかっています... 私の考えは、すべてを捨てて最初からやり直すことです。」

AI コミュニティは、指数関数的に増加するデータセットや膨大なエネルギー消費を必要としない AI の新しいパラダイムに向けて取り組み始める必要があります。少数ショット学習などの新たな研究分野は有望な道です。

知性の源である人間の脳は、重要なインスピレーションを与えてくれます。今日のディープラーニング手法と比較すると、私たちの脳は信じられないほど効率的です。重さはわずか数ポンドで、消費電力はわずか 20 ワット程度で、薄暗い電球に電力を供給するのにかろうじて足りる程度です。しかし、それらは既知の宇宙で最も強力な形の知性を表しています。

「人間の脳は、非常に少ないエネルギー消費で驚くべきことを行うことができます」と人工知能研究者のシバ・レッディ氏は言う。「問題は、それができる機械をどうやって作れるかということです。」

<<:  企業が AI 戦略を採用するための 8 つのヒント

>>:  ディープラーニングの発展とそれが引き起こした気候変動問題

ブログ    
ブログ    

推薦する

人間の髪の毛のわずか200分の1の太さ!科学者たちは脳のように電気を生成できる「ナノワイヤーネットワーク」を構築した

今日の主流の人工知能技術は、ある意味では脳の構造にヒントを得たものです。しかし、コンピュータの計算能...

...

500以上の研究と50以上のモデルを網羅したコードビッグモデルレビューがここにあります

BERT や GPT などの事前トレーニング済みのトランスフォーマーの登場により、言語モデリングは近...

RAG 上級スキル - ウィンドウ コンテキスト取得の実装方法

この記事では、RAG (Retrieval-Augmented Generation) モデルの検索...

...

...

Tongji と Alibaba は CVPR 2022 最優秀学生論文賞のためにどのような研究を行いましたか?これは、

この記事では、CVPR 2022 最優秀学生論文賞を受賞した私たちの研究「EPro-PnP: 単眼物...

1 つの記事で 26 個のニューラル ネットワーク活性化関数 (ReLU から Sinc まで) を紹介します

ニューラル ネットワークでは、活性化関数によって、指定された入力セットからノードの出力が決定されます...

...

...

微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント:すべて戻る

教師なしテキストコーパスのみで事前トレーニングされた基本的な大規模言語モデル (LLM) は、通常、...

...

Pytorch の核心であるモデルの定義と構築を突破しましょう! ! !

こんにちは、Xiaozhuangです!今日はモデルの定義と構築についてお話ししましょう。初心者に最適...

ニューラル機械翻訳の 3 つの主要な問題をどのように解決するか?清華大学がNMTの最新レビューを発表

今日では、コンピュータ技術は人々の生活のあらゆる側面に浸透しており、仕事や勉強に大いに役立つものとい...

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。

アメリカでまた銃撃事件が発生。 5月24日、テキサス州ユバルデのロブ小学校で銃撃事件が発生し、少なく...