人間の脳は極めて効率的な知能の源ですが、現在の AI はこのレベルに到達できません。
今月初め、OpenAIは史上最大のAIモデルを構築したと発表した。 GPT-3 と呼ばれるこの驚くべきモデルは、印象的で偉大な技術的成果となりました。しかし、この栄光の裏には、人工知能の分野における憂慮すべき否定的な傾向も存在しています。さらに恐ろしいのは、主流の世論がこれに十分な注意を払っていないことです。 現代の AI モデルは膨大な量の電力を消費し、その電力に対する需要は驚くべき速度で増加しています。ディープラーニングの時代では、一流の AI モデルを構築するために必要なコンピューティング リソースは、平均して 3.4 か月ごとに 2 倍になります。つまり、2012 年から 2018 年にかけて、AI コンピューティング リソースの消費量は 30 万倍に増加しました。 GPT-3 はまさにこの傾向の最新の現れです。 要約すると、AI 技術による二酸化炭素排出はすでに無視できないほど深刻であり、業界の傾向が続くと、状況はすぐに制御不能になるでしょう。私たちが今日の AI 研究計画を再評価し改革する意志を持たない限り、人工知能の分野は近い将来、気候変動を引き起こす主犯になる可能性が高い。 大きいほど良いとは限らない 今日のディープラーニングを中心とした研究パラダイムでは、人工知能の主な進歩は主にモデルのスケールアップ、つまりデータセットの拡大、モデルの拡大、コンピューティングリソースの増大に依存しています。 GPT-3 はこの現象をよく表しています。このモデルには 1750 億ものパラメータが含まれています。この数字をもっと直感的に理解できるように、前身の GPT-2 モデル (昨年リリースされたときにサイズの面でも記録を樹立しました) のパラメーターは 15 億しかありませんでした。昨年の GPT-2 は、ペタフロップスの計算能力を持つデバイスでトレーニングするのに数十日かかりました。対照的に、GPT-3 のトレーニング時間は数千日にまで増加します。 AI 技術を前進させるこの「どんどん大きくなる」モデルの問題は、そのようなモデルの構築と展開に大量のエネルギーが消費され、大量の二酸化炭素が排出されることです。 2019年の大規模な研究で、エマ・ストラベル率いる研究チームは、ディープラーニングモデルのトレーニングによって最大626,155ポンドの二酸化炭素排出量が発生する可能性があると推定しました。これは、工場から寿命が尽きるまでに5台の自動車を運転したときに発生する二酸化炭素の総排出量とほぼ同じです。それが直感的に十分でないなら、平均的なアメリカ人は年間 36,156 ポンドの二酸化炭素を排出します。 確かに、この推定はエネルギー依存度の高いモデルに焦点を当てています。結局のところ、現在の現実を考慮すると、機械学習モデルの平均的なトレーニングプロセスでは、600,000 ポンドを超える二酸化炭素が生成されることはありません。 また、この分析の時点では、GPT-2 はまだ研究分野で最大のモデルであり、研究者たちはそれをディープラーニング モデルの限界だとも考えていたことも注目に値します。しかし、わずか1年後には、GPT-2は「スリムで細い」の代名詞となり、次世代モデルは100倍以上の大きさになりました。 機械学習モデルはなぜこれほど多くのエネルギーを消費するのでしょうか? 最も重要な理由は、これらのモデルをトレーニングするためのデータセットも急速に増加していることです。 BERT モデルは、30 億語のデータセットでトレーニングされた後、2018 年にクラス最高の自然言語処理 (NLP) パフォーマンスを達成しました。 320億語のトレーニング セットでトレーニングした後、XLNet は BERT を上回りました。その後すぐに、GPT-2 は 400 億語を含むデータセットでトレーニングされ始めました。最後に、先ほど触れた GPT-3 があります。これは、約 5,000 億語の重み付けされたデータセットを使用します。 トレーニング プロセス中、ニューラル ネットワークは各データに対して一連の長い数学的演算 (順方向伝播と逆方向伝播) を実行し、複雑な方法でモデル パラメータを更新する必要があります。したがって、データセットが大きくなるほど、計算能力とエネルギー要件は急速に増加します。 AI モデルが大量のエネルギーを消費するもう 1 つの理由は、モデル開発プロセス中に大量の実験と調整が必要になることです。現在、機械学習は依然として主に試行錯誤のプロセスです。実践者は通常、トレーニング プロセス中に現在のモデルの何百ものバージョンを構築し、さまざまなニューラル アーキテクチャとハイパーパラメータを継続的に試して最適な設計を決定します。 前述の 2019 年の論文には、研究者が適度なサイズのモデル (明らかに GPT-3 のような巨大なモデルよりもはるかに小さい) を取り上げ、その最終バージョンのトレーニングに必要な電力量と、最終バージョンを作成するために必要なテスト実行の総数を集計したケース スタディも含まれています。 研究者らは 6 か月間にわたって 4,789 種類の異なるバージョンのモデルをトレーニングしました。これは、単一の GPU で 9,998 日間 (27 年以上) の実行時間に相当します。研究者らは、すべての要素を考慮すると、この模型を建設すると約7万8000ポンドの二酸化炭素が排出されるだろうと見積もっている。これは平均的なアメリカ人の成人が2年間に排出する量を上回る。 これまでは、機械学習モデルのトレーニング部分についてのみ説明しました。トレーニングはモデルのライフサイクルの始まりに過ぎません。トレーニング後も、これらのモデルを実際の環境で使用する必要があります。 現実世界の環境で AI モデルを展開して実行すると (つまり、推論プロセス)、トレーニング プロセスよりもさらに多くのエネルギーが消費されます。実際、Nvidia は、ニューラル ネットワークの総計算コストの 80% ~ 90% がトレーニング フェーズではなく推論フェーズから発生すると見積もっています。 たとえば、自動運転車の AI モデルが考えられます。まず、ニューラル ネットワークをトレーニングして、運転スキルを教える必要があります。一度トレーニングされて車両に配備されると、モデルは環境をナビゲートするために推論を続行します。車両が走行している限り、モデルの推論プロセスは中断されることなく続行されます。 言うまでもなく、モデルに含まれるパラメータの数が多くなるほど、推論フェーズでの電力需要は増大します。 エネルギー使用と炭素排出量 この問題を検討するには、まずエネルギー使用量と炭素排出量の対応関係を見つけなければなりません。では、この対応を正確に判断するにはどうすればよいでしょうか? 米国環境保護庁(EPA)が発表したデータによると、米国では1キロワット時の電力は平均0.954ポンドの二酸化炭素排出量に相当します。この平均値は、二酸化炭素排出量の変化と、再生可能エネルギー、原子力、天然ガス、石炭など、米国の電力網におけるさまざまな電力源の客観的な割合を反映しています。 前述のように、ストラベル氏は分析で米国の電力の平均炭素排出量を使用し、さまざまな AI モデルのエネルギー要件に基づいて対応する炭素排出量を計算しました。この仮定は、Amazon Web Services の電力構成が米国の全体的な発電構造と一致しており、現在の AI モデルのほとんどはパブリック クラウド上でのトレーニングを選択しているため、非常に合理的です。 もちろん、再生可能エネルギーで発電した電力をAIモデルのトレーニングに最大限活用すれば、二酸化炭素排出量は必然的に削減されるでしょう。たとえば、Google Cloud Platform の電力ミックスは、AWS よりも再生可能エネルギーの割合が高くなっています (Strubell 氏の論文によると、AWS は 17%、Google は 56%)。 別の例として、この地域にはクリーンな水力発電資源が豊富にあるため、モデルのトレーニング時に大西洋岸北西部のハードウェア施設から発生する炭素排出量は全国平均よりも低くなります。大手クラウドサービスプロバイダーが現在、二酸化炭素排出抑制への取り組みを重視していることは特筆に値します。 しかし全体的に見ると、米国の電力構成は依然として十分に説得力があり、AIモデルの二酸化炭素排出量をほぼ良好な精度で推定できるとストラベル氏は考えている。 収穫逓減 モデル サイズとモデル パフォーマンスの関係は、モデル サイズの拡大が AI テクノロジの開発にどのように役立つかを理解するのに役立ちます。この点に関するデータは非常に明確です。モデル サイズが継続的に増加すると、最終的にはパフォーマンス リターンが急激に低下することになります。 この点を説明するために例を挙げます。 ResNet は、2015 年にリリースされた有名なコンピューター ビジョン モデルです。このモデルの改良版である ResNeXt が 2017 年に登場しました。 ResNet と比較すると、ResNeXt では 35% 多くのコンピューティング リソース (合計浮動小数点演算で計算) が必要になりますが、精度は 0.5% しか向上しません。 Allen Institute for AI が 2019 年に発表した論文では、さまざまなタスク、モデル、AI サブフィールドにおけるモデル サイズの収益減少を記録した、より詳細な比較データを見ることができます。最近リリースされた超大型の GPT-3 モデルも、GPT-2 と比較して収穫逓減の顕著な兆候を示しています。 AI コミュニティが現在の道を進み続けると、研究者は必然的に、より大規模なモデルの構築にさらなる労力を費やす必要が生じますが、その結果得られるパフォーマンスの向上はますます小さくなるでしょう。これは、費用対効果の比率がますます不均衡になることを意味します。 収益が減少するという現実があるにもかかわらず、なぜ人々はどんどん大きなモデルを発表し続けるのでしょうか。その大きな理由の 1 つは、AI コミュニティが依然としてパフォーマンス ベンチマークで「最新の」記録を達成することに重点を置いていることです。よく知られているベンチマークで新たな最高スコア(たとえわずか 1 パーセントポイントでも)を達成したモデルは、研究者から認められ、賞賛されます。 カリフォルニア大学ロサンゼルス校(UCLA)のガイ・ヴァン・デン・ブルック教授は、「石油の豊富な国が非常に高い超高層ビルを建設できるという例えの方が正確だと思います。超高層ビルを建設する過程で、国が「最先端の技術」を蓄積するのに役立つことは間違いありません」と述べています。しかし、これらすべては...科学的な進歩をもたらすことはできません。 ” AI 研究計画における現在の「大きいほど良い」という執着は、今後数年間で自然環境に重大な損害を与える可能性があります。そのためには、持続可能性と生産性を高めながら AI を正しい方向に導くために、大胆かつ思慮深い変更を行う必要があります。 将来に向けて まず第一に、AI実践者一人ひとりは、技術開発による環境への影響を減らすために、できるだけ早く「サイクルの短縮」を研究目標として設定する必要があります。 最も重要な第一歩は、AI モデルの炭素排出問題の透明性と定量的な評価を強化することです。 AI 研究者が新しいモデルの結果を公開する場合、パフォーマンスと精度という 2 つの中核指標に加えて、モデル開発プロセスの全体的なエネルギー データも含める必要があります。 アレン人工知能研究所のチームは、慎重な分析を行った結果、研究者にとって最も一般的で正確なエネルギー効率測定基準として浮動小数点演算を使用することを提案しました。別のチームは、実務者が現在のモデルの二酸化炭素排出量を推定するのに役立つ機械学習による二酸化炭素排出量計算機を作成しました(ハードウェア、クラウド サービス プロバイダー、地理的地域などの要素を考慮)。 これらの考えに従うと、研究者は、モデルのトレーニング中に避けることのできない重要な指標として、エネルギーコストとパフォーマンス向上の関係も考慮する必要があります。この指標を明示的に定量化することで、研究者は収穫逓減の問題に対処し、資源配分に関してより賢明でバランスの取れた決定を下すことができるようになります。 持続可能な AI の実践が普及するにつれて、技術コミュニティが AI 研究を評価する際にこれらの効率指標に注目し、これらの指標の重要性を精度などの従来のパフォーマンス指標のレベルにまで高め、最終的には論文出版、スピーチの共有、学術的成果などの分野でより重要な役割を果たすようになることが期待されます。 もちろん、より効率的なハイパーパラメータ検索方法の使用、トレーニング中の不要な実験数の削減、よりエネルギー効率の高いハードウェアの採用など、他のいくつかの方法も、AI モデルが短期的に炭素排出量を削減するのに役立つと期待されています。 しかし、これらの改善策だけでは問題を完全に解決するには不十分です。人工知能の分野では、根本的かつ長期的な変化が必要です。 私たちは一歩下がって、単にニューラル ネットワークをどんどん大きく構築することが、汎用化された知能への正しい道ではないことを認識する必要があります。私たちは、機械の知能を第一原理からモデル化するための、よりエレガントで効率的な方法を発見するよう努力しなければなりません。気候変動に対する私たちの戦い、そして実際、私たちの青い地球全体の未来は、これにかかっているのかもしれません。 AI の伝説であり、ディープラーニングのゴッドファーザーであるジェフ・ヒントン氏の言葉を引用すると、「未来は一部の大学院生の手に委ねられているかもしれない。なぜなら、彼らは私が言うことすべてに深い懐疑心を抱いているからだ...彼らは私のアイデアを完全に放棄し、ゼロから再び探求を始めるかもしれない。」 AI コミュニティは、指数関数的に増加するデータセットや膨大な電力消費を必要としない、人工知能の新しいパラダイムを敢えて確立する必要があります。小規模サンプル学習などの新たな研究分野は、明るい未来への新たな道となるかもしれません。 人間の脳は知性の源として、私たちに重要なインスピレーションももたらします。現在のディープラーニング手法と比較すると、私たちの脳は信じられないほど効率的です。人間の脳の重さはわずか数ポンドで、低電力の電球をかすかに照らす程度の約 20 ワットの電力で動作します。しかし、それらはまた、現在宇宙で知られている最も強力な形態の知性を表しています。 AI研究者のシヴァ・レディ氏もため息をつくことなくこう語った。「人間の脳は、非常に低い電力消費で驚異的なパフォーマンスを発揮します。問題は、そのようなマシンをどうやって作れるかということです。」 |
<<: ディープラーニングモデルは「大きいほど良い」というわけではなく、気候変動問題を引き起こす可能性がある
>>: 機械学習が金融サイバー犯罪と戦う方法: 人工知能はセキュリティの洞察にとって不可欠
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[187402]]人工知能は現在、魔法のような大流行を経験しています。データは、数字の羅列としてニ...
海外メディアの報道によると、ヨーロッパ人は5年前よりもロボットに対して保守的になっていることが調査で...
[[263249]]ビッグデータダイジェスト制作出典: medium編纂者:周嘉楽、郭小白、蒋宝尚...
ピーター・ウェイナーノアが編集生成 AI の華やかさにもかかわらず、この新しい時代における最大の変化...
中小企業、大企業を問わず、コールドコールは製品の売上とビジネスを拡大するための最も効果的な戦略の 1...
最初の大規模モデルアライメント技術レポート(大規模言語モデルにおけるRLHFの秘密パートI)がNeu...
機械学習の分野では、「世の中にただ飯はない」という格言があります。簡単に言えば、あらゆる問題に対して...
中国のバレンタインデーがちょうど終わったばかりで、編集者がオンラインにアクセスするとすぐに、偉大な芸...
しばらく時間が空いたので、Java でよく使われる 7 つのソート アルゴリズムをまとめてみました。...
調査によると、2024年の世界のテクノロジー市場では期待できる出来事がたくさんあることが分かっていま...
面接でアルゴリズムのみをテストする質問は、一般的に多くのプログラマーの友人から嫌われます。ここでは、...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
人工知能は皆さんにとって馴染み深いものかもしれませんが、では人工知能は一体何ができるのでしょうか?本...