2010年以降、MLコンピューティングパワーの需要は100億ドル増加し、6か月で2倍になり、ディープラーニングは画期的な分野となった。

計算能力、データ、アルゴリズムは、現代の機械学習 (ML) の進歩を導く 3 つの基本的な要素です。

近年の人工知能技術の発展は、ビッグデータやアルゴリズムに依存するだけでなく、コンピューティング能力の継続的な強化の結果でもあります。 2012年から2018年にかけて、大規模モデルのトレーニングに使用される計算能力は30万倍に増加し、約3か月半ごとに2倍になったことが分かっています。

人工ニューラルネットワークは 1980 年代に提案されましたが、計算能力の限界により衰退期を迎えました。しかし、技術の発展によりこの制限は打ち破られ、GPU、CPU、AIアクセラレーションチップが次々と発売されています。

ディープラーニングの出現により、コンピューティング能力に対する需要は飛躍的に増加しました。 2018年、Bertが突如登場しました。Google、Microsoft、NVIDIAなどの大手企業は、AIを次の戦場と見なし、独自の大規模モデルを発表しました。たとえば、Googleは最初の兆レベルモデルであるSwitch Transformerをリリースし、NVIDIAとMicrosoftは5,300億のパラメータを持つMT-NLGを共同でリリースしました...

大きなモデルには大きな計算能力が伴いますが、ディープラーニングの時代以降、ML 計算能力の需要はどれほど増加したのでしょうか。将来、モデルが拡大するにつれて、計算能力は追いつくことができるでしょうか?

最近、アバディーン大学、MIT、その他の機関の研究者が、ML の 3 つの要素の計算能力要件を研究しました。 2010 年以前は、トレーニングに必要な計算能力はムーアの法則に沿って増加し、約 20 か月ごとに 2 倍になっていたことが分かりました。 2010 年代初頭のディープラーニングの登場以来、トレーニングに必要な計算能力は急速に増加し、約 6 か月ごとに 2 倍になっています。 2015 年後半には、大規模な ML モデルが登場し、トレーニングの計算能力に対する需要が 10 ～ 100 倍に増加するという新たなトレンドが生まれました。

論文アドレス: https://arxiv.org/pdf/2202.05924.pdf
GitHub アドレス: https://github.com/ML-Progress/Compute-Trends

上記の調査結果に基づいて、研究者らは ML に必要な計算能力の歴史を、ディープラーニング以前の時代、ディープラーニングの時代、大規模化の時代の 3 つの段階に分類しました。全体として、この論文は、マイルストーン ML モデルの計算要件を時間の経過とともに詳細に調査したものです。

この論文の貢献は次のとおりです。

123 の画期的な ML システムデータセットを収集し、その計算能力に注釈を付けました。
ハッシュレートの傾向は、最初は 3 つの異なる段階に分けられます。
計算能力の結果が検討され、以前の研究との違いが議論されます。

論文の著者の一人であるレナート・ハイム氏は、次のように述べています。「過去12年間（2010～2022年）で、MLトレーニングの計算能力は100億倍に増加しました。」

過去の作品

コンピューティング能力に関する研究はこれまでにも行われてきました。2018 年に、Amodei 氏と Hernandez 氏はコンピューティング能力を評価する 2 つの方法を発表しました。彼らは 15 の ML システムに基づいて必要なコンピューティング能力の傾向を分析しました。 2012年から2018年にかけて、MLトレーニングに必要な計算能力は3.4か月ごとに倍増していることが分かりました。

2019年、サストリーらは上記の分析を補足するために2012年以前の論文10件を追加しました。研究の結果、訓練に必要な計算能力は1959年から2012年までの約2年間で2倍になったことが判明した。

2021年、リゾフ氏はアモデイ氏とヘルナンデス氏のデータセットを拡張し、コンピューティング能力の成長は2018年以降停滞していると主張した。特に、著者らは、2020 年の最も計算集約的なモデル (GPT-3) では、2017 年の最も計算集約的なモデル (AlphaGo Zero) の 1.5 倍の計算しか必要としないことを発見しました。

次の図は上記の研究を非常によくまとめています。2012年から2018年まで、計算能力が2倍になるまでに約3.4か月かかりました（AmodeiとHernandezの研究）。1959年から2018年まで、計算能力が2倍になるまでに約2年かかりました（Sastryらの研究）。2018年から2020年まで、計算能力が2倍になるまでに2年以上かかりました（Lyzhovの研究）。

同様の研究で、Sevilla et al. (2021) は、訓練可能なパラメータの数の傾向を調査しました。 2000年から2021年にかけて、すべての応用分野でパラメータ倍増時間は18～24か月であったことが判明しました。言語モデルについては、2016年から2018年の間に不連続性が見られ、パラメータの倍増時間が4～8か月に加速した。

さらに、2021年にDesislavovらは、コンピュータービジョンと自然言語処理システムに必要な推論計算能力を研究しました。しかし、この研究のデータセットは以前の研究よりも包括的であり、以前のデータの3倍のMLモデルが含まれており、2022年の最新データも含まれています。

トレンドの解釈

研究者たちは、収集したデータを3つの異なる時代と3つの異なる傾向に従って解釈した。簡単に言えば、ディープラーニングが普及する前には、成長が緩やかな時代がありました。この傾向は 2010 年頃から加速し、それ以降も衰えていません。さらに、2015 年から 2016 年にかけて、大規模モデルでは同様の成長率でありながら、以前の成長率を 2 桁上回る新しい傾向 (OOM) が現れました。詳細については、図 1 と表 2 を参照してください。

図 1: 1952 年以降のマイルストーン ML システムのトレーニング計算能力 (FLOP) の推移。

表 2: 各段階における傾向。

研究者らは、まず2010～2012年頃のディープラーニングへの移行について議論し、その後2015～2016年頃の大規模モデルの出現について議論した。彼らは、他の観点から結論を確認するためにいくつかの代替分析を実行しました。

さらに、研究者らは付録 B で記録破りのパターンの傾向について、付録 C でさまざまな ML 分野の傾向について説明しています。

ディープラーニングへの移行

Amodei & Hernandez (2018) の結果と一致して、研究者はディープラーニングの出現前と出現後に 2 つの異なるトレンドメカニズムを発見しました。ディープラーニングが登場する前は、ML システムをトレーニングするために必要な計算能力は 17 ～ 29 か月ごとに 2 倍になっていました。ディープラーニングの登場後、全体的な傾向は加速し、コンピューティング能力は 4 ～ 9 か月ごとに 2 倍になりました。ディープラーニングのこれまでの傾向は、集積回路に集積できるトランジスタの数が約 18 ～ 24 か月ごとに倍増し、多くの場合は 2 年ごとに倍増するというムーアの法則とほぼ一致しています。

ディープラーニングの時代がいつ始まったのかは明らかではなく、ディープラーニング以前からディープラーニングの時代への移行に明らかな断絶はありません。

さらに、ディープラーニング時代の始まりを2010年または2012年と設定した場合、以下の表3に示すように、研究者の結果はほとんど変わりません。

図 2: 1952 年から 2022 年までのマイルストーン ML システムのコンピューティング能力の傾向。特に 2010 年頃の傾きの変化に注目してください。

表3: 1952年から2022年までのMLモデルの対数線形回帰結果。

マススケール時代のトレンド

データによれば、図 3 に示すように、2015 年から 2016 年頃に大規模モデルに新たな傾向が現れました。この傾向は、2015 年後半の AlphaGo の登場から始まり、今日まで続いています。一方、これらの大規模なモデルは、これまでの傾向を打ち破り、かつてないほどのトレーニング予算を持つテクノロジー大手によってトレーニングされています。

どのシステムがこの新しい大規模なトレンドに属するかについては直感的に判断し、それらを近隣のシステムと比較して特定の Z 値のしきい値を超えるモデルとして正当化したことに注意してください。方法の詳細は付録 A に記載されています。付録 F では、大規模モデルがどのように大きく異なるかについて説明します。

図 3: 2010 年から 2022 年までのマイルストーン ML システムのコンピューティング能力の傾向。

しかし、従来のスケールモデルのトレンドは影響を受けません。 2016 年以前と以後の傾向は同じ傾きの変化で継続しており、5 ～ 6 か月ごとに 2 倍になっています。大規模モデルの計算能力ははるかにゆっくりと増加しており、9 ～ 10 か月ごとに 2 倍になっています。研究者らは、これらのモデルに関するデータは限られているため、見かけ上の減速はノイズの影響である可能性があると述べた。

研究者らの研究結果は、2012年から2018年の間にコンピューティング能力が3.4か月という短い期間で2倍になったことを発見したアモデイ＆ヘルナンデス（2018年）の研究結果とは対照的である。この結果は、2018年から2020年にかけてコンピューティング能力が2倍になるまでに2年以上かかったことを発見したLyzhov (2021)の結果とも異なります。研究者たちは、他の研究者の分析では限られたデータサンプルを使用し、単一の傾向を仮定していたのに対し、大規模モデルと通常規模モデルを別々に研究していたため、こうした矛盾が生じていることを理解している。

さらに、大規模な傾向はごく最近になって現れたため、これまでの分析では 2 つの異なる傾向を区別することができませんでした。

2010～2022年のデータの対数線形回帰の結果。 2015年以前の従来サイズのモデルの傾向はその後も同じままでした。

<<: アンドロイドが電気羊に乗れるようになりました！世界初の四足ロボット羊：妹は座ると少し震える

>>: 効率的な整数計画法ソリューション、Kuaishouは多変量因果森林モデルを提案し、インテリジェントなマーケティング効果が顕著です