機械学習の 3 つの時代の計算パワーの法則をまとめる: 大規模モデルの出現によって何が変わったのでしょうか?

図 1: 1950 年から 2022 年までの 118 の重要な機械学習システムの傾向。私たちは3つの時代を区別しています。ディープラーニングの出現と一致する 2010 年頃の傾きの変化と、2015 年末の新しい大規模なトレンドに注目してください。

機械学習の分野における進歩を予測することは困難であり、業界、政策、社会の関係者にとって重要な意味を持ちます。

10年後にはコンピュータービジョンはどれほど進歩するでしょうか？機械は人間よりも優れた小説を書けるようになるでしょうか？どんな仕事が自動化できるようになるでしょうか？

これらの質問は多くの要因に依存するため、答えるのが困難です。しかし、時間の経過とともに、これらすべての要素のうち 1 つの要素がその影響において驚くほど規則的になります。それは、コンピューティング能力です。

既存のデータによると、2010 年以前は、トレーニングコンピューティング能力の成長率はムーアの法則に沿っており、約 20 か月ごとに 2 倍になっていました。

2010 年にディープラーニングが登場して以来、トレーニングコンピューティング能力の成長率は大幅に増加し、約 6 か月ごとに 2 倍になっています。 2015年後半、多くの企業が大規模な機械学習モデルの開発を開始したため、トレーニングの計算能力に対する要件が10～100倍に増加し、新たなトレンドが生まれました。

上記の調査結果に基づき、共同チームは研究論文「機械学習の3つの時代におけるコンピューティングトレンド: プレディープラーニング時代、ディープラーニング時代、大規模時代」の中で、機械学習のコンピューティングパワーのトレンドを3つの時代、つまりディープラーニング以前の時代、ディープラーニング時代、大規模時代に分類し、現在のコンピューティングパワーの進化をわかりやすく整理しました。

図丨マイルストーンモデル情報を一目で確認

具体的には、この研究には次の 3 つの貢献があります。

1) 100 を超える画期的な機械学習システムのデータセットをキュレートし、それらをトレーニングするために必要な計算能力を注釈付けします。

2) コンピューティングパワーのトレンドは、プレディープラーニング時代、ディープラーニング時代、大規模時代の 3 つの時代に分けられます。この研究では、各時代の倍増時間の推定値を示します。

3) 一連の付録では、本研究の結論を検証するために行われたいくつかの代替実験を紹介し、データの代替解釈と以前の研究との相違点について説明します。

さらに、この研究で使用されたデータセット、データ、インタラクティブな視覚化は公開されています。

1. ディープラーニングの登場

この研究では、この研究で収集されたデータを 3 つの異なる時代と 3 つの異なる傾向に従って解釈します。

つまり、ディープラーニングが普及する前は、成長が緩やかな時代でした。この傾向は 2010 年頃に加速し、それ以降も減速していません。さらに、2015 年から 2016 年にかけて、大規模モデルという新たなトレンドが出現し、同様の成長率で、以前のものより 1 桁から 2 桁上回る規模 (OOM) で成長しました。

表1 主な結果の要約。この傾向は 2010 年にディープラーニングの人気とともに加速し、2015 年後半には大規模モデルへの新たな傾向が現れました。

以下では、まず2010年から2012年頃のディープラーニングへの移行期について考察する。次に、2015年から2016年頃に登場した大規模モデルの時代について説明します。

ディープラーニングの登場前と登場後には、まったく異なる2つのトレンドメカニズムが存在します。これまで、機械学習システムのトレーニングに必要なコンピューティング量は、17 ～ 29 か月ごとに倍増していました。その後、全体的な傾向は加速し、4～9 か月ごとに 2 倍になりました。

ディープラーニング以前のトレンドは、トランジスタ密度が約 2 年ごとに 2 倍になるというムーアの法則とほぼ一致しており、これは多くの場合、コンピューティングパフォーマンスが 2 年ごとに 2 倍になると簡略化されています。

ディープラーニングの時代がいつ始まったのかは明らかではありません。ディープラーニング以前の時代からディープラーニングの時代への移行には明確な断絶はありません。さらに、この研究では、ディープラーニング時代の始まりをそれぞれ 2010 年と 2012 年としていますが、表 2 に示すように、結果にほとんど変化はありません。

図 2. 1952 年から 2022 年までの 100 を超えるマイルストーン機械学習システムのトレーニング計算能力の傾向。 2010 年頃の傾向の傾きの変化に注目してください。

表2 1952年から2022年までのMLモデルの対数線形回帰結果

2. 大型モデルの出現

2015年から2016年頃に、大規模モデルへの新たなトレンドが生まれました。

この新しいトレンドは、2015 年後半に AlphaGo から始まり、今日まで続いています。これらの大規模モデルは大企業によってトレーニングされており、そのトレーニング予算が拡大すれば、これまでの傾向は打破されると思われます。

それ以外では、従来のスケールモデルへの傾向はそのまま残っています。この傾向は 2016 年頃まで継続しており、同じ傾きで 5 ～ 6 か月ごとに倍増しています (表 3 を参照)。大規模モデルにおける計算負荷の増加傾向は大幅に鈍化し、9 ～ 10 か月ごとに倍増しています。この研究ではこれらのモデルに利用できるデータが限られていたため、見かけ上の減速はノイズの結果である可能性もあります。この研究で発見された結果は、2012年から2018年の間に3.4か月というより速い倍増期間を発見したAmodei＆Hernandezら（2018）の研究結果とはまったく対照的である。一方、Lyzhov（2021）は、2018年から2020年の間に2年以上というより長い倍増期間を発見した。

彼らの分析ではデータサンプルが限られており、単一の傾向が想定されていたため、結果はこの研究で見つかったものとは大きく異なっていました。この研究では大規模モデルと従来規模モデルを別々に検討しましたが、大規模モデルの傾向は近年になって現れたばかりであるため、これまでの分析では2つの異なる傾向を区別できませんでした。

図 2. 2010 年から 2022 年までの 100 を超えるマイルストーン機械学習システムのトレーニングコンピューティングの傾向。 2016年頃に出現する可能性のある、大規模モデルへの新たなトレンドに注目してください。残りのモデルの傾向は2016年頃と変わりません。

表3. 2010年から2022年までのデータの対数線形回帰結果。 2015年以前の従来型スケールモデルのトレンドは、その後も途切れることなく続いています。

3. 結論と方向性

この調査では、100 を超える画期的な機械学習システムのトレーニング計算のデータセットを管理することでコンピューティング能力の傾向を調査し、そのデータを使用して時間の経過とともに傾向がどのように成長したかを分析しました。

研究チームは、この研究によって、機械学習システムの最近の進歩は規模の拡大によって推進されていることを他の人々がよりよく理解し、高度な機械学習システムの開発に関する予測をさらに改善できるようになることを期待していると述べた。

さらに、コンピューティング能力のトレーニングの増加傾向により、ハードウェアインフラストラクチャとエンジニアの戦略的重要性が強調されています。

機械学習における最先端の研究は、大規模なコンピューティング予算やクラスターへのアクセスと、それらを活用するための専門知識と同義になっています。

この調査で取り上げられていない側面の 1 つは、機械学習モデルのトレーニングに使用されるもう 1 つの重要な定量化可能な要素、つまりデータです。今後の研究では、データセットのサイズとコンピューティング能力の傾向との関係を調査することが考えられます。

<<: Python 用 OpenCV について Dlib を使って顔検出を実装する

>>: ヘルスケアにおける人工知能：現在と未来

機械学習の 3 つの時代の計算パワーの法則をまとめる: 大規模モデルの出現によって何が変わったのでしょうか?

1. ディープラーニングの登場

2. 大型モデルの出現

3. 結論と方向性

トレンド: IT の複雑さにより AIOps の必要性が高まる

汎用人工知能の実現に私たちはどれくらい近づいているのでしょうか?

2021年以降の人工知能について何かお考えはありますか?

ガートナー、2024年以降のIT組織とユーザーに関する重要な予測を発表

転移学習とクロスドメイン推奨、およびクロスドメイン推奨のソリューション

サーバーが過負荷状態です! GANで生成された肖像油絵は人気があり、一瞬でルネッサンス時代に戻ることができます

マスク氏の脳コンピューターインターフェース企業はさらに4,300万ドルを調達し、臨床試験のプロモーションビデオが初めて公開された。ネットユーザー：どこで支払うのか？

推薦する

一般的な視覚的推論が出現、カリフォルニア大学バークレー校が単一の純粋なCV大規模モデルを改良、3人の上級学者が参加

何凱明氏のグループによる新しい論文：ViTをバックボーンとして単独で使用しても、ターゲット検出に優れたパフォーマンスを発揮できる

7億7千万パラメータ、5400億PaLMを超えます！ UW Google はトレーニングデータの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

フロントエンドでも機械学習を理解する必要があるパート2

2020年、全国の産業用ロボット出荷台数は前年比19.1％増加した。

ChatGPTのiOS版はBing検索機能を統合しており、有料会員のみが利用可能

「ロボット」は詐欺の標的になり得るのか？

10億ピクセル画像のマルチスケール特性評価のためのスタンフォード大学の新しいニューラルシーン表現方法がSIGGRAPHに選出されました

AIoT分野におけるセキュリティリスクを知っておく必要があります！

ZTouch、AIを活用して広告効果を高めるデジタル広告プラットフォーム「Darwin」をリリース

[NCTSサミットレビュー] Testin Xu Kun: AIが次世代のテストをリード、iTestinがテストの未来を書き換える