AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

[[390958]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIトレーニングに必要な計算能力は年々大幅に増加しています。最近の研究では、将来のAIトレーニングのボトルネックは計算能力ではなく、GPUメモリになると指摘されています。

AI アクセラレータは、ハードウェアのピーク時の計算能力を高めるために他の部分を簡素化または削除することがよくありますが、メモリと通信の課題を解決するのは困難です。

チップ内、チップ間、AI アクセラレータ間の通信は、AI トレーニングのボトルネックになっています。

Transformer モデル (赤) のパラメータ数は 2 年間で 240 倍という超指数関数的な増加を示していますが、単一の GPU (緑) のメモリは 2 年間で 2 倍の割合でしか拡大していません。

△SOTAモデルのパラメータ数（赤点）とAIアクセラレータのストレージ容量（緑点）の年ごとの変化

AI モデルのトレーニングに必要なメモリは、通常、パラメータの数倍になります。トレーニングでは中間アクティベーションの保存が必要になるため、通常、メモリ使用量はパラメータ数（埋め込みを除く）の 3 ～ 4 倍に増加します。

その結果、AI トレーニングは必然的に「メモリの壁」にぶつかります。これは、メモリ容量だけでなく、メモリ転送帯域幅も意味します。

多くの場合、データ転送の容量と速度はまだメモリの壁に達していません。

△異なるニューラルネットワークモデルをトレーニングするために必要なメモリの量

図からわかるように、GPU メモリ容量が増加するたびに、開発者は新しいモデルを設計します。

2019 年の GPT-2 に必要なメモリ容量は、2012 年の AlexNet の 7 倍以上です。

Google チームが 2017 年に Transformer を提案して以来、モデルに必要なメモリ容量は大幅に増加し始めています。

ビデオメモリをスタックするために複数の GPU に頼ることができないのはなぜですか?

では、単一のハードウェアの限られたメモリ容量と帯域幅を解消するために、トレーニングを複数の AI アクセラレータに拡張し、分散メモリを使用することは可能でしょうか?

実際、そうすることでメモリウォールの問題にも直面することになります。ニューラルネットワークアクセラレータ間でデータを移動する際の通信ボトルネックは、チップ上でデータを移動するよりもさらに遅く、非効率的です。

単一システムメモリの場合と同様に、帯域幅の拡張に関する技術的な課題はまだ克服されていません。水平スケーリングは、通信とデータ転送が少ない、計算集約的な問題にのみ適しています。

図からわかるように、コンピュータ機器の計算能力は 20 年間で 90,000 倍に増加しました。

メモリはDDRからGDDR6xに進化し、グラフィックカード、ゲーム端末、高性能コンピューティングに使用できるようになりましたが、インターフェース規格もPCIe1.0aからNVLink3.0にアップグレードされました。

しかし、コンピューティング能力の増加と比較すると、通信帯域幅の伸びはわずか30倍に過ぎず、非常に遅いと言えます。

計算能力とメモリのギャップが拡大するにつれて、より大きなモデルのトレーニングは困難になります。

「記憶の壁」を突破する方法

メモリ制限の問題を解決するにはどうすればよいですか?著者は3つの側面から分析を行った。

トレーニングアルゴリズムの改善

ニューラルネットワークモデルのトレーニングにおける課題の 1 つは、総当たりハイパーパラメータの調整です。これは 2 次確率最適化法によって実現できますが、現在の方法ではメモリ使用量が 3 ～ 4 倍に増加するため、まだ解決する必要があります。

Microsoft のゼロメソッド (1 兆レベルのモデルパラメータトレーニングメソッド) では、冗長な最適化状態変数を削除することで、同じメモリを使用して 8 倍の規模のモデルをトレーニングできます。

すべてのアクティベーションを保存する代わりに、パス中にアクティベーションのサブセットのみを保存または検査することもできます。これにより、メモリ使用量を 5 倍削減できますが、計算量は 20% 多く必要になります。

さらに、単精度演算から半精度（FP16）演算への進歩により、ハードウェアの計算能力が10倍以上向上し、INT8精度のトレーニングに適した最適化されたアルゴリズムのさらなる研究が可能になりました。

効率的な展開

最新の SOTA モデル (GPT-3 など) では分散メモリの展開が必要であり、これは大きな課題です。これらのモデルは、精度を下げたり、冗長なパラメータを削除したりすることで、推論用に圧縮できます。

トレーニングまたは推論中に、精度を INT4 まで下げることができ、モデルのフットプリントとレイテンシを 8 分の 1 に削減できます。ただし、トレーニング精度を FP16 よりも大幅に低くすることは依然として困難です。

冗長なパラメータを削除すると、精度が低下する可能性があります。現在の方法では、構造化されたスパース性を持つニューロンの 30% と、非構造化されたスパース性を持つニューロンの 80% を、精度への影響を最小限に抑えながら削減できます。

AIアクセラレータの設計

ストレージ帯域幅とピークコンピューティング能力の両方を同時に向上させることは困難ですが、ピークコンピューティングを犠牲にして帯域幅を向上させることは可能です。

帯域幅が制限された問題では、CPU は GPU よりもはるかに優れたパフォーマンスを発揮しますが、CPU のピーク時の計算能力は GPU よりも約 1 桁小さくなります。

したがって、より効率的なキャッシュを実現するために、2 つのアーキテクチャ間の別のアーキテクチャを検討することができます。

<<: 機械学習のための特徴選択の5つの方法！

>>: ソフトウェアテストに AI を統合する 9 つのメリット

Nvidia は年末に大きな動きを見せます!強力な画像ジェネレーターStyleGAN2のリリース

AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

ビデオメモリをスタックするために複数の GPU に頼ることができないのはなぜですか?

「記憶の壁」を突破する方法

Nvidia は年末に大きな動きを見せます!強力な画像ジェネレーターStyleGAN2のリリース

EasyDL Professional Notebookモデリング機能の詳しい説明

AI時代のクラウドベースのインテリジェントコンピューティング

人工知能サイバーセキュリティの市場価値は2030年までに1018億ドルに達する

AIとビッグデータのつながり

AIが使われるようになった今、データセキュリティではこれら4つの大きな問題を避けることはできない

人工知能、AI、ロボットは雇用に影響を与えるでしょうか?劉強東さんの答えに人々は拍手喝采しました！

スマートシティの建設が加速、ドローンが4つの面で貢献

推薦する

数千人を対象とした調査: AI に対する一般の認識はどのようなものでしょうか?

DAMOアカデミーと国家気象センターは共同でAIアルゴリズムを開発し、広東省の多くの場所での激しい対流気象の予測を支援することに成功した。

Midjourneyが中国のバレンタインデーのために魔法のような絵を描き、ネットユーザーを驚かせた！ローカル再描画機能が新たに開始、マスクとザッカーバーグが八角形の檻の中で戦う

機械学習が近い将来教育を変える5つの方法

汎用人工知能は可能か？

よく使われる 3 つの C# ソートアルゴリズム

ML アルゴリズムが製造業に及ぼす影響

プログラマーはAIアルゴリズムを使用して3,000匹の新しいポケモンを生成した

人工知能とニューラルネットワークの関係と違いは何ですか?

人工知能はますますあらゆる分野に浸透しつつある

人工知能は企業で実用化されつつある

Huawei Cloud Tianchou AI Solverが世界人工知能会議で最高賞を受賞