AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

[[390958]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AIトレーニングに必要な計算能力は年々大幅に増加しています。最近の研究では、将来のAIトレーニングのボトルネックは計算能力ではなく、GPUメモリになると指摘されています。

AI アクセラレータは、ハードウェアのピーク時の計算能力を高めるために他の部分を簡素化または削除することがよくありますが、メモリと通信の課題を解決するのは困難です。

チップ内、チップ間、AI アクセラレータ間の通信は、AI トレーニングのボトルネックになっています。

Transformer モデル (赤) のパラメータ数は 2 年間で 240 倍という超指数関数的な増加を示していますが、単一の GPU (緑) のメモリは 2 年間で 2 倍の割合でしか拡大していません。

△SOTAモデルのパラメータ数(赤点)とAIアクセラレータのストレージ容量(緑点)の年ごとの変化

AI モデルのトレーニングに必要なメモリは、通常、パラメータの数倍になります。トレーニングでは中間アクティベーションの保存が必要になるため、通常、メモリ使用量はパラメータ数(埋め込みを除く)の 3 ~ 4 倍に増加します。

その結果、AI トレーニングは必然的に「メモリの壁」にぶつかります。これは、メモリ容量だけでなく、メモリ転送帯域幅も意味します。

多くの場合、データ転送の容量と速度はまだメモリの壁に達していません。

△異なるニューラルネットワークモデルをトレーニングするために必要なメモリの量

図からわかるように、GPU メモリ容量が増加するたびに、開発者は新しいモデルを設計します。

2019 年の GPT-2 に必要なメモリ容量は、2012 年の AlexNet の 7 倍以上です。

Google チームが 2017 年に Transformer を提案して以来、モデルに必要なメモリ容量は大幅に増加し始めています。

ビデオメモリをスタックするために複数の GPU に頼ることができないのはなぜですか?

では、単一のハードウェアの限られたメモリ容量と帯域幅を解消するために、トレーニングを複数の AI アクセラレータに拡張し、分散メモリを使用することは可能でしょうか?

実際、そうすることでメモリウォールの問題にも直面することになります。ニューラル ネットワーク アクセラレータ間でデータを移動する際の通信ボトルネックは、チップ上でデータを移動するよりもさらに遅く、非効率的です。

単一システムメモリの場合と同様に、帯域幅の拡張に関する技術的な課題はまだ克服されていません。水平スケーリングは、通信とデータ転送が少ない、計算集約的な問題にのみ適しています。

図からわかるように、コンピュータ機器の計算能力は 20 年間で 90,000 倍に増加しました。

メモリはDDRからGDDR6xに進化し、グラフィックカード、ゲーム端末、高性能コンピューティングに使用できるようになりましたが、インターフェース規格もPCIe1.0aからNVLink3.0にアップグレードされました。

しかし、コンピューティング能力の増加と比較すると、通信帯域幅の伸びはわずか30倍に過ぎず、非常に遅いと言えます。

計算能力とメモリのギャップが拡大するにつれて、より大きなモデルのトレーニングは困難になります。

「記憶の壁」を突破する方法

メモリ制限の問題を解決するにはどうすればよいですか?著者は3つの側面から分析を行った。

トレーニングアルゴリズムの改善

ニューラル ネットワーク モデルのトレーニングにおける課題の 1 つは、総当たりハイパーパラメータの調整です。これは 2 次確率最適化法によって実現できますが、現在の方法ではメモリ使用量が 3 ~ 4 倍に増加するため、まだ解決する必要があります。

Microsoft のゼロ メソッド (1 兆レベルのモデル パラメータ トレーニング メソッド) では、冗長な最適化状態変数を削除することで、同じメモリを使用して 8 倍の規模のモデルをトレーニングできます。

すべてのアクティベーションを保存する代わりに、パス中にアクティベーションのサブセットのみを保存または検査することもできます。これにより、メモリ使用量を 5 倍削減できますが、計算量は 20% 多く必要になります。

さらに、単精度演算から半精度(FP16)演算への進歩により、ハードウェアの計算能力が10倍以上向上し、INT8精度のトレーニングに適した最適化されたアルゴリズムのさらなる研究が可能になりました。

効率的な展開

最新の SOTA モデル (GPT-3 など) では分散メモリの展開が必要であり、これは大きな課題です。これらのモデルは、精度を下げたり、冗長なパラメータを削除したりすることで、推論用に圧縮できます。

トレーニングまたは推論中に、精度を INT4 まで下げることができ、モデルのフットプリントとレイテンシを 8 分の 1 に削減できます。ただし、トレーニング精度を FP16 よりも大幅に低くすることは依然として困難です。

冗長なパラメータを削除すると、精度が低下する可能性があります。現在の方法では、構造化されたスパース性を持つニューロンの 30% と、非構造化されたスパース性を持つニューロンの 80% を、精度への影響を最小限に抑えながら削減できます。

AIアクセラレータの設計

ストレージ帯域幅とピークコンピューティング能力の両方を同時に向上させることは困難ですが、ピークコンピューティングを犠牲にして帯域幅を向上させることは可能です。

帯域幅が制限された問題では、CPU は GPU よりもはるかに優れたパフォーマンスを発揮しますが、CPU のピーク時の計算能力は GPU よりも約 1 桁小さくなります。

したがって、より効率的なキャッシュを実現するために、2 つのアーキテクチャ間の別のアーキテクチャを検討することができます。

<<:  機械学習のための特徴選択の5つの方法!

>>:  ソフトウェアテストに AI を統合する 9 つのメリット

ブログ    
ブログ    
ブログ    

推薦する

ズークス、従業員がテスラの企業秘密を盗んだことを認める

[[322566]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

...

2019年にAI分野で何が起こったのでしょうか?

2019年は確かに忙しい年でした。人工知能に関する進歩やニュースが頻繁に報道されるにつれ、私たちの...

データに最適な埋め込みモデルの選択: OpenAI とオープンソースの多言語埋め込みの比較テスト

OpenAI は最近、次世代の埋め込みモデルである埋め込み v3 をリリースしました。同社では、この...

Google AI で学ぶ: Google が AI と機械学習の無料オンライン リソースをさらに公開

海外メディアの報道によると、機械学習とAIは現在、テクノロジー業界で最もホットな話題となっている。世...

顔認証決済はまだ普及していないが、中央銀行はすでに新しい決済方法を発表しており、ジャック・マーは今回不意を突かれた

顔認識の隠れた危険性これらの便利な支払い方法が普及したのは、ジャック・マーのおかげです。アリペイの登...

プリンストン・インフィニゲン・マトリックスが始動! AI Creatorが爆発するほどリアルな100%自然を創造

ネオは、自分が住んでいる世界が現実ではなく、綿密に設計されたシミュレーションであることを発見します。...

米国はドローンに「ナンバープレート」を発行する

[[373346]]米国連邦航空局(FAA)は月曜日、小型ドローンの夜間飛行を許可すると発表した。新...

人工知能の専門家:ディープラーニングは行き止まりではない

ディープラーニングは機械学習手法の一種であり、人工知能を実現するための重要な基盤です。最近、一部の学...

機械学習論文を再現する際に注意すべき5つの問題

私が初めて機械学習に興味を持ったとき、論文を読んだり、それを実装したりすることに多くの時間を費やしま...

2020年のディープラーニングに必要なGPUは?48Gのビデオメモリが推奨

ご存知のとおり、現在業界で最も強力な (SOTA) ディープラーニング モデルは、膨大な量のビデオ ...

...

人工知能技術の出発点と終着点

1. 人工知能技術の定義人工知能技術は、複雑な生産労働において機械が人間に取って代わることを可能にす...

南洋理工大学華中科技大学などの最新研究:完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる! NDSS

今年、ネットユーザーから「おばあちゃんの抜け穴」と揶揄された大規模言語モデルの「脱獄」法が大人気とな...