GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します

GPT-3 ハイパーパラメータは単一の GPU で解決できます。まず小さなモデルをトレーニングし、ワンクリックで移行します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

いやいや、状況は変わったんだ。

大規模モデルのハイパーパラメータを単一の GPU で調整することは完全に可能です。

なんと言えばいいでしょうか?

パラメータを調整する新しい方法を発見した人がいることが判明しました。モデルの規模がどう変化しても、得られる最適なハイパーパラメータは安定したパフォーマンスを維持できます。

これにより、最初にモデルの小さなバージョンをトレーニングし、その上でハイパーパラメータを間接的に調整し、ゼロショット方式でそれらをフルサイズのモデルに直接コピーして、非常に優れたパフォーマンスを実現できます。

これは、十分な GPU リソースがない人にとって最適です。

現在、関連投稿はRedditでも白熱した議論を巻き起こし、300件以上の「いいね!」を獲得している。

単一の GPU 上で大規模な GPT-3 モデルをチューニングする

この方法はmuPと呼ばれています  (最大更新パラメータ化)、著者はそれぞれMicrosoft と OpenAIに所属しています。

アイデアはシンプルで、以前の研究で発見された µP と呼ばれる特殊なパラメータ化を使用します。

ナローニューラルネットワークとワイドニューラルネットワークは、幅が無限大 (width->∞) の場合でも、同じ最適なハイパーパラメータのセットを共有します。

具体的な原理については、論文「無限幅ニューラル ネットワークにおける特徴学習」を参照してください。

共有できるハイパーパラメータには、学習率、学習率スケジュール、初期化、パラメータ乗数などが含まれ、パラメータテンソルごとに個別に共有することもできます。

著者は、最大 4096 の幅を持つTransformer と ResNetでこの結論を検証しました。

したがって、リソースが乏しい錬金術師は、単一の GPU 上で GPT-3 モデルの小さなバージョンに対してハイパーパラメータの調整を実行できます。

この小さなモデルで得られたパラメータが最適に近い場合、大きなモデルでも同じ結果が得られます。

ps. このパラメータ調整方法は「 µTransfer 」とも呼ばれます。

具体的な効果は何ですか?

著者は、わずか4,000 万のパラメータを持つ小さな GPT-3 をトレーニングしました。これは、GPU 上で直接実行できるほど小さいものです。

その後、そのハイパーパラメータは67 億のパラメータを持つ大規模な GPT-3 に「µ 転送」され、元の GPT-3 のパラメータ スケールが 2 倍であったにもかかわらず、そのパフォーマンスは元の GPT-3 と完全に匹敵することがわかりました。

そして、この調整コストは、事前トレーニング全体のコストのわずか 7% を占めます。

モデルのサイズが大きくなっても、小さなモデルを直接調整するコストはほぼ同じままです。この方法を使用して GPT-3 の 175 億個のパラメータを調整する場合、コストは最大で事前トレーニングの総コストの 0.3% になる可能性があります。

さて、ここで疑問に思うかもしれません。「モデルの幅を狭めればいいのでしょうか?」

著者は、「幅のないもの」については理論的な保証はないと述べています。

しかし、良いニュースは、深度、バッチ サイズ、シーケンス長、およびタイム ステップの移行効果を、preLN Transformer の妥当な範囲内でテストしたことです。

その中で、BERT-base と BERT-large の幅と深さを同じサイズに縮小し、同時にハイパーパラメータを調整したところ、次のことがわかりました。

すでに調整済みの megatron BERT ベースラインと比較すると、両方のパフォーマンスが向上しており、特にBERT-large のパフォーマンスが向上しています。

これによって次のような結論も導かれます。

移行するモデルの規模が大きいほど、メリットは大きくなります。

そこで著者は、GPT-3 を 175 億の規模でテストしたわけではないが、その結果は「よだれが出るほど」になることを保証すると冗談を言った。

ここまで述べてきましたが、どうすればそれを達成できるのでしょうか?

次の表は、ファンインまたはファンアウトによってモデルの初期化と学習率を調整する方法をまとめたものです。

ピンク色のテキストは µP で、括弧内の灰色のテキストは pytorch のデフォルトです。

もちろん、手動でやりたくない場合は、著者がオープンソース化した Pytorch 実装も公開しており、pip install mup でモデルに適用できます。

著者について

第一著者は、マイクロソフトの上級研究員である Greg Yang 氏です。

責任著者は、Microsoft Research の Deep Learning Technology Center のパートナー研究マネージャーであり、IEEE フェローでもある Jianfeng Gao です。

著者は中国人の 2 名、劉暁東 (北京郵電大学卒業生) とマイクロソフトの陳偉珠です。   (マイクロソフトに16年間勤務)。

彼らの研究結果はNeurIPS 2021に採択されました。

GitHub リンク:
​​https://github.com/microsoft/mup​​

論文の宛先:
​​https://arxiv.org/abs/2203.03466​​

公式ブログリンク:
​​https://www.microsoft.com/en-us/research/blog/%C2%B5transfer-a-technique-for-hyperparameter-tuning-of-enormous-neural-networks/​​

Reddit の議論:
​​https://www.reddit.com/r/MachineLearning/comments/tb0jm6/r_you_cant_train_gpt3_on_a_single_gpu_but_you_can/​​

<<:  テンセントの古い写真修復アルゴリズムはオープンソースで、髪の毛まで詳細に再現されており、3つの事前トレーニング済みモデルがダウンロード可能

>>:  TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ

ブログ    
ブログ    
ブログ    

推薦する

...

量子コンピュータ、数学オリンピックのための AI... これらは 2020 年のコンピュータと数学における大きな進歩です

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

南洋理工大学と香港中文大学の Talk-to-Edit: 対話により非常にきめ細かな顔の編集が可能に

[[425172]]南洋理工大学と香港中文大学の研究者らは、ユーザーとシステム間の対話を通じてきめ...

...

Wu Fengguang: Linux を使って事前読み取りアルゴリズムを学ぶ

Linux は急速に発展し、今では Microsoft に追いついています。Linux をより良く適...

...

画像を外国語として扱うKuaishouと北京大学のマルチモーダル大規模モデルはDALLE-3に匹敵する

GPT や LLaMA などの現在の大規模言語モデルは、自然言語処理の分野で大きな進歩を遂げており、...

バナナの皮をむくのに9つの手順が必要ですか?ロボットが果肉を傷つけないように、研究者たちは何百本ものバナナの皮をむくのに13時間を費やした。

ビッグデータダイジェスト制作著者: カレブボストン・ダイナミクスを例に挙げると、ロボットはますます多...

...

データ ガバナンスは AI 疲労の問題を解決できるか?

データ ガバナンスと AI 疲労は 2 つの異なる概念のように聞こえるかもしれませんが、この 2 つ...

マイクロソフト、感情分析技術の販売を中止し、顔認識ツールの使用を制限

マイクロソフトは、人工知能システムのためのより責任ある枠組みを構築する取り組みの一環として、画像分析...

ゴミ分別ロボットが登場! 1分間に80個の仕分けが可能、人間の2倍の速さ

[[270507]]画像: AMP Robotics の特注マシンは、1 分間に 80 個のアイテム...

コロナウイルス:スマートシティ変革のきっかけ

都市環境は、物理的、デジタル的、人間的システムを統合し、住民と企業に優れた成果をもたらします。 [[...

世界の自動運転事故を比較することで、そのデータと真実が明らかになった。

最近起きた自動車事故は、被害者の身元が明らかになったこと、運転支援技術の台頭と普及、中国の有名自動車...