この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 オプティマイザーは、大規模な言語モデルのトレーニング中に大量のメモリ リソースを消費します。 パフォーマンスを維持しながらメモリ使用量を半分に削減する新しい最適化が導入されました。 この成果はシンガポール国立大学によって生み出され、ACLカンファレンスで優秀論文賞を受賞し、実用化されました。 写真 大規模言語モデルのパラメータ数が増加し続けると、トレーニング中のメモリ消費の問題がより深刻になります。 研究チームは、メモリ消費量を削減しながら Adam と同等のパフォーマンスを実現する CAME オプティマイザーを提案しました。 写真 CAME オプティマイザーは、一般的に使用される複数の大規模言語モデルの事前トレーニングにおいて、Adam オプティマイザーと同等かそれ以上のトレーニング パフォーマンスを達成し、大規模バッチの事前トレーニング シナリオでより強力な堅牢性を示しました。 さらに、CAME オプティマイザーを使用して大規模言語モデルをトレーニングすると、大規模モデルのトレーニングコストを大幅に削減できます。 実装CAME オプティマイザーは、大規模言語モデルの事前トレーニング タスクでトレーニング パフォーマンスの低下につながることが多い Adafactor オプティマイザーを改良したものです。 Adafactor の非負行列分解演算では、ディープ ニューラル ネットワークのトレーニング中に必然的にエラーが発生し、これらのエラーを修正することがパフォーマンス低下の原因となります。 比較すると、初期値 m tと現在の値tの差が小さい場合、m tの信頼性が高くなることがわかります。 写真 これに触発されて、チームは新しい最適化アルゴリズムを提案しました。 下の図の青い部分は、Adafactor と比較した CAME の増加です。 写真 CAME オプティマイザーは、モデル更新の信頼度に基づいて更新量を修正し、導入された信頼度行列に対して非負行列分解を実行します。 最終的に、CAME は Adafactor を犠牲にして Adam の効果を得ることに成功しました。 効果は同じだが、消費するリソースは半分だけチームは CAME を使用して、それぞれ BERT、GPT-2、T5 モデルのトレーニングを行いました。 以前から一般的に使用されていた Adam (より良い効果) と Adafactor (より低い消費) は、CAME のパフォーマンスを測定するための基準です。 その中で、BERT をトレーニングする過程で、CAME は Adafactor と同等の精度を半分のステップ数で達成しました。 △左側が8Kスケール、右側が32Kスケール GPT-2 の場合、損失と困惑の観点から、CAME のパフォーマンスは Adam に非常に近いです。 CAME は T5 モデルのトレーニングでも同様の結果を示しました。 モデルの微調整に関しては、CAME は精度の点でベースラインと同様に機能します。 リソース消費の点では、PyTorch を使用して 4B データで BERT をトレーニングすると、CAME によって消費されるメモリ リソースはベースラインと比較してほぼ半分に削減されます。 チームについてシンガポール国立大学 HPC-AI 研究所は、You Yang 教授が率いる高性能コンピューティングおよび人工知能研究所です。 この研究所は、高性能コンピューティング、機械学習システム、分散並列コンピューティングの研究と革新に取り組んでおり、大規模言語モデルなどの分野での応用を推進しています。 研究室の責任者であるYou Yang氏は、シンガポール国立大学コンピューターサイエンス学部の学長若手教授です。 2021年、You YangはForbes 30 Under 30 List (Asia)に選出され、IEEE-CS Outstanding Newcomer Award in Supercomputingを受賞しました。彼の現在の研究は、大規模なディープラーニングトレーニングアルゴリズムの分散最適化に焦点を当てています。 この記事の筆頭著者である Luo Yang 氏は、この研究室の修士課程の学生です。彼の現在の研究は、大規模モデルの安定性と効率的なトレーニングに焦点を当てています。 論文アドレス: https://arxiv.org/abs/2307.02047 GitHub プロジェクト ページ: https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME |
<<: ACL'23表彰式は大成功でした!前例のない75件の論文がリストされ、その半分は中国語でした。
世間の好むと好まざるとにかかわらず、人工知能の新しい時代が静かに到来した。しかし、人工知能が本格的に...
データ爆発の時代では、データの収集だけでは不十分です。ビジネスを運営し、成長させるための洞察を得るに...
製薬業界の専門家は、人工知能(AI)が2021年に業界で最も破壊的な技術になると考えています。臨床開...
前回の記事では主に非線形次元削減手法についてまとめました。この記事では、一般的な線形次元削減手法につ...
先月、イーロン・マスク氏は公開書簡でAIシステムの開発を6か月間停止するよう求め、「人間と競合する知...
2020年は多くの人々にとって忘れられない年です。新型コロナウイルス感染症の突然の発生は、ほぼすべて...
[[422568]]イーストロサンゼルスのアービーズ・ドライブスルーでローストビーフサンドイッチを注...
顔認識、音声認識、自動運転などが注目されるようになり、人工知能(AI)と社会や人間の生活の融合が急速...
今日のグローバル社会は絶えず変化しています。 この文脈において、人工知能は物流業務システムの方向性を...
恒生銀行とその子会社である恒生聚源は6月28日、金融インテリジェントアシスタントPhotonや新しく...
科学技術の継続的な進歩により、人工知能(AI)はあらゆる面で常に人間を超えつつあるようだ。例えば、1...
ロジスティック回帰は、バイナリ分類タスクで最も一般的に使用される機械学習アルゴリズムの 1 つです。...
最も人気があり、広く使用されている GNN ライブラリ PyG (PyTorch Geometric...
Python はスクリプト言語であり、さまざまな他のプログラミング言語で記述されたモジュールを結合...