大規模モデルのトレーニングコストがほぼ半分に削減されます。シンガポール国立大学の最新の最適化ツールが現在使用されています

大規模モデルのトレーニングコストがほぼ半分に削減されます。シンガポール国立大学の最新の最適化ツールが現在使用されています

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

オプティマイザーは、大規模な言語モデルのトレーニング中に大量のメモリ リソースを消費します。

パフォーマンスを維持しながらメモリ使用量を半分に削減する新しい最適化が導入されました。

この成果はシンガポール国立大学によって生み出され、ACLカンファレンスで優秀論文賞を受賞し、実用化されました。

写真

大規模言語モデルのパラメータ数が増加し続けると、トレーニング中のメモリ消費の問題がより深刻になります。

研究チームは、メモリ消費量を削減しながら Adam と同等のパフォーマンスを実現する CAME オプティマイザーを提案しました。

写真

CAME オプティマイザーは、一般的に使用される複数の大規模言語モデルの事前トレーニングにおいて、Adam オプティマイザーと同等かそれ以上のトレーニング パフォーマンスを達成し、大規模バッチの事前トレーニング シナリオでより強力な堅牢性を示しました。

さらに、CAME オプティマイザーを使用して大規模言語モデルをトレーニングすると、大規模モデルのトレーニングコストを大幅に削減できます。

実装

CAME オプティマイザーは、大規模言語モデルの事前トレーニング タスクでトレーニング パフォーマンスの低下につながることが多い Adafactor オプティマイザーを改良したものです。

Adafactor の非負行列分解演算では、ディープ ニューラル ネットワークのトレーニング中に必然的にエラーが発生し、これらのエラーを修正することがパフォーマンス低下の原因となります。

比較すると、初期値 m tと現在の値tの差が小さい場合、m tの信頼性が高くなることがわかります。

写真

これに触発されて、チームは新しい最適化アルゴリズムを提案しました。

下の図の青い部分は、Adafactor と比較した CAME の増加です。

写真

CAME オプティマイザーは、モデル更新の信頼度に基づいて更新量を修正し、導入された信頼度行列に対して非負行列分解を実行します。

最終的に、CAME は Adafactor を犠牲にして Adam の効果を得ることに成功しました。

効果は同じだが、消費するリソースは半分だけ

チームは CAME を使用して、それぞれ BERT、GPT-2、T5 モデルのトレーニングを行いました。

以前から一般的に使用されていた Adam (より良い効果) と Adafactor (より低い消費) は、CAME のパフォーマンスを測定するための基準です。

その中で、BERT をトレーニングする過程で、CAME は Adafactor と同等の精度を半分のステップ数で達成しました。

△左側が8Kスケール、右側が32Kスケール

GPT-2 の場合、損失と困惑の観点から、CAME のパフォーマンスは Adam に非常に近いです。

CAME は T5 モデルのトレーニングでも同様の結果を示しました。

モデルの微調整に関しては、CAME は精度の点でベースラインと同様に機能します。

リソース消費の点では、PyTorch を使用して 4B データで BERT をトレーニングすると、CAME によって消費されるメモリ リソースはベースラインと比較してほぼ半分に削減されます。

チームについて

シンガポール国立大学 HPC-AI 研究所は、You Yang 教授が率いる高性能コンピューティングおよび人工知能研究所です。

この研究所は、高性能コンピューティング、機械学習システム、分散並列コンピューティングの研究と革新に取り組んでおり、大規模言語モデルなどの分野での応用を推進しています。

研究室の責任者であるYou Yang氏は、シンガポール国立大学コンピューターサイエンス学部の学長若手教授です。

2021年、You YangはForbes 30 Under 30 List (Asia)に選出され、IEEE-CS Outstanding Newcomer Award in Supercomputingを受賞しました。彼の現在の研究は、大規模なディープラーニングトレーニングアルゴリズムの分散最適化に焦点を当てています。

この記事の筆頭著者である Luo Yang 氏は、この研究室の修士課程の学生です。彼の現在の研究は、大規模モデルの安定性と効率的なトレーニングに焦点を当てています。

論文アドレス: https://arxiv.org/abs/2307.02047

GitHub プロジェクト ページ: https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME

<<:  ACL'23表彰式は大成功でした!前例のない75件の論文がリストされ、その半分は中国語でした。

>>:  自動運転の研究の方向性は間違っているのか?

ブログ    
ブログ    

推薦する

教育省は小中学校の人工知能教育拠点のリストを発表し、北京洪志中学校を含む184校が選ばれた。

教育部基礎教育司は1月11日、「教育部弁公庁による小中学校向け人工知能教育拠点の推薦に関する通知」(...

Python データ分析の基礎: 外れ値の検出と処理

機械学習において、異常検出と処理は比較的小さな分野、または機械学習の副産物です。一般的な予測問題では...

...

インテリジェントオートメーションが現代の職場に与える影響

インテリジェントオートメーションは現代の職場をさまざまな形で変えていますCOVID-19パンデミック...

北京冬季オリンピックと人工知能が出会うと、どんな火花が散るのでしょうか?

2008年、北京オリンピックのテクノロジーと壮大な雰囲気は世界に深い印象を残しました。 2022年...

最初の AGI は 2028 年に登場するでしょうか? Google DeepMindは6つのAGI標準を提案し、5つのAGIレベルを定義している

人類は最初の AGI の出現にますます近づいています。最近のインタビューで、DeepMindの共同設...

国連チーフAIアドバイザーとの独占インタビュー:AIは完璧だと期待しているが、決して完璧ではない

[[384962]]ビッグデータダイジェスト制作出典: informationweek編纂者:張大毓...

あなたの GPU は Llama 2 のような大規模なモデルを実行できますか?このオープンソースプロジェクトを試してみてください

コンピューティング能力が重要視される時代に、GPU は大規模モデル (LLM) をスムーズに実行でき...

MITはレーザー彫刻機にAIを搭載し、材料を自動的に識別し、98%の精度で彫刻の強度を判定した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データ駆動型パーソナライゼーションの時代: AI と ML がデータの読み取りと理解の方法をどのように変えているのか

今日のビジネスはデータとデータに基づく理解によって支配されています。データをどのように理解し、それを...

AGI は 1 年以内に登場しますが、人類には 5 年しかありませんか?

OpenAIは今年初めにSoraを発表し、世界中に衝撃を与えた。数年前まではまだ、この大柄なモデル...

...

科学者が人工結晶で大きな進歩を遂げ、コンピューターをより低電力で動作可能に

コンピューターは小型化、高性能化していますが、動作には大量のエネルギーが必要です。過去 10 年間で...

IBM、生成AIの基礎モデルを発表

IBM Granite ファミリーの基礎モデルは、生成 AI を自然言語およびコーディング タスクに...

...