正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る

正規化により事前トレーニングが改善され、勾配の不一致が軽減され、Facebook のモデルが GPT-3 を上回る

  [[431684]]

オリジナルの Transformer アーキテクチャでは、LayerNorm は通常 Residual の後に来ます。これは Post-LN (Post-Layer Normalization) Transformer と呼ばれます。このモデルは、機械翻訳やテキスト分類など、多くの自然言語タスクで優れたパフォーマンスを発揮します。

最近の研究では、Post-LN トランスフォーマーでは、ネットワークの後層では、前層に比べて勾配の大きさが大きいことが示されています。

実践では、Pre-LN Transformer は、より大きな学習率または非常に小さな学習率を使用してウォームアップすることができ、通常は Post-LN Transformer よりも優れたパフォーマンスが得られることがわかっているため、最近では大規模な事前トレーニング済み言語モデルでは Pre-LN Transformer が使用される傾向があります。

Facebook AI の研究者は、Pre-LN は Post-LN よりも安定性を向上させるものの、前のレイヤーの勾配が後のレイヤーの勾配よりも大きくなることが多いという欠点もあることを示しています。これらの問題は、本研究で提案された NormFormer によって軽減できます。NormFormer は、各レイヤーに 3 つの正規化操作 (自己注意の後のレイヤー正規化の追加、自己注意出力のヘッドワイズ拡張、最初の完全接続レイヤーの後のレイヤー正規化の追加) を追加することで、勾配の大きさの不一致の問題を軽減します (図 1 の中央を参照)。これらの操作により、前のレイヤーの勾配が減少し、後のレイヤーの勾配が増加し、異なるレイヤーの勾配の大きさが近くなります。

さらに、これらの追加操作では計算コストは​​ごくわずか(+0.4% のパラメータ増加)ですが、1 億 2,500 万パラメータから 27 億パラメータに及ぶ因果モデルやマスクされた言語モデルなどの下流タスクでのモデルの事前トレーニングの複雑さとパフォーマンスが向上します。たとえば、最強の 13 億パラメータ ベースラインの上に NormFormer を追加すると、同等のパープレキシティが 24% 改善され、同じ計算予算でパープレキシティが 0.27 倍向上します。このモデルは、GPT3-Large (1.3B) ゼロショットと同じパフォーマンスを 60% 高速に達成します。マスクされた言語モデルの場合、NormFormer は微調整された GLUE パフォーマンスを平均 1.9% 向上させます。

論文アドレス: https://arxiv.org/pdf/2110.09456.pdf

計算的に一致し、微調整された Pre-LN ベースラインと比較すると、NormFormer モデルはターゲットの事前トレーニング済みパープレキシティに早く到達し、より優れた事前トレーニング済みパープレキシティと下流のタスク パフォーマンスを実現します。

論文の第一著者であるサム・シュライファー氏はツイッターで「私たちが実験したあらゆる拡張(最大27億パラメータ)においてGPT-3を上回る新しい言語モデリングアーキテクチャであるNormFormerをリリースできてうれしいです」と述べた。

ケベック州モントリオール学習アルゴリズム研究所の機械学習研究者イーサン・カバレロ氏は、次のように述べています。「必要なのは、さらなる正規化だけです。GPT-3 アーキテクチャで NormFormer を使用することで、SOTA パフォーマンス、22% の速度向上、下流タスクでのゼロショット パフォーマンスの強化が実現しました。」

メソッドアーキテクチャ

NormFormer は、Pre-LN トランスフォーマーに 3 つの変更を加えます。アテンション モジュール内でヘッドワイズ スケーリングを適用し、2 つの追加の LayerNorm 操作 (1 つはアテンション モジュールの後、もう 1 つは最初の完全に接続されたレイヤーの後) を追加します。これらの変更により、少数の追加の学習可能なパラメータが導入され、各レイヤーでコスト効率よく特徴サイズを変更し、後続のコンポーネントの勾配サイズを変更できるようになります。これらの変更の詳細は、以下の図 1 に示されています。

注目のヘッドをスケーリングします。標準的なマルチヘッド アテンション操作は次のように定義されます。

研究者らは、学習したスカラー係数γ_iによって各注意ヘッドの出力をスケーリングすることを提案した。

追加のレイヤーにより、すべてのコンポーネントが正規化され、まとめられます。 Pre-LN トランスフォーマーでは、各レイヤー l は入力 x_l を次のように変更します。

対照的に、NormFormer は各入力 x_l を次のように変更します。

このうち、太字部分は新たに導入された操作です。

実験結果

カジュアル言語モデルについては、研究者らは Small (1 億 2,500 万パラメータ)、Medium (3 億 5,500 万パラメータ)、Large (13 億パラメータ)、XL (27 億パラメータ) の CLM モデルを事前トレーニングしました。

彼らは 3,000 億トークンのベースライン モデルをトレーニングし、同等の GPU 時間を使用して NormFormer モデルをトレーニングしました。NormFormer モデルでは、正規化操作の追加オーバーヘッドにより、通常、2%~6% 少ないステップとトークンが使用されました。

研究者らは、使用されたデータセットにおいて、GPT-3 で提案された学習率が最適ではなかったことを発見しました。そのため、27億パラメータのモデルを除くベースラインモデルとNormFormerモデルの各サイズについて、モデルを5万ステップトレーニングし、{1e−4、6e−4、3e−4、6e−4、1e−3、3e−3}の中から最もパフォーマンスの高い学習率を選択して学習率を調整しました。このプロセスで得られた学習率は表1に示されています。NormFormerの学習率はGPT-3の3〜5倍です。

マスク言語モデル(MLM)については、研究者らは、Liuら(2019)で使用されたRoBERTaベース、Pre-LNアーキテクチャ、ハイパーパラメータを採用しました。ベースライン モデルでは、100 万トークンで 200 万バッチを事前トレーニングしました。これは、元の roberta-base トレーニング バジェットの 4 分の 1 に相当します。比較すると、NormFormer は同じ時間内に 192 万バッチを実行します。

事前トレーニングデータについては、すべてのモデルは、CC100英語コーパスとBookCorpus、英語版Wikipedia、Common Crawlのフィルタリングされたサブセットで構成されるLiu et al. (2019)の英語テキストコレクションで事前トレーニングされました。

下の図 2 では、研究者は CLM と MLM のトレーニング前の困惑をトレーニング時間、つまり GPU 日数として表しています。ご覧のとおり、NormFormer は、与えられたトレーニング計算予算に対して、大幅に高速にトレーニングし、より優れた検証の難しさを実現します。

研究者らは下流のタスクでも同様の傾向を観察した。下の表2に示すように、研究者はBrown et al. (2020)のタスクとプロンプトを使用して、CLMモデルのゼロショット精度を観察しました。同様に、NormFormer はあらゆるサイズで GPT-3 よりも優れています。

MLM モデルの場合、研究者は GLUE の微調整精度を以下の表 3 に報告しています。繰り返しになりますが、NormFormer MLM モデルは、すべてのタスクにおいて Pre-LN モデルよりも優れたパフォーマンスを発揮します。

アーキテクチャの安定性を測定するために、研究者らは、損失が爆発するまで各ステップで学習率が少しずつ増加するように、非常に大きなピーク学習率を持つ学習率スケジュールを使用してアーキテクチャをトレーニングしました。図 5 は、NormFormer モデルがベースラインと比較してこの設定でより多くの更新を維持できることを示しています。

<<:  モデルの一般化にはSGDに匹敵するフルバッチGDのランダムトレーニングは必要ない、ネットユーザー:計算コストは​​手頃ではない

>>:  商用アプリケーション向けディープラーニング画像キャプション技術

ブログ    
ブログ    

推薦する

...

GPT-4 は生物兵器を作成できません! OpenAIの最新の実験では、大規模モデルはほぼ0であることが証明されている

GPT-4 は生物兵器の開発を加速させるでしょうか? AIが世界を支配することを心配する前に、人類は...

機械学習の問題を解決する一般的な方法があります!この記事を1つだけ読んでみてください!

[[205485]]アビシェーク・タクル編集者: Cathy、Huang Wenchang、Jia...

YouTube 動画推奨アルゴリズムを破る方法

映画、ドラマ、テレビ番組、オンライン ビデオなどの配信チャネルのコンテンツ ワーカーの場合、コンテン...

...

...

「あなたは私の中にいて、私はあなたの中にいる」人工知能はビッグデータと恋愛関係になりたい!

最近では、「ビッグデータ」や「人工知能」ほどよく使われる流行語はほとんどありません。多くのデータ分析...

...

...

中国の「データブリックス」:AIインフラの構築に真剣に取り組む

AI導入の最大の推進要因はインフラのアップグレードです。近年、ビッグデータ分析やAIなどの分野が注目...

...

今後5年間で人気が高まり、就職時の給与も高くなる3つの専攻

大学で何を専攻するかは、慎重に考える必要があります。結局のところ、大学の専攻の選択は私たちの将来の発...

Googleは、自社のBardを含むチャットボットの使用には注意するよう従業員に警告している。

ロイター通信は6月19日、事情に詳しい4人の関係者の話として、グーグルの親会社アルファベットはチャッ...