Transformerのトレーニング問題を解決するために、Microsoft Researchは1000層のTransformerを開発しました。

論文「DeepNet: Transformers を 1,000 層にスケーリング」が、Microsoft Research から数時間前にリリースされました。

この研究により、Transformer の深さが直接 1000 層に増加しました。

この研究が何を言っているか見てみましょう。

近年、Transformer モデルは大規模化する傾向にあり、モデルパラメータが数百万から数十億、さらには数兆に増加するにつれて、パフォーマンスもそれに応じて大幅に向上しています。大規模モデルは、さまざまなタスクで最先端のパフォーマンスを実現し、少数ショットおよびゼロショットの学習設定で優れた機能を発揮します。下の図 1 に示すように、パラメータの数はすでに大きいですが、Transformer モデルの深さはトレーニングの不安定性によって制限されています。

Nguyen と Salazar (2019) は、ポストノルム接続 (Post-LN) に基づいて、プレノルム残差接続 (Pre-LN) によって Transformer の安定性を向上できることを発見しました。ただし、最下層の Pre-LN の勾配は最上層の勾配よりも大きいことが多く、Post-LN と比較してパフォーマンスが低下します。この問題を緩和するために、研究者たちは、より優れた初期化やより優れたアーキテクチャを通じて、ディープトランスフォーマーの最適化を改善する取り組みを行ってきました。これらの方法は、最大数百層の Transformer モデルを安定化できますが、以前の方法では 1,000 層まで拡張できませんでした。

新しい論文「DeepNet: Transformer を 1,000 層にスケーリング」で、Microsoft Research はついに Transformer の深さを 1,000 層に拡張しました。

論文の宛先:
出典: http://arxiv.org/pdf/2203.00555.pdf

研究者の目標は、Transformer モデルのトレーニングの安定性を向上させ、モデルの深さを桁違いに拡大することです。この目的のために、研究者らは不安定な最適化の原因を研究し、爆発的なモデル更新が不安定性の原因であることを発見しました。これらの観察に基づいて、残差接続に新しい正規化関数 DEEPNORM を導入します。これは、モデルの更新を定数に制限する場合に理論的に正当化されます。この方法はシンプルですが効果的で、数行のコードを変更するだけで済みます。最終的に、この方法により、Transformer モデルの安定性が向上し、モデルの深さが 1,000 層以上に拡張されました。

さらに、実験結果では、DEEPNORM が Post-LN の優れたパフォーマンスと Pre-LN の安定したトレーニングを効率的に組み合わせることができることが示されています。研究者らが提案した方法は、非常に深いモデル（1000 層以上）だけでなく、既存の大規模モデルに対しても、Transformer の好ましい代替手段になる可能性があります。注目すべきは、大規模な多言語機械翻訳ベンチマークにおいて、記事中の 32 億のパラメータを持つ 200 層モデル (DeepNet) が、120 億のパラメータを持つ 48 層 SOTA モデル (Facebook AI の M2M モデル) よりも 5% の BLEU 値の向上を達成したことです。

DEEPNORMアプローチ

下の図 2 に示すように、PostLN を使用すると Transformer ベースのアプローチを簡単に実装できます。 Post-LN と比較して、DEEPNORM はレイヤーの正規化を実行する前に残差接続をアップスケールします。

(キャプション) 図 2: (a) DEEPNORM の疑似コード。たとえば、Xavier 初期化 (Glorot and Bengio、2010) の代わりに他の標準的な初期化を使用できます。ここで、α は定数です。 (b) 異なるアーキテクチャ（N層エンコーダ、M層デコーダ）のDEEPNORMパラメータ。

さらに、この研究では初期化中にパラメータを縮小しました。この研究では、フィードフォワードネットワークの重みと、注意層の値投影および出力投影のみが拡張されたことは注目に値します。さらに、残余接続と初期化の規模は、図 2 のさまざまなアーキテクチャによって異なります。

ディープトランスフォーマーの不安定性

この研究では、deep Transformer が不安定になる理由を分析しました。

まず、研究者たちは、より優れた初期化方法により、Transformer のトレーニングがより安定する可能性があることを観察しました。以前の研究（Zhang et al., 2019a; Huang et al., 2020; Xu et al., 2021）でもこれが確認されています。

そこで、適切な初期化を行った場合と行わなかった場合の Post-LN のトレーニングプロセスを分析しました。より良い初期化では、Xavier初期化を実行した後、

レイヤー l の重みをダウンスケールします。例えば、l番目の層のFFNの出力投影

初期化されます

ここで、d' は入力次元と出力次元の平均です。研究者はこのモデルをPost-LN-initと名付けました。以前の研究 (Zhang et al., 2019a) とは異なり、Post-LN-init では上位層ではなく下位層の拡張が狭められることに注意してください。研究者たちは、このアプローチが勾配拡張の影響をモデル更新から切り離すのに役立つと考えています。さらに、Post-LN-init は Post-LN と同じアーキテクチャを持つため、アーキテクチャの影響が排除されます。

この研究では、IWSLT-14 De-En機械翻訳データセットで18L-18L Post-LNと18L-18L Post-LN-initをトレーニングしました。図 3 は、勾配と検証損失曲線を視覚化したものです。図3(c)に示すように、Post-LN-initは収束しますが、Post-LNは収束しません。 LN 初期化後の最後の数層の勾配ノルムは大きくなりますが、重みは縮小されています。さらに、研究者らは、モデルの深さが 6L-6L から 24L-24L までの範囲の最後のデコーダーレイヤーの勾配ノルムを視覚化しました。

下の図 3 は、モデルの深さに関係なく、最後のレイヤー Post-LN-init の勾配ノルムが Post-LN の勾配ノルムよりもはるかに大きいことを示しています。我々は、深勾配爆発がポスト LN 不安定性の根本原因ではなく、むしろモデル更新の拡張によって説明できることが多いと結論付けました。

その後、研究者らは、Post-LN の不安定性は、勾配消失やモデル更新が大きすぎることなど、一連の問題から生じていることを実証しました。図4(a)に示すように、彼らはまず訓練の初期段階でのモデル更新のノルム||ΔF||を視覚化します。

ここで、x と θ_i はそれぞれ入力と i 番目の更新後のモデルパラメータを表します。 LN 後は、トレーニングの開始時に更新が爆発的に増加しますが、その後すぐに更新はほとんど行われなくなります。これは、モデルが偽の局所最適値に陥っていることを示しています。

ウォームアップと初期化の改善は、この問題を軽減し、モデルをスムーズに更新するのに役立ちます。更新が爆発的に増加すると、LNへの入力が大きくなります（図4(b)と図4(c)を参照）。 Xiong et al. (2020) の理論的分析によれば、LN を通る勾配の大きさは入力の大きさに反比例します。

ウォームアップや正しい初期化を行わなかった場合と比較して、図4(b)と図4(c)は||x||が

これは、Post-LNトレーニングで発生する勾配消失問題を説明しています（図4（d）を参照）。

最も重要なのは、トレーニングの開始時にモデルを大幅に更新すると不安定性が始まることです。これにより、モデルが不適切な局所最適状態に陥り、各 LN の入力サイズが増加します。トレーニングが続くと、LN を通過する勾配はますます小さくなり、深刻な勾配消失につながり、局所最適からの脱出が困難になり、最適化の安定性がさらに損なわれます。対照的に、Post-LN-init の更新は比較的小さく、LN への入力は安定しています。これにより、勾配消失問題が軽減され、最適化がより安定します。

DeepNet: 非常に深いTransformerモデル

研究者らはまず、爆発的なモデル更新の問題を軽減することで最適化プロセスを安定させることができる、極めて深いTransformerモデルであるDeepNetを導入した。

DeepNet は Transformer アーキテクチャに基づいています。オリジナルの Transformer と比較すると、DeepNet は各サブレイヤーで以前の Post-LN の代わりに新しいメソッド DEEPNORM を使用します。 DEEPNORM の式を以下に示します。

ここで、αは定数であり、G_l(x_l、θ_l)はパラメータθ_lを持つl番目のTransformerサブレイヤー（つまり、アテンションまたはフィードフォワードネットワーク）の関数です。 DeepNetは残差内の重みθ_lもβだけ拡張します。

次に研究者らは、DeepNet モデルの更新の予想される規模の見積もりを提供します。

彼らは、IWSLT-14 De-En 翻訳データセットの初期トレーニング段階での Post-LN と DeepNet のモデル更新を視覚化しました (下の図 5 を参照)。 Post-LNと比較すると、DeepNetのモデル更新はほぼ一定のままであることがわかります。

最後に、DeepNet の更新は DEEPNORM の定数によって制約されることを示す理論的分析を提供します。具体的には、DeepNet の予想されるモデル更新は適切な定数 α と β によって制限されることを示しました。研究者の分析は SGD の更新に基づいており、Adam オプティマイザーでうまく機能することを経験的に証明しています。

エンコーダーのみのモデルとデコーダーのみのモデルに同じように自然に拡張されるエンコーダー/デコーダーアーキテクチャの分析を提供します。下の図に示すように、モデル更新の目標は次のように設定されています。

エンコーダのみのアーキテクチャ (BERT など) とデコーダのみのアーキテクチャ (GPT など) の導出も同様の方法で行うことができます。研究者らは、その手順を次のように要約した。

ニューラル機械翻訳

この研究では、IWSLT-14 ドイツ語-英語 (De-En) データセットや WMT-17 英語-ドイツ語 (En-De) データセットなど、一般的な機械翻訳ベンチマークにおける DeepNet の有効性を検証しました。この研究では、DeepNet を、DLCL、NormFormer、ReZero、R-Fixup、T-Fixup、DS-init、Admin などの複数の SOTA ディープトランスフォーマーモデルと比較しました。

表 1 は、WMT-17 En-De 翻訳データセットにおけるベースラインと DeepNet の結果を示しています。

図6はIWSLT-14データセットの結果を示しています。

図 7 は、WMT-17 検証セットの損失曲線を示しています。

大規模多言語ニューラル機械翻訳

この研究では、まず OPUS-100 コーパスを使用してモデルを評価します。 OPUS100 は、OPUS コレクションからランダムに抽出された 100 の言語を網羅した英語中心の多言語コーパスです。この研究では、DeepNet を 1,000 層に拡張し、500 層のエンコーダー、500 層のデコーダー、512 個の隠しサイズ、8 個のアテンションヘッド、2,048 次元のフィードフォワード層を導入しました。

表 2 は、DeepNet とベースラインの結果をまとめたものです。結果は、ネットワークの深さを増やすことで NMT の翻訳品質が大幅に向上することを示しています。48 層モデルでは、12 層モデルよりも平均 3.2 ポイントの向上が達成されます。 DeepNet は深さ 1,000 層まで正常に拡張でき、ベースラインより 4.4 BLEU が向上します。注目すべきは、DeepNet は 4 エポックのみでトレーニングされており、計算予算を増やすことでパフォーマンスをさらに向上できる可能性があることです。

深さ拡張法則: この研究では、OPUS100 データセットで {12、20、100、200、1000} 層の DeepNet をトレーニングしました。図 8 は深さ拡張曲線を示しています。バイリンガル NMT と比較すると、多言語 NMT はモデルの深さを拡張することでより多くのメリットを得られます。多言語 NMT の BLEU 値は対数的に増加することが観察され、その規則は次のように表すことができます: L(d) = A log(d) + B。ここで、d は深さ、A と B は他のハイパーパラメータに関する定数です。

より多くのデータと言語の説明: 多言語 NMT における DeepNet の限界を探るために、この研究では Schwenk らが提案した CCMatrix を使用してトレーニングデータを拡張しました。さらに、この研究では、CCAligned、OPUS、Tatoeba のデータも拡張し、Flores101 評価セットのすべての言語をカバーしました。最終的なデータは、102 の言語、1932 の方向、および 120 億の文のペアで構成されています。このデータを使用して、研究では 100 個のエンコーダー層、100 個のデコーダー層、1024 個の隠し次元、16 個のヘッド、およびフィードフォワード層の 4096 個の中間次元を持つ DeepNet をトレーニングしました。

この研究では、DeepNet と SOTA 多言語 NMT モデル M2M-100 を比較しました。 M2M-100 には 24 層のエンコーダー、24 層のデコーダー、および 4,096 個の隠しサイズがあり、最大 12B のパラメーターが生成されます。 M2M-100 と比較すると、DeepNet は深くて狭く、パラメータは 32 億個しかありません。

M2M-100 の後、この研究では、WMT、OPUS、TED、Flores を含むいくつかの多言語翻訳評価データセットでモデルを評価しました。 WMT の言語ペアは英語が中心です。英語を含む10言語、そのほとんどが高リソース言語です。 OPUS データセットの場合、この研究では 30 個の評価ペアを含むテストセットから英語以外の方向を選択しました。 TED 評価セットには 28 の言語と 756 の方向が含まれており、データは音声言語領域から取得されます。 Flores データセットには、102 の言語間のすべての翻訳ペアが含まれています。この研究では、M2M-100 と DeepNet でサポートされている言語のサブセットを使用し、87 の言語と 7,482 の翻訳方向が得られました。

結果は表 3 に示されています。公平な比較のため、この研究ではベースラインと同じ評価方法を使用しています。結果は、DeepNet がすべての評価データセットで M2M-100 よりも大幅に優れたパフォーマンスを発揮することを示しており、モデルの深化が NMT モデルの品質を向上させるための非常に有望な方向性であることを示しています。

興味のある読者は、詳細については原文論文を読んでください。

<<: 強化学習のゴッドファーザーによる新しい論文では、意思決定エージェントの普遍的なモデルを探求しています。学際的な共通点を見つける

>>: 人工知能で電力網の問題を解決する