この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

少し前に、Google Brain チームの論文「Attention Is All You Need」の Transformer アーキテクチャ図とコードに矛盾があると指摘するツイートが大きな議論を巻き起こしました。

セバスチャンの発見は意図しないミスだったと考える人もいるが、同時に奇妙でもある。結局のところ、Transformer 論文の人気を考えると、この矛盾は 1,000 回も前に言及されているはずでした。

セバスチャン・ラシュカ氏はネットユーザーからのコメントに応えて、「最もオリジナルな」コードは確かにアーキテクチャ図と一致しているが、2017年に提出されたコードバージョンはアーキテクチャ図を更新せずに変更されたと述べた。これは「矛盾」の議論の根本的な原因でもあります。

その後、セバスチャンは Ahead of AI に記事を掲載し、オリジナルの Transformer アーキテクチャ図がコードと一致しなかった理由を具体的に説明し、いくつかの論文を引用して Transformer の開発と変更について簡単に説明しました。

以下は記事の原文です。記事に実際に何が書かれているか見てみましょう。

数か月前、私は「大規模言語モデルの理解: 最新情報を入手するための最も関連性の高い文献の横断」を共有しましたが、肯定的なフィードバックをいただき、とても励みになりました。したがって、リストを最新かつ関連性のあるものに保つために、いくつかの論文を追加しました。

同時に、全員が妥当な時間内に理解できるよう、リストを簡潔に保つことが重要です。多くの情報を含む論文もいくつかあるので、それも含めるべきだと考えます。

Transformer を歴史的な観点から理解するのに役立つ 4 つの論文を紹介します。これらは「大規模言語モデルの理解」の記事に直接追加しましたが、「大規模言語モデルの理解」を以前に読んだことがある人が簡単に見つけられるように、この投稿でも個別に共有しました。

Transformer アーキテクチャにおけるレイヤーの正規化について (2020)

以下の元の Transformer ダイアグラム (左) は、元のエンコーダー/デコーダーアーキテクチャの便利な概要ですが、小さな違いが 1 つあります。たとえば、残差ブロック間のレイヤー正規化を行いますが、これは元の Transformer 論文に付属する公式の (更新された) コード実装と一致しません。下の図 (中央) に示すバリエーションは、Post-LN Transformer と呼ばれます。

Transformer アーキテクチャの論文のレイヤー正規化では、Pre-LN の方が適切に機能し、以下に示すように勾配の問題を解決できることが示されています。多くのアーキテクチャでは実際にこのアプローチを採用していますが、表現の崩壊につながる可能性があります。

したがって、Post-LN と Pre-LN のどちらを使用するかについてはまだ議論が続いていますが、両方を一緒に適用することを提案する新しい論文もあります: ResiDual: Transformer with Dual Residual Connections ですが、実際に役立つかどうかはまだわかりません。

図注: 画像出典: https://arxiv.org/abs/1706.03762 (左と中央)、https://arxiv.org/abs/2002.04745 (右)

高速重みメモリの制御の学習: 動的リカレントニューラルネットワークの代替 (1991)

この投稿は、現代のトランスフォーマーとほぼ同じような歴史的な小話や初期のアプローチに興味がある方におすすめです。

たとえば、Transformer 論文の 25 年前の 1991 年に、Juergen Schmidhuber は、Fast Weight Programmers (FWP) と呼ばれるリカレントニューラルネットワークの代替案を提案しました。 FWP 法には、勾配降下法によってゆっくりと学習し、別のニューラルネットワークの急速な重みの変化をプログラムするフィードフォワードニューラルネットワークが含まれます。

このブログ投稿では、現代のトランスフォーマーとの類似点を次のように説明しています。

今日の Transformer 用語では、FROM と TO はそれぞれキーと値と呼ばれます。高速ネットワークが適用される入力はクエリと呼ばれます。基本的に、クエリはキーと値の外積の合計である高速重みマトリックスによって処理されます（正規化と投影は無視されます）。両方のネットワークのすべての操作は微分可能であるため、加法的な外積または 2 次テンソル積を介して、エンドツーエンドの微分可能なアクティブ制御の高速な重み変更が得られます。したがって、低速ネットワークは勾配降下法を介して学習し、シーケンス処理中に高速ネットワークを迅速に修正することができます。これは、正規化を除いて、線形化された自己注意を備えたトランスフォーマー (または線形トランスフォーマー) として知られるようになったものと数学的に同等です。

上記の抜粋で述べたように、このアプローチは現在、線形トランスフォーマーまたは線形化された自己注意を備えたトランスフォーマーと呼ばれています。これらは、2020 年に arXiv に掲載された論文「Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention」(https://arxiv.org/abs/2006.16236) および「Rethinking Attention with Performers」(https://arxiv.org/abs/2009.14794) からの抜粋です。

2021 年に発表された論文「線形トランスフォーマーは秘密に高速な重みプログラマーである」(https://arxiv.org/abs/2102.11174) では、線形化された自己注意と 1990 年代の高速重みプログラマーの同等性が明示的に示されました。

画像ソース: https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

テキスト分類のためのユニバーサル言語モデルの微調整 (2018)

これは歴史的な観点から見ても非常に興味深い論文です。これはオリジナルの『Attention Is All You Need』の 1 年後に書かれたもので、トランスフォーマーについては触れず、代わりにリカレントニューラルネットワークに焦点を当てていますが、それでも見る価値はあります。言語モデルの事前トレーニングと転移学習の下流タスクを効果的に提案するためです。転移学習はコンピュータービジョンでは十分に確立されていますが、自然言語処理 (NLP) の分野ではまだ普及していません。 ULMFit (https://arxiv.org/abs/1801.06146) は、事前トレーニング済みの言語モデルを特定のタスクで微調整した後、多くの NLP タスクで SOTA 結果を生成できることを示した最初の論文の 1 つです。

ULMFit が推奨する言語モデルの微調整プロセスは、次の 3 つの段階に分かれています。

1. 大規模なテキストコーパスで言語モデルをトレーニングする。
2. タスク固有のデータに基づいて事前トレーニング済みの言語モデルを微調整し、テキストの特定のスタイルと語彙に適合させます。
3. タスク固有のデータに基づいて分類器を微調整し、レイヤーを徐々に解凍することで壊滅的な忘却を回避します。

大規模なコーパスで言語モデルをトレーニングし、その後下流のタスクで微調整するというこのアプローチは、Transformer ベースのモデルや BERT、GPT-2/3/4、RoBERTa などの基本モデルで使用される中核的なアプローチです。

ただし、ULMFiT の重要な部分である段階的な解凍は、Transformer アーキテクチャでは通常、すべてのレイヤーを一度に微調整するため、実際には実行されません。

Gopher は、LLM トレーニングを理解するための多くの分析を含む特に優れた論文です (https://arxiv.org/abs/2112.11446)。研究者らは、3000億個のトークンに対して、80層、2800億個のパラメータを持つモデルをトレーニングした。これには、LayerNorm (レイヤー正規化) の代わりに RMSNorm (二乗平均平方根正規化) を使用するなど、いくつかの興味深いアーキテクチャの変更が含まれます。 LayerNorm と RMSNorm はどちらもバッチサイズに制限がなく、同期を必要としないため、BatchNorm よりもパフォーマンスが優れています。これは、バッチサイズが小さい分散設定では有利です。 RMSNorm は一般的に、より深いアーキテクチャでのトレーニングを安定化すると考えられています。

これらの興味深い情報に加えて、この記事の主な焦点は、さまざまな規模でのタスクのパフォーマンスを分析することです。 152 種類の異なるタスクの評価では、モデルサイズを増やすことは理解、事実確認、有害な言語の特定などのタスクに最も効果的である一方、アーキテクチャの拡張は論理的および数学的推論に関連するタスクにはほとんど効果がないことがわかりました。

図注: 出典: https://arxiv.org/abs/2112.11446

<<: Promptは音声言語モデルを生成する機能を提供し、SpeechGenは音声翻訳と修復タスクを実装します。

>>: