この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

少し前に、Google Brain チームの論文「Attention Is All You Need」の Transformer アーキテクチャ図とコードに矛盾があると指摘するツイートが大きな議論を巻き起こしました。

セバスチャンの発見は意図しないミスだったと考える人もいるが、同時に奇妙でもある。結局のところ、Transformer 論文の人気を考えると、この矛盾は 1,000 回も前に言及されているはずでした。

セバスチャン・ラシュカ氏はネットユーザーからのコメントに応えて、「最もオリジナルな」コードは確かにアーキテクチャ図と一致しているが、2017年に提出されたコードバージョンはアーキテクチャ図を更新せずに変更されたと述べた。これは「矛盾」の議論の根本的な原因でもあります。

その後、セバスチャンは Ahead of AI に記事を掲載し、オリジナルの Transformer アーキテクチャ図がコードと一致しなかった理由を具体的に説明し、いくつかの論文を引用して Transformer の開発と変更について簡単に説明しました。

以下は記事の原文です。記事に実際に何が書かれているか見てみましょう。

数か月前、私は「大規模言語モデルの理解: 最新情報を入手するための最も関連性の高い文献の横断」を共有しましたが、肯定的なフィードバックをいただき、とても励みになりました。したがって、リストを最新かつ関連性のあるものに保つために、いくつかの論文を追加しました。

同時に、全員が妥当な時間内に理解できるよう、リストを簡潔に保つことが重要です。多くの情報を含む論文もいくつかあるので、それも含めるべきだと考えます。

Transformer を歴史的な観点から理解するのに役立つ 4 つの論文を紹介します。これらは「大規模言語モデルの理解」の記事に直接追加しましたが、「大規模言語モデルの理解」を以前に読んだことがある人が簡単に見つけられるように、この投稿でも個別に共有しました。

Transformer アーキテクチャにおけるレイヤーの正規化について (2020)

以下の元の Transformer ダイアグラム (左) は、元のエンコーダー/デコーダー アーキテクチャの便利な概要ですが、小さな違いが 1 つあります。たとえば、残差ブロック間のレイヤー正規化を行いますが、これは元の Transformer 論文に付属する公式の (更新された) コード実装と一致しません。下の図 (中央) に示すバリエーションは、Post-LN Transformer と呼ばれます。

Transformer アーキテクチャの論文のレイヤー正規化では、Pre-LN の方が適切に機能し、以下に示すように勾配の問題を解決できることが示されています。多くのアーキテクチャでは実際にこのアプローチを採用していますが、表現の崩壊につながる可能性があります。

したがって、Post-LN と Pre-LN のどちらを使用するかについてはまだ議論が続いていますが、両方を一緒に適用することを提案する新しい論文もあります: ResiDual: Transformer with Dual Residual Connections ですが、実際に役立つかどうかはまだわかりません。


図注: 画像出典: https://arxiv.org/abs/1706.03762 (左と中央)、https://arxiv.org/abs/2002.04745 (右)

高速重みメモリの制御の学習: 動的リカレントニューラルネットワークの代替 (1991)

この投稿は、現代のトランスフォーマーとほぼ同じような歴史的な小話や初期のアプローチに興味がある方におすすめです。

たとえば、Transformer 論文の 25 年前の 1991 年に、Juergen Schmidhuber は、Fast Weight Programmers (FWP) と呼ばれるリカレント ニューラル ネットワークの代替案を提案しました。 FWP 法には、勾配降下法によってゆっくりと学習し、別のニューラル ネットワークの急速な重みの変化をプログラムするフィードフォワード ニューラル ネットワークが含まれます。

このブログ投稿では、現代のトランスフォーマーとの類似点を次のように説明しています。

今日の Transformer 用語では、FROM と TO はそれぞれキーと値と呼ばれます。高速ネットワークが適用される入力はクエリと呼ばれます。基本的に、クエリはキーと値の外積の合計である高速重みマトリックスによって処理されます(正規化と投影は無視されます)。両方のネットワークのすべての操作は微分可能であるため、加法的な外積または 2 次テンソル積を介して、エンドツーエンドの微分可能なアクティブ制御の高速な重み変更が得られます。したがって、低速ネットワークは勾配降下法を介して学習し、シーケンス処理中に高速ネットワークを迅速に修正することができます。これは、正規化を除いて、線形化された自己注意を備えたトランスフォーマー (または線形トランスフォーマー) として知られるようになったものと数学的に同等です。

上記の抜粋で述べたように、このアプローチは現在、線形トランスフォーマーまたは線形化された自己注意を備えたトランスフォーマーと呼ばれています。これらは、2020 年に arXiv に掲載された論文「Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention」(https://arxiv.org/abs/2006.16236) および「Rethinking Attention with Performers」(https://arxiv.org/abs/2009.14794) からの抜粋です。

2021 年に発表された論文「線形トランスフォーマーは秘密に高速な重みプログラマーである」(https://arxiv.org/abs/2102.11174) では、線形化された自己注意と 1990 年代の高速重みプログラマーの同等性が明示的に示されました。


画像ソース: https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

テキスト分類のためのユニバーサル言語モデルの微調整 (2018)

これは歴史的な観点から見ても非常に興味深い論文です。これはオリジナルの『Attention Is All You Need』の 1 年後に書かれたもので、トランスフォーマーについては触れず、代わりにリカレント ニューラル ネットワークに焦点を当てていますが、それでも見る価値はあります。言語モデルの事前トレーニングと転移学習の下流タスクを効果的に提案するためです。転移学習はコンピュータービジョンでは十分に確立されていますが、自然言語処理 (NLP) の分野ではまだ普及していません。 ULMFit (https://arxiv.org/abs/1801.06146) は、事前トレーニング済みの言語モデルを特定のタスクで微調整した後、多くの NLP タスクで SOTA 結果を生成できることを示した最初の論文の 1 つです。

ULMFit が推奨する言語モデルの微調整プロセスは、次の 3 つの段階に分かれています。

  • 1. 大規模なテキストコーパスで言語モデルをトレーニングする。
  • 2. タスク固有のデータに基づいて事前トレーニング済みの言語モデルを微調整し、テキストの特定のスタイルと語彙に適合させます。
  • 3. タスク固有のデータに基づいて分類器を微調整し、レイヤーを徐々に解凍することで壊滅的な忘却を回避します。

大規模なコーパスで言語モデルをトレーニングし、その後下流のタスクで微調整するというこのアプローチは、Transformer ベースのモデルや BERT、GPT-2/3/4、RoBERTa などの基本モデルで使用される中核的なアプローチです。

ただし、ULMFiT の重要な部分である段階的な解凍は、Transformer アーキテクチャでは通常、すべてのレイヤーを一度に微調整するため、実際には実行されません。


Gopher は、LLM トレーニングを理解するための多くの分析を含む特に優れた論文です (https://arxiv.org/abs/2112.11446)。研究者らは、3000億個のトークンに対して、80層、2800億個のパラメータを持つモデルをトレーニングした。これには、LayerNorm (レイヤー正規化) の代わりに RMSNorm (二乗平均平方根正規化) を使用するなど、いくつかの興味深いアーキテクチャの変更が含まれます。 LayerNorm と RMSNorm はどちらもバッチ サイズに制限がなく、同期を必要としないため、BatchNorm よりもパフォーマンスが優れています。これは、バッチ サイズが小さい分散設定では有利です。 RMSNorm は一般的に、より深いアーキテクチャでのトレーニングを安定化すると考えられています。

これらの興味深い情報に加えて、この記事の主な焦点は、さまざまな規模でのタスクのパフォーマンスを分析することです。 152 種類の異なるタスクの評価では、モデル サイズを増やすことは理解、事実確認、有害な言語の特定などのタスクに最も効果的である一方、アーキテクチャの拡張は論理的および数学的推論に関連するタスクにはほとんど効果がないことがわかりました。

図注: 出典: https://arxiv.org/abs/2112.11446

<<:  Promptは音声言語モデルを生成する機能を提供し、SpeechGenは音声翻訳と修復タスクを実装します。

>>: 

ブログ    
ブログ    

推薦する

76ページのレビュー+300以上の参考文献で、Tiandaチームは大規模言語モデルアライメント技術を包括的に紹介しています。

最近、天津大学の熊徳一教授のチームが大規模言語モデルアライメント技術に関するレビュー論文(以下、アラ...

YouTube、有名歌手の真似をしたり、テキストやハミングで曲を作曲できるAIツールをリリース

YouTube は 11 月 16 日に、ユーザーがテキストを入力したりメロディーをハミングしたりす...

...

ハッカーが、さまざまなネットワーク攻撃コードを自動生成できる悪質なAIツールFraudGPTを公開

7月31日、「ハッカーがAIを使って犯罪ツールを作る」という研究者の懸念が徐々に現実のものとなりつつ...

人工知能:この冷たい水はちょうどいいタイミングで注がれます!

最近、AI(人工知能)同時通訳詐欺事件をめぐる議論がテクノロジーや翻訳界で話題となり、「AIは人間を...

AI、ブロックチェーン、ビッグデータなど最先端の技術動向を明らかにする新刊書籍「風向」が発売

2018年12月8日、中国国家管弦楽団コンサートホールで、中国工業情報化出版メディアグループが主催し...

...

世界トップジャーナルPNASに掲載されました!科学者たちは理論上のコンピューターに基づく意識モデル「意識のあるチューリングマシン」を提案した。

5月下旬、トップの国際学術誌である米国科学アカデミー紀要(PNAS)は、昨年10月に査読が受理され...

...

「機械代替」がもたらす技術的失業危機をどう見るか

[[376593]] 1月18日の光明日報によると、近年、中国の製造業は「機械が人間に取って代わる」...

...

Google が 13GB の 3D スキャン データセットを公開: 17 のカテゴリ、1,030 個の家庭用品

近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられて...

わずか 2 分で、シングル ビューの 3D 生成が高速かつ良好に行えます。北京大学などが新しいRepaint123法を提案

画像を 3D に変換する方法としては、通常、スコア蒸留サンプリング (SDS) 方式が採用されていま...

傲慢か偏見か?AIはあなたの美的観念に影響を与えていますか?

数日前、TikTokで、ある親がTikTokの特殊効果を使って子供の年齢と容姿を計測する動画を見まし...