この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

少し前に、Google Brain チームの論文「Attention Is All You Need」の Transformer アーキテクチャ図とコードに矛盾があると指摘するツイートが大きな議論を巻き起こしました。

セバスチャンの発見は意図しないミスだったと考える人もいるが、同時に奇妙でもある。結局のところ、Transformer 論文の人気を考えると、この矛盾は 1,000 回も前に言及されているはずでした。

セバスチャン・ラシュカ氏はネットユーザーからのコメントに応えて、「最もオリジナルな」コードは確かにアーキテクチャ図と一致しているが、2017年に提出されたコードバージョンはアーキテクチャ図を更新せずに変更されたと述べた。これは「矛盾」の議論の根本的な原因でもあります。

その後、セバスチャンは Ahead of AI に記事を掲載し、オリジナルの Transformer アーキテクチャ図がコードと一致しなかった理由を具体的に説明し、いくつかの論文を引用して Transformer の開発と変更について簡単に説明しました。

以下は記事の原文です。記事に実際に何が書かれているか見てみましょう。

数か月前、私は「大規模言語モデルの理解: 最新情報を入手するための最も関連性の高い文献の横断」を共有しましたが、肯定的なフィードバックをいただき、とても励みになりました。したがって、リストを最新かつ関連性のあるものに保つために、いくつかの論文を追加しました。

同時に、全員が妥当な時間内に理解できるよう、リストを簡潔に保つことが重要です。多くの情報を含む論文もいくつかあるので、それも含めるべきだと考えます。

Transformer を歴史的な観点から理解するのに役立つ 4 つの論文を紹介します。これらは「大規模言語モデルの理解」の記事に直接追加しましたが、「大規模言語モデルの理解」を以前に読んだことがある人が簡単に見つけられるように、この投稿でも個別に共有しました。

Transformer アーキテクチャにおけるレイヤーの正規化について (2020)

以下の元の Transformer ダイアグラム (左) は、元のエンコーダー/デコーダー アーキテクチャの便利な概要ですが、小さな違いが 1 つあります。たとえば、残差ブロック間のレイヤー正規化を行いますが、これは元の Transformer 論文に付属する公式の (更新された) コード実装と一致しません。下の図 (中央) に示すバリエーションは、Post-LN Transformer と呼ばれます。

Transformer アーキテクチャの論文のレイヤー正規化では、Pre-LN の方が適切に機能し、以下に示すように勾配の問題を解決できることが示されています。多くのアーキテクチャでは実際にこのアプローチを採用していますが、表現の崩壊につながる可能性があります。

したがって、Post-LN と Pre-LN のどちらを使用するかについてはまだ議論が続いていますが、両方を一緒に適用することを提案する新しい論文もあります: ResiDual: Transformer with Dual Residual Connections ですが、実際に役立つかどうかはまだわかりません。


図注: 画像出典: https://arxiv.org/abs/1706.03762 (左と中央)、https://arxiv.org/abs/2002.04745 (右)

高速重みメモリの制御の学習: 動的リカレントニューラルネットワークの代替 (1991)

この投稿は、現代のトランスフォーマーとほぼ同じような歴史的な小話や初期のアプローチに興味がある方におすすめです。

たとえば、Transformer 論文の 25 年前の 1991 年に、Juergen Schmidhuber は、Fast Weight Programmers (FWP) と呼ばれるリカレント ニューラル ネットワークの代替案を提案しました。 FWP 法には、勾配降下法によってゆっくりと学習し、別のニューラル ネットワークの急速な重みの変化をプログラムするフィードフォワード ニューラル ネットワークが含まれます。

このブログ投稿では、現代のトランスフォーマーとの類似点を次のように説明しています。

今日の Transformer 用語では、FROM と TO はそれぞれキーと値と呼ばれます。高速ネットワークが適用される入力はクエリと呼ばれます。基本的に、クエリはキーと値の外積の合計である高速重みマトリックスによって処理されます(正規化と投影は無視されます)。両方のネットワークのすべての操作は微分可能であるため、加法的な外積または 2 次テンソル積を介して、エンドツーエンドの微分可能なアクティブ制御の高速な重み変更が得られます。したがって、低速ネットワークは勾配降下法を介して学習し、シーケンス処理中に高速ネットワークを迅速に修正することができます。これは、正規化を除いて、線形化された自己注意を備えたトランスフォーマー (または線形トランスフォーマー) として知られるようになったものと数学的に同等です。

上記の抜粋で述べたように、このアプローチは現在、線形トランスフォーマーまたは線形化された自己注意を備えたトランスフォーマーと呼ばれています。これらは、2020 年に arXiv に掲載された論文「Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention」(https://arxiv.org/abs/2006.16236) および「Rethinking Attention with Performers」(https://arxiv.org/abs/2009.14794) からの抜粋です。

2021 年に発表された論文「線形トランスフォーマーは秘密に高速な重みプログラマーである」(https://arxiv.org/abs/2102.11174) では、線形化された自己注意と 1990 年代の高速重みプログラマーの同等性が明示的に示されました。


画像ソース: https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

テキスト分類のためのユニバーサル言語モデルの微調整 (2018)

これは歴史的な観点から見ても非常に興味深い論文です。これはオリジナルの『Attention Is All You Need』の 1 年後に書かれたもので、トランスフォーマーについては触れず、代わりにリカレント ニューラル ネットワークに焦点を当てていますが、それでも見る価値はあります。言語モデルの事前トレーニングと転移学習の下流タスクを効果的に提案するためです。転移学習はコンピュータービジョンでは十分に確立されていますが、自然言語処理 (NLP) の分野ではまだ普及していません。 ULMFit (https://arxiv.org/abs/1801.06146) は、事前トレーニング済みの言語モデルを特定のタスクで微調整した後、多くの NLP タスクで SOTA 結果を生成できることを示した最初の論文の 1 つです。

ULMFit が推奨する言語モデルの微調整プロセスは、次の 3 つの段階に分かれています。

  • 1. 大規模なテキストコーパスで言語モデルをトレーニングする。
  • 2. タスク固有のデータに基づいて事前トレーニング済みの言語モデルを微調整し、テキストの特定のスタイルと語彙に適合させます。
  • 3. タスク固有のデータに基づいて分類器を微調整し、レイヤーを徐々に解凍することで壊滅的な忘却を回避します。

大規模なコーパスで言語モデルをトレーニングし、その後下流のタスクで微調整するというこのアプローチは、Transformer ベースのモデルや BERT、GPT-2/3/4、RoBERTa などの基本モデルで使用される中核的なアプローチです。

ただし、ULMFiT の重要な部分である段階的な解凍は、Transformer アーキテクチャでは通常、すべてのレイヤーを一度に微調整するため、実際には実行されません。


Gopher は、LLM トレーニングを理解するための多くの分析を含む特に優れた論文です (https://arxiv.org/abs/2112.11446)。研究者らは、3000億個のトークンに対して、80層、2800億個のパラメータを持つモデルをトレーニングした。これには、LayerNorm (レイヤー正規化) の代わりに RMSNorm (二乗平均平方根正規化) を使用するなど、いくつかの興味深いアーキテクチャの変更が含まれます。 LayerNorm と RMSNorm はどちらもバッチ サイズに制限がなく、同期を必要としないため、BatchNorm よりもパフォーマンスが優れています。これは、バッチ サイズが小さい分散設定では有利です。 RMSNorm は一般的に、より深いアーキテクチャでのトレーニングを安定化すると考えられています。

これらの興味深い情報に加えて、この記事の主な焦点は、さまざまな規模でのタスクのパフォーマンスを分析することです。 152 種類の異なるタスクの評価では、モデル サイズを増やすことは理解、事実確認、有害な言語の特定などのタスクに最も効果的である一方、アーキテクチャの拡張は論理的および数学的推論に関連するタスクにはほとんど効果がないことがわかりました。

図注: 出典: https://arxiv.org/abs/2112.11446

<<:  Promptは音声言語モデルを生成する機能を提供し、SpeechGenは音声翻訳と修復タスクを実装します。

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

通信ネットワークにおけるOSPFプロトコルの適用とアルゴリズムの最適化

3G通信技術は広く利用されており、4Gに向けてますます進化しています。通信ネットワーク内のアクセスス...

「AI医薬品製造」の新時代が到来!人工知能がより良い抗がん剤の組み合わせを予測

[[355967]]人工知能は新興の破壊的技術として、科学技術革命と産業変革によって蓄積された膨大な...

ランウェイの最強のライバルが登場、ワンクリックでショートビデオを生成、期間限定で無料

近年、AI による絵画のレベルは飛躍的に向上しています。 Midjourney と Adob​​e ...

...

予知保全のための機械学習

[[197940]]要点:将来のシステム障害を監視し、事前にメンテナンスをスケジュールするための予測...

...

将来ロボットは人間の皮膚を持つようになるかもしれないが、その外見はかなり恐ろしい

ロボットは科学者の主な研究分野となっており、この分野の技術が進歩し続けると、ロボットがこの社会の主な...

法律教育ロボット「ダニウ」が潼南で任務に就き、一般市民に無料の法律サービスを提供

[[373347]]最近、法律相談ロボット「ダニウ」が潼南区公共サービス法律センターで正式に運用され...

ビッグデータの発展は、ソフトウェアエンジニアの漸進的な衰退とアルゴリズムエンジニアの台頭を伴うことになる。

[[190402]]ビッグデータは人類の歴史のどの時代にも存在していましたが、テクノロジーが一定の...

ホワイトハウスのAIに関する大統領令がサイバーセキュリティリーダーに何を意味するか

AIは引き続きテクノロジーの注目を集めており、2023年の最後の四半期を迎えるにあたり、AIの力を活...

TinyML: 次世代の AI 革命

[[350388]]人工知能のトレンドの 1 つは、「クラウド」から「エッジ」へと急速に移行している...

...

人工知能は目覚めたのか?アマゾンの人工知能は人間の命令を聞かず不気味な笑い声を上げる

人類が人工知能の開発に熱心に取り組み始めて以来、著名な科学者ホーキング博士をはじめ、疑問や反対の声が...

自動機械学習でニューラルネットワークを進化させる方法

機械学習に携わるほとんどの人にとって、ニューラル ネットワークの設計は芸術作品の作成に似ています。ニ...