この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

この「間違い」は実際には間違っていません。4つの古典的な論文から始めて、Transformerアーキテクチャ図のどこが「間違っている」かを理解してください。

少し前に、Google Brain チームの論文「Attention Is All You Need」の Transformer アーキテクチャ図とコードに矛盾があると指摘するツイートが大きな議論を巻き起こしました。

セバスチャンの発見は意図しないミスだったと考える人もいるが、同時に奇妙でもある。結局のところ、Transformer 論文の人気を考えると、この矛盾は 1,000 回も前に言及されているはずでした。

セバスチャン・ラシュカ氏はネットユーザーからのコメントに応えて、「最もオリジナルな」コードは確かにアーキテクチャ図と一致しているが、2017年に提出されたコードバージョンはアーキテクチャ図を更新せずに変更されたと述べた。これは「矛盾」の議論の根本的な原因でもあります。

その後、セバスチャンは Ahead of AI に記事を掲載し、オリジナルの Transformer アーキテクチャ図がコードと一致しなかった理由を具体的に説明し、いくつかの論文を引用して Transformer の開発と変更について簡単に説明しました。

以下は記事の原文です。記事に実際に何が書かれているか見てみましょう。

数か月前、私は「大規模言語モデルの理解: 最新情報を入手するための最も関連性の高い文献の横断」を共有しましたが、肯定的なフィードバックをいただき、とても励みになりました。したがって、リストを最新かつ関連性のあるものに保つために、いくつかの論文を追加しました。

同時に、全員が妥当な時間内に理解できるよう、リストを簡潔に保つことが重要です。多くの情報を含む論文もいくつかあるので、それも含めるべきだと考えます。

Transformer を歴史的な観点から理解するのに役立つ 4 つの論文を紹介します。これらは「大規模言語モデルの理解」の記事に直接追加しましたが、「大規模言語モデルの理解」を以前に読んだことがある人が簡単に見つけられるように、この投稿でも個別に共有しました。

Transformer アーキテクチャにおけるレイヤーの正規化について (2020)

以下の元の Transformer ダイアグラム (左) は、元のエンコーダー/デコーダー アーキテクチャの便利な概要ですが、小さな違いが 1 つあります。たとえば、残差ブロック間のレイヤー正規化を行いますが、これは元の Transformer 論文に付属する公式の (更新された) コード実装と一致しません。下の図 (中央) に示すバリエーションは、Post-LN Transformer と呼ばれます。

Transformer アーキテクチャの論文のレイヤー正規化では、Pre-LN の方が適切に機能し、以下に示すように勾配の問題を解決できることが示されています。多くのアーキテクチャでは実際にこのアプローチを採用していますが、表現の崩壊につながる可能性があります。

したがって、Post-LN と Pre-LN のどちらを使用するかについてはまだ議論が続いていますが、両方を一緒に適用することを提案する新しい論文もあります: ResiDual: Transformer with Dual Residual Connections ですが、実際に役立つかどうかはまだわかりません。


図注: 画像出典: https://arxiv.org/abs/1706.03762 (左と中央)、https://arxiv.org/abs/2002.04745 (右)

高速重みメモリの制御の学習: 動的リカレントニューラルネットワークの代替 (1991)

この投稿は、現代のトランスフォーマーとほぼ同じような歴史的な小話や初期のアプローチに興味がある方におすすめです。

たとえば、Transformer 論文の 25 年前の 1991 年に、Juergen Schmidhuber は、Fast Weight Programmers (FWP) と呼ばれるリカレント ニューラル ネットワークの代替案を提案しました。 FWP 法には、勾配降下法によってゆっくりと学習し、別のニューラル ネットワークの急速な重みの変化をプログラムするフィードフォワード ニューラル ネットワークが含まれます。

このブログ投稿では、現代のトランスフォーマーとの類似点を次のように説明しています。

今日の Transformer 用語では、FROM と TO はそれぞれキーと値と呼ばれます。高速ネットワークが適用される入力はクエリと呼ばれます。基本的に、クエリはキーと値の外積の合計である高速重みマトリックスによって処理されます(正規化と投影は無視されます)。両方のネットワークのすべての操作は微分可能であるため、加法的な外積または 2 次テンソル積を介して、エンドツーエンドの微分可能なアクティブ制御の高速な重み変更が得られます。したがって、低速ネットワークは勾配降下法を介して学習し、シーケンス処理中に高速ネットワークを迅速に修正することができます。これは、正規化を除いて、線形化された自己注意を備えたトランスフォーマー (または線形トランスフォーマー) として知られるようになったものと数学的に同等です。

上記の抜粋で述べたように、このアプローチは現在、線形トランスフォーマーまたは線形化された自己注意を備えたトランスフォーマーと呼ばれています。これらは、2020 年に arXiv に掲載された論文「Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention」(https://arxiv.org/abs/2006.16236) および「Rethinking Attention with Performers」(https://arxiv.org/abs/2009.14794) からの抜粋です。

2021 年に発表された論文「線形トランスフォーマーは秘密に高速な重みプログラマーである」(https://arxiv.org/abs/2102.11174) では、線形化された自己注意と 1990 年代の高速重みプログラマーの同等性が明示的に示されました。


画像ソース: https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2

テキスト分類のためのユニバーサル言語モデルの微調整 (2018)

これは歴史的な観点から見ても非常に興味深い論文です。これはオリジナルの『Attention Is All You Need』の 1 年後に書かれたもので、トランスフォーマーについては触れず、代わりにリカレント ニューラル ネットワークに焦点を当てていますが、それでも見る価値はあります。言語モデルの事前トレーニングと転移学習の下流タスクを効果的に提案するためです。転移学習はコンピュータービジョンでは十分に確立されていますが、自然言語処理 (NLP) の分野ではまだ普及していません。 ULMFit (https://arxiv.org/abs/1801.06146) は、事前トレーニング済みの言語モデルを特定のタスクで微調整した後、多くの NLP タスクで SOTA 結果を生成できることを示した最初の論文の 1 つです。

ULMFit が推奨する言語モデルの微調整プロセスは、次の 3 つの段階に分かれています。

  • 1. 大規模なテキストコーパスで言語モデルをトレーニングする。
  • 2. タスク固有のデータに基づいて事前トレーニング済みの言語モデルを微調整し、テキストの特定のスタイルと語彙に適合させます。
  • 3. タスク固有のデータに基づいて分類器を微調整し、レイヤーを徐々に解凍することで壊滅的な忘却を回避します。

大規模なコーパスで言語モデルをトレーニングし、その後下流のタスクで微調整するというこのアプローチは、Transformer ベースのモデルや BERT、GPT-2/3/4、RoBERTa などの基本モデルで使用される中核的なアプローチです。

ただし、ULMFiT の重要な部分である段階的な解凍は、Transformer アーキテクチャでは通常、すべてのレイヤーを一度に微調整するため、実際には実行されません。


Gopher は、LLM トレーニングを理解するための多くの分析を含む特に優れた論文です (https://arxiv.org/abs/2112.11446)。研究者らは、3000億個のトークンに対して、80層、2800億個のパラメータを持つモデルをトレーニングした。これには、LayerNorm (レイヤー正規化) の代わりに RMSNorm (二乗平均平方根正規化) を使用するなど、いくつかの興味深いアーキテクチャの変更が含まれます。 LayerNorm と RMSNorm はどちらもバッチ サイズに制限がなく、同期を必要としないため、BatchNorm よりもパフォーマンスが優れています。これは、バッチ サイズが小さい分散設定では有利です。 RMSNorm は一般的に、より深いアーキテクチャでのトレーニングを安定化すると考えられています。

これらの興味深い情報に加えて、この記事の主な焦点は、さまざまな規模でのタスクのパフォーマンスを分析することです。 152 種類の異なるタスクの評価では、モデル サイズを増やすことは理解、事実確認、有害な言語の特定などのタスクに最も効果的である一方、アーキテクチャの拡張は論理的および数学的推論に関連するタスクにはほとんど効果がないことがわかりました。

図注: 出典: https://arxiv.org/abs/2112.11446

<<:  Promptは音声言語モデルを生成する機能を提供し、SpeechGenは音声翻訳と修復タスクを実装します。

>>: 

ブログ    
ブログ    

推薦する

技術革命: 人工知能の最新動向

2023年も人工知能技術の進歩は止まることなく続くでしょう。医療から交通まで、人工知能の進歩はさまざ...

...

顔認識は使いやすいが、情報セキュリティは高価

生体認証の一種である顔は固有のものであり、ひとたび情報漏洩が発生するとリスクが非常に高くなります。顔...

Googleは人工知能を使って人間の認知の欠陥を浮き彫りにする

今日では、驚くほど人間らしい文章の一部は、実際には大量の人間の文章でトレーニングされた AI システ...

Minecraft でニューラル ネットワークを構築し、操作プロセスを明確に表示する | オープン ソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

とてもかっこいいですね! Python で人工知能の最適化アルゴリズムを 5 分で理解する

概要勾配降下法は、ニューラル ネットワークでよく使われる最適化アルゴリズムの 1 つです。一般的に、...

Alibaba Cloud がバッチおよびストリーム機械学習プラットフォーム Alink をオープンソース化し、アルゴリズム開発のハードルを下げる

11月28日、アリババクラウドは、世界初の統合バッチ・ストリームアルゴリズムプラットフォームでもある...

AI軍拡競争により、将来のAIハードウェアアーキテクチャの開発に3つの主要な方向性が生まれました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

社会的関心の強化に基づくビデオ推奨アルゴリズム

1. 推奨ステータスまず、レコメンデーションシステムの現状について簡単に紹介します。推薦システムは、...

人工知能技術は民族言語の保護に大きな可能性を秘めている

現在、経済や文化の交流のグローバル化に伴い、主流言語や共通言語が勢力を増し、不利な立場にある言語は絶...

医療用ロボット:世界第2位のロボットの現状と今後の応用展望

医療用ロボットという用語は、監督なしで事前にプログラムされたタスクを自律的に実行する機械のイメージを...

...

2022 年に予測されるロボティック プロセス オートメーションのトップ 10 トレンド

ロボティック プロセス オートメーション (RPA) を導入する企業の主な目標は、時間のかかる反復的...

...