Transformer モデルにはいくつのバリエーションがありますか?復旦大学の邱希鵬教授のチームが包括的なレビューを行った。

[[405284]]

Google が 2017 年 6 月に論文「Attention is All You Need」を発表して以来、Transformer アーキテクチャは NLP 分野全体に大きな驚きをもたらしました。 Transformerは誕生からわずか4年で自然言語処理の分野で主流のモデルとなり、Transformerをベースにした事前学習済み言語モデルが主流になりました。

時間が経つにつれて、Transformer は他の分野にも進出し始めました。ディープラーニングの発展により、Transformer はコンピュータービジョン (CV) やオーディオ処理などの多くの人工知能分野で非常に人気が高まり、学界や産業界の研究者の注目を集めることに成功しました。これまで、研究者らは多数の多様なトランスフォーマー変異体（X-formers とも呼ばれる）を提案してきましたが、トランスフォーマー変異体に関する体系的かつ包括的な文献レビューはまだ不足しています。

昨年、Google は「効率的なトランスフォーマー: 調査」というタイトルの論文を発表し、効率的なトランスフォーマーのアーキテクチャをレビューしましたが、主にアテンションモジュールの効率性に焦点を当てており、トランスフォーマーのバリアントの分類は比較的曖昧でした。

最近、復旦大学コンピュータ科学技術学院のQiu Xipeng教授のチームが、さまざまな種類のX-formersをレビューしました。まず、バニラトランスフォーマーについて簡単に紹介し、X-former の新しい分類を提案します。次に、アーキテクチャの変更、事前トレーニング、アプリケーションの 3 つの観点から、さまざまな X-former が紹介されました。最後に、将来の研究の潜在的な方向性について概説します。

論文リンク:
出典: http://arxiv.org/pdf/2106.04554.pdf

Transformerの開発レビュー

Transformer はもともと機械翻訳用のシーケンスツーシーケンスモデルとして提案されましたが、その後の研究では、Transformer ベースの事前トレーニング済みモデル (PTM) がさまざまなタスクで最高のパフォーマンスを発揮することが示されています。そのため、Transformer は NLP、特に PTM の分野で好まれるアーキテクチャになりました。言語関連のアプリケーションに加えて、Transformer は CV、オーディオ処理、さらには化学や生命科学でも使用されています。その成功により、研究者は過去数年間にさまざまなトランスフォーマーの変種（X-formers とも呼ばれる）を提案してきました。これらの X-formers は、オリジナルの Vanilla Transformer を 3 つの異なる観点から改良します。

モデルの効率性。 Transformer を適用する際の主な課題は、主に自己注意モジュールの計算とメモリの複雑さにより、長いシーケンスを処理する際の非効率性です。改善された方法には、軽量アテンション（スパースアテンションバリアントなど）と分割統治法（再帰型メカニズムや階層型メカニズムなど）が含まれます。

モデルの一般化。 Transformer は柔軟なアーキテクチャであり、入力データの構造的バイアスについてほとんど仮定を行わないため、小規模なデータでトレーニングすることは困難です。改善方法には、構造バイアスや正則化の導入、大規模なラベルなしデータによる事前トレーニングなどがあります。

モデルの適応。この作業の目的は、Transformer を特定の下流のタスクとアプリケーションに適応させることです。

X-formers は上記の観点から整理できますが、既存の X-formers の多くは 1 つまたは複数の問題を解決する可能性があります。たとえば、スパースアテンションバリアントは、計算の複雑さを軽減するだけでなく、入力データに構造的な事前確率を導入して、小さなデータセットでの過剰適合の問題を軽減します。したがって、X-former を Vanilla Transformer の改善方法 (アーキテクチャの変更、事前トレーニング、アプリケーション) に基づいて分類する方が理にかなっています。このレビューの読者はさまざまな分野から来る可能性があることを考慮して、研究者は主に一般的なアーキテクチャのバリアントに焦点を当て、事前トレーニングとアプリケーションにおける特定のバリアントについては簡単にのみ説明します。

バニラトランスフォーマー

建築

Vanilla Transformer は、エンコーダーとデコーダーで構成されるシーケンスツーシーケンスモデルであり、どちらも同一のブロックのスタックです。各エンコーダーブロックは、主にマルチヘッドセルフアテンションモジュールと位置フィードフォワードネットワーク (FFN) で構成されます。より深いモデルを構築するために、各モジュールの周囲に残差接続が採用され、その後にレイヤー正規化モジュールが続きます。エンコーダーブロックと比較して、デコーダーブロックでは、マルチヘッドセルフアテンションモジュールと位置ごとの FFN の間にクロスアテンションモジュールが追加で挿入されます。さらに、デコーダー内の自己注意モジュールを使用して、各位置が後続の位置に影響を与えないようにします。 Vanilla Transformer の全体的なアーキテクチャを下図に示します。

使用法

Transformer アーキテクチャを使用するには、一般的に次の 3 つの方法があります。

ニューラル機械翻訳などのシーケンス間モデリングによく使用されるエンコーダー/デコーダーを使用します。

エンコーダーのみを使用する場合、エンコーダーの出力は、通常、分類またはシーケンスのラベル付けの問題で入力シーケンスの表現として使用されます。

デコーダーのみが使用され、言語モデリングなどのシーケンス生成に通常使用されるエンコーダーとデコーダーのクロスアテンションモジュールも削除されます。

Transformerバリアントの分類

これまで、この分野の研究者は、アーキテクチャの変更タイプ、事前トレーニング方法、およびアプリケーションの 3 つの側面から、バニラ Transformer に基づくさまざまなバリアントモデルを提案してきました。次の図は、これらのバリアントモデルのカテゴリを示しています。

下の図は、この記事の研究者による分類といくつかの代表的なモデルを示しています。

注意モジュール

Transformer では自己注意が非常に重要ですが、実際のアプリケーションでは 2 つの課題があります。

複雑。自己注意の複雑さはO(T^2·D)です。したがって、長いシーケンスを処理するときに注意モジュールがボトルネックに遭遇します。

構造的事前確率。自己注意は入力に構造的な偏りを想定せず、指示情報さえもトレーニングデータから学習する必要があります。したがって、事前トレーニングを行わないトランスフォーマーは、小規模および中規模のデータセットで過剰適合する傾向があります。

注意メカニズムの改善は、次の方向に分けられます。

注目度が低い。アテンションメカニズムにスパースバイアスを導入すると複雑さを軽減できます。

線形化された注意。注意行列とカーネル特徴マップを解きほぐし、注意を逆の順序で計算して線形複雑度を実現します。

プロトタイプとメモリの圧縮。このタイプの方法では、クエリまたはキーと値のメモリのペアの数を減らして、アテンションマトリックスのサイズを縮小します。

低レベルの自己注意。この研究は、自己注意の低レベルの特性を捉えています。

注意と事前情報。この研究では、事前の注意の分布を標準的な注意の補足または置き換えに使用することを検討しました。

マルチヘッド機構を改良しました。この一連の研究では、さまざまな代替的な長期メカニズムを調査しました。

注目度が低い

標準的な自己注意メカニズムでは、各トークンは他のすべてのトークンに注意を払う必要があります。ただし、トレーニングされた Transformer の場合、学習された注意行列 A は通常、ほとんどのデータポイントで非常にスパースであることが観察されます。したがって、構造バイアスを組み込んで各クエリの出席に対するクエリキーペアの数を制限することで、計算の複雑さを軽減できます。

別の観点から見ると、標準アテンションは、各クエリがすべてのメモリノードから情報を受け取り、その表現を更新する完全な二部グラフとして見ることができます。スパースアテンションは、ノード間の一部の接続が削除されたスパースグラフとして表示できます。研究者は、スパース接続を決定するための指標に基づいて、これらの方法を位置ベースのスパース注意とコンテンツベースのスパース注意の 2 つのカテゴリに分類します。

原子スパースアテンション

位置ベースのスパースアテンションの 1 つはアトミックスパースアテンションで、次の図に示すように 5 つの主なモードがあります。色付きの四角は計算された注目スコアを表し、空白の四角は放棄された注目スコアを表します。

複合スパースアテンション

位置ベースのスパースアテンションのもう 1 つのタイプは、複合スパースアテンションです。下の図は、その 5 つの主なモードを示しています。赤いボックスはシーケンス境界を示しています。

疎な注意を拡張する

上記のパターンに加えて、いくつかの既存の研究では、特定のデータタイプに対する拡張スパースパターンを調査しました。下の図 (a) は、グローバルアテンションの拡張の抽象的なビューを示しています。グローバルノードは階層的に編成され、トークンの任意のペアはバイナリツリー内のパスによって接続されています。赤いボックスはクエリの場所を示し、オレンジ色のノード/四角はクエリが対応するトークンに焦点を当てていることを示します。

視覚データ用の拡張機能もいくつかあります。 Image Transformer は、2 種類の注意を調査します。

画像のピクセルをラスタースキャン順に平坦化し、ブロックローカルのスパースアテンションを適用します。

2D ブロックローカルアテンションでは、図 (b) に示すように、クエリブロックとメモリブロックが 2D ボード内に直接配置されます。

視覚データ内のスパースパターンのもう 1 つの例として、Axial Transformer は、画像の各軸に個別のアテンションモジュールを適用します。各注意モジュールは、上の図 (c) に示すように、一方の軸に沿って情報を混合し、もう一方の軸の情報は独立したままにします。これは、ラスタースキャンの順序で画像ピクセルを水平方向と垂直方向に平坦化し、次に画像の幅と高さのギャップでストライドアテンションをそれぞれ適用するものとして理解できます。

線形化された注意

下の図は、標準的な自己注意と線形化された線形注意の複雑さの違いを示しています。

クエリプロトタイプとメモリ圧縮

スパースアテンションまたはカーネルベースの線形化アテンションの使用に加えて、クエリまたはキーと値のペアの数を減らすことによってアテンションの複雑さを軽減することもできます。これは、それぞれクエリのプロトタイピングとメモリ圧縮の方法につながります。

クエリのプロトタイピングでは、複数のクエリのプロトタイプが注目度の分布を計算するための主要なソースとして機能します。モデルは、表現されたクエリの位置に分布をコピーするか、それらの位置を離散均一分布で埋めます。

次の図 (a) は、クエリプロトタイプの計算フローを示しています。プロトタイプをクエリすることでクエリ数を減らすことに加えて、図2(b)に示すように、アテンションメカニズムを適用する前にキーと値のペアの数を減らす（キーと値のメモリを圧縮する）ことで複雑さを軽減することもできます。

事前の注意

注意メカニズムは通常、期待値をベクトルの加重合計として出力します。ここで、重みは値に対する注意の分布です。伝統的に、分布はバニラトランスフォーマーの softmax(QK⊤) などの入力から生成されます。一般に、注意分布は他のソース、つまり事前分布から得られることもあります。事前注意分布は、入力によって生成された分布を補完または置き換えることができます。この注意の表明は、下の図に示すように、事前の注意を持つものとして抽象化できます。ほとんどの場合、2 つの注意分布の融合は、ソフトマックスを適用する前に、事前の注意と生成された注意に対応するスコアの加重合計を計算することによって実行できます。

改良されたマルチヘッド機構

マルチヘッドアテンションの魅力は、異なる位置にある異なる表現サブスペースからの情報を共同で注目できることです。しかし、異なる注意ヘッドが実際に異なる特徴をキャプチャすることを保証するメカニズムはありません。

下図に示すように、ロング機構の下には3つのスパンシールド機能（）があります。横軸は距離を表し、縦軸はマスク値を表します。

その他のモジュールレベルの変更

場所の重要性

畳み込みネットワークと再帰ネットワークが順列同変ではないことを検証するのは簡単です。ただし、Transformer の自己注意モジュールと位置フィードフォワード層は順列同変であるため、問題をモデル化するときに問題が発生する可能性があります。たとえば、テキストシーケンスをモデル化する場合、単語の順序が重要なので、Transformer アーキテクチャで単語の位置を正しくエンコードすることが重要です。したがって、Transformer に位置情報を注入するには追加のメカニズムが必要です。一般的な設計では、まずベクトルを使用して位置情報を表し、次にそのベクトルを追加入力としてモデルに挿入します。

レイヤーの正規化

レイヤー正規化 (LN) と残差接続は、ディープネットワークトレーニングを安定化するメカニズム (不適切勾配やモデル劣化の軽減など) であると考えられています。 Vanilla Transformer では、LN レイヤーは残余ブロックの間に配置され、post-LN と呼ばれます。後の Transformer 実装では、LN レイヤーがアテンションまたは FFN の前の残差接続内に配置され、最終出力のサイズを制御するために最後のレイヤーの後に LN が追加されました (つまり、pre-LN)。 Pre-LN はその後の多くの研究や実装で採用されてきました。 LN前とLN後の違いを下図に示します。

FFNの位置づけ

シンプルであるにもかかわらず、位置フィードフォワードネットワーク (FFN) レイヤーは、Transformer が優れたパフォーマンスを実現するために不可欠です。研究者らは、自己注意モジュールを単純に積み重ねるとランク崩壊問題とトークン均一性誘導バイアスにつながることを観察しており、フィードフォワード層はこの問題を軽減するための重要な構成要素の 1 つです。このセクションでは、研究者が FFN モジュールに加えた変更について説明します。

スキーマレベルの変更

この章では、研究者がアーキテクチャレベルで X-former バリアントモデルを紹介します。

軽量トランス

計算オーバーヘッドを削減するためにモジュールレベルで行われた取り組みに加えて、Lite Transformer、Funnel Transformer、DeLighT など、より高いレベルで変更されたいくつかの軽量 Transformer モデルがこの分野で登場しています。

ブロック間の接続性の強化

ディープ Transformer エンコーダー/デコーダーモデルでは、デコーダーのクロスアテンションモジュールはエンコーダーの最終出力のみを利用するため、エラー信号はエンコーダーの深度に沿って移動する必要があります。これにより、Transformer は勾配消失などの最適化問題の影響を受けやすくなります。

トランスペアレントアテンション[8]は、各クロスアテンションモジュール内のすべてのエンコーダーレイヤー（埋め込みレイヤーを含む）にわたるエンコーダー表現の加重合計を使用します。 j番目のエンコーダブロックの場合、クロスアテンションは次のように表現されます。

フィードバックトランスフォーマー[34]は、トランスフォーマーデコーダーにフィードバックメカニズムを追加することを提案した。このメカニズムでは、各位置はすべてのレイヤーからの履歴表現の加重合計に注意を払います。

適応計算時間

ほとんどのニューラルモデルと同様に、Vanilla Transformer は固定された (学習された) 計算手順を使用して各入力を処理します。興味深く有望な変更は、計算時間を入力に応じて条件付きにすること、つまり、Transformer モデルに適応計算時間 (ACT) を導入することです。

下の図 12 (a) に示すように、ユニバーサルトランスフォーマー (UT) は、深度全体で共有されるモジュールを使用してすべてのシンボルの表現を反復的に改善する深度全体の再帰メカニズムを組み合わせています。図 12 (b) では、条件付き計算トランスフォーマー (CCT) が各自己注意層とフィードフォワード層にゲーティングモジュールを追加して、現在の層をスキップするかどうかを決定します。図 12 (c) では、UT で使用される動的シャットダウンメカニズムと同様に、各入力の層の数を調整して速度と精度のトレードオフを良好にするための専用の作業ラインがあり、これは「早期終了メカニズム」と呼ばれています。

「分割統治」戦略を採用するトランスフォーマー

シーケンスの長さに関する自己注意の二次複雑性は、一部の下流タスクのパフォーマンスを大幅に制限する可能性があります。研究者らは、下の図 13 に示すように、再帰型トランスフォーマーと階層型トランスフォーマーという 2 つの代表的な方法を特定しました。

再帰型トランスフォーマーでは、履歴情報をマージするためにキャッシュメモリが維持されます。テキストを処理する際、ネットワークはそれを追加入力としてキャッシュから読み取ります。処理が完了すると、ネットワークは単純に隠し状態をコピーするか、より複雑なメカニズムを使用してメモリに書き込みます。

階層型トランスフォーマーは、入力を階層的に細かい要素に分解します。低レベルの特徴は最初に Transformer エンコーダーに送られ、出力表現が生成されます。その後、プーリングまたはその他の操作を使用して集約され、高レベルの特徴が形成され、高レベル Transformer によって処理されます。

<<: 「地表」から「宇宙」まで、探査ロボットが未知の領域の秘密を解き明かす

>>: ニューラルネットワークのデバッグは難しすぎる。6つの実用的なヒントをご紹介します

Google 中国人がタイムクリスタルを使って何十年も昔の謎を解く！永久機関が再び自然界に出現

Transformer モデルにはいくつのバリエーションがありますか?復旦大学の邱希鵬教授のチームが包括的なレビューを行った。

Transformerの開発レビュー

バニラトランスフォーマー

その他のモジュールレベルの変更

Google 中国人がタイムクリスタルを使って何十年も昔の謎を解く！永久機関が再び自然界に出現

HuaweiとXiaomiの携帯電話を使ったDIY自律ナビゲーションロボット：わずか300元、チュートリアルはオープンソースで誰でも始められる

各自動車会社の「地図なし」インテリジェント運転ソリューションについてお話ししましょう

脆弱なニューラルネットワーク: カリフォルニア大学バークレー校が敵対的サンプル生成のメカニズムを説明します。

ICML2023の優秀論文数は6件に大幅に減少しました。北京大学と武漢理工大学の卒業生が賞を受賞しました。大きなモデルの透かしが好まれます。

アルゴリズムの旅について話しましょう：スタック

ニューラルスタイル転送アルゴリズムで絵を描くことを学習する人間は、芸術分野で人工知能に負けるのでしょうか？

ユーザーエクスペリエンスは過去のものになりました。AIは国民、さらには社会の視点から問題を考える必要があります。

推薦する

初のAI絵画がオークションで予想を大きく上回る43万2000ドルで落札

住宅地での顔認識が論争を巻き起こす。所有者には「好意を示すことを拒否する」権利がある

C# のデータ構造とアルゴリズムにおける線形リストの構築クラスの簡単な分析

【文字列処理アルゴリズム】文字列包含アルゴリズムの設計とCコード実装

AI アバターが CES に登場! Samsung の Neon チャットボットは学習、進化、記憶が可能です!

マイクロソフトは、ユーザーが好みの商品を選択できるように、Bing および Edge ブラウザでのオンラインショッピングサービスを拡張します。

新たなAIスタントがあなたの人生と私の人生への影響を加速させる

あなたの脳と音楽ストリーミングは直接つながっているのでしょうか?ニューラリンクの脳コンピューターインターフェースが来月発売予定

個人信用リスク評価モデルにおける新しいビッグデータアルゴリズムの使用の有効性の評価

アルゴリズムの問題を解決するための Python 3 コードフレームワーク

ディープラーニングの基本概念のチートシート

機械学習について知っておくべき6つの革命的な教訓

最新の機械学習ツール