形式言語を認識する能力が不十分で、不完全なトランスフォーマーは自己注意の理論的欠陥を克服する必要がある

トランスフォーマーモデルは多くのタスクで非常に効果的ですが、一見単純な形式言語ではうまく機能しません。 Hahn (2020)はこの現象を説明するために補題5)を提案した。補題は、入力シンボルを変更すると、トランスフォーマーの出力が𝑂(1/𝑛)だけ変化するというものです。ここで、𝑛は入力文字列の長さです。

したがって、受け入れ（つまり、文字列が特定の言語に属するかどうかの決定）が単一の入力シンボルのみに依存する言語の場合、トランスフォーマーは文字列を高い精度で受け入れたり拒否したりすることができます。しかし、𝑛が大きい場合は、信頼度を低くして決定を下す必要があり、文字列を受け入れる確率は半分よりわずかに高く、文字列を拒否する確率は半分よりわずかに低くなります。より正確には、𝑛 が増加すると、クロスエントロピーは文字列あたり 1 ビットに近づき、これが最悪の値になります。

最近、ノートルダム大学の2人の研究者が「自己注意の理論的限界を克服する」という論文の中で、この限界を調べるために次の2つの正規言語（PARITYとFIRST）を使用しました。

ハーンの補題は PARITY に適用されます。これは、ネットワークが文字列のすべてのシンボルに注意を払う必要があり、そのうちの 1 つを変更すると正解が変わるためです。研究者らはまた、補題が適用される言語の最も単純な例の1つとしてFIRSTを選択しました。最初の符号のみに注意する必要がありますが、この符号を変更すると正解が変わるため、補題は依然として適用されます。

この補題は、トランスフォーマーがこれらの言語を認識する能力を制限するものとして解釈される可能性がありますが、研究者はこの制限を克服する 3 つの方法を示しています。

まず、明示的な構築によって、任意の長さの言語を高精度で認識する変換器が存在することを示します。研究者たちはこれらの構造を実装し、実験的に検証しました。ハーンの補題によって予測されるように、入力長が増加するにつれて、この構築された変換器のクロスエントロピーは 1 ビットに近づきます (つまり、ランダムな推測よりもわずかに優れています)。しかし、この論文では、レイヤー正規化を追加することで、文字列の長さに関係なく、クロスエントロピーをゼロに任意に近づけることができることも示されています。

研究者らは、Bhattamishra らが指摘したように、トランスフォーマーはパリティを学習できないことも実際に発見しました。おそらくもっと驚くべきことに、FIRST を学習する場合、トランスフォーマーは短い文字列から長い文字列に一般化するのが困難になることがあります。これはハーンの補題の論理的帰結ではありませんが、ハーンの補題によって予測される動作の帰結です。幸いなことに、この問題は注意のロジットをlog 𝑛で乗算するという簡単な変更で解決できます。この変更により、機械翻訳における長さに関する一般化も向上します。

論文アドレス: https://arxiv.org/pdf/2202.12172.pdf

正確なソリューション

ハーンの補題が暗示する欠点を克服するための最初のアプローチは、トランスフォーマーが上記の 2 つの言語を高い精度で認識できることを明示的な構成によって示すことです。

PARITY 向けフィードフォワードニューラルネットワーク (FFNN)

Rumelhartらは、任意の長さ𝑛に対して、長さが正確に𝑛の文字列のパリティを計算できるフィードフォワードニューラルネットワーク（FFNN）が存在することを示しました。また、ランダムに初期化された FFNN はこれを自動的に学習できることも示しています。

提案された構築は部分的に彼らの構築に基づいているため、彼らの構築を詳細に検討すると役立つかもしれません。 𝑤 を入力文字列、|𝑤| = 𝑛、𝑘 を 𝑤 内の 1 の数とします。入力はx_𝑖 = I[𝑤_𝑖 = 1]となるベクトルxです。最初のレイヤーは𝑘を計算し、それを1,2,...,nと比較します。

したがって、

2 番目のレイヤーでは、奇数要素を追加し、偶数要素を減算します。

PARITY用トランスフォーマー

命題 1. 任意の長さの文字列の PARITY 言語を (上記の意味で) 認識できるシグモイド出力層を持つトランスフォーマーが存在する。

最初に、レイヤー正規化なしのトランスフォーマーエンコーダー（つまり、LN(x) = x）を構築し、次にレイヤー正規化を追加する方法を示します。 𝑘 を 𝑤 における 1 の出現回数とします。ネットワークによって計算されるすべてのベクトルは 𝑑 = 9 次元を持ちます。表示される次元が少ない場合、残りの次元はゼロであると見なされます。単語と位置の埋め込みは次のとおりです。

研究者たちは、余弦波の周期 (2) が標準的な正弦波エンコーディングの最短周期 (2𝜋) よりも短いにもかかわらず、位置エンコーディングの 5 次元目に余弦波を使用することはかなり標準的な選択であると考えています。 4 次元目は確かに標準ではありませんが、研究者たちは、それでも妥当なエンコードであり、計算が非常に簡単であると考えています。したがって、単語𝑤_𝑖のエンコードは次のようになります。

2 番目のヘッドは何も行いません (W^V,1,2 = 0、クエリとキーは任意の値になります)。残留接続の後、次のものが得られます。

Rumelhartらの構築では、次のステップはステップ活性化関数を使用して各𝑖に対してI[𝑖 ≤ 𝑘]を計算することです。この記事で提案されている構成は、2つの点で異なります。まず、活性化関数はステップ活性化関数の代わりに ReLU を使用します。 2 番目に、注目度の合計は 1 でなければならないため、𝑛 が奇数の場合、偶数の位置と奇数の位置は異なる注目度の重みを取得するため、奇数の位置から偶数の位置を引くトリックは機能しません。代わりに、I[𝑖 = 𝑘]を計算します（下の図1を参照）。

最初の FFNN には 2 つのレイヤーがあり、最初のレイヤーは次のとおりです。

このことから、次のことが結論付けられます。

2番目のレイヤーは、これら3つの値を線形に組み合わせて、目的のI[𝑖 = 𝑘]を取得します。

2番目の自己注意層は、位置𝑘が偶数か奇数かをテストします。これは 2 つのヘッドを使用して行われます。1 つは奇数の位置により重点的に焦点を合わせ、もう 1 つは偶数の位置により重点的に焦点を合わせます。2 つの平均次元サイズは 8 です。

FIRST 向けトランスフォーマー

次に、研究者たちは FIRST 用の変圧器を構築しました。位置ごとの単語埋め込みを学習する一般的な方法 (Gehring et al.、2017) に従って、位置エンコーディングを使用して単語が 1 番目の位置にあるかどうかをテストします。

FFNNの最初の層は、i = 1かつw_1 = 1であるかどうかをテストするために新しいコンポーネント（5）を計算します。

2 番目の自己注意層にはヘッドが 1 つしかないため、CLS は位置 1 に焦点を合わせます。

FFNN の 2 番目のレイヤーは何も行いません (W^F,2,1 = b^F,2,1 = W^F,2,2 = b^F,2,2 = 0)。したがって、CLS（位置 0）では次のようになります。

最後に、出力層はコンポーネント 6 のみを選択します。

実験

両方の構造を、PyTorch の組み込みトランスフォーマー実装の修正バージョンを使用して実装します (Paszke et al.、2019)。これらの構成は、[1, 1000]からサンプリングされた長さの文字列に対して完全な精度を実現します。ただし、下の図 2 の赤い曲線 (「レイヤー正規化なし」) は、文字列が長くなるにつれて、クロスエントロピーが文字列あたり 1 ビットという最悪の値に近づくことを示しています。

レイヤーの正規化

ハーンの補題の限界を緩和または排除する2番目のアプローチは、レイヤー正規化（Ba et al., 2016）であり、任意のベクトルxに対して次のように定義されます。

実験では、𝛽 = 0、𝛾 = 1 なので、結果の平均はほぼゼロ、分散はほぼ 1 になります。定数𝜖は元の定義（Ba et al., 2016）には現れませんが、数値安定性のために私たちが知っているすべての実装に追加されています。

元のトランスフォーマーは、各残余接続の直後にレイヤーの正規化を実行します。このセクションでは、研究者らは上記の 2 つの構造のレイヤー正規化を変更しました。この変更には 2 つのステップがあります。

中心を削除

1 つ目は、ネットワークに各値 𝑥 と -𝑥 を計算させることで、レイヤー正規化の中心効果を除去することです。新しい単語のエンコーディングは、元の構造のエンコーディングに基づいて定義されます。

自己注意層のパラメータも同様です。

各場所の FFNN パラメータは類似しています。

その後、各レイヤーの活性化値は次のようになります。

LN のパラメータの平均は常にゼロなので、レイヤーの正規化によって何も追加または減算されることはありません。アクティベーションはスケーリングされますが、上記で構築された 2 つのトランスフォーマーの場合、最終的な決定を変更することなく、任意のアクティベーションレイヤーを任意の正の数でスケーリングできます。

クロスエントロピーの低減

さらに、ハーンの補題 5 に反して、任意のトランスフォーマーでレイヤー正規化を使用して、クロスエントロピーを必要なだけ小さくすることができます。 Hahnの定式化では、層正規化のような位置依存関数を𝑓^actに含めることができますが、補題では𝑓^actがリプシッツ連続であるのに対し、ϵ = 0の層正規化はリプシッツ連続ではないと仮定しています。

命題2. 言語Lを認識できるレイヤー正規化（ϵ = 0）を持つ任意の変換器𝑇に対して、任意の𝜂> 0に対して、最大で𝜂のクロスエントロピーで言語Lを認識できるレイヤー正規化を持つ変換器が存在する。

証明する。 𝑑 は元の活性化ベクトルの次元数を表し、𝐿 は層の数を表します。次に、自己注意が何もしない新しいレイヤー（W^V、𝐿+1、ℎ = 0）が追加され、元の出力レイヤーに基づいて FFNN が定義されます。

これにより、2次元を除くすべての次元で残差接続がゼロになるため、𝑠が元の出力ロジットである場合、この新しい層の出力（層の正規化前）は次のようになります。

ここで、ϵ = 0 の場合、レイヤー正規化によりこのベクトルはちょうど単位分散を持つようにスケーリングされるため、次のようになります。

新しい出力層は、単純に最初の次元を取得し、それを c 倍に拡張します。

実験

研究者たちは、レイヤーの正規化中に上記のように変更されたこのソリューションをテストしました。上の図 2 は、ϵ > 0 のレイヤー正規化によってクロスエントロピーが改善されることを示していますが、それでも 𝑛 とともに増加し、1 に近づきます。

学習能力

このセクションでは、ハーンの補題によって生じた欠点を克服するための 3 番目のアプローチである学習可能性の問題について説明します。

実験: 標準変圧器

研究者らは、PARITY と FIRST に基づいてトランスフォーマーをトレーニングしました。各トランスフォーマーには、対応する正確なソリューションと同じ数のレイヤーとヘッド、および同じ固定位置エンコーディングがあります。単語エンコーディングと自己注意に関連付けられた FFNN 出力の 𝑑_model は 16 ですが、FFNN 隠し層に関連付けられた 𝑑_FFNN は 64 です。残差接続後にレイヤー正規化（ϵ = 10^-5）が使用されます。

実験では PyTorch のデフォルトの初期化を使用し、学習率 3 × 10^−4 (Karpathy、2016) で Adam (Kingma and Ba、2015) を使用してトレーニングしました。ドロップアウトは役に立たないと思われるため、ドロップアウトを使用せずに実験を実施しました。 FIRST は学習しやすいですが、残念なことに、学習したトランスフォーマーは長い文にはうまく一般化されません。下の図 4 (左の列) は、トランスフォーマーを最初から短い文字列 (𝑛 = 10、30、100、300) でトレーニングし、長い文字列 (𝑛 = 1000) でテストした場合、精度があまり良くないことを示しています。実際、𝑛 = 10 でのトレーニングでは、精度はランダムな推測と同様です。

長さの対数を取った後に注意が拡張される

幸いなことに、この問題は各注意層のロジットをlog𝑛でスケーリングすることで簡単に解決できます。つまり、注意を次のように再定義します。

次に、c = 1 の FIRST に欠陥のあるトランスフォーマーを使用します。

命題3。任意の𝜂 > 0に対して、式2で定義される注意力を持つ変換器が存在し、レイヤー正規化の有無にかかわらず、クロスエントロピーが最大𝜂のFIRST言語を認識できます。

証明する。層の正規化がない場合、セクション3.3で説明したモデルではcは1に設定され、注意の重みは対数的にスケーリングされ、式(1)のsは次のように変換されます。

実験: 注目度のスケーリング

下の図 4 (右の列) のトランスフォーマーモデルでは、log n の注意スケーリング係数が使用されています。

オープンソースのトランスフォーマーモデル（Witwicky）を希少なリソースの英語-ベトナム語機械翻訳タスクで使用した場合も、同様の効果が見られます（下の表 1 を参照）。

トレーニングセットとテストセットの長さの分布が同じ場合、スケール化された注意のロジットには大きな効果はありませんが、中程度の長さまたはそれよりも短い長さ (20 未満) の文のみでトレーニングし、テスト文の長さが中程度の長さ (20 を超える) を超える場合、スケール化された注意によって 1 BLEU スコアが向上し、統計的に有意です (p 値 0.01 未満)。

興味のある読者は、研究の詳細について原著論文を読むことができます。

<<: AIによる決定をどのように説明するのでしょうか?この記事では、アルゴリズムの適用シナリオと解釈可能性を整理します。

>>: 日本の量子コンピューティング戦略：2030年までに量子技術ユーザー1000万人を目指す