MIT スタンフォードトランスフォーマーの最新研究: 過剰トレーニングにより、中程度のモデルが構造一般化能力を「発現」できるようになる

人間にとって、文章は階層的です。

文の階層構造は表現と理解の両方にとって非常に重要です。

しかし、自然言語処理においては、以前の研究で、新しい構造入力に一般化する場合、Transformer によって表されるニューラルシーケンスモデルは、そのような文の階層構造を効果的に捉えることが困難であるように見えることが示されています。

しかし、スタンフォード大学とMITの研究者らは最近の研究で次のような発見をした。

Transformer のようなモデルを長期間トレーニングすると、この構造的一般化能力を獲得できます。

研究者はこの現象を「構造的グロッキング（SG）」と呼んでいます。

Grokking という言葉は、ある作家が本の中で作った造語で、中国語に翻訳するとおおよそ「顕現」を意味します。

WeiboユーザーのMu Yaoさんはこの言葉を次のように説明した。高度に複雑なニューラルネットワークは、長いトレーニング期間中にトレーニングサンプルの情報しか記憶できず、一般化能力はほとんどありませんが、ある瞬間にその一般化レベルが突然飛躍し、完璧になります。

まるでニューラルネットワークの内部の歯車が突然所定の位置に収まったかのように、ニューラルネットワークが「なるほど！」という瞬間を体験していると考えてください。

論文アドレス: https://arxiv.org/abs/2305.18741

研究者たちは、さまざまなデータセットで、SG がモデルの深さに関して逆 U スケーリングを示すことを発見しました。

中程度の深さのモデルは、非常に深いモデルや非常に浅いモデルよりも一般化が優れています。

一般的に、モデルをより広範囲にトレーニングできる場合、通常の Transformer は階層構造を示すことができます。

背景

以前の同様の研究では、研究者はTransformerが階層的一般化テストに失敗したと考えていました。

Transformer モデルの階層構造

特定のモデルが階層構造の獲得に偏っているかどうかを理解するために、スタンフォード大学の研究者は以前の実験手順に従い、あいまいなタスクでトレーニングされたモデルの一般化を評価しました。

これらのタスクでは、トレーニングデータは「階層的ルール」と「非階層的ルール」の両方と一致しています。

層別化の規則性が得られたかどうかをテストするために、研究者らは別の分布外テストセットで一般化をテストしました。

グロッキング

これまでの研究では、小規模なアルゴリズムデータセットでひらめきが起こる可能性があることが示されており、トレーニングのパフォーマンスが飽和した後もモデルテストのパフォーマンスが向上し続けることがわかりました。

そのため、研究者たちは、ドメイン内検証のパフォーマンスが飽和した後もモデルが階層構造に関する洞察を獲得し続けることができる、同様の構造的洞察が存在するという仮説を立てました。

したがって、レイヤーごとの一般化は、拡張トレーニングを通じて継続的に改善することができます。

実験

データセット

研究者らは、トランスフォーマーの階層的一般化を理解することを目的とし、以前の研究からの 2 つのデータセットを使用して、単純なブラケット追跡タスクで評価しました。

次の図に示すように、Dyck20,10 における構造的に観測されていない弦に対する一般化能力を評価します。

モデル

研究者らは、{2,4,6,8,10} 層を持つトランスフォーマー言語モデルをトレーニングしました。

研究者らは、それぞれの深度について、10 個のランダムシードと 30 万ステップでモデルをトレーニングしました。（ディックは40万）

入力文（Dyck の場合は接頭辞）が与えられると、研究者はテスト時にそれをモデルからデコードしました。

Dyck の場合、研究者らは、言語の入力接頭辞を与えられた場合に正しい種類の閉じ括弧をランク付けして生成することで、正確性を報告しています。

以前の研究と同様に、質問形成については、研究者らは質問の最初の単語を解読する精度を報告しています。

時制と語形変化については、研究者はターゲット動詞が正しく語形変化したテスト入力の割合を報告します。

主な結果

変圧器は構造的な啓示を示します。

研究者らは、すべてのデータセットにわたって最適なモデル深度を使用して得られた結果を下の図に示しています。

彼らは構造的洞察の明確な証拠を発見しました。データセット全体で、分布内精度が飽和した後のトレーニングステップで一般化パフォーマンスが向上し、完全な精度に近づくことさえありました。

早期に中止するのは有害である

次に、研究者らは、ドメイン内検証精度を早期に停止することによって得られた一般化精度と、より長いトレーニングプロセスの一般化精度を比較しました (以下を参照)。

早期に停止すると、一般化パフォーマンスが大幅に過小評価される可能性があります。

たとえば、質問形成タスクと時制変化タスクでは、平均的な一般化パフォーマンスがそれぞれ 40% 未満と 50% 未満から 90% 未満と 80% 未満に向上しました。

逆U字型分布

質問形成と時制変化のタスクでは、研究者はモデルトレーニングの深さを 2 層から 10 層まで徐々に増やしていきました。

各深度について、最終的な一般化精度が 80% を超えるシードの数 (10 シード中) が下の図に報告されます。

彼らは逆U字型の分布を発見しました。非常に浅いモデルと非常に深いモデルのパフォーマンスは低かったのに対し、ほとんどのシードは中程度の深さのモデルで優れた一般化パフォーマンスを示しました。

これは、以前の研究が非常に浅いモデル (1 ～ 3 層の Transformer) または非常に深いモデル (Mueller らの論文では 12 層の Transformer) を使用したにもかかわらず、一般化に失敗した理由も説明できます。

分析する

構造的洞察はモデルアーキテクチャのサブセットでのみ発生することを考えると、研究者はそれがいつ発生するかを判断できるでしょうか (または、いつ発生するかを予測できるでしょうか)?

いくつかのモデル内部プロパティは、構造の理解や、Transformer に見られる新たな階層構造に関連している可能性があります。

体重基準

最近の研究では、パラメータ重みの L2 ノルムが構造的洞察にとって重要な量であることが示唆されています。

しかし、一般的には、トレーニング中の規範の成長は、ニューラルネットワークの一般化の重要な要因の 1 つとして研究されてきました。

注意の希薄性

Merrill et al. (2021) は、Transformer における規範の成長が、新たな言語構造の重要な特性である注意の飽和につながることを実証しました (Merrill et al., 2022)。 fLθの注目スパース性を測定するために、すべての分布{apk}の負の平均エントロピーを計算します。

ツリー構造

これまでの研究では、ツリー構造のエンコーダーはほぼ完璧な階層的一般化を示すことが示されています。

Transformer は比較的自由な形式ですが、最近の証拠によると、言語データでトレーニングすると、暗黙的に (近似的に) ツリー構造の計算を実装することが示唆されています。

さらに、以前の研究におけるツリー投影法は、Transformer が入力に対して実行する内部計算をツリー構造のニューラルエンコーディングで近似できる範囲を正確に記述し、任意の Transformer に対してツリー構造のメトリックスコア (tscore) を提供し、入力文字列に対する計算を最もよく近似するバイナリツリーを提供します。

ツリーが人間の統語概念に対応しているかどうかを評価するために、復元されたツリーをゴールドスタンダードツリーと比較します。

結果

質問形成タスクと時制変化タスクでは、研究者は、重み基準（レイヤー数を統一することで異なるモデルの深さを比較する）、注意のスパース性、およびツリー構造の動的な変化を、3k ステップごとにこれらの量を更新および計算することで説明します。

注意スパース性やツリー構造などのデータ依存特性については、トレーニングデータから 10,000 個の例をランダムにサンプリングしました。

研究者たちは、最小のモデル、最大のモデル（少なくとも 1 回の実行で構造的洞察が成功した場合）、および最適なモデル深度について、以下の図にこれらの量をプロットしています。

ツリー構造は最適なモデルです

両方のデータセットのすべてのモデル設定で、重みノルムと注意スパース性が増加します。

ただし、これらの特性だけでは、浅いモデルと深いモデルの失敗を予測することはできません。浅いモデルは、最もスパースなソリューションと最大の重みノルムを持つソリューションを学習しますが、階層的に一般化することはありません。

以前の研究で指摘されているように、すべてのモデルにおいて tscore は時間の経過とともに向上し、ツリー構造が時間の経過とともに増加したことを示しています。

どちらのデータセットでも、「最良」のモデルは、深いモデルと浅いモデルの両方と比較して、最もツリー構造化されたソリューションを学習しました。

アルゴリズムタスクでは、構造の理解は「埋め込みにおける構造の出現と一致する」。

同様に、言語タスクでは、構造理解がツリー状の内部計算の出現と一致することがわかりました。

トランスフォーマーは構造を誘導するのに驚くほど効果的である

下の図の tparseval のダイナミクスから、研究者は、一般化しているかどうかに関係なく、すべてのモデルが実際の構文に近い構造を学習し、右分岐のベースラインを上回ることもあることに気づきました。

これまでの研究では、ツリー構造のエンコーダーは、正しい構文解析ツリーに従って構造化されている場合にのみ一般化できることが示唆されています。

研究者たちは、すべてのトランスフォーマーが正しいツリー構造を学習したが、最もツリー構造化されたモデルだけが最高の一般化能力を示したことを発見した。

結論は

この研究は、構造的洞察メカニズムを通じて、Transformer が構造に敏感な「階層的一般化」を発揮できることを示しています。

全体的な学習行動は、暗記型（ドメイン内では高い精度、ドメイン外では低い精度）から一般化型（ドメイン内とドメイン外の両方で高い精度）へと徐々に移行します。

研究者らは比較的小規模なデータセットと小規模なモデルでこの動作を実証したが、その結果はより広範な影響を及ぼす可能性がある。

大規模な言語モデリングや組み合わせ一般化タスクでも、長いトレーニング時間が役立つことが示されているためです。

構造的な洞察は「中規模」のモデルの深さで最も頻繁に発生しますが、非常に浅いモデルと非常に深いモデルではこの動作は発生しません。

重み基準や注意スパース性など、Transformer における言語一般化に以前から関連付けられてきた特性では、良いアーキテクチャと悪いアーキテクチャを区別することはできませんが、Transformer の機能ツリー構造は、最適なモデル深度を予測するのに適しています。

Transformer アーキテクチャには明らかな制限 (無限再帰が実現できないなど) がいくつかありますが、研究者の結果は、これまで考えられていたよりも強い帰納的バイアスがある可能性があることを示唆しています。十分なトレーニングを行えば、Transformer は階層的な文の構造を表現し、この構造を利用して正しく一般化することができます。

<<: スマート製造における AI: イノベーションと効率の推進

>>: