Google: 大規模モデルは出現する能力だけでなく、長いトレーニング時間を経て「理解」する能力も備えている

2021年、研究者たちは一連のマイクロモデルを訓練しているときに驚くべき発見をしました。それは、長期間の訓練を経て、モデルは当初の「訓練データを記憶する」だけの状態から、目に見えないデータに対して強力な一般化能力を示す状態に変化するというものでした。

この現象は「グロッキング」と呼ばれます。下の図に示すように、モデルがトレーニングデータに長時間適合した後、突然「グロッキング」が発生します。

写真

マイクロモデルにはこのような特性があるため、より複雑なモデルでも、より長いトレーニングを経て突然「理解」を示すようになるのでしょうか?大規模言語モデル (LLM) は最近急速に発展しています。LLM は世界に対する豊富な理解を持っているようです。多くの人は、LLM は記憶されたトレーニングコンテンツを単に繰り返しているだけだと考えています。この見解はどの程度正しいでしょうか。LLM が記憶されたコンテンツを出力しているのか、それとも入力データをうまく一般化しているのかをどのように判断できるでしょうか。

この問題をより深く理解するために、Google の研究者は、大規模なモデルが突然「悟り」を経験する本当の理由を解明しようとするブログ記事を書きました。

写真

この論文は、マイクロモデルのトレーニングダイナミクスから始まります。24 個のニューロンを持つ単層 MLP を設計し、モジュラー加算タスクを学習するようにトレーニングしました。このタスクの出力は周期的で、(a + b) mod n の形式であることだけを知っておく必要があります。

MLP モデルの重みは、下の図に示されています。この研究では、モデルの重みは最初は非常にノイズが多かったものの、時間の経過とともに周期性を示し始めたことがわかりました。

写真

この周期性は、単一のニューロンの重みを視覚化するとさらに明白になります。

写真

周期性を過小評価しないでください。重みの周期性は、モデルが特定の数学的構造を学習していることを示しており、これは、モデルがデータの記憶から一般化機能へと変換するための鍵でもあります。多くの人がこの変化、つまりモデルがデータモードの記憶からデータモードの一般化へと変化する理由について混乱しています。

01シーケンスの実験

モデルが一般化しているのか記憶しているのかを判断するために、研究では、1と0のランダムなシーケンス30個のうち最初の3桁に1が奇数個あるかどうかを予測するようにモデルをトレーニングしました。たとえば、00011001011000101010111001001011 は 0 ですが、0101100101100010101011001001011 は 1 です。これは基本的に、干渉ノイズを伴う、少しトリッキーな XOR 問題です。モデルが一般化している場合は、シーケンスの最初の 3 桁のみを使用する必要があります。モデルがトレーニングデータを記憶している場合は、後続の桁も使用されます。

この研究で使用されたモデルは、1200 シーケンスの固定バッチでトレーニングされた単層 MLP です。最初は、トレーニング精度のみが向上します。つまり、モデルはトレーニングデータを記憶します。モジュラー演算と同様に、テストの精度は本質的にランダムであり、モデルが一般的な解を学習するにつれて劇的に向上します。

01 シーケンス問題の簡単な例を見ると、なぜこれが起こるのかを理解しやすくなります。その理由は、モデルがトレーニング中に損失の最小化と重みの減少という 2 つのことを実行するためです。モデルが一般化されるまで、正しいラベルを出力することに関連する損失をより低い重みと交換するため、トレーニング損失は実際にはわずかに増加します。

写真

このテスト損失の急激な低下により、モデルが突然一般化しているように見えますが、トレーニング中のモデルの重みを見ると、ほとんどのモデルが 2 つのソリューション間をスムーズに補間していることがわかります。高速な一般化は、後続の妨害桁に接続された最後の重みが重みの減衰によって削減されるときに発生します。

「悟り」という現象はいつ起こるのでしょうか？

「グロッキング」は散発的な現象であることは注目に値します。モデルのサイズ、重みの減衰、データのサイズ、その他のハイパーパラメータが適切でない場合、グロッキングは消えてしまいます。重みの減衰が小さすぎると、モデルはトレーニングデータに過剰適合します。重みの減少が大きすぎると、モデルは何も学習しません。

以下の研究では、さまざまなハイパーパラメータを使用して、1 と 0 のタスク用に 1,000 を超えるモデルをトレーニングしました。トレーニングプロセスにはノイズが多かったため、ハイパーパラメータのセットごとに 9 つのモデルがトレーニングされました。青と黄色の 2 種類のモデルのみが「理解」の現象を示していることがわかります。

写真

5つのニューロンによるモジュラー加算

モジュラー加算 a+b mod 67 は周期的です。合計が 67 を超えると、答えは循環し、円で表すことができます。問題を単純化するために、この研究では、cos⁡とsin⁡を使用してaとbを円上に配置する埋め込み行列を構築し、次のように表現しました。

写真

結果は、モデルが 5 つのニューロンのみを使用して完璧な精度でソリューションを見つけることができることを示しています。

写真

訓練されたパラメータを調べたところ、研究チームはすべてのニューロンがほぼ等しい基準に収束していることを発見した。 cos⁡ と sin⁡ の成分を直接プロットすると、基本的に円上に均等に分布します。

次に、このモデルは最初からトレーニングされており、周期性が組み込まれておらず、さまざまな周波数を持っています。

写真

この研究では、離散フーリエ変換 (DFT) を使用して周波数を分離しました。 1 と 0 のタスクと同様に、重要な重みはいくつかあります。

写真

次の図は、異なる周波数でもモデルが「理解」を達成できることを示しています。

写真

未解決の質問

単層 MLP がモジュラー加算を解決するメカニズムと、トレーニング中にそれがなぜ発生するかについては、現在ではしっかりと理解されていますが、メモリと一般化に関しては、まだ多くの興味深い未解決の疑問が残っています。

どちらのモデルの方が制約効果が優れていますか?

広い意味では、重みの減衰は実際にさまざまなモデルがトレーニングデータを記憶することを回避するように導くことができます。過剰適合を回避するのに役立つその他の手法には、ドロップアウト、モデルの縮小、さらには数値的に不安定な最適化アルゴリズムなどがあります。これらの方法は複雑な非線形の方法で相互作用するため、どの方法が最終的に一般化を誘導するかを事前に予測することは困難です。

さらに、ハイパーパラメータが異なると、改善もそれほど急激ではなくなります。

写真

なぜ暗記は一般化よりも簡単なのでしょうか?

トレーニングセットを一般化する方法よりも、それを記憶する方法の方がはるかに多い可能性があるという理論があります。したがって、統計的に言えば、特に正規化がまったくないかほとんどない場合は、記憶が最初に発生する可能性が高くなります。重み減衰などの正規化手法では、たとえば「密な」ソリューションよりも「疎な」ソリューションを優先するなど、特定のソリューションを他のソリューションよりも優先することができます。

研究によれば、一般化は適切に構造化された表現と関連していることがわかっています。ただし、これは必要条件ではありません。対称入力のない一部の MLP バリアントでは、モジュラー加算を解くときに「循環的」な表現をあまり学習しません。研究チームはまた、適切に構造化された表現は一般化のための十分な条件ではないことも発見した。この小さなモデル (重み減衰なしでトレーニング) は一般化を開始し、その後、再帰埋め込みを使用してメモリに切り替わります。

下の図では、重みの減衰がない場合、メモリモデルはより大きな重みを学習して損失を削減できることがわかります。

写真

モデルが一般化を開始し、次に記憶に切り替わり、その後再び一般化に切り替わるハイパーパラメータを見つけることも可能です。

写真

より大きなモデルの場合はどうでしょうか?

モジュラー加算の解法を理解するのは簡単ではありません。より大きなモデルを理解できると期待できますか?このパスでは、次のことが必要になる場合があります。

より多くの誘導バイアスとより少ない可動部分を持つより単純なモデルをトレーニングします。
これらを使用して、より大きなモデルの動作のわかりにくい部分を説明します。
必要に応じて繰り返します。

研究チームは、これが大規模モデルを効果的に理解するためのより良い方法である可能性があると考えています。さらに、時間の経過とともに、このメカニズムベースの解釈可能性アプローチは、ニューラルネットワークによって学習されたアルゴリズムを簡単に、または自動的に明らかにするパターンを特定するのに役立つ可能性があります。

詳しくは原文をお読みください。

オリジナルリンク: https://pair.withgoogle.com/explorables/grokking/

<<: 一枚の写真で「踊り続ける」ことができ、SHERFは人間の神経放射場を駆動できる新しい方法を一般化することができます

>>: 1日当たりの予算が508万だと、OpenAIは2024年までしか存続できないのでしょうか？