Google: 大規模モデルは出現する能力だけでなく、長いトレーニング時間を経て「理解」する能力も備えている

Google: 大規模モデルは出現する能力だけでなく、長いトレーニング時間を経て「理解」する能力も備えている

2021年、研究者たちは一連のマイクロモデルを訓練しているときに驚くべき発見をしました。それは、長期間の訓練を経て、モデルは当初の「訓練データを記憶する」だけの状態から、目に見えないデータに対して強力な一般化能力を示す状態に変化するというものでした。

この現象は「グロッキング」と呼ばれます。下の図に示すように、モデルがトレーニング データに長時間適合した後、突然「グロッキング」が発生します。

写真

マイクロモデルにはこのような特性があるため、より複雑なモデルでも、より長いトレーニングを経て突然「理解」を示すようになるのでしょうか?大規模言語モデル (LLM) は最近急速に発展しています。LLM は世界に対する豊富な理解を持っているようです。多くの人は、LLM は記憶されたトレーニング コンテンツを単に繰り返しているだけだと考えています。この見解はどの程度正しいでしょうか。LLM が記憶されたコンテンツを出力しているのか、それとも入力データをうまく一般化しているのかをどのように判断できるでしょうか。

この問題をより深く理解するために、Google の研究者は、大規模なモデルが突然「悟り」を経験する本当の理由を解明しようとするブログ記事を書きました。

写真

この論文は、マイクロモデルのトレーニング ダイナミクスから始まります。24 個のニューロンを持つ単層 MLP を設計し、モジュラー加算タスクを学習するようにトレーニングしました。このタスクの出力は周期的で、(a + b) mod n の形式であることだけを知っておく必要があります。

MLP モデルの重みは、下の図に示されています。この研究では、モデルの重みは最初は非常にノイズが多かったものの、時間の経過とともに周期性を示し始めたことがわかりました。

写真

この周期性は、単一のニューロンの重みを視覚化するとさらに明白になります。

写真

周期性を過小評価しないでください。重みの周期性は、モデルが特定の数学的構造を学習していることを示しており、これは、モデルがデータの記憶から一般化機能へと変換するための鍵でもあります。多くの人がこの変化、つまりモデルがデータ モードの記憶からデータ モードの一般化へと​​変化する理由について混乱しています。

01シーケンスの実験

モデルが一般化しているのか記憶しているのかを判断するために、研究では、1と0のランダムなシーケンス30個のうち最初の3桁に1が奇数個あるかどうかを予測するようにモデルをトレーニングしました。たとえば、00011001011000101010111001001011 は 0 ですが、0101100101100010101011001001011 は 1 です。これは基本的に、干渉ノイズを伴う、少しトリッキーな XOR 問題です。モデルが一般化している場合は、シーケンスの最初の 3 桁のみを使用する必要があります。モデルがトレーニング データを記憶している場合は、後続の桁も使用されます。

この研究で使用されたモデルは、1200 シーケンスの固定バッチでトレーニングされた単層 MLP です。最初は、トレーニング精度のみが向上します。つまり、モデルはトレーニング データを記憶します。モジュラー演算と同様に、テストの精度は本質的にランダムであり、モデルが一般的な解を学習するにつれて劇的に向上します。

01 シーケンス問題の簡単な例を見ると、なぜこれが起こるのかを理解しやすくなります。その理由は、モデルがトレーニング中に損失の最小化と重みの減少という 2 つのことを実行するためです。モデルが一般化されるまで、正しいラベルを出力することに関連する損失をより低い重みと交換するため、トレーニング損失は実際にはわずかに増加します。

写真

このテスト損失の急激な低下により、モデルが突然一般化しているように見えますが、トレーニング中のモデルの重みを見ると、ほとんどのモデルが 2 つのソリューション間をスムーズに補間していることがわかります。高速な一般化は、後続の妨害桁に接続された最後の重みが重みの減衰によって削減されるときに発生します。

「悟り」という現象はいつ起こるのでしょうか?

「グロッキング」は散発的な現象であることは注目に値します。モデルのサイズ、重みの減衰、データのサイズ、その他のハイパーパラメータが適切でない場合、グロッキングは消えてしまいます。重みの減衰が小さすぎると、モデルはトレーニング データに過剰適合します。重みの減少が大きすぎると、モデルは何も学習しません。

以下の研究では、さまざまなハイパーパラメータを使用して、1 と 0 のタスク用に 1,000 を超えるモデルをトレーニングしました。トレーニング プロセスにはノイズが多かったため、ハイパーパラメータのセットごとに 9 つのモデルがトレーニングされました。青と黄色の 2 種類のモデルのみが「理解」の現象を示していることがわかります。

写真

5つのニューロンによるモジュラー加算

モジュラー加算 a+b mod 67 は周期的です。合計が 67 を超えると、答えは循環し、円で表すことができます。問題を単純化するために、この研究では、cos⁡とsin⁡を使用してaとbを円上に配置する埋め込み行列を構築し、次のように表現しました。

写真

結果は、モデルが 5 つのニューロンのみを使用して完璧な精度でソリューションを見つけることができることを示しています。

写真

訓練されたパラメータを調べたところ、研究チームはすべてのニューロンがほぼ等しい基準に収束していることを発見した。 cos⁡ と sin⁡ の成分を直接プロットすると、基本的に円上に均等に分布します。

次に、このモデルは最初からトレーニングされており、周期性が組み込まれておらず、さまざまな周波数を持っています。

写真

写真

この研究では、離散フーリエ変換 (DFT) を使用して周波数を分離しました。 1 と 0 のタスクと同様に、重要な重みはいくつかあります。

写真

次の図は、異なる周波数でもモデルが「理解」を達成できることを示しています。

写真

未解決の質問

単層 MLP がモジュラー加算を解決するメカニズムと、トレーニング中にそれがなぜ発生するかについては、現在ではしっかりと理解されていますが、メモリと一般化に関しては、まだ多くの興味深い未解決の疑問が残っています。

どちらのモデルの方が制約効果が優れていますか?

広い意味では、重みの減衰は実際にさまざまなモデルがトレーニング データを記憶することを回避するように導くことができます。過剰適合を回避するのに役立つその他の手法には、ドロップアウト、モデルの縮小、さらには数値的に不安定な最適化アルゴリズムなどがあります。これらの方法は複雑な非線形の方法で相互作用するため、どの方法が最終的に一般化を誘導するかを事前に予測することは困難です。

さらに、ハイパーパラメータが異なると、改善もそれほど急激ではなくなります。

写真

なぜ暗記は一般化よりも簡単なのでしょうか?

トレーニング セットを一般化する方法よりも、それを記憶する方法の方がはるかに多い可能性があるという理論があります。したがって、統計的に言えば、特に正規化がまったくないかほとんどない場合は、記憶が最初に発生する可能性が高くなります。重み減衰などの正規化手法では、たとえば「密な」ソリューションよりも「疎な」ソリューションを優先するなど、特定のソリューションを他のソリューションよりも優先することができます。

研究によれば、一般化は適切に構造化された表現と関連していることがわかっています。ただし、これは必要条件ではありません。対称入力のない一部の MLP バリアントでは、モジュラー加算を解くときに「循環的」な表現をあまり学習しません。研究チームはまた、適切に構造化された表現は一般化のための十分な条件ではないことも発見した。この小さなモデル (重み減衰なしでトレーニング) は一般化を開始し、その後、再帰埋め込みを使用してメモリに切り替わります。

下の図では、重みの減衰がない場合、メモリ モデルはより大きな重みを学習して損失を削減できることがわかります。

写真

モデルが一般化を開始し、次に記憶に切り替わり、その後再び一般化に切り替わるハイパーパラメータを見つけることも可能です。

写真

より大きなモデルの場合はどうでしょうか?

モジュラー加算の解法を理解するのは簡単ではありません。より大きなモデルを理解できると期待できますか?このパスでは、次のことが必要になる場合があります。

  • より多くの誘導バイアスとより少ない可動部分を持つより単純なモデルをトレーニングします。
  • これらを使用して、より大きなモデルの動作のわかりにくい部分を説明します。
  • 必要に応じて繰り返します。

研究チームは、これが大規模モデルを効果的に理解するためのより良い方法である可能性があると考えています。さらに、時間の経過とともに、このメカニズムベースの解釈可能性アプローチは、ニューラルネットワークによって学習されたアルゴリズムを簡単に、または自動的に明らかにするパターンを特定するのに役立つ可能性があります。

詳しくは原文をお読みください。

オリジナルリンク: https://pair.withgoogle.com/explorables/grokking/

<<:  一枚の写真で「踊り続ける」ことができ、SHERFは人間の神経放射場を駆動できる新しい方法を一般化することができます

>>:  1日当たりの予算が508万だと、OpenAIは2024年までしか存続できないのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

AIはソフトウェアテスターの仕事を「奪う」のでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

このAIアルゴリズムの面接体験は非常に役立つ:Amazonは履歴書から面接まで実践的な経験を共有

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

速報です!ヒントンがロボットスタートアップに参入、同社は9000万ドルの新規投資を受ける

チューリング賞受賞者であり、ディープラーニングの父であるジェフリー・ヒントンの次の旅が決まりました。...

ディープラーニングフィードフォワードニューラルネットワークの簡単な紹介

索引多層パーセプトロン (MLP) 入門ディープニューラルネットワークの活性化関数ディープニューラル...

...

...

2019年のAI開発の7つの分野

[[257419]] 2018 年は人工知能 (AI) の主流採用をさらに促進し、より多くの機能の提...

楊強:人工知能の次の技術的、商業的トレンドはどこにあるのでしょうか?

第四パラダイムの主任科学者であり、パラダイム大学の指導者である楊強教授は最近、第四パラダイム内で「人...

シリコンバレーのエンジニアの間で大人気だったこの技術共有セッションで、ディディはどんなことを話したのでしょうか?

11月19日、滴滴出行は米国の新研究オフィスで地元の科学研究者向けの技術サロンを開催した。 Did...

人工知能がやって来ます。準備はできていますか?

ちょうど2年前、大学に入学したときに一度だけ行ったことがあります。その時は、まず入り口の機械で番号を...

...

劉玉樹:人工知能における中国と米国の格差は縮まっているが、まだやるべきことはある

著者の劉玉樹氏は中国人民大学重陽金融研究所学務委員会委員、マクロ研究部部長、研究者である。本稿は11...

企業は人工知能の可能性に目がくらんでいるのでしょうか?

多くの企業が AI イニシアチブの導入に意欲的に取り組んでいる一方で、AI が自社のビジネスにどのよ...