Google: 大規模モデルは出現する能力だけでなく、長いトレーニング時間を経て「理解」する能力も備えている

Google: 大規模モデルは出現する能力だけでなく、長いトレーニング時間を経て「理解」する能力も備えている

2021年、研究者たちは一連のマイクロモデルを訓練しているときに驚くべき発見をしました。それは、長期間の訓練を経て、モデルは当初の「訓練データを記憶する」だけの状態から、目に見えないデータに対して強力な一般化能力を示す状態に変化するというものでした。

この現象は「グロッキング」と呼ばれます。下の図に示すように、モデルがトレーニング データに長時間適合した後、突然「グロッキング」が発生します。

写真

マイクロモデルにはこのような特性があるため、より複雑なモデルでも、より長いトレーニングを経て突然「理解」を示すようになるのでしょうか?大規模言語モデル (LLM) は最近急速に発展しています。LLM は世界に対する豊富な理解を持っているようです。多くの人は、LLM は記憶されたトレーニング コンテンツを単に繰り返しているだけだと考えています。この見解はどの程度正しいでしょうか。LLM が記憶されたコンテンツを出力しているのか、それとも入力データをうまく一般化しているのかをどのように判断できるでしょうか。

この問題をより深く理解するために、Google の研究者は、大規模なモデルが突然「悟り」を経験する本当の理由を解明しようとするブログ記事を書きました。

写真

この論文は、マイクロモデルのトレーニング ダイナミクスから始まります。24 個のニューロンを持つ単層 MLP を設計し、モジュラー加算タスクを学習するようにトレーニングしました。このタスクの出力は周期的で、(a + b) mod n の形式であることだけを知っておく必要があります。

MLP モデルの重みは、下の図に示されています。この研究では、モデルの重みは最初は非常にノイズが多かったものの、時間の経過とともに周期性を示し始めたことがわかりました。

写真

この周期性は、単一のニューロンの重みを視覚化するとさらに明白になります。

写真

周期性を過小評価しないでください。重みの周期性は、モデルが特定の数学的構造を学習していることを示しており、これは、モデルがデータの記憶から一般化機能へと変換するための鍵でもあります。多くの人がこの変化、つまりモデルがデータ モードの記憶からデータ モードの一般化へと​​変化する理由について混乱しています。

01シーケンスの実験

モデルが一般化しているのか記憶しているのかを判断するために、研究では、1と0のランダムなシーケンス30個のうち最初の3桁に1が奇数個あるかどうかを予測するようにモデルをトレーニングしました。たとえば、00011001011000101010111001001011 は 0 ですが、0101100101100010101011001001011 は 1 です。これは基本的に、干渉ノイズを伴う、少しトリッキーな XOR 問題です。モデルが一般化している場合は、シーケンスの最初の 3 桁のみを使用する必要があります。モデルがトレーニング データを記憶している場合は、後続の桁も使用されます。

この研究で使用されたモデルは、1200 シーケンスの固定バッチでトレーニングされた単層 MLP です。最初は、トレーニング精度のみが向上します。つまり、モデルはトレーニング データを記憶します。モジュラー演算と同様に、テストの精度は本質的にランダムであり、モデルが一般的な解を学習するにつれて劇的に向上します。

01 シーケンス問題の簡単な例を見ると、なぜこれが起こるのかを理解しやすくなります。その理由は、モデルがトレーニング中に損失の最小化と重みの減少という 2 つのことを実行するためです。モデルが一般化されるまで、正しいラベルを出力することに関連する損失をより低い重みと交換するため、トレーニング損失は実際にはわずかに増加します。

写真

このテスト損失の急激な低下により、モデルが突然一般化しているように見えますが、トレーニング中のモデルの重みを見ると、ほとんどのモデルが 2 つのソリューション間をスムーズに補間していることがわかります。高速な一般化は、後続の妨害桁に接続された最後の重みが重みの減衰によって削減されるときに発生します。

「悟り」という現象はいつ起こるのでしょうか?

「グロッキング」は散発的な現象であることは注目に値します。モデルのサイズ、重みの減衰、データのサイズ、その他のハイパーパラメータが適切でない場合、グロッキングは消えてしまいます。重みの減衰が小さすぎると、モデルはトレーニング データに過剰適合します。重みの減少が大きすぎると、モデルは何も学習しません。

以下の研究では、さまざまなハイパーパラメータを使用して、1 と 0 のタスク用に 1,000 を超えるモデルをトレーニングしました。トレーニング プロセスにはノイズが多かったため、ハイパーパラメータのセットごとに 9 つのモデルがトレーニングされました。青と黄色の 2 種類のモデルのみが「理解」の現象を示していることがわかります。

写真

5つのニューロンによるモジュラー加算

モジュラー加算 a+b mod 67 は周期的です。合計が 67 を超えると、答えは循環し、円で表すことができます。問題を単純化するために、この研究では、cos⁡とsin⁡を使用してaとbを円上に配置する埋め込み行列を構築し、次のように表現しました。

写真

結果は、モデルが 5 つのニューロンのみを使用して完璧な精度でソリューションを見つけることができることを示しています。

写真

訓練されたパラメータを調べたところ、研究チームはすべてのニューロンがほぼ等しい基準に収束していることを発見した。 cos⁡ と sin⁡ の成分を直接プロットすると、基本的に円上に均等に分布します。

次に、このモデルは最初からトレーニングされており、周期性が組み込まれておらず、さまざまな周波数を持っています。

写真

写真

この研究では、離散フーリエ変換 (DFT) を使用して周波数を分離しました。 1 と 0 のタスクと同様に、重要な重みはいくつかあります。

写真

次の図は、異なる周波数でもモデルが「理解」を達成できることを示しています。

写真

未解決の質問

単層 MLP がモジュラー加算を解決するメカニズムと、トレーニング中にそれがなぜ発生するかについては、現在ではしっかりと理解されていますが、メモリと一般化に関しては、まだ多くの興味深い未解決の疑問が残っています。

どちらのモデルの方が制約効果が優れていますか?

広い意味では、重みの減衰は実際にさまざまなモデルがトレーニング データを記憶することを回避するように導くことができます。過剰適合を回避するのに役立つその他の手法には、ドロップアウト、モデルの縮小、さらには数値的に不安定な最適化アルゴリズムなどがあります。これらの方法は複雑な非線形の方法で相互作用するため、どの方法が最終的に一般化を誘導するかを事前に予測することは困難です。

さらに、ハイパーパラメータが異なると、改善もそれほど急激ではなくなります。

写真

なぜ暗記は一般化よりも簡単なのでしょうか?

トレーニング セットを一般化する方法よりも、それを記憶する方法の方がはるかに多い可能性があるという理論があります。したがって、統計的に言えば、特に正規化がまったくないかほとんどない場合は、記憶が最初に発生する可能性が高くなります。重み減衰などの正規化手法では、たとえば「密な」ソリューションよりも「疎な」ソリューションを優先するなど、特定のソリューションを他のソリューションよりも優先することができます。

研究によれば、一般化は適切に構造化された表現と関連していることがわかっています。ただし、これは必要条件ではありません。対称入力のない一部の MLP バリアントでは、モジュラー加算を解くときに「循環的」な表現をあまり学習しません。研究チームはまた、適切に構造化された表現は一般化のための十分な条件ではないことも発見した。この小さなモデル (重み減衰なしでトレーニング) は一般化を開始し、その後、再帰埋め込みを使用してメモリに切り替わります。

下の図では、重みの減衰がない場合、メモリ モデルはより大きな重みを学習して損失を削減できることがわかります。

写真

モデルが一般化を開始し、次に記憶に切り替わり、その後再び一般化に切り替わるハイパーパラメータを見つけることも可能です。

写真

より大きなモデルの場合はどうでしょうか?

モジュラー加算の解法を理解するのは簡単ではありません。より大きなモデルを理解できると期待できますか?このパスでは、次のことが必要になる場合があります。

  • より多くの誘導バイアスとより少ない可動部分を持つより単純なモデルをトレーニングします。
  • これらを使用して、より大きなモデルの動作のわかりにくい部分を説明します。
  • 必要に応じて繰り返します。

研究チームは、これが大規模モデルを効果的に理解するためのより良い方法である可能性があると考えています。さらに、時間の経過とともに、このメカニズムベースの解釈可能性アプローチは、ニューラルネットワークによって学習されたアルゴリズムを簡単に、または自動的に明らかにするパターンを特定するのに役立つ可能性があります。

詳しくは原文をお読みください。

オリジナルリンク: https://pair.withgoogle.com/explorables/grokking/

<<:  一枚の写真で「踊り続ける」ことができ、SHERFは人間の神経放射場を駆動できる新しい方法を一般化することができます

>>:  1日当たりの予算が508万だと、OpenAIは2024年までしか存続できないのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

インテリジェント アシスタントが、設計から運用、保守まで、ソフトウェア開発プロセス全体を処理します。

設計、コーディングからテスト、導入、運用・保守まで、ソフトウェア開発の全プロセスをAIに任せることが...

「機械」が他より賢く、「技術」が他より劣っているという観察と思考

[[277716]] 9月21日、CCTV-1の「スーパースマート」番組では、杭州の霊隠寺に毎日訪れ...

ルーティングの基本アルゴリズム設計の目標とタイプ

基本的なルーティング アルゴリズムの設計目標とタイプは、基本的なルーティング アルゴリズムに関する知...

人工知能が製造業を改善する3つの方法

製造業者は、AI を、適切に機能するために会社全体にわたるエンドツーエンドのシステムを必要とする、非...

ザッカーバーグは7億ドルの配当金を受け取り、Metaの株価は14%急騰、オープンソース計画は成功したのか?

メタの株価は木曜日の時間外取引で14%近く上昇し、史上最高値に達したが、同社は初の配当を発表した。最...

フェデレーテッドラーニング - プライバシーの障壁を突破し、データの価値を引き出す

1. フェデレーテッドラーニングの背景従来の機械学習手法では、トレーニングのためにデータを単一のマシ...

機械学習の新たな嵐: ML モデルを使用して住宅価格を予測する方法とは?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

[[434262]]序文最近、アルゴリズムの基礎を固めるために、アルゴリズムの本にある基本的なアルゴ...

...

マイクロソフトは、兆パラメータのAIモデルのトレーニングに必要なGPUを4,000から800に削減しました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

仮病を使って休暇を取る時代は終わり?イスラエルの企業が、45秒で病気を装う従業員を識別できるAIプログラムを開発

海外で流行が猛威を振るう中、多くの企業は従業員にリモートワークをさせざるを得ない状況となっている。そ...

AIとスマート信号機が通勤を変えるかもしれない

世界的なパンデミックの影響で、世界各地でロックダウンが実施されたことにより、街の交通量は減少し、地域...

ビッグデータと人工知能のデュアルエンジンが企業のデジタル変革を推進

[51CTO.comより引用] デジタル時代において、ビッグデータと人工知能は企業のビジネス成長を推...

データセンターは大量の電力を消費します。しかしAIはエネルギーを大量に消費する必要はない

世界経済フォーラム(AI が地球を救う 8 つの方法)を含む多くの予測では、人工知能 (AI) が「...

高度な数学に希望があります!ニューラルネットワークは1秒未満で偏微分方程式を解く

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...