チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

2022年3月、DeepMindの論文「計算最適化大規模言語モデルのトレーニング」では、構築されたChinchillaモデルを通じて、大規模モデルにはトレーニングが不十分という欠陥があり、モデルサイズとトレーニングトークンの数を同じ割合で拡大する必要があるという結論に達しました。つまり、モデルが大きくなればなるほど、使用するトレーニングトークンの数も増えます。

しかし、そうではないかもしれません。最近、ブロガーの Thaddée Yann TYL は「チンチラの死」と題した記事を書き、OpenAI と DeepMind のいくつかの論文の詳細を分析および解釈し、予想外の結論に達しました。十分なコンピューティングリソースとデータがあり、トレーニングが十分に長ければ、小さなモデルのパフォーマンスも大きなモデルのパフォーマンスを上回る可能性があります。

より多く計画を立てれば勝ち、より少なく計画を立てれば負ける。 ——兵法

外挿は、遅い収束プロセスで計算能力を無駄にしないようにするために非常に重要です。結局のところ、エベレストの頂上までハイキングしなければならない場合、目だけに頼るのではなく、GPS を使用するでしょう。

しかし、時には GPS から目を離して道路を見る必要があります。単純な公式では推論できない事柄もあります。 19 世紀の物理学者にとってのそれは紫外線災害であり、今日の LLM にとってのそれは紫外線災害です。中心地点の近くで有効であると推定されるものが、遠く離れた場所では大きく外れている可能性があります...

Minecraft の Far Lands は、突然ねじれて重なり合う崖の場所です。

チンチラとは一体何でしょうか？

モデルが小さいほど、乗算が少なくなり、トレーニングが速くなります。ただし、理論的には、小さなモデルは最終的に知識容量の限界に達し、学習が遅くなります。一方、知識容量が大きい大きなモデルは、一定のトレーニング時間後に小さなモデルよりも優れたパフォーマンスを発揮します。

トレーニング中に最良の価格性能比を得る方法を評価する際、OpenAI と DeepMind はどちらもパレート限界を描こうとします。彼らはこの理論を使って描いたとは明言していませんが、OpenAI からの引用は、この隠れた仮定を示唆しています。

より大きなモデルは常により小さなモデルよりも優れていると予想されます...固定サイズのモデルは機能が制限されます。

この仮定は、パレート限界を計算する際の基礎となります。 Chinchilla の研究では、図 2 は、さまざまなサイズのモデルで多数のトレーニングを実行した場合にトレーニング損失がどのように変化するかを示しています。一見すると、これらの曲線は理論と一致しています。つまり、小さいモデルは損失が低い状態から始まり (パフォーマンスが優れています)、最終的に損失の減少率が鈍化し、大きいモデルの曲線に追い抜かれます。

さまざまなモデルサイズの損失曲線を比較するチンチラプロット

この画像では、小さいモデルが大きなモデルに負けたときに灰色の点がマークされました。これらの点を結ぶ灰色の線はパレート限界線であり、スケーリング則を計算する方法です。

この仮定には問題があります。小さなモデルのパフォーマンスが優れていたときにトレーニングを停止したため、小さなモデルをより長くトレーニングさせた場合に何が起こるかはわかりません。

次に、ラマの論文を見てみましょう。

チンチラはラマのような視力を持つのでしょうか？

今年初め、Meta はサイズの異なる 4 つのモデルをトレーニングしました。他の研究とは異なり、小さなモデルも含めて各モデルは非常に長い時間にわたってトレーニングされました。

彼らは結果として得られたトレーニング曲線を公開しました。

異なるサイズの4つのラマモデルのトレーニング損失曲線

各曲線は、最初はべき乗法則に従って急激に低下します。
その後、損失はほぼ直線的に減少し始めます (知識獲得のほぼ一定の速度に対応します)。
この曲線の右端では、直線の傾向がわずかに崩れ、わずかに平坦になっています。

まず、曲線の終点の平坦化に関して人々が抱いている微妙な誤解について説明させてください。モデルは、可変学習率（大まかに言えば、各時点で勾配の方向にどれだけ移動するかを定義するハイパーパラメータ）を使用した勾配降下法によってトレーニングされました。良好なトレーニング結果を得るには、モデルがソースマテリアル内のより微妙なパターンを検出できるように、学習率を継続的に下げる必要があります。学習率を下げるために使用する式は、最も一般的に使用されるコサインスケジュールです。

コサインスケジューリングでは、学習率とトレーニングステップ数との間の機能的な関係は次のようになります。学習率は最初は直線的に増加し、その後減少して減少率がより速くなり、途中で転換点に達して減少率が再び遅くなります。

この図から、トレーニングの終了時にコサインスケジュールが学習率の低下を停止し、ほぼ線形の良好なトレーニング損失曲線が得られることがわかります。この習慣は学習を遅くします。モデルは必ずしも同じほぼ線形の速度で学習できなくなるわけではありません。実際、より多くのテキストを入力することができれば、コサインスケジュールを長くして、学習率が同じ速度で低下し続けるようにすることができます。

モデルの適応度画像は、トレーニングのために入力するデータの量に依存しないため、学習率の下降傾向の変化は意味をなさない。

しかし、これはこの記事の焦点ではありません。

トレーニング損失曲線は、逆の方向でも誤解を招く可能性があります。もちろん、同じデータでトレーニングされますが、そのデータを処理する速度は異なります。私たちが知りたいのは、モデルのサンプル効率がどの程度かということではありません (この点では、モデルが大きければ大きいほど、得られるデータからより多くのことを学ぶことは明らかです)。レースを想像してみましょう。すべてのモデルが同時にスタートし、どのモデルが最初にゴールラインを通過するかを知りたいとします。言い換えれば、一定量の計算能力がトレーニング時間に費やされた場合、どのモデルがその時間内により多くのことを学習するのでしょうか?

幸いなことに、これらの損失曲線を、Meta によって提供される他のデータ (各モデルのトレーニングにかかった時間) と組み合わせることができます。

まず、上で見たチンチラの画像についてお話ししましょう。この画像では、チンチラは左側のほんの一部を占めるだけです。この小さなセクションでは、チンチラによって記録されたのと同じ動作が見られます。バージョン 7B を例に挙げると、最初は損失がより大きなモデルよりもはるかに速く減少しますが、その後は減速します。その後、バージョン 13B モデルがそれを上回り、最初に 1.9 に達します。

そして、国境に到着すると、予想外の展開が起こりました。バージョン 7B はほぼ直線的な領域に入り、損失は着実に減少し、バージョン 13B を超えつつあるように見えました。バージョン 7B をもっと長くトレーニングできたら、何が起こるかわかりません。

ただし、バージョン 13B と 33B の間でも同様の現象が見られるようで、バージョン 13B での初期の Chinchilla の減速によってもほぼ直線的な傾向が見られ、現時点ではバージョン 13B の損失は非常に急速に減少しているようです。 33B は実際には不当に勝利しました。13B を上回るのに 2 倍以上の計算時間がかかったからです。

同じ減速とその後の加速の現象は、33B バージョンと 65B バージョンの間でも発生し、33B が 65B を上回ることは実際には決してありません。この図の内容は、OpenAI と Chinchilla の仮定を覆すものです。つまり、より大きなモデルは勝っていないということです (少なくとも今のところは)。彼らが検出した速度低下は、実際には何らかの容量制限に達したことによるものではなかったのです。

それでも、7B モデルのラインには少し物足りないところがあります。メタがもっと長くトレーニングできたらいいのに...

もう不安はありません。彼らは訓練を受けたのです!ラマ2がリリースされました！

疑いを確認する時が来た

異なるサイズの 4 つの Llama 2 モデルのトレーニング損失曲線

同様に、トレーニング時間も取得できます。

Llama 2 トレーニング損失と消費された GPU 時間

基礎となるモデルは同じであるにもかかわらず、ここでのトレーニング損失曲線は Llama 1 のものと異なることがすぐにわかります。 Llama 2 は 2 倍のコンテキストサイズとより長いコサインスケジュールでトレーニングされたことが判明しましたが、残念ながらこれはすべてのモデルサイズに悪影響を及ぼします。ただし、小型モデルは大型モデルよりも大きな影響を受けます。結果は、ラマ 1 のトレーニング時間中は、33B モデルが常に 65B モデルよりも優れており、ラマ 2 のトレーニング時間中は、34B モデルがわずかに劣り、その後再び 70B モデルを上回りました。

さらに重要なのは、トレーニング速度の比較が、ラマ 1 に関する以前の推測を強く裏付けていることです。

最初は、小さいモデルの方が大きいモデルよりも高速です。
その後、小さいモデルは速度を落とし、大きいモデルに追い抜かれます (チンチラの場合)。
しかしその後、モデルはほぼ線形領域に入り、そこではより小さなモデルがより速く下降し、より優れた知識を獲得し、再びより大きなモデルを上回ります。

これにより、トレーニング方法についての結論が導き出されます。一般的な考えとは反対に、モデルが大きいほど結果が悪くなります。パラメータのサイズとデータセットを選択する必要がある場合は、7B モデルを選択し、数兆のトークンで 7 エポックにわたってトレーニングする方がよいでしょう。

7B モデルがほぼ線形である領域を確認し、そのパターンを 70B モデルに外挿して、70B モデルのトレーニングが停止する場所を確認します。70B モデルのトレーニングリソースが 7B モデルに費やされた場合、おそらくより低い困惑度に達するでしょう。

Llama 2 曲線からわかるもう 1 つの点は、Llama 1 曲線の終わりでの学習の減速が、実際にはコサインスケジューリングによって発生しているということです。 Llama 2 のトレーニングでは、1 兆個のトークン読み取りに対応する時点でこのような速度低下はまったく発生しません。

実際、その理由は次のようになります。同じ位置では、Llama 2 7B モデルの品質は Llama 1 7B モデルよりも低く、おそらくココードチューニングが引き伸ばされているためです。

さて、この点を証明するために、Chinchilla の論文に戻りましょう。論文の付録 A の図 A1 では、異なるコサインスケジューリングパラメータ、つまり学習率曲線の異なる拡張を使用したアブレーション実験が示されています。

チンチラのコサインスケジューリングアブレーション研究

彼らは、学習率曲線に伸びがない場合に損失が最小になることを示しました。これはグラフによって裏付けられていますが、何かが間違っています。 600 万トークンを読み取った後、上図のモデルのトレーニング損失は 2.8 未満です。同時に、下図のモデルのトレーニング損失は同じ位置でさらに優れています。しかし、これら 2 つのモデルの違いはコサインスケジューリングだけです。以下のモデルは、より多くのトレーニングデータを処理することを目的としているため、より多くのステップに対して「伸張されていない」コサインスケジュールを計算し、実際には伸張効果を生み出します。学習率が、より少ないトレーニングステップを割り当てるコサインスケジュールに従う場合、同じトレーニング時間で損失は低くなります。

もっと広く言えば、これは答えのない疑問につながります。コサインスケジューリングが最適でない場合、曲線の末尾の形状はどのようになるでしょうか?

<<:

>>: 不均衡なデータを処理する Python ライブラリトップ 10