OpenAIの仮説が覆される！計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

モデルを推論する際には、収束が遅いために計算能力を無駄にしないようにすることが重要です。

孫子の兵法にある「計画を多く立てれば勝利につながり、計画を少なく立てれば敗北につながる」という言葉は、この原則を完璧に表しています。

チンチラとは一体何でしょうか？

モデルが小さいほど乗算が少なくなるため、実行速度が速くなり、トレーニングも速くなります。

しかし、小さなモデルは最終的に知識能力の限界に達し、学習が遅くなると想定されることがよくあります。

サイズの大きいモデルは、サイズの小さいモデルよりもパフォーマンスが優れており、与えられたトレーニング時間内でより優れたパフォーマンスを実現します。

OpenAI と DeepMind はどちらも、トレーニング中にモデルが最適なパフォーマンスを達成する方法を評価するときにパレート限界を描こうとしますが、その理論を使用しているとは明示的に述べていません。

しかし、OpenAI からの最近の引用は、この仮定を示唆しています。

大きいモデルは常に小さいモデルよりもパフォーマンスが優れていると予想されます。 […] 固定サイズのモデルは GPU の容量によって制限されます。

この仮定は、OpenAI によるパレート最適解の計算の基礎となります。

ここでは、まず、2022 年に DeepMind のメンバーが取り組んだ Chinchilla モデルを紹介します。その技術的原理は他の同様のモデル (GPT-3 など) と同じですが、違いはトレーニングパラメーターとデータ量にあります。

DeepMind は、「計算最適化トレーニングでは、モデルサイズとトレーニングデータセットサイズは均等にスケーリングする必要があります。つまり、モデルサイズが 2 倍になるたびに、トレーニングデータセットサイズも 2 倍になる必要があります」と主張しています。

写真

Chinchilla AI は、Gopher と同じ計算予算を使用しながら 700 億のパラメーターと 4 倍のデータを使用して、より計算的に最適化されたモデル Chinchilla をトレーニングすることで、この仮説をテストします。

検証結果によると、Chinchilla は、多数の下流評価タスクにおいて、Gopher、GPT-3、Jurassic-1、Megatron-Turing NLG を大幅に上回っています。

Chinchilla は MMLU ベンチマークで平均 67.5% の精度を達成しており、これは Gopher よりも 7% 以上高い数値です。

写真

Chinchilla の研究では、さまざまなサイズのモデルの多数のトレーニング実行のトレーニング損失がグラフに表示されます。

一見すると、これらの曲線は理論に従っています。つまり、小さいモデルでは最初は損失が低くなりますが、最終的には速度が低下し、大きいモデルの曲線に追い抜かれます。

写真

グラフでは、小さいモデルのパフォーマンスが大きいモデルよりも劣っている場合は、灰色の点でマークされます。灰色の線、つまりパレート限界は、スケーリング則を計算する方法です。

この仮定の問題点は、小さいモデルの方がパフォーマンスが優れていたらトレーニングを停止してしまうため、小さいモデルを長くトレーニングさせた場合に何が起こるかわからないことです。

LLaMAを見てみましょう。

チンチラはラマの曲線を再現できるでしょうか?

今年初め、Meta はサイズの異なる 4 つのモデルをトレーニングしました。他のモデルとは異なり、研究者たちは、小さなモデルであっても、各モデルを徹底的に訓練しました。

彼らはまた、トレーニング実行曲線も公開しました。

写真

1. 各曲線はまずべき乗則に従って真っ直ぐに下がる

2. その後、損失が減少するほぼ直線的なプロセスに入るようです（知識獲得のかなり一定の速度に対応）。

3. 曲線の最後では、すべてがわずかに平坦になる

まず、曲線の平坦化に関して人々が抱いている微妙な誤解についてお話ししたいと思います。

これらはすべて、可変学習率による勾配降下法を使用してトレーニングされます (学習率は、勾配の方向にどれだけ移動するかを決定するハイパーパラメータです)。

適切にトレーニングするには、ソースマテリアル内のより小さなパターンを検出できるように、学習率を継続的に下げる必要があります。

彼らが使用する減速式は、最も広く使用されているコサインスケジュールです。

写真

グラフからわかるように、トレーニングの終わり近くで、コサインスケジュールは、ほぼ線形のトレーニング損失曲線を生成する速度で学習率の低下を停止します。

これは学習の遅れの結果です。モデルは依然として同じほぼ線形の速度で学習できる可能性があります。

実際、テキストをさらに入力すると、コサインスケジュールが延長され、学習率が同じ速度で低下し続けるようになります。

モデルの適合性は、トレーニングに提供できるデータの量に依存しません。したがって、学習率の低下の変化は正当化されません。

しかし、これはこの記事の焦点ではありません。

トレーニング損失曲線は別の意味で私たちを誤解させる可能性があります。

確かに、それらはすべて同じデータでトレーニングされていますが、そのデータを同じ速度で処理するわけではありません。

私たちが知りたいのは、モデルのサンプル効率がどの程度かということではありません (この点では、モデルが大きいほど、得られるデータからより多くのことを学ぶのは明らかです)。

レースを想像してみましょう。すべてのモデルが同時にスタートし、どのモデルが最初にゴールラインを通過するかを知りたいとします。

言い換えれば、一定量の計算がトレーニングに費やされた場合、その間に最も多く学習するのは誰でしょうか?

ありがたいことに、損失曲線を Meta が提供する別のデータ、つまり各モデルのトレーニングにかかった時間と組み合わせて使用できます。

写真

最初に注目すべき点は、私たちが目にするチンチラのグラフィック全体が、このグラフィックの左側の小さな領域のみをカバーしているということです。

この狭い領域では、チンチラで記録されたものと同じ行動が見られます。

7B を例に挙げると、最初は損失が大型モデルよりもはるかに速く低下しますが、その後低下が遅くなり、13B モデルがそれを上回り、最初に 1.9 に達します。

しかし、その後、予想外の展開が起こりました。

7Bはほぼ直線状態に入り、急激な下降傾向を示し、再び13Bを超えつつあるようですね？このグラフからは、7B がもっと長くトレーニングしていたらどうなっていたかは分かりません。

しかし、13B と 33B の間でも同じ動作が見られるようです。ここでは、初期のチンチラの減速もほぼ直線的ですが、13B は急速に減少します。

33B に関しては、計算時間が 13B の 2 倍なので、13B を上回るのは当然です。

33B と 65B の間でも同様の減速とその後の加速の状況が発生したため、実際には 33B が 65B に追い抜かれることはありませんでした。

このグラフは、OpenAI と Chinchilla の想定を覆す状況を示しています。つまり、より大きなモデルが (まだ) 勝っていないということです。彼らが検出した速度低下は、実際には何らかの容量制限に達したことによるものではなかったのです。

しかし、7B カーブはまだ少し物足りないです。 Meta がもっと長く訓練していればよかったのですが... そして今、彼らはそれを実現しました! Meta は今週 LLaMA 2 をリリースしました!

「疑い」を確認する

写真

同様に、Llama 2 もモデルのトレーニング時間を公開しています。

写真

一見すると、モデルはまったく同じであるにもかかわらず、トレーニング曲線が LLaMA 1 と一致していないことがわかります。

LLaMA 2 は 2 倍のコンテキストサイズとより長いコサイン時間でトレーニングされたことが判明しましたが、残念ながら、これはすべてのサイズのモデルに悪影響を及ぼしました。

ただし、小型モデルは大型モデルよりも大きな影響を受けます。

したがって、LLaMA 1 では、34B モデルはどのトレーニング時間でも一貫して 65B モデルを上回り、現在は 70B モデルをわずかに上回っており、その後 70B モデルを上回っています。

写真

さらに重要なのは、トレーニング速度の比較により、LLaMA 1 に関する私たちの推測が強く裏付けられることです。

1. まず、大型モデルよりも高速です。

2. その後、速度が落ち、より大きなモデルに追い抜かれます（チンチラによると）

3. しかし、その後、それらは再びほぼ線形の状態に入り、そこでは、より小さなモデルがより急激な速度で減少し、優れた知識を獲得して、再びより大きなモデルを上回ります。

興味深い結果の 1 つは、トレーニングを開始するときに正しい選択を行うことに関連しています。一般的な考えとは反対に、モデルが大きいほど結果が悪くなります。

パラメータのサイズとデータセットを選択する必要がある場合は、7B モデルを選択し、数兆のトークンで 7 エポックにわたってトレーニングすることをお勧めします。

7B のほぼ線形なメカニズムを見て、70B モデルの停止時間を推測します。70B の計算を 7B モデルで使用すると、より低い困惑度が達成される可能性があります。

LLaMA 2 から気づいたもう 1 つの点は、LLaMA 1 曲線の終わりでの学習の減速が、実際にはコサインスケジュールによる結果であるということです。

LLaMA 2 のトレーニングでは、1 兆個のトークンを読み取る際に、対応する時点でそのような速度低下はまったく発生しませんでした。

実際、同じように、LLaMA 2 7B モデルは LLaMA 17B モデルよりも品質が劣ります。これはおそらく、コサインタイムテーブルが引き伸ばされているためです。

この点を証明するために、Chinchilla の論文に戻りましょう。付録 A の図 A1 では、さまざまなコサインスケジュールパラメータのアブレーションスタディ (学習率曲線を伸ばすさまざまな方法) を示しています。

写真

彼らは、曲線が引き伸ばされていないときに損失が最も低かったことを指摘した。グラフはこれを裏付けていますが、著者は何かがおかしいことにも気づいています。

600 万トークンを読み取った後、トップモデルのトレーニング損失は 2.8 未満です。一方、同じマークでは、下のモデルのトレーニング損失は 2.8 を超えています。

ただし、モデル間の唯一の違いはコサイン時刻表です。

基礎となるモデルをトレーニングするにはより多くのデータが必要なため、「伸張されていない」コサインはより多くのステップで計算され、実質的に伸張されます。

学習率が、より少ないトレーニングステップに割り当てられたスケジュールに従う場合、同じトレーニング時間で損失はより少なくなります。

より一般的には、次の疑問が生じます。コサインスケジュールが最適でない場合、曲線の末尾の形状はどうなるでしょうか。

参考: https://espadrine.github.io/blog/posts/chinchilla-s-death.html#Can_Chinchillas_picture_a_Llama_s_sights

<<: 200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

>>: 顔の照明を自由に編集：ジェネレーティブモデルに基づく3Dリライティングシステムがリリース

不均衡なデータを処理する Python ライブラリトップ 10

ブログ

ウクライナ、写真を通じて殺害されたロシア兵の家族を発見？顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

ブログ

OpenAIの仮説が覆される！計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

チンチラとは一体何でしょうか？

チンチラはラマの曲線を再現できるでしょうか?

「疑い」を確認する

不均衡なデータを処理する Python ライブラリトップ 10

ウクライナ、写真を通じて殺害されたロシア兵の家族を発見？顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

ネイチャー誌の表紙：量子コンピューターの実用化はまだ2年先

顔認識技術の現状と今後の開発動向

[文字列処理アルゴリズム] 最長連続文字とその出現回数のアルゴリズム設計とCコード実装

未来 | 人工知能が人間社会を変える24の方法

Web攻撃検出のための機械学習の深層実践

大規模マルチビューガウスモデル（LGM）：5秒で高品質の3Dオブジェクトを生成、試用可能

推薦する

概念から応用まで、人工知能の可能性

ロボットは人間の労働に取って代わることができるでしょうか?アディダスは悲惨な教訓を学び、涙ながらにスマート工場を閉鎖した

顔認識は安全ですか?どのような個人情報を慎重に保護すべきでしょうか?

PyTorch と NumPy の徹底比較! ！！

iSoftStone ロボットカスタマーサービス Rglam (Ange): ナレッジグラフと NLP エンジンを備えた高精度の会話型ロボットの構築

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

AI と ML はデータの理解方法をどのように変えているのでしょうか?

ビル・ゲイツ: 生成AIは限界に達した

Python が機械学習に最適な理由は何ですか?

人工知能が伝統的な物理学に革命を起こす