OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

OpenAIの仮説が覆される!計算量を考慮すると、小さいモデルの方が大きいモデルよりも優れています。Llama 2 のトレーニングは GPU コンピューティングに関連しています。

モデルを推論する際には、収束が遅いために計算能力を無駄にしないようにすることが重要です。

孫子の兵法にある「計画を多く立てれば勝利につながり、計画を少なく立てれば敗北につながる」という言葉は、この原則を完璧に表しています。

チンチラとは一体何でしょうか?

モデルが小さいほど乗算が少なくなるため、実行速度が速くなり、トレーニングも速くなります。

しかし、小さなモデルは最終的に知識能力の限界に達し、学習が遅くなると想定されることがよくあります。

サイズの大きいモデルは、サイズの小さいモデルよりもパフォーマンスが優れており、与えられたトレーニング時間内でより優れたパフォーマンスを実現します。

OpenAI と DeepMind はどちらも、トレーニング中にモデルが最適なパフォーマンスを達成する方法を評価するときにパレート限界を描こうとしますが、その理論を使用しているとは明示的に述べていません。

しかし、OpenAI からの最近の引用は、この仮定を示唆しています。

大きいモデルは常に小さいモデルよりもパフォーマンスが優れていると予想されます。 […] 固定サイズのモデルは GPU の容量によって制限されます。

この仮定は、OpenAI によるパレート最適解の計算の基礎となります。

ここでは、まず、2022 年に DeepMind のメンバーが取り組んだ Chinchilla モデルを紹介します。その技術的原理は他の同様のモデル (GPT-3 など) と同じですが、違いはトレーニング パラメーターとデータ量にあります。

DeepMind は、「計算最適化トレーニングでは、モデル サイズとトレーニング データセット サイズは均等にスケーリングする必要があります。つまり、モデル サイズが 2 倍になるたびに、トレーニング データセット サイズも 2 倍になる必要があります」と主張しています。

写真

Chinchilla AI は、Gopher と同じ計算予算を使用しながら 700 億のパラメーターと 4 倍のデータを使用して、より計算的に最適化されたモデル Chinchilla をトレーニングすることで、この仮説をテストします。

検証結果によると、Chinchilla は、多数の下流評価タスクにおいて、Gopher、GPT-3、Jurassic-1、Megatron-Turing NLG を大幅に上回っています。

Chinchilla は MMLU ベンチマークで平均 67.5% の精度を達成しており、これは Gopher よりも 7% 以上高い数値です。

写真

Chinchilla の研究では、さまざまなサイズのモデルの多数のトレーニング実行のトレーニング損失がグラフに表示されます。

一見すると、これらの曲線は理論に従っています。つまり、小さいモデルでは最初は損失が低くなりますが、最終的には速度が低下し、大きいモデルの曲線に追い抜かれます。

写真

グラフでは、小さいモデルのパフォーマンスが大きいモデルよりも劣っている場合は、灰色の点でマークされます。灰色の線、つまりパレート限界は、スケーリング則を計算する方法です。

この仮定の問題点は、小さいモデルの方がパフォーマンスが優れていたらトレーニングを停止してしまうため、小さいモデルを長くトレーニングさせた場合に何が起こるかわからないことです。

LLaMAを見てみましょう。

チンチラはラマの曲線を再現できるでしょうか?

今年初め、Meta はサイズの異なる 4 つのモデルをトレーニングしました。他のモデルとは異なり、研究者たちは、小さなモデルであっても、各モデルを徹底的に訓練しました。

彼らはまた、トレーニング実行曲線も公開しました。

写真

1. 各曲線はまずべき乗則に従って真っ直ぐに下がる

2. その後、損失が減少するほぼ直線的なプロセスに入るようです(知識獲得のかなり一定の速度に対応)。

3. 曲線の最後では、すべてがわずかに平坦になる

まず、曲線の平坦化に関して人々が抱いている微妙な誤解についてお話ししたいと思います。

これらはすべて、可変学習率による勾配降下法を使用してトレーニングされます (学習率は、勾配の方向にどれだけ移動するかを決定するハイパーパラメータです)。

適切にトレーニングするには、ソース マテリアル内のより小さなパターンを検出できるように、学習率を継続的に下げる必要があります。

彼らが使用する減速式は、最も広く使用されているコサインスケジュールです。

写真

グラフからわかるように、トレーニングの終わり近くで、コサイン スケジュールは、ほぼ線形のトレーニング損失曲線を生成する速度で学習率の低下を停止します。

これは学習の遅れの結果です。モデルは依然として同じほぼ線形の速度で学習できる可能性があります。

実際、テキストをさらに入力すると、コサインスケジュールが延長され、学習率が同じ速度で低下し続けるようになります。

モデルの適合性は、トレーニングに提供できるデータの量に依存しません。したがって、学習率の低下の変化は正当化されません。

しかし、これはこの記事の焦点では​​ありません。

トレーニング損失曲線は別の意味で私たちを誤解させる可能性があります。

確かに、それらはすべて同じデータでトレーニングされていますが、そのデータを同じ速度で処理するわけではありません。

私たちが知りたいのは、モデルのサンプル効率がどの程度かということではありません (この点では、モデルが大きいほど、得られるデータからより多くのことを学ぶのは明らかです)。

レースを想像してみましょう。すべてのモデルが同時にスタートし、どのモデルが最初にゴールラインを通過するかを知りたいとします。

言い換えれば、一定量の計算がトレーニングに費やされた場合、その間に最も多く学習するのは誰でしょうか?

ありがたいことに、損失曲線を Meta が提供する別のデータ、つまり各モデルのトレーニングにかかった時間と組み合わせて使用​​できます。

写真

写真

最初に注目すべき点は、私たちが目にするチンチラのグラフィック全体が、このグラフィックの左側の小さな領域のみをカバーしているということです。

この狭い領域では、チンチラで記録されたものと同じ行動が見られます。

7B を例に挙げると、最初は損失が大型モデルよりもはるかに速く低下しますが、その後低下が遅くなり、13B モデルがそれを上回り、最初に 1.9 に達します。

しかし、その後、予想外の展開が起こりました。

7Bはほぼ直線状態に入り、急激な下降傾向を示し、再び13Bを超えつつあるようですね?このグラフからは、7B がもっと長くトレーニングしていたらどうなっていたかは分かりません。

しかし、13B と 33B の間でも同じ動作が見られるようです。ここでは、初期のチンチラの減​​速もほぼ直線的ですが、13B は急速に減少します。

33B に関しては、計算時間が 13B の 2 倍なので、13B を上回るのは当然です。

33B と 65B の間でも同様の減速とその後の加速の状況が発生したため、実際には 33B が 65B に追い抜かれることはありませんでした。

このグラフは、OpenAI と Chinchilla の想定を覆す状況を示しています。つまり、より大きなモデルが (まだ) 勝っていないということです。彼らが検出した速度低下は、実際には何らかの容量制限に達したことによるものではなかったのです。

しかし、7B カーブはまだ少し物足りないです。 Meta がもっと長く訓練していればよかったのですが... そして今、彼らはそれを実現しました! Meta は今週 LLaMA 2 をリリースしました!

「疑い」を確認する

写真

同様に、Llama 2 もモデルのトレーニング時間を公開しています。

写真

写真

一見すると、モデルはまったく同じであるにもかかわらず、トレーニング曲線が LLaMA 1 と一致していないことがわかります。

LLaMA 2 は 2 倍のコンテキスト サイズとより長いコサイン時間でトレーニングされたことが判明しましたが、残念ながら、これはすべてのサイズのモデルに悪影響を及ぼしました。

ただし、小型モデルは大型モデルよりも大きな影響を受けます。

したがって、LLaMA 1 では、34B モデルはどのトレーニング時間でも一貫して 65B モデルを上回り、現在は 70B モデルをわずかに上回っており、その後 70B モデルを上回っています。

写真

さらに重要なのは、トレーニング速度の比較により、LLaMA 1 に関する私たちの推測が強く裏付けられることです。

1. まず、大型モデルよりも高速です。

2. その後、速度が落ち、より大きなモデルに追い抜かれます(チンチラによると)

3. しかし、その後、それらは再びほぼ線形の状態に入り、そこでは、より小さなモデルがより急激な速度で減少し、優れた知識を獲得して、再びより大きなモデルを上回ります。

興味深い結果の 1 つは、トレーニングを開始するときに正しい選択を行うことに関連しています。一般的な考えとは反対に、モデルが大きいほど結果が悪くなります。

パラメータのサイズとデータセットを選択する必要がある場合は、7B モデルを選択し、数兆のトークンで 7 エポックにわたってトレーニングすることをお勧めします。

7B のほぼ線形なメカニズムを見て、70B モデルの停止時間を推測します。70B の計算を 7B モデルで使用すると、より低い困惑度が達成される可能性があります。

LLaMA 2 から気づいたもう 1 つの点は、LLaMA 1 曲線の終わりでの学習の減速が、実際にはコサイン スケジュールによる結果であるということです。

LLaMA 2 のトレーニングでは、1 兆個のトークンを読み取る際に、対応する時点でそのような速度低下はまったく発生しませんでした。

実際、同じように、LLaMA 2 7B モデルは LLaMA 17B モデルよりも品質が劣ります。これはおそらく、コサイン タイムテーブルが引き伸ばされているためです。

この点を証明するために、Chinchilla の論文に戻りましょう。付録 A の図 A1 では、さまざまなコサイン スケジュール パラメータのアブレーション スタディ (学習率曲線を伸ばすさまざまな方法) を示しています。

写真

彼らは、曲線が引き伸ばされていないときに損失が最も低かったことを指摘した。グラフはこれを裏付けていますが、著者は何かがおかしいことにも気づいています。

600 万トークンを読み取った後、トップモデルのトレーニング損失は 2.8 未満です。一方、同じマークでは、下のモデルのトレーニング損失は 2.8 を超えています。

ただし、モデル間の唯一の違いはコサイン時刻表です。

基礎となるモデルをトレーニングするにはより多くのデータが必要なため、「伸張されていない」コサインはより多くのステップで計算され、実質的に伸張されます。

学習率が、より少ないトレーニング ステップに割り当てられたスケジュールに従う場合、同じトレーニング時間で損失はより少なくなります。

より一般的には、次の疑問が生じます。コサインスケジュールが最適でない場合、曲線の末尾の形状はどうなるでしょうか。

参考: https://espadrine.github.io/blog/posts/chinchilla-s-death.html#Can_Chinchillas_picture_a_Llama_s_sights

<<:  200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

>>:  顔の照明を自由に編集:ジェネレーティブモデルに基づく3Dリライティングシステムがリリース

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ソフトウェアテストが再び進化、Testinクラウドテストリモート実機サービスには明らかな利点がある

モバイルインターネット時代の始まり以来、スマートフォンへのソフトウェアの適応は常にソフトウェア業界の...

...

アルゴリズム・ステーブルコインの流行が再び到来。このトレンドをリードするのはどれでしょうか?

先週、私たちは、Float、Rai、Fei、Gyroscope などの人気のアルゴリズム ステーブル...

仮病を使って休暇を取る時代は終わり?イスラエルの企業が、45秒で病気を装う従業員を識別できるAIプログラムを開発

海外で流行が猛威を振るう中、多くの企業は従業員にリモートワークをさせざるを得ない状況となっている。そ...

論文と新しいビデオはこちら、サウスイースト大学が「室温超伝導体」LK-99の奇妙な抵抗挙動を説明

最近、各国の科学者らが韓国の「常温超伝導」物質LK-99に関する研究を発表し、悲観的な見方をする人が...

...

マイクロソフトは下書きを数秒でアプリに変換し、Mac Miniのようなミニデスクトップコンピューターを発売

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

WeChat、サードパーティのエコシステムに統合するインテリジェント会話システム「Xiaowei」を発表

2019年WeChatオープンクラスPROで、WeChat AIチームが開発したインテリジェント対話...

AIとブロックチェーンが壊れたサプライチェーンを修復する方法

2020年にコロナウイルス危機が発生した際、医療上の緊急事態に伴って、特に一部の医療機器に関して深刻...

脳コンピューターインターフェースでケーキを食べる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIは細胞構造の識別において人間にはできないことができる

[[390952]]人工知能 (AI) を使用して細胞の 3D 構造にラベルを付けて識別することは、...

...

人工知能の時代が到来し、教育は大きく変わるかもしれません。未来の教育は人工知能をベースにしたものになるのでしょうか?

「大作 SF 映画」を見るのが好きな学生にとって、最も気に入っているのは、映画に遍在する人工知能か...

金融ロボアドバイザーは3つのトレンドによって増加傾向にある

編集者注: ロボット アドバイザーの登場により、従来のアドバイザーはどこへ向かうのでしょうか。これは...

ガートナーの調査によると、企業は来年AIプロジェクトを2倍に増やすと予想している。

世界有数の情報技術調査およびアドバイザリ企業であるガートナーによる最近の調査によると、現在人工知能 ...