モデルが 10 倍大きくなると、パフォーマンスは何倍向上しますか? Googleの研究者が調査を実施

ディープラーニングモデルが大きくなるにつれて、あらゆる種類のハイパーパラメータ調整を行うのは非常に高価になり、トレーニングの実行ごとに数百万ドルのコストがかかる可能性があります。そのため、いくつかの研究では、「モデルのサイズが大きくなるにつれてパフォーマンスが向上する度合い」という法則を探ることを目的としています。このような定期的な予測を行うことで、小規模な研究をより大規模で、より高価だが、より高性能な環境に拡大することが可能になります。

複数のモデルサイズで実行される小規模な実験を活用することで、トレーニングに必要な計算を行う前に、大規模モデルのパフォーマンスを予測できる単純な機能スケーリング関係 (多くの場合、べき乗関係) を見つけることができます。

理論は良いのですが、実際にこれを実行するには明らかにいくつかの困難があります。慎重に行わないと、スケーリングパフォーマンスを推定する際に誤解を招き、企業が小規模なモデルよりもパフォーマンスが劣るモデルのトレーニングに数百万ドルを投資することになります。この記事では、これがどのように発生するかの例と、なぜ発生する可能性があるのかを説明します。

スケーリングの効果を調べる例として、3 つの隠し層を持つ非常に広い MLP で ImageNet をトレーニングすることが目標であるとします。まず、64、128、256 の隠しサイズから始め、これらを使用してハイパーパラメータを選択します。この場合、Adam の学習率は 3e-4 になります。また、トレーニングの長さを 30,000 回の重み更新、バッチあたり 128 枚の画像に固定しました。

次に、隠れ層のサイズによってモデルがどのように変化するかを理解してみましょう。さまざまなサイズのモデルをトレーニングし、結果をプロットしてパフォーマンスがどのように変化するかを確認できます。

異なる隠し層のサイズを持つ 8 つの異なるモデルのパフォーマンス (青で表示)。理想的には、近似線形回帰 (黒の破線) は、特定の隠し層のサイズに対する損失を予測できるはずです。

このデータは驚くほど直線的であることがわかるでしょう。素晴らしい、「パターン」を見つけました!最小二乗法を使用して、この線形関係の係数を見つけることができます: loss(hsize) = 7.0 - 0.275 log(hsize)。経験的に、これは隠れ層のサイズにおいて 2 桁以上当てはまるようです。

私たちはこの素晴らしい補間に興奮しており、隠れたサイズを 1 桁以上外挿して、より大きなモデルをトレーニングできると考えています。しかし残念なことに、実際の状況におけるモデルのパフォーマンスは予測された曲線から大きく逸脱していることがわかりました。

大規模モデル (赤で表示) によって達成されたパフォーマンスは非常に低く、小規模モデル (黒の破線) の予測を大幅に下回っています。

現実世界では、最近のモデルの規模を考えると、このような間違いは数千ドル、あるいは数百万ドルの損害をもたらす可能性があります。パラメータの範囲が 100 億を超えると、モデルの何が問題なのかを調べるために何らかの実験を行うことはほぼ不可能です。

幸いなことに、このサンプルジョブは小さいため、実験を徹底的にテストすることができます。この場合、12 種類のモデルサイズをそれぞれ 12 種類の学習率 (それぞれ 3 つのランダム初期化) で実行して、合計 432 回の試行を行うことができます。

上の図は、12 種類の異なる学習率を使用して 12 種類の異なるモデルサイズをトレーニングした結果を示しています。各サムネイルでは異なる表現方法が使用されます。異なる隠し層のサイズで達成された損失が (a) に示され、学習率が色で示されています。以前の推論では、単一の学習率を使用する予定でした。 (b) では、与えられた学習率に対する損失を示しており、隠れ層の数は色で区別されています。モデルが大きくなるほど損失は少なくなりますが、必要な学習率は小さくなります。 (c) では、学習率と隠れ層のサイズを示すヒートマップを示しています。各ピクセルは完全なトレーニング実行の結果です。 (d)では、与えられた隠れ層のサイズに対する最適な学習率を調べます。

このデータにより、話は明確になり、驚くこともなくなります。モデルのサイズが大きくなるにつれて、最適な学習率は低下します。また、学習率を低くして単純にトレーニングすると、特定のモデルサイズに対して当初予測したパフォーマンスに近づくこともわかります。最適な学習率とモデルサイズの関係をモデル化し、このモデルを使用して別の予測を行うこともできます。最適学習率と隠れ層のサイズ (d) のプロットは直線的であるように見えるため、それらを組み合わせてもそれほど支障はありません。

このような修正を行ったとしても、これが他のハイパーパラメータを使用して再度実装されたトリックではなく、次の桁の隠れたサイズで重大なエラーを引き起こすものではないことをどうやって確認できるのでしょうか?学習率は重要と思われますが、学習率スケジュールはどうでしょうか?他の最適化パラメータはどうでしょうか?アーキテクチャ上の決定についてはどうでしょうか?幅と深さの関係は何ですか?初期化はどうですか?浮動小数点数の精度（またはその欠如）はどうでしょうか?多くの場合、さまざまなハイパーパラメータのデフォルト値と許容値は比較的狭い範囲内で設定されていますが、それがより大きなモデルでも機能すると誰が言えるでしょうか?

大規模モデルのトレーニングが学界や産業界の新たなトレンドとなっているため、モデルサイズの拡張に関連する問題が次々と発生しているようです。ここで示したモデルサイズと学習率の比率を使用するなどの単純な方法でさえ、必ずしも機能するとは限りません (言語モデルの微調整プロセスを指定するなど)。

ここで、モデルのサイズ関係について議論した論文「ニューラル言語モデルのスケーリング法則」を思い出す価値があります: https://arxiv.org/abs/2001.08361

幅、深さ、体積、LR の関係やバッチサイズの関係など、多くの問題について議論されています (https://arxiv.org/abs/1812.06162) が、研究者らは他の多くの問題も見落とされていることを認めています。彼らはまた、計算量とデータサイズの関係についても議論しましたが、ここではそれについて議論したり変更したりするつもりはありません。

彼らが提案したスケーリング法則は、ベースモデルが最高のパフォーマンスを発揮するハイパーパラメータを使用してトレーニングされるという仮定の下で設計されています。

では、誤解を招く可能性のある推論に対して私たちは何ができるでしょうか?理想的には、モデルのさまざまな側面がスケールによってどのように変化するかを完全に理解し、この理解を活用してより大きなスケールのモデルを設計します。これがないと、外挿が不安になり、コストのかかる間違いにつながる可能性があります。しかし、多くの要因が関係していることを考えると、これを完全に理解することは不可能です。計算コストを考慮すると、あらゆるスケールですべてのパラメータを調整することは適切な解決策ではないようです。

ではどうすればいいでしょうか?考えられる解決策の 1 つは、スケーリング法則を使用してパフォーマンスの限界を予測することです。規模が大きくなるにつれて、パフォーマンスがべき乗法則の関係から逸脱する場合は、正しく調整または設定されていないことの兆候として捉える必要があります。これはOpenAIでよく使われるアイデアだと聞きました。つまり、拡張機能が期待どおりに動作しない場合は、おそらく何か問題が発生していることを意味します。このパフォーマンスの低下を修正するために何をすべきか、またはどのパラメータを調整すべきかを知ることは、非常に困難な場合があります。

私の意見では、スケーリング法則を使用してパフォーマンスをより広い範囲に外挿することと、実際にパフォーマンスを評価することのバランスを取る必要があります。ある意味でこれは明らかであり、それらは実際に行われていることの大まかな近似値にすぎません。モデルスケーリングの研究が進むにつれて、このバランスがより明確になり、スケーリング関係をより有効に活用して、より小規模な研究が可能になることを期待しています。

この特定の例を見ると、固定学習率による単純なパフォーマンス予測は外挿できないことがわかりましたが、モデルサイズと学習率の間には線形関係があり、テストされたモデルサイズの範囲にわたって外挿できるモデルが得られました。より大きなモデルを推定しようとすると、見逃している他の要因があるのでしょうか?それは可能ですが、実験を実行しないと知ることは困難です。

<<: 識別的か生成的か: どちらが視覚的理解の未来を表すのでしょうか?