言語モデルのパラメータは多ければ多いほど良いのでしょうか?ディープマインドは700億を使い、自社の2800億を上回り、「小さな」モデルを訓練し最適化した。

最近、一連の大規模言語モデル (LLM) が登場しており、そのうち最大のものは 5000 億を超えるパラメータを備えています。これらの大規模な自己回帰トランスフォーマーは、ゼロショット、少数ショット、微調整などのさまざまな評価プロトコルを使用して、多くのタスクで優れたパフォーマンスを示します。

ただし、大規模な言語モデルをトレーニングするには膨大な計算量とエネルギー消費が必要であり、この消費量はモデルが大きくなるにつれて増加します。実際には、研究者によって割り当てられるトレーニングコンピューティング予算は、通常、事前にわかっています。つまり、利用可能なアクセラレータの数と、それらをどのくらいの期間使用するかということです。多くの場合、これらの大規模なモデルを 1 回だけトレーニングすれば十分であるため、与えられた計算予算に対して最適なモデルハイパーパラメータを正確に推定することが重要です。

Kaplanら（2020）は、自己回帰言語モデル（LM）のパラメータ数とそのパフォーマンスの間にはべき乗関係があることを示しました。その結果、この分野ではパフォーマンスが向上することを期待して、ますます大きなモデルのトレーニングが行われています。 Kaplan ら (2020) の注目すべき結論は、計算を最適化するために、大規模なモデルを可能な限り低い損失までトレーニングすべきではないということです。

DeepMind の研究者も同じ結論に達しましたが、大規模なモデルは著者が推奨するよりも多くのトークンでトレーニングできると推定しました。具体的には、計算予算が 10 倍に増加すると仮定すると、モデルサイズは 5.5 倍に増加する一方で、トレーニングトークンの数は 1.8 倍しか増加しないはずだと他の研究者は示唆しています。代わりに、DeepMind は、モデルのサイズとトレーニングトークンの数が同じ比率で拡大縮小する必要があることを発見しました。

論文アドレス: https://arxiv.org/pdf/2203.15556.pdf

Kaplan らおよび GPT-3 のトレーニング設定研究に従って、最近の大規模モデルは約 3,000 億トークンでトレーニングされています (表 1)。これは、モデルサイズを大きくすることが計算能力を高める際の主なアプローチであるという結論と一致しています。

この研究で、DeepMind は「固定の FLOP 予算がある場合、モデルのサイズとトレーニングトークンの数をどのようにバランスさせるべきか」という疑問を再検討しました。この質問に答えるために、DeepMindは最終的なトレーニング前損失𝐿(𝑁,𝐷)をモデルパラメータ数𝑁とトレーニングトークン数𝐷の関数としてモデル化します。計算予算𝐶は、トレーニングトークンの数とモデルパラメータFLOPs(𝑁,𝐷)の決定論的な関数であるため、制約FLOPs(𝑁,𝐷) =𝐶の下で𝐿を最小化できます。

DeepMind は、7000 万から 160 億を超えるパラメータに及ぶ 400 を超えるモデルの損失に基づいてこれらの関数を推定し、50 億から 4000 億を超えるトークンでトレーニングしました。各モデル構成は、いくつかの異なるトレーニング範囲でトレーニングされました。結果は、以下の図 1 に示すように、DeepMind の方法によって得られた結果が Kaplan らの方法によって得られた結果とは大きく異なることを示しています。

DeepMind の推定した計算上の最適境界に基づいて、Gopher のトレーニングに使用される計算予算では、最適なモデルのサイズは 4 倍小さくなり、トークンの使用量は以前より 4 倍になるはずだと予測しています。

これを実証するために、DeepMind は、より計算効率の高い 70B モデルである Chinchilla を 1.4 兆トークンでトレーニングしました。 Chinchilla は、より大きな Gopher モデルよりもパフォーマンスが優れているだけでなく、モデルサイズが縮小されたことで推論コストが大幅に削減され、小型ハードウェアでのダウンストリームの使用が大幅に容易になります。大規模言語モデルのエネルギーコストは、推論と微調整に使用することで償却されます。したがって、より最適にトレーニングされたより小さなモデルの利点は、パフォーマンスの向上による直接的な利点を超えています。

テスラの人工知能および自動運転ビジョン担当ディレクターのアンドレイ・カルパシー氏は、次のように述べています。「Chinchillaは新しい言語モデル（70B）であり、Gopher（280B）、GPT-3（175B）、Jurrasic-1（178B）、MT-NLG（530B）などの大規模モデルよりも優れています。」これは、言語モデル (LM) の新しいスケーリング則に関する非常に重要な論文です。

最適なパラメータ/トレーニングトークンの割り当ての推定

研究者らは、この研究の動機となった疑問に答えるために、3 つの異なるアプローチを提案しています。つまり、FLOP 予算が固定されている場合、モデルのサイズとトレーニングトークンの数をどのようにバランスさせるべきかということです。これら 3 つのケースでは、まず、さまざまなパラメーターとトレーニングトークンを使用して一連のモデルをトレーニングし、その結果得られたトレーニング曲線を使用して、モデル拡張のための経験的推定値を適合させました。

3 つの方法の予測結果は類似しており、表 2 に示すように、計算量の増加に伴ってモデルパラメーターとトレーニングトークンの数も増加することがわかります。これはこのテーマに関するこれまでの研究とはまったく対照的であり、さらなる調査が必要です。

方法1: モデルサイズを固定し、トレーニングトークンの数を変更する

最初のアプローチでは、研究者は固定パラメータモデルのトレーニングステップの数 (7000 万から 100 億パラメータ) を変え、4 つの異なる数のトレーニングシーケンスを使用して各モデルをトレーニングしました。実行後、特定の数のトレーニング FLOP に対して達成された最小損失の推定値を直接抽出することができました。トレーニング曲線を以下の図 2 に示します。

方法2: IsoFLOP

2 番目の方法では、研究者は 9 つの異なるトレーニング FLOP (6 × 10^18 から 3 × 10^21 FLOP) のモデルサイズを変更し、各ポイントでの最終的なトレーニング損失を考慮に入れました。トレーニング実行全体を通してポイント (𝑁、𝐷、𝐿) のみが考慮されるアプローチ 1 とは対照的に、これにより、特定の FLOP 予算に最適なパラメータの数はどれくらいかという次の質問に簡単に答えることができます。下の図 3 は IsoFLOP 曲線を示しています。

方法3: パラメトリック損失関数のフィッティング

最後に、方法 1 と 2 の実験からのすべての最終損失を、モデルパラメーターと可視トークンの数のパラメトリック関数としてモデル化します。古典的なリスク分解に従って、彼らは次の関数形式を提案しました。

(𝐴, 𝐵, 𝐸, 𝛼, 𝛽)を推定するために、予測された対数損失と観測された対数損失の間のHuber損失を最小化するL-BFGSアルゴリズムを使用します。

初期化グリッドから最適なものを選択することで、可能な局所最小値を考慮します。 Huber損失（𝛿 = 10^−3）は外れ値に対して堅牢であり、これはデータポイントを除外して良好な予測性能を実現するために重要です。

さらに、研究者らは、下の図 4 (左) にフィッティング関数の等高線を示しており、青色は閉じた形式の効率的な計算境界を表しています。

最適なモデル拡張

研究者らは、異なるフィッティングスキームと異なるトレーニングモデルを使用しているにもかかわらず、上記の 3 つの方法では FLOP に関するパラメータとトークンの最適な拡張に関して同等の予測が得られることを発見しました。どちらも、計算予算が増加すると、モデルのサイズとトレーニングデータの量がほぼ同じ割合で増加することを示しています。これらのうち、最初の方法と 2 番目の方法は最適なモデルサイズについて非常に類似した予測を示し、3 番目の方法はより多くの計算予算でより小さなモデルを最適に予測できます。

以下の表 3 では、研究者らは、特定のサイズのモデルが計算上最適な境界上にあることを確認するための FLOP とトークンの推定値を示しています。結果は、現在の世代の大規模言語モデルは、それぞれの計算予算を考慮すると「大きすぎる」ことを示しています。

新型チンチラ

上記の分析によると、Gopher モデルの最適なモデルサイズは 40B から 70B のパラメータの間です。データセットと計算効率を考慮して、研究者らは700億のパラメータと1.4Tのトークンを持つChinchillaと呼ばれるモデルをトレーニングし、それをGopherやその他の大規模言語モデルと比較した。 Chinchilla と Gopher のトレーニング FLOP は同じですが、モデルサイズとトレーニングトークンが異なることに注意してください。

Chinchilla のパラメータは Gopher の 1/4 であるため、メモリ使用量と推論コストは小さくなります。

モデルパラメータ

Chinchilla のトレーニングハイパーパラメータと Gopher との比較を以下の表 4 に示します。どちらも同じモデルアーキテクチャとトレーニング設定を使用しますが、ヘッドの数、バッチサイズなどが異なります。

実験結果

Chinchillaは、Rae et al. (2021) によって提案された多くのタスクにおいて、さまざまな大規模言語モデルに対して広範囲に評価されています。これらのタスクには、以下の表 5 に示すように、言語モデル (LM)、読解、質問応答、常識、MMLU、BIG-bench が含まれます。

言語モデリングタスク。下の図 5 に示すように、Chinchilla は The Pile のすべての評価サブセットで Gopher を大幅に上回っています。

マルチタスク言語理解 (MMLU) タスク。大規模な MMLU ベンチマークテストには、主題に類似した一連の試験問題が含まれています。以下の表 6 では、研究者らは MMLU におけるチンチラの 5 ショットの平均パフォーマンスを示しています。ご覧のとおり、サイズがはるかに小さいにもかかわらず、Chinchilla は Gopher を大幅に上回り、平均精度は 67.6% で、Gopher より 7.6% 向上しています。さらに、チンチラの精度は、2023年6月に専門家が予測した63.4％を上回りました。

図 6 では、DeepMind がタスク別に分類した Gopher との結果の比較を示しています。全体的に、この研究では、チンチラがほとんどのタスクのパフォーマンスを向上させたことが判明しました。 Chinchilla は、4 つのタスク (大学数学、計量経済学、道徳シナリオ、形式論理) で Gopher よりもパフォーマンスが低く、2 つのタスクではパフォーマンスに変化がありません。

読解。単語予測データセットLAMBADAでは、Chinchillaは77.4%の精度を達成し、GopherとMT-NLG 530Bはそれぞれ74.5%と76.6%の精度を達成しました（表7を参照）。 Chinchilla は RACE-h と RACE-m で Gopher を大幅に上回り、どちらの場合も精度が 10% 以上向上しました。

大きなベンチ。 DeepMind は BIG-bench タスクで Chinchilla を評価し、MMLU で観察されたものと同様に、Chinchilla は複数のタスクで Gopher を上回りました。

詳しい実験結果については論文をご覧ください。

<<: テルアビブ大学は、SOTAメソッドとアーキテクチャの新たな進歩を完全に理解するためにStyleGANを要約しました。

>>: 古代都市ポンペイを「ハイテク」な方法で訪れるにはどうすればいいでしょうか?