言語モデルのパラメータは多ければ多いほど良いのでしょうか?ディープマインドは700億を使い、自社の2800億を上回り、「小さな」モデルを訓練し最適化した。

言語モデルのパラメータは多ければ多いほど良いのでしょうか?ディープマインドは700億を使い、自社の2800億を上回り、「小さな」モデルを訓練し最適化した。

最近、一連の大規模言語モデル (LLM) が登場しており、そのうち最大のものは 5000 億を超えるパラメータを備えています。これらの大規模な自己回帰トランスフォーマーは、ゼロショット、少数ショット、微調整などのさまざまな評価プロトコルを使用して、多くのタスクで優れたパフォーマンスを示します。

ただし、大規模な言語モデルをトレーニングするには膨大な計算量とエネルギー消費が必要であり、この消費量はモデルが大きくなるにつれて増加します。実際には、研究者によって割り当てられるトレーニング コンピューティング予算は、通常、事前にわかっています。つまり、利用可能なアクセラレータの数と、それらをどのくらいの期間使用するかということです。多くの場合、これらの大規模なモデルを 1 回だけトレーニングすれば十分であるため、与えられた計算予算に対して最適なモデル ハイパーパラメータを正確に推定することが重要です。

Kaplanら(2020)は、自己回帰言語モデル(LM)のパラメータ数とそのパフォーマンスの間にはべき乗関係があることを示しました。その結果、この分野ではパフォーマンスが向上することを期待して、ますます大きなモデルのトレーニングが行われています。 Kaplan ら (2020) の注目すべき結論は、計算を最適化するために、大規模なモデルを可能な限り低い損失までトレーニングすべきではないということです。

DeepMind の研究者も同じ結論に達しましたが、大規模なモデルは著者が推奨するよりも多くのトークンでトレーニングできると推定しました。具体的には、計算予算が 10 倍に増加すると仮定すると、モデル サイズは 5.5 倍に増加する一方で、トレーニング トークンの数は 1.8 倍しか増加しないはずだと他の研究者は示唆しています。代わりに、DeepMind は、モデルのサイズとトレーニング トークンの数が同じ比率で拡大縮小する必要があることを発見しました。

論文アドレス: https://arxiv.org/pdf/2203.15556.pdf

Kaplan らおよび GPT-3 のトレーニング設定研究に従って、最近の大規模モデルは約 3,000 億トークンでトレーニングされています (表 1)。これは、モデル サイズを大きくすることが計算能力を高める際の主なアプローチであるという結論と一致しています。

この研究で、DeepMind は「固定の FLOP 予算がある場合、モデルのサイズとトレーニング トークンの数をどのようにバランスさせるべきか」という疑問を再検討しました。この質問に答えるために、DeepMindは最終的なトレーニング前損失𝐿(𝑁,𝐷)をモデルパラメータ数𝑁とトレーニングトークン数𝐷の関数としてモデル化します。計算予算𝐶は、トレーニングトークンの数とモデルパラメータFLOPs(𝑁,𝐷)の決定論的な関数であるため、制約FLOPs(𝑁,𝐷) =𝐶の下で𝐿を最小化できます。

DeepMind は、7000 万から 160 億を超えるパラメータに及ぶ 400 を超えるモデルの損失に基づいてこれらの関数を推定し、50 億から 4000 億を超えるトークンでトレーニングしました。各モデル構成は、いくつかの異なるトレーニング範囲でトレーニングされました。結果は、以下の図 1 に示すように、DeepMind の方法によって得られた結果が Kaplan らの方法によって得られた結果とは大きく異なることを示しています。

DeepMind の推定した計算上の最適境界に基づいて、Gopher のトレーニングに使用される計算予算では、最適なモデルのサイズは 4 倍小さくなり、トークンの使用量は以前より 4 倍になるはずだと予測しています。

これを実証するために、DeepMind は、より計算効率の高い 70B モデルである Chinchilla を 1.4 兆トークンでトレーニングしました。 Chinchilla は、より大きな Gopher モデルよりもパフォーマンスが優れているだけでなく、モデル サイズが縮小されたことで推論コストが大幅に削減され、小型ハードウェアでのダウンストリームの使用が大幅に容易になります。大規模言語モデルのエネルギーコストは、推論と微調整に使用することで償却されます。したがって、より最適にトレーニングされたより小さなモデルの利点は、パフォーマンスの向上による直接的な利点を超えています。

テスラの人工知能および自動運転ビジョン担当ディレクターのアンドレイ・カルパシー氏は、次のように述べています。「Chinchillaは新しい言語モデル(70B)であり、Gopher(280B)、GPT-3(175B)、Jurrasic-1(178B)、MT-NLG(530B)などの大規模モデルよりも優れています。」これは、言語モデル (LM) の新しいスケーリング則に関する非常に重要な論文です。

最適なパラメータ/トレーニングトークンの割り当ての推定

研究者らは、この研究の動機となった疑問に答えるために、3 つの異なるアプローチを提案しています。つまり、FLOP 予算が固定されている場合、モデルのサイズとトレーニング トークンの数をどのようにバランスさせるべきかということです。これら 3 つのケースでは、まず、さまざまなパラメーターとトレーニング トークンを使用して一連のモデルをトレーニングし、その結果得られたトレーニング曲線を使用して、モデル拡張のための経験的推定値を適合させました。

3 つの方法の予測結果は類似しており、表 2 に示すように、計算量の増加に伴ってモデル パラメーターとトレーニング トークンの数も増加することがわかります。これはこのテーマに関するこれまでの研究とはまったく対照的であり、さらなる調査が必要です。

方法1: モデルサイズを固定し、トレーニングトークンの数を変更する

最初のアプローチでは、研究者は固定パラメータ モデルのトレーニング ステップの数 (7000 万から 100 億パラメータ) を変え、4 つの異なる数のトレーニング シーケンスを使用して各モデルをトレーニングしました。実行後、特定の数のトレーニング FLOP に対して達成された最小損失の推定値を直接抽出することができました。トレーニング曲線を以下の図 2 に示します。

方法2: IsoFLOP

2 番目の方法では、研究者は 9 つの異なるトレーニング FLOP (6 × 10^18 から 3 × 10^21 FLOP) のモデル サイズを変更し、各ポイントでの最終的なトレーニング損失を考慮に入れました。トレーニング実行全体を通してポイント (𝑁、𝐷、𝐿) のみが考慮されるアプローチ 1 とは対照的に、これにより、特定の FLOP 予算に最適なパラメータの数はどれくらいかという次の質問に簡単に答えることができます。下の図 3 は IsoFLOP 曲線を示しています。

方法3: パラメトリック損失関数のフィッティング

最後に、方法 1 と 2 の実験からのすべての最終損失を、モデル パラメーターと可視トークンの数のパラメトリック関数としてモデル化します。古典的なリスク分解に従って、彼らは次の関数形式を提案しました。

(𝐴, 𝐵, 𝐸, 𝛼, 𝛽)を推定するために、予測された対数損失と観測された対数損失の間のHuber損失を最小化するL-BFGSアルゴリズムを使用します。

初期化グリッドから最適なものを選択することで、可能な局所最小値を考慮します。 Huber損失(𝛿 = 10^−3)は外れ値に対して堅牢であり、これはデータポイントを除外して良好な予測性能を実現するために重要です。

さらに、研究者らは、下の図 4 (左) にフィッティング関数の等高線を示しており、青色は閉じた形式の効率的な計算境界を表しています。

最適なモデル拡張

研究者らは、異なるフィッティングスキームと異なるトレーニングモデルを使用しているにもかかわらず、上記の 3 つの方法では FLOP に関するパラメータとトークンの最適な拡張に関して同等の予測が得られることを発見しました。どちらも、計算予算が増加すると、モデルのサイズとトレーニング データの量がほぼ同じ割合で増加することを示しています。これらのうち、最初の方法と 2 番目の方法は最適なモデル サイズについて非常に類似した予測を示し、3 番目の方法はより多くの計算予算でより小さなモデルを最適に予測できます。

以下の表 3 では、研究者らは、特定のサイズのモデルが計算上最適な境界上にあることを確認するための FLOP とトークンの推定値を示しています。結果は、現在の世代の大規模言語モデルは、それぞれの計算予算を考慮すると「大きすぎる」ことを示しています。

新型チンチラ

上記の分析によると、Gopher モデルの最適なモデル サイズは 40B から 70B のパラメータの間です。データセットと計算効率を考慮して、研究者らは700億のパラメータと1.4Tのトークンを持つChinchillaと呼ばれるモデルをトレーニングし、それをGopherやその他の大規模言語モデルと比較した。 Chinchilla と Gopher のトレーニング FLOP は同じですが、モデル サイズとトレーニング トークンが異なることに注意してください。

Chinchilla のパラメータは Gopher の 1/4 であるため、メモリ使用量と推論コストは小さくなります。

モデルパラメータ

Chinchilla のトレーニングハイパーパラメータと Gopher との比較を以下の表 4 に示します。どちらも同じモデルアーキテクチャとトレーニング設定を使用しますが、ヘッドの数、バッチサイズなどが異なります。

実験結果

Chinchillaは、Rae et al. (2021) によって提案された多くのタスクにおいて、さまざまな大規模言語モデルに対して広範囲に評価されています。これらのタスクには、以下の表 5 に示すように、言語モデル (LM)、読解、質問応答、常識、MMLU、BIG-bench が含まれます。

言語モデリングタスク。下の図 5 に示すように、Chinchilla は The Pile のすべての評価サブセットで Gopher を大幅に上回っています。

マルチタスク言語理解 (MMLU) タスク。大規模な MMLU ベンチマーク テストには、主題に類似した一連の試験問題が含まれています。以下の表 6 では、研究者らは MMLU におけるチンチラの 5 ショットの平均パフォーマンスを示しています。ご覧のとおり、サイズがはるかに小さいにもかかわらず、Chinchilla は Gopher を大幅に上回り、平均精度は 67.6% で、Gopher より 7.6% 向上しています。さらに、チンチラの精度は、2023年6月に専門家が予測した63.4%を上回りました。

図 6 では、DeepMind がタスク別に分類した Gopher との結果の比較を示しています。全体的に、この研究では、チンチラがほとんどのタスクのパフォーマンスを向上させたことが判明しました。 Chinchilla は、4 つのタスク (大学数学、計量経済学、道徳シナリオ、形式論理) で Gopher よりもパフォーマンスが低く、2 つのタスクではパフォーマンスに変化がありません。

読解。単語予測データセットLAMBADAでは、Chinchillaは77.4%の精度を達成し、GopherとMT-NLG 530Bはそれぞれ74.5%と76.6%の精度を達成しました(表7を参照)。 Chinchilla は RACE-h と RACE-m で Gopher を大幅に上回り、どちらの場合も精度が 10% 以上向上しました。

大きなベンチ。 DeepMind は BIG-bench タスクで Chinchilla を評価し、MMLU で観察されたものと同様に、Chinchilla は複数のタスクで Gopher を上回りました。

詳しい実験結果については論文をご覧ください。

<<:  テルアビブ大学は、SOTAメソッドとアーキテクチャの新たな進歩を完全に理解するためにStyleGANを要約しました。

>>:  古代都市ポンペイを「ハイテク」な方法で訪れるにはどうすればいいでしょうか?

ブログ    

推薦する

スマートシティにおける低リスクの AI 応用分野 3 つ

スマート シティでは、一部の AI 駆動型システムは統合にコストがかかったり、実装前に複数の規制に準...

モバイルアプリケーションでディープラーニングを加速するにはどうすればよいでしょうか?この記事を読めば分かるだろう

現在、ディープラーニング技術を使用するモバイルアプリケーションは、通常、すべての DNN コンピュー...

...

手書きを模倣するAIが独自のフォントを作成

手書き模倣AIの研究背景諺にあるように、人の筆跡はその人の性格を表す。硬い印刷フォントと比較すると、...

DxRアルゴリズムのアイデアに基づいて設計されたルーティングアイテム配置構造の図

まず、タイトルには、検索構造ではなく、ルーティング項目の配置構造と書かれています。つまり、この構造を...

新しいヘルスケアソリューション: ヘルスケアにおける AI と IoT が認知症患者をどのように支援できるか

年齢を重ねるにつれて、私たちの体はさまざまな病気や障害に悩まされるようになります。それはまるで逆方向...

すぐに理解できます: 電流制限におけるリーキーバケットとトークンバケットアルゴリズム

[[346652]]この記事は、陳建宇氏が執筆したWeChatパブリックアカウント「私の脳は揚げ魚で...

...

...

TensorFlow 2 入門ガイド。初心者必見です!

Tensorflow とは何ですか? TensorFlow は Google が立ち上げたディープ...

JavaScript によるデータ構造とアルゴリズムの実装と応用: Stack/Recursion/Hanno

まとめこの記事では、Stack データ構造の基本的な操作とそのいくつかの応用について紹介します。括弧...

...

...

MIT、「上級数学」ソルバーの強化版をリリース:7つのコースの正解率は81%

AIは小学校の算数の文章題を解くだけでなく、高度な数学にも取り組み始めています。最近、MIT の研...

...