ChatGPT パラメータが 200 億しかないとは思いませんでした。

ChatGPT の核心的な秘密が Microsoft によってこのように暴露されるとは誰も予想していませんでした。

昨夜、AIについて議論していた多くのWeChatグループは、EMNLPの論文とその中のスクリーンショットによって突然目覚めさせられました。

「CodeFusion: コード生成のための事前トレーニング済み拡散モデル」と題された Microsoft の論文では、比較を行う際に重要な情報が明らかになりました。ChatGPT は「わずか」20B (200億) 個のパラメータを持つモデルであり、幅広い注目を集めました。

ChatGPTがリリースされてからほぼ1年が経過しましたが、OpenAIはChatGPTの技術的な詳細を明らかにしていません。その強力なモデルパフォーマンスのため、ChatGPT のパラメータ量、トレーニングデータ、その他の情報について多くの疑問や憶測が寄せられています。

ChatGPT は業界で長年ベンチマークとして使用され、強力なパフォーマンスを備え、さまざまな問題を解決できます。前身のGPT-3は1750億のパラメータを持っていました。実用化後、この大規模モデルはOpenAIによって9分の1近くまでスリム化されました。これは合理的でしょうか？

「この論文についてどう思いますか」という話題はすぐに知乎のホットリストのトップに躍り出た。

論文リンク: https://arxiv.org/abs/2310.17680

具体的には、Microsoft のこの論文では、事前トレーニング済みの拡散コード生成モデルである CodeFusion を提案しています。 CodeFusion のパラメータサイズは 75M です。実験比較セクションでは、論文の表 1 に ChatGPT のパラメータ数が 20B であることが明記されています。

周知のとおり、Microsoft と OpenAI は長年のパートナーであり、これは EMNLP 2023 の論文であるため、このデータは真実である可能性が高いと誰もが推測しています。

しかし、ChatGPTのパラメータ数は膨大であると常に推測されてきました。結局のところ、GPT-3のパラメータ数は175B（1750億）に達しています。大規模言語モデル (LLM) の波を引き起こした ChatGPT には、わずか 200 億のパラメーターしかありません。

どう思いますか？

このデータが公開されると、知乎やツイッター上で大きな議論が巻き起こった。結局のところ、このような結果を達成するために 200 億のパラメータが必要なのは驚くべきことです。さらに、国が開発した大型モデルの価値は数百億、数千億に上る。

それで、このデータは本物ですか?皆さんはどう思いますか？

有名な NLP ブロガーであり、Sina Weibo の新技術研究開発責任者でもある Zhang Junlin 氏は、推測と分析を行い、幅広い賛同を集めました。

無責任な推測ですが、GPT 4は昨年8月に完成しており、ChatGPTはおそらくAnthropicがリリースする予定だったClaudeに対応するためにOpenAIが特別に作ったものでしょう。当時はGPT 4の価値観が合わず、OpenAIはリリースに消極的だったため、先行者利益を得るために一時的にChatGPTを作ったのでしょう。 OpenAIは2020年にスケーリング法に関する記事を公開し、Deepmindは2022年にチンチラ法の改良版を公開しました。 OpenAI は、大規模なモデルを構築する際には必ず科学的な実践に従い、独自のアイデアに基づいて決定を下すことはありません。そのため、2 つの可能性があります。

可能性1：OpenAIはChinchillaの論文を見て、Chinchilla Ruleに従ってモデルを作成しました。ChatGPTのトレーニングデータの量は2.5Tトークン以上であると想定しています（この理由は後で分析します）。すると、Chinchilla Ruleによれば、トレーニングデータの量を20で割ったものが最適なパラメータ量になるはずです。したがって、この場合の ChatGPT モデルのサイズは約 120B であると推測できます。

可能性2：OpenAIはChatGPTに取り組んでいたときにChinchillaの論文を見ていなかったため、OpenAI自身が導き出したスケーリング則に従ってトレーニングデータの量とモデルサイズを設計しました。トレーニングデータの量を12.5で割った値が、モデルの最適なパラメータに相当すると推定されています。独自のスケーリング則は、モデルのサイズを大きくする傾向があります。トレーニングデータの量が約2.5Tであると仮定すると、この場合のChatGPTのモデルサイズは約190〜200Bになるはずです。

ChatGPT の最初のバージョンは、リリース時に 200B 程度だったと思われます。そのため、最初にリリースされたとき、人々はまだそれが遅くて高価であると考えていました。 3月にOpenAIは大幅なアップグレードを行い、価格を当初の10分の1に引き下げた。量子化だけでは、このような大幅な圧縮は実現できません。現時点での結論としては、大規模なモデルを量子化して 4 ～ 6 ビットに圧縮すれば、大きな劣化なく効果を維持できるということです。

そのため、OpenAI が独自のスケーリング法則から Chinchilla のスケーリング法則にアップグレードした可能性が高く、モデルサイズが約 120B とほぼ半分に圧縮されました (120B よりはるかに小さくなる可能性もあります)。Chinchilla の法則によると、最大の llama 2 モデルは約 100B になるはずで、そのときに計算能力の割り当てが最適、つまり費用対効果が最も高くなります。ただし、実際の最大の llama2 モデルはわずか 70B であり、7B モデルなどのより小さなモデルでも非常に大きなデータセットが使用されます。

llama1 65B は基本的にチンチラの法則に準拠しており、llama2 の最大モデルはチンチラの法則を破り、データに挑戦し始めました。つまり、現在の大規模モデル化の傾向は、コンピューティングパワーの最適な割り当てではないものの、誰もがデータを増やしてモデルのサイズを縮小する傾向にあります。このように、トレーニングコストは費用対効果が高くないにもかかわらず、推論は費用対効果が高いのです。結局のところ、トレーニングは1回限りであり、推論は並行性が高く、回数が多いため、この構成の方が全体的には明らかに費用対効果が高いです。また、たとえば4ビット量子化では、推論モデルのサイズを4倍圧縮し、速度を約8倍に上げることができます。トレーニングデータを増やしてモデルサイズを縮小し続け、その他の技術的な最適化を追加すれば、推論価格を10分の1に下げることは十分に可能です。

その後、6月と8月にそれぞれ25％の値下げを実施。データの追加やスケールの縮小を繰り返すことで、最終的には20B程度まで圧縮できる可能性がある。

ここでは、ChatGPT のトレーニングデータの量が 2.5T 未満になる可能性が低い理由を説明します。LLaMA 2 のトレーニングデータの量は 2T であり、効果は ChatGPT よりもわずかに弱くなるはずなので、ここでは最小で 2.5T のトレーニングデータを想定しています。現在の研究の結論は、モデルサイズが固定されている場合、トレーニングデータの量が増え続ける限り、モデル効果は直接的に増加するということです。ミストラル7Bの効果は爆発しました。最終的な分析では、トレーニングデータの量は8Tに達し、基本モデルの効果が特に強くなりました。 ChatGPT の有効性を考慮すると、使用されるデータ量は 2.5T 未満になる可能性は低いです。

もちろん、別の可能性もあり、つまり、ChatGPT は、その後の最適化 (最初のメジャーアップグレードやそれ以降のアップグレードなど。初期バージョンではそうはならないでしょう) の際にスケーリング則を無視し、mistral と同様のルート、つまりモデルサイズを 20B に固定し、トレーニングデータを狂ったように増やすルートを取ることになります。適切な指示データが構築されれば、効果が保証される可能性があります。

いずれにせよ、より応用に適した60億から130億程度のモデルについては、中国のオープンソースモデルがミストラルを模倣し、使用に最も適したモデルサイズを固定し、その後トレーニングデータを狂ったように増やすことを強くお勧めします。優れた指導戦略と組み合わせると、十分に優れた小規模効果体験を備えたモデルを作成できます。個人的には、オープンソースモデルの場合、サイズが 70 億～ 130 億程度のモデルが最も重要であると考えています。オープンソース化を決意した人は、トレーニングデータの改善に向けてさらなる努力をすることができます。

OpenAI が ChatGPT API を公開した当初、1k トークンあたり 0.002 ドルという価格は人々を驚かせました。この価格は GPT-3.5 のわずか 1/10 です。当時、「ChatGPT は数百億 (~10B) のパラメータを持つモデルである」や「ChatGPT が使用する報酬モデルは数千億のモデルである可能性がある」と推測する人もいました。この推測は、清華大学のNLP博士課程の学生である鄭楚傑氏による知乎の回答から得たものです。

元の回答リンク: https://www.zhihu.com/question/587083296/answer/2918080518

国内外の多くのネットユーザーも、200億という数値は完全に合理的だと考えている。

知乎ネットユーザーの中には価格を分析し、このデータは正しいはずだと考える者もいた。

もちろん、一部のネットユーザーは、これは「スペルミス」かもしれないと考えており、実際の数字は120B（1200億）かもしれない。少なくとも120BとGPT-3（175B）は同じ桁数である。

しかし、これらはすべて推測です。OpenAIはパラメータ量、トレーニングデータ、方法などのコア情報について常に極秘であるため、20Bのデータが本物かどうかを検証することは不可能です。もしこれが本当なら、大規模言語モデルの今後の改善の方向性は、やはりパラメータの数を増やすことなのでしょうか?

数日後にはOpenAIの開発者会議があります。もしかしたらもっと役立つ情報が得られるかもしれません。楽しみに待ちましょう。

<<: おとぎ話を使ってAIモデルを訓練することで、マイクロソフトは生成モデルのパラメータを探索するための新たな入り口を発見した。

>>: GPT-4とMidjourneyに加えて、Tan Pingの起業家チームは3D基本モデルを構築したいと考えています。