GPT-4の予測の新たな波は、大きすぎず密度も高くないテキストのみのモデルに向けて到来している。

2020年5月、GPT-3はGPT-2の1年後に正式にリリースされました。GPT-2も、オリジナルのGPT論文が発表されてから1年後にリリースされました。この流れに沿って、GPT-4 は 1 年前にリリースされるはずでしたが、まだリリースされていません。

OpenAIのCEOサム・アルトマン氏は数か月前、GPT-4が間もなく登場し、2022年7月から8月にリリースされる予定であると述べた。

GPT-3 の強力なパフォーマンスにより、GPT-4 に対する期待が高まっています。 GPT-4 についての公開情報はほとんどありませんが、アルトマン氏は昨年の Q&A で OpenAI の GPT-4 に関する考え方についていくつかのヒントを示しました。彼は、GPT-4 には 100T のパラメータはないことを明らかにしました。

GPT-4 に関する公開情報が非常に少ないため、人々はそれについて多くの予測を立ててきました。現在、Alberto Romeroというアナリストが、OpenAIとSam Altmanが明らかにした情報や、言語AIの現在の動向と最新技術に基づいて、GPT-4に関する新たな予測を立てています。以下は彼のオリジナルの予測です。

モデルサイズ: GPT-4はそれほど大きくない

GPT-4 は最大の言語モデルにはならず、アルトマン氏は GPT-3 よりもそれほど大きくはならないと述べています。そのサイズはおそらく GPT-3 と Gopher (175B -280B) の間です。

この推測には十分な理由があります。

昨年NvidiaとMicrosoftが共同で開発したMegatron-Turing NLG（MT-NLG）は、530Bのパラメータを持つ最大の高密度ニューラルネットワークと言われており、これはGPT-3の3倍のパラメータ数です。最近では、GoogleのPaLMが540Bのパラメータを持っています。しかし、MT-NLG 以降に登場したいくつかの小型モデルが、実際にはより高いパフォーマンスレベルを達成したことは注目に値します。

つまり、大きい方が必ずしも良いわけではないということです。

業界の多くの企業は、モデルのサイズがパフォーマンスを決定する要因ではなく、モデルを拡張することがパフォーマンスを向上させる最善の方法ではないことを認識しています。 2020年、OpenAIのジャレッド・カプラン氏とその同僚は、計算予算の増加が主にパラメータの数に充てられ、それがべき乗関係に従って拡大した場合にパフォーマンスの向上が最大になると結論付けました。

しかし、超大規模 MT-NLG を例にとると、パフォーマンスの面では最適ではありません。実際のところ、ベンチマークのどのカテゴリーにおいても最高というわけではありません。 Gopher (280B) や Chinchilla (70B) などの小型モデルは、一部のタスクでは MT-NLG よりもはるかに優れたパフォーマンスを発揮します。

明らかに、モデルのサイズは、言語理解のパフォーマンスを向上させる唯一の要素ではありません。

業界の多くの企業は、「大きいほど良い」という教義を放棄し始めています。パラメータが増えると、計算コストが高くなったり、パフォーマンスのボトルネックが発生したりするなどの副作用も生じます。これらの企業は、より小さなモデルから同様の結果、あるいはより優れた結果が得られる場合、巨大なモデルを構築する前によく考えるでしょう。

アルトマン氏は、もはやモデルを大きくすることではなく、より小さなモデルを最大限に活用することに重点を置いていると述べた。 OpenAI はスケーリング仮説を早くから提唱していたが、現在では他の未踏の道筋でもモデルを改善できることに気付いた。

したがって、GPT-4 は GPT-3 よりそれほど大きくなりません。 OpenAI は、データ、アルゴリズム、パラメータ化、値の調整など、より大幅な改善につながる可能性のある他の側面に重点を移します。 100T パラメータモデルの機能性については、待って見るしかありません。

最適化

最適化の観点から見た言語モデルの主な制限は、トレーニングに非常にコストがかかることです。そのため、R&D チームは精度とコストの間でトレードオフを行う必要がありました。この結果、モデルが大幅に最適化されないことがよくあります。

GPT-3 は一度だけトレーニングされ、一部のユースケースでエラーが発生した場合は再トレーニングする必要があります。 OpenAI は、コストがかかりすぎ、研究者がモデルに最適なハイパーパラメータのセット (学習率、バッチサイズ、シーケンスの長さなど) を見つけることができなかったため、GPT-4 ではこのアプローチを採用しないことに決めました。

トレーニングコストが高いことによるもう 1 つの結果は、モデルの動作の分析が制限されることです。カプラン氏のチームは、モデルのサイズがパフォーマンス向上に最も関連のある変数であると結論付けたとき、大量のコンピューティングリソースを必要とするトレーニングトークンの数を考慮していませんでした。

確かに、一部の大企業はカプラン氏のチームの結論に基づいたモデルの拡大に何百万ドルも「無駄」にしてきた。現在、DeepMind と OpenAI が率いる企業は他のアプローチを模索しています。彼らは、単に大きいモデルではなく、最良のモデルを見つけようとします。

最適化パラメータ

先月、Microsoft と OpenAI は、最適化されたハイパーパラメータを使用してトレーニングすると GPT-3 が大幅に改善されることを実証しました。彼らは、GPT-3 の 6.7B バージョンのパフォーマンスが大幅に向上し、元の 13B GPT-3 に匹敵することを発見しました。ハイパーパラメータのチューニングによってもたらされるパフォーマンスの向上は、パラメータの数を 2 倍にすることと同等です。

彼らは、小さなモデルに最適なハイパーパラメータが同じファミリーのより大きなモデルにも最適であるという、μP と呼ばれる新しいパラメータ化を活用しています。その結果、μP は、トレーニングコストのほんの一部で任意のサイズのモデルを最適化し、ほとんどコストをかけずにハイパーパラメータをより大きなモデルに転送できるようになります。

計算モデルの最適化

数週間前、DeepMind は Kaplan らの研究結果を再検討し、人々が信じていたのとは反対に、トレーニングトークンの数はモデルのサイズと同じくらいパフォーマンスに影響を与えることを認識しました。 DeepMind は、計算予算は拡張パラメータとデータの間で均等に分配されるべきだと結論付けました。彼らは、大規模言語モデルの4倍のデータ量（1.4Tトークン）でChinchilla（70B）をトレーニングすることでこの仮説を実証しました。

画像出典: DeepMind

結果は明らかで、Chinchilla は多くの言語ベンチマークにおいて Gopher、GPT-3、MT-NLG などの言語モデルよりも「大幅に」優れていることが示されており、現在の大規模モデルはトレーニングが不十分でサイズが大きすぎることが示唆されています。

DeepMind の調査結果によると、GPT-4 は GPT-3 よりもわずかに大きくなり、計算の最適性を達成するために必要なトレーニングトークンの数は約 5 兆となり、現在のデータセットよりも 1 桁多くなります。トレーニング損失を最小限に抑えるために、GPT-4 のトレーニングに必要な FLOP は GPT-3 の約 10 ～ 20 倍になります (Gopher の計算量を参照)。

アルトマン氏は質疑応答で、GPT-4 は GPT-3 よりも計算負荷が高くなると述べており、おそらくこれが彼が言及していたことだ。

確かに、OpenAI はモデルサイズ以外の変数の最適化にも取り組む予定です。最適なハイパーパラメータのセットと、最適な計算モデルのサイズおよびパラメータの数を見つけることで、すべてのベンチマークで驚異的な成果が得られる可能性があります。

マルチモーダル: GPT-4はテキストのみのモデルになります

私たちはマルチモーダルな世界に住んでいるため、人間の脳は多感覚的です。一度に 1 つのモダリティでのみ世界を認識すると、AI が世界を理解する能力は大幅に制限されます。したがって、ディープラーニングの未来はマルチモーダルモデルであると考えられています。

ただし、優れたマルチモーダルモデルを構築するのは、優れた純粋言語モデルや純粋視覚モデルを構築するよりも困難です。視覚情報とテキスト情報を 1 つの表現に組み合わせるのは、非常に困難な作業です。脳がこれをどのように行うかについての私たちの理解はまだ非常に限られており、それをニューラルネットワークに実装することは困難です。

おそらくこの理由から、アルトマン氏は質疑応答で、GPT-4 はマルチモーダルではなく、純粋なテキストモデルになるとも述べました。私の推測では、彼らは次世代のマルチモーダル AI に移行する前に、モデルやデータセットのサイズなどの要素を微調整して、言語モデルの限界に到達しようとしているのです。

スパース性: GPT-4は高密度モデルになる

スパースモデルは最近、条件付き計算を活用し、モデルのさまざまな部分を使用してさまざまな種類の入力を処理することで大きな成功を収めています。これらのモデルは、法外な計算コストをかけずに 1T を超えるパラメータマークに簡単に拡張できるため、モデルサイズと計算予算の間に直交関係が確立されます。ただし、この MoE アプローチの利点は、非常に大規模なモデルでは減少します。

OpenAI が高密度言語モデルに重点を置いていることを考えると、GPT-4 も高密度モデルになると予想するのは妥当です。

しかし、人間の脳はスパース処理に大きく依存しており、マルチモーダル性と同様に、スパース性が将来の世代のニューラルネットワークを支配する可能性があります。

GPT-4はGPT-3よりも整合が取れている

OpenAI は、AI の価値観の整合の問題、つまり言語モデルを人間の意図に従わせ、価値観に沿わせる方法の解決に懸命に取り組んできました。これには、AIがより正確な理解を達成できるように数学的に可能にするだけでなく、さまざまな人間グループの価値観を哲学的に考慮することも必要です。 OpenAI は、指示に従うことを学習させるために、InstructGPT で人間からのフィードバックによるトレーニングの実験を行いました。

InstructGPT の主な進歩は、言語ベンチマークの結果に関係なく、人間の評価者によって満場一致で GPT-3 よりも優れたモデルであると見なされていることです。これは、AI の能力を評価するための唯一の指標としてベンチマークを使用することは不適切であることを示唆しています。人間がモデルをどのように認識するかは、同様に、あるいはそれ以上に重要です。

アルトマン氏と OpenAI の有益な AGI への取り組みを考えると、GPT-4 は InstructGPT から得られた発見に基づくものになると思います。

GPT-3 は英語のコーパスと注釈のみを使用するため、モデルの調整方法が改善されます。真の整合には、さまざまな性別、人種、国籍、宗教などの情報機能が含まれる必要があります。これは大きな課題であり、この目標に向けて一歩を踏み出すことは意義深いことでしょう。

要約すると、GPT-4 に関する私の予測には、おおよそ次の側面が含まれます。

モデルサイズ: GPT-4 は GPT-3 よりも大きくなりますが、それほど大きくはありません。モデルのサイズは特徴ではありません。

最適化: GPT-4 は GPT-3 よりも多くの計算を使用し、パラメータ化 (最適なハイパーパラメータ) とスケーリング法則 (トレーニングトークンの数はモデルサイズと同じくらい重要) に新たな改善を加えます。

マルチモーダル: GPT-4 はテキストのみのモデルであり、OpenAI は DALL E のようなマルチモーダルモデルに移行する前に言語モデルを限界まで押し上げようとしています。

スパース性: GPT-4 は GPT-2 と GPT-3 のトレンドに従い、密なモデルになりますが、将来的にはスパース性が主流になるでしょう。

整合: GPT-4 は GPT-3 よりも人々の価値観に沿ったものとなり、InstructGPT から学んだ教訓を適用します。

アルベルト・ロメロ氏は、アルトマン氏と OpenAI が提供した情報に基づいて推測を行いましたが、数か月以内にリリースされると予想される GPT-4 でこれらの予測が裏付けられると期待されます。

<<: 顔認証＋総合決済、モバイル決済が新たな形を生む

>>: 美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践

GPT-4の予測の新たな波は、大きすぎず密度も高くないテキストのみのモデルに向けて到来している。

モデルサイズ: GPT-4はそれほど大きくない

最適化

最適化パラメータ

計算モデルの最適化

マルチモーダル: GPT-4はテキストのみのモデルになります

スパース性: GPT-4は高密度モデルになる

GPT-4はGPT-3よりも整合が取れている

機械学習は 5G ネットワークにどのように役立ちますか?

なぜ顔認識に嫌悪感を抱くのですか?

GNN初心者必読！ Google Research が、SOTA グラフニューラルネットワークをゼロから構築する方法を教えます

AIと機械学習ベースのソフトウェアソリューションが小売業界にどのような変化をもたらしているか

OpenAIの「月面着陸プロジェクト」はスーパーAIを目指す！ルカンはAGIへの道の7つの段階を提案し、世界モデルの構築が最初の段階である。

ガートナー、2022年の銀行・投資サービスにおける3つの注目のテクノロジートレンドを発表

RVフュージョン！自動運転におけるミリ波レーダーとビジョンフュージョンに基づく3D検出のレビュー

推薦する

Transformer ではまだ注意が必要ですか?

複数の LLM が連携して機能します。清華大学などがオープンソースのマルチエージェントフレームワークAgentVerseを開発：Minecraftのアイテムを共同で作成し、ポケモンを訓練

AIと機械学習を活用して工場の安全を守る

IoTセキュリティ戦略における機械学習の重要性

RSA という高度な暗号化アルゴリズムをご存知ですか?

マイクロソフトはBing Chatを今後も無料のままにすると約束

8つの一般的な確率分布の式と視覚化

2021 年のトップ 12 AI ツールとフレームワーク

AIが3Aの傑作をプレイ、OpenAIは調査されるか？ 2023年のAIパノラマレポートが10の予測を発表

rsyncのコアアルゴリズム

ガートナー、2024年以降のIT組織とユーザーに関する重要な予測を発表

ビッグデータは古い顧客を殺しています。消費者が権利を守るのは困難です。アルゴリズムの不公平な適用をどのように規制すべきでしょうか?

大規模言語モデルによる金融市場の予測

AIを活用した自動化はエンタープライズレベルの自動化2.0です