GPT-4の予測の新たな波は、大きすぎず密度も高くないテキストのみのモデルに向けて到来している。

GPT-4の予測の新たな波は、大きすぎず密度も高くないテキストのみのモデルに向けて到来している。

2020年5月、GPT-3はGPT-2の1年後に正式にリリースされました。GPT-2も、オリジナルのGPT論文が発表されてから1年後にリリースされました。この流れに沿って、GPT-4 は 1 年前にリリースされるはずでしたが、まだリリースされていません。

OpenAIのCEOサム・アルトマン氏は数か月前、GPT-4が間もなく登場し、2022年7月から8月にリリースされる予定であると述べた。

GPT-3 の強力なパフォーマンスにより、GPT-4 に対する期待が高まっています。 GPT-4 についての公開情報はほとんどありませんが、アルトマン氏は昨年の Q&A で OpenAI の GPT-4 に関する考え方についていくつかのヒントを示しました。彼は、GPT-4 には 100T のパラメータはないことを明らかにしました。

GPT-4 に関する公開情報が非常に少ないため、人々はそれについて多くの予測を立ててきました。現在、Alberto Romeroというアナリストが、OpenAIとSam Altmanが明らかにした情報や、言語AIの現在の動向と最新技術に基づいて、GPT-4に関する新たな予測を立てています。以下は彼のオリジナルの予測です。

モデルサイズ: GPT-4はそれほど大きくない

GPT-4 は最大の言語モデルにはならず、アルトマン氏は GPT-3 よりもそれほど大きくはならないと述べています。そのサイズはおそらく GPT-3 と Gopher (175B -280B) の間です。

この推測には十分な理由があります。

昨年NvidiaとMicrosoftが共同で開発したMegatron-Turing NLG(MT-NLG)は、530Bのパラメータを持つ最大の高密度ニューラルネットワークと言われており、これはGPT-3の3倍のパラメータ数です。最近では、GoogleのPaLMが540Bのパラメータを持っています。しかし、MT-NLG 以降に登場したいくつかの小型モデルが、実際にはより高いパフォーマンス レベルを達成したことは注目に値します。

つまり、大きい方が必ずしも良いわけではないということです。

業界の多くの企業は、モデルのサイズがパフォーマンスを決定する要因ではなく、モデルを拡張することがパフォーマンスを向上させる最善の方法ではないことを認識しています。 2020年、OpenAIのジャレッド・カプラン氏とその同僚は、計算予算の増加が主にパラメータの数に充てられ、それがべき乗関係に従って拡大した場合にパフォーマンスの向上が最大になると結論付けました。

しかし、超大規模 MT-NLG を例にとると、パフォーマンスの面では最適ではありません。実際のところ、ベンチマークのどのカテゴリーにおいても最高というわけではありません。 Gopher (280B) や Chinchilla (70B) などの小型モデルは、一部のタスクでは MT-NLG よりもはるかに優れたパフォーマンスを発揮します。

明らかに、モデルのサイズは、言語理解のパフォーマンスを向上させる唯一の要素ではありません。

業界の多くの企業は、「大きいほど良い」という教義を放棄し始めています。パラメータが増えると、計算コストが高くなったり、パフォーマンスのボトルネックが発生したりするなどの副作用も生じます。これらの企業は、より小さなモデルから同様の結果、あるいはより優れた結果が得られる場合、巨大なモデルを構築する前によく考えるでしょう。

アルトマン氏は、もはやモデルを大きくすることではなく、より小さなモデルを最大限に活用することに重点を置いていると述べた。 OpenAI はスケーリング仮説を早くから提唱していたが、現在では他の未踏の道筋でもモデルを改善できることに気付いた。

したがって、GPT-4 は GPT-3 よりそれほど大きくなりません。 OpenAI は、データ、アルゴリズム、パラメータ化、値の調整など、より大幅な改善につながる可能性のある他の側面に重点を移します。 100T パラメータ モデルの機能性については、待って見るしかありません。

最適化

最適化の観点から見た言語モデルの主な制限は、トレーニングに非常にコストがかかることです。そのため、R&D チームは精度とコストの間でトレードオフを行う必要がありました。この結果、モデルが大幅に最適化されないことがよくあります。

GPT-3 は一度だけトレーニングされ、一部のユースケースでエラーが発生した場合は再トレーニングする必要があります。 OpenAI は、コストがかかりすぎ、研究者がモデルに最適なハイパーパラメータのセット (学習率、バッチ サイズ、シーケンスの長さなど) を見つけることができなかったため、GPT-4 ではこのアプローチを採用しないことに決めました。

トレーニング コストが高いことによるもう 1 つの結果は、モデルの動作の分析が制限されることです。カプラン氏のチームは、モデルのサイズがパフォーマンス向上に最も関連のある変数であると結論付けたとき、大量のコンピューティング リソースを必要とするトレーニング トークンの数を考慮していませんでした。

確かに、一部の大企業はカプラン氏のチームの結論に基づいたモデルの拡大に何百万ドルも「無駄」にしてきた。現在、DeepMind と OpenAI が率いる企業は他のアプローチを模索しています。彼らは、単に大きいモデルではなく、最良のモデルを見つけようとします。

最適化パラメータ

先月、Microsoft と OpenAI は、最適化されたハイパーパラメータを使用してトレーニングすると GPT-3 が大幅に改善されることを実証しました。彼らは、GPT-3 の 6.7B バージョンのパフォーマンスが大幅に向上し、元の 13B GPT-3 に匹敵することを発見しました。ハイパーパラメータのチューニングによってもたらされるパフォーマンスの向上は、パラメータの数を 2 倍にすることと同等です。

彼らは、小さなモデルに最適なハイパーパラメータが同じファミリーのより大きなモデルにも最適であるという、μP と呼ばれる新しいパラメータ化を活用しています。その結果、μP は、トレーニング コストのほんの一部で任意のサイズのモデルを最適化し、ほとんどコストをかけずにハイパーパラメータをより大きなモデルに転送できるようになります。

計算モデルの最適化

数週間前、DeepMind は Kaplan らの研究結果を再検討し、人々が信じていたのとは反対に、トレーニング トークンの数はモデルのサイズと同じくらいパフォーマンスに影響を与えることを認識しました。 DeepMind は、計算予算は拡張パラメータとデータの間で均等に分配されるべきだと結論付けました。彼らは、大規模言語モデルの4倍のデータ量(1.4Tトークン)でChinchilla(70B)をトレーニングすることでこの仮説を実証しました。

画像出典: DeepMind

結果は明らかで、Chinchilla は多くの言語ベンチマークにおいて Gopher、GPT-3、MT-NLG などの言語モデルよりも「大幅に」優れていることが示されており、現在の大規模モデルはトレーニングが不十分でサイズが大きすぎることが示唆されています。

DeepMind の調査結果によると、GPT-4 は GPT-3 よりもわずかに大きくなり、計算の最適性を達成するために必要なトレーニング トークンの数は約 5 兆となり、現在のデータセットよりも 1 桁多くなります。トレーニング損失を最小限に抑えるために、GPT-4 のトレーニングに必要な FLOP は GPT-3 の約 10 ~ 20 倍になります (Gopher の計算量を参照)。

アルトマン氏は質疑応答で、GPT-4 は GPT-3 よりも計算負荷が高くなると述べており、おそらくこれが彼が言及していたことだ。

確かに、OpenAI はモデルサイズ以外の変数の最適化にも取り組む予定です。最適なハイパーパラメータのセットと、最適な計算モデルのサイズおよびパラメータの数を見つけることで、すべてのベンチマークで驚異的な成果が得られる可能性があります。

マルチモーダル: GPT-4はテキストのみのモデルになります

私たちはマルチモーダルな世界に住んでいるため、人間の脳は多感覚的です。一度に 1 つのモダリティでのみ世界を認識すると、AI が世界を理解する能力は大幅に制限されます。したがって、ディープラーニングの未来はマルチモーダルモデルであると考えられています。

ただし、優れたマルチモーダル モデルを構築するのは、優れた純粋言語モデルや純粋視覚モデルを構築するよりも困難です。視覚情報とテキスト情報を 1 つの表現に組み合わせるのは、非常に困難な作業です。脳がこれをどのように行うかについての私たちの理解はまだ非常に限られており、それをニューラル ネットワークに実装することは困難です。

おそらくこの理由から、アルトマン氏は質疑応答で、GPT-4 はマルチモーダルではなく、純粋なテキスト モデルになるとも述べました。私の推測では、彼らは次世代のマルチモーダル AI に移行する前に、モデルやデータセットのサイズなどの要素を微調整して、言語モデルの限界に到達しようとしているのです。

スパース性: GPT-4は高密度モデルになる

スパース モデルは最近、条件付き計算を活用し、モデルのさまざまな部分を使用してさまざまな種類の入力を処理することで大きな成功を収めています。これらのモデルは、法外な計算コストをかけずに 1T を超えるパラメータ マークに簡単に拡張できるため、モデル サイズと計算予算の間に直交関係が確立されます。ただし、この MoE アプローチの利点は、非常に大規模なモデルでは減少します。

OpenAI が高密度言語モデルに重点を置いていることを考えると、GPT-4 も高密度モデルになると予想するのは妥当です。

しかし、人間の脳はスパース処理に大きく依存しており、マルチモーダル性と同様に、スパース性が将来の世代のニューラル ネットワークを支配する可能性があります。

GPT-4はGPT-3よりも整合が取れている

OpenAI は、AI の価値観の整合の問題、つまり言語モデルを人間の意図に従わせ、価値観に沿わせる方法の解決に懸命に取り組んできました。これには、AIがより正確な理解を達成できるように数学的に可能にするだけでなく、さまざまな人間グループの価値観を哲学的に考慮することも必要です。 OpenAI は、指示に従うことを学習させるために、InstructGPT で人間からのフィードバックによるトレーニングの実験を行いました。

InstructGPT の主な進歩は、言語ベンチマークの結果に関係なく、人間の評価者によって満場一致で GPT-3 よりも優れたモデルであると見なされていることです。これは、AI の能力を評価するための唯一の指標としてベンチマークを使用することは不適切であることを示唆しています。人間がモデルをどのように認識するかは、同様に、あるいはそれ以上に重要です。

アルトマン氏と OpenAI の有益な AGI への取り組みを考えると、GPT-4 は InstructGPT から得られた発見に基づくものになると思います。

GPT-3 は英語のコーパスと注釈のみを使用するため、モデルの調整方法が改善されます。真の整合には、さまざまな性別、人種、国籍、宗教などの情報機能が含まれる必要があります。これは大きな課題であり、この目標に向けて一歩を踏み出すことは意義深いことでしょう。

要約すると、GPT-4 に関する私の予測には、おおよそ次の側面が含まれます。

モデル サイズ: GPT-4 は GPT-3 よりも大きくなりますが、それほど大きくはありません。モデルのサイズは特徴ではありません。

最適化: GPT-4 は GPT-3 よりも多くの計算を使用し、パラメータ化 (最適なハイパーパラメータ) とスケーリング法則 (トレーニング トークンの数はモデル サイズと同じくらい重要) に新たな改善を加えます。

マルチモーダル: GPT-4 はテキストのみのモデルであり、OpenAI は DALL E のようなマルチモーダル モデルに移行する前に言語モデルを限界まで押し上げようとしています。

スパース性: GPT-4 は GPT-2 と GPT-3 のトレンドに従い、密なモデルになりますが、将来的にはスパース性が主流になるでしょう。

整合: GPT-4 は GPT-3 よりも人々の価値観に沿ったものとなり、InstructGPT から学んだ教訓を適用します。

アルベルト・ロメロ氏は、アルトマン氏と OpenAI が提供した情報に基づいて推測を行いましたが、数か月以内にリリースされると予想される GPT-4 でこれらの予測が裏付けられると期待されます。

<<:  顔認証+総合決済、モバイル決済が新たな形を生む

>>:  美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践

ブログ    
ブログ    
ブログ    

推薦する

...

Transformer ではまだ注意が必要ですか?

ここ数週間、AI コミュニティでは、注意を必要としないアーキテクチャを使用して言語モデルを実装すると...

複数の LLM が連携して機能します。清華大学などがオープンソースのマルチエージェントフレームワークAgentVerseを開発:Minecraftのアイテムを共同で作成し、ポケモンを訓練

人類が地球上の食物連鎖の頂点に上り詰め、さらには宇宙の探査を続けられるようになったのは、個人の脳だけ...

AIと機械学習を活用して工場の安全を守る

自動化されたセキュリティの将来には機械学習が関与するでしょう。人工知能と機械学習の進歩により、ロボッ...

IoTセキュリティ戦略における機械学習の重要性

機械学習は、自動化と異常な動作の検出を通じて、よりスケーラブルかつ効率的に IoT デバイスを保護す...

RSA という高度な暗号化アルゴリズムをご存知ですか?

以前、RSA アルゴリズムの説明をしてほしいと頼まれたことがあります。今日は私が学んだことに基づいて...

マイクロソフトはBing Chatを今後も無料のままにすると約束

近年、OpenAI、Microsoft、Google など多くの企業やスタートアップチームが独自のチ...

8つの一般的な確率分布の式と視覚化

現実の世界には、本質的に統計的であると考えられる現象がいくつかあります (気象データ、売上データ、財...

2021 年のトップ 12 AI ツールとフレームワーク

AI トレンドがあらゆるところで広がる 2021 年を迎える準備はできていますか? ここでは、202...

AIが3Aの傑作をプレイ、OpenAIは調査されるか? 2023年のAIパノラマレポートが10の予測を発表

State of Report は今年で 6 年目を迎え、人工知能分野の風向計となっています。業界お...

rsyncのコアアルゴリズム

Rsync は、Unix/Linux でファイルを同期するための効率的なアルゴリズムです。2 台のコ...

ガートナー、2024年以降のIT組織とユーザーに関する重要な予測を発表

ガートナーは、2024 年以降のトップ 10 の戦略予測を発表しました。ガートナーは、生成型人工知能...

ビッグデータは古い顧客を殺しています。消費者が権利を守るのは困難です。アルゴリズムの不公平な適用をどのように規制すべきでしょうか?

プラットフォーム経済の急速な発展に伴い、オンラインショッピング、交通、旅行宿泊、食品配達、オンライン...

大規模言語モデルによる金融市場の予測

大規模言語モデル (LLM) は、数百万または数十億のパラメータを持つ人工ニューラル ネットワークで...

AIを活用した自動化はエンタープライズレベルの自動化2.0です

新たな常態に対応するために自動化プロセスを拡大多くの企業は、ニューノーマルに対処するための重要な技術...