2020年5月、GPT-3はGPT-2の1年後に正式にリリースされました。GPT-2も、オリジナルのGPT論文が発表されてから1年後にリリースされました。この流れに沿って、GPT-4 は 1 年前にリリースされるはずでしたが、まだリリースされていません。 OpenAIのCEOサム・アルトマン氏は数か月前、GPT-4が間もなく登場し、2022年7月から8月にリリースされる予定であると述べた。 GPT-3 の強力なパフォーマンスにより、GPT-4 に対する期待が高まっています。 GPT-4 についての公開情報はほとんどありませんが、アルトマン氏は昨年の Q&A で OpenAI の GPT-4 に関する考え方についていくつかのヒントを示しました。彼は、GPT-4 には 100T のパラメータはないことを明らかにしました。 GPT-4 に関する公開情報が非常に少ないため、人々はそれについて多くの予測を立ててきました。現在、Alberto Romeroというアナリストが、OpenAIとSam Altmanが明らかにした情報や、言語AIの現在の動向と最新技術に基づいて、GPT-4に関する新たな予測を立てています。以下は彼のオリジナルの予測です。 モデルサイズ: GPT-4はそれほど大きくないGPT-4 は最大の言語モデルにはならず、アルトマン氏は GPT-3 よりもそれほど大きくはならないと述べています。そのサイズはおそらく GPT-3 と Gopher (175B -280B) の間です。 この推測には十分な理由があります。 昨年NvidiaとMicrosoftが共同で開発したMegatron-Turing NLG(MT-NLG)は、530Bのパラメータを持つ最大の高密度ニューラルネットワークと言われており、これはGPT-3の3倍のパラメータ数です。最近では、GoogleのPaLMが540Bのパラメータを持っています。しかし、MT-NLG 以降に登場したいくつかの小型モデルが、実際にはより高いパフォーマンス レベルを達成したことは注目に値します。 つまり、大きい方が必ずしも良いわけではないということです。 業界の多くの企業は、モデルのサイズがパフォーマンスを決定する要因ではなく、モデルを拡張することがパフォーマンスを向上させる最善の方法ではないことを認識しています。 2020年、OpenAIのジャレッド・カプラン氏とその同僚は、計算予算の増加が主にパラメータの数に充てられ、それがべき乗関係に従って拡大した場合にパフォーマンスの向上が最大になると結論付けました。 しかし、超大規模 MT-NLG を例にとると、パフォーマンスの面では最適ではありません。実際のところ、ベンチマークのどのカテゴリーにおいても最高というわけではありません。 Gopher (280B) や Chinchilla (70B) などの小型モデルは、一部のタスクでは MT-NLG よりもはるかに優れたパフォーマンスを発揮します。 明らかに、モデルのサイズは、言語理解のパフォーマンスを向上させる唯一の要素ではありません。 業界の多くの企業は、「大きいほど良い」という教義を放棄し始めています。パラメータが増えると、計算コストが高くなったり、パフォーマンスのボトルネックが発生したりするなどの副作用も生じます。これらの企業は、より小さなモデルから同様の結果、あるいはより優れた結果が得られる場合、巨大なモデルを構築する前によく考えるでしょう。 アルトマン氏は、もはやモデルを大きくすることではなく、より小さなモデルを最大限に活用することに重点を置いていると述べた。 OpenAI はスケーリング仮説を早くから提唱していたが、現在では他の未踏の道筋でもモデルを改善できることに気付いた。 したがって、GPT-4 は GPT-3 よりそれほど大きくなりません。 OpenAI は、データ、アルゴリズム、パラメータ化、値の調整など、より大幅な改善につながる可能性のある他の側面に重点を移します。 100T パラメータ モデルの機能性については、待って見るしかありません。 最適化最適化の観点から見た言語モデルの主な制限は、トレーニングに非常にコストがかかることです。そのため、R&D チームは精度とコストの間でトレードオフを行う必要がありました。この結果、モデルが大幅に最適化されないことがよくあります。 GPT-3 は一度だけトレーニングされ、一部のユースケースでエラーが発生した場合は再トレーニングする必要があります。 OpenAI は、コストがかかりすぎ、研究者がモデルに最適なハイパーパラメータのセット (学習率、バッチ サイズ、シーケンスの長さなど) を見つけることができなかったため、GPT-4 ではこのアプローチを採用しないことに決めました。 トレーニング コストが高いことによるもう 1 つの結果は、モデルの動作の分析が制限されることです。カプラン氏のチームは、モデルのサイズがパフォーマンス向上に最も関連のある変数であると結論付けたとき、大量のコンピューティング リソースを必要とするトレーニング トークンの数を考慮していませんでした。 確かに、一部の大企業はカプラン氏のチームの結論に基づいたモデルの拡大に何百万ドルも「無駄」にしてきた。現在、DeepMind と OpenAI が率いる企業は他のアプローチを模索しています。彼らは、単に大きいモデルではなく、最良のモデルを見つけようとします。 最適化パラメータ先月、Microsoft と OpenAI は、最適化されたハイパーパラメータを使用してトレーニングすると GPT-3 が大幅に改善されることを実証しました。彼らは、GPT-3 の 6.7B バージョンのパフォーマンスが大幅に向上し、元の 13B GPT-3 に匹敵することを発見しました。ハイパーパラメータのチューニングによってもたらされるパフォーマンスの向上は、パラメータの数を 2 倍にすることと同等です。 彼らは、小さなモデルに最適なハイパーパラメータが同じファミリーのより大きなモデルにも最適であるという、μP と呼ばれる新しいパラメータ化を活用しています。その結果、μP は、トレーニング コストのほんの一部で任意のサイズのモデルを最適化し、ほとんどコストをかけずにハイパーパラメータをより大きなモデルに転送できるようになります。 計算モデルの最適化数週間前、DeepMind は Kaplan らの研究結果を再検討し、人々が信じていたのとは反対に、トレーニング トークンの数はモデルのサイズと同じくらいパフォーマンスに影響を与えることを認識しました。 DeepMind は、計算予算は拡張パラメータとデータの間で均等に分配されるべきだと結論付けました。彼らは、大規模言語モデルの4倍のデータ量(1.4Tトークン)でChinchilla(70B)をトレーニングすることでこの仮説を実証しました。 画像出典: DeepMind 結果は明らかで、Chinchilla は多くの言語ベンチマークにおいて Gopher、GPT-3、MT-NLG などの言語モデルよりも「大幅に」優れていることが示されており、現在の大規模モデルはトレーニングが不十分でサイズが大きすぎることが示唆されています。 DeepMind の調査結果によると、GPT-4 は GPT-3 よりもわずかに大きくなり、計算の最適性を達成するために必要なトレーニング トークンの数は約 5 兆となり、現在のデータセットよりも 1 桁多くなります。トレーニング損失を最小限に抑えるために、GPT-4 のトレーニングに必要な FLOP は GPT-3 の約 10 ~ 20 倍になります (Gopher の計算量を参照)。 アルトマン氏は質疑応答で、GPT-4 は GPT-3 よりも計算負荷が高くなると述べており、おそらくこれが彼が言及していたことだ。 確かに、OpenAI はモデルサイズ以外の変数の最適化にも取り組む予定です。最適なハイパーパラメータのセットと、最適な計算モデルのサイズおよびパラメータの数を見つけることで、すべてのベンチマークで驚異的な成果が得られる可能性があります。 マルチモーダル: GPT-4はテキストのみのモデルになります私たちはマルチモーダルな世界に住んでいるため、人間の脳は多感覚的です。一度に 1 つのモダリティでのみ世界を認識すると、AI が世界を理解する能力は大幅に制限されます。したがって、ディープラーニングの未来はマルチモーダルモデルであると考えられています。 ただし、優れたマルチモーダル モデルを構築するのは、優れた純粋言語モデルや純粋視覚モデルを構築するよりも困難です。視覚情報とテキスト情報を 1 つの表現に組み合わせるのは、非常に困難な作業です。脳がこれをどのように行うかについての私たちの理解はまだ非常に限られており、それをニューラル ネットワークに実装することは困難です。 おそらくこの理由から、アルトマン氏は質疑応答で、GPT-4 はマルチモーダルではなく、純粋なテキスト モデルになるとも述べました。私の推測では、彼らは次世代のマルチモーダル AI に移行する前に、モデルやデータセットのサイズなどの要素を微調整して、言語モデルの限界に到達しようとしているのです。 スパース性: GPT-4は高密度モデルになるスパース モデルは最近、条件付き計算を活用し、モデルのさまざまな部分を使用してさまざまな種類の入力を処理することで大きな成功を収めています。これらのモデルは、法外な計算コストをかけずに 1T を超えるパラメータ マークに簡単に拡張できるため、モデル サイズと計算予算の間に直交関係が確立されます。ただし、この MoE アプローチの利点は、非常に大規模なモデルでは減少します。 OpenAI が高密度言語モデルに重点を置いていることを考えると、GPT-4 も高密度モデルになると予想するのは妥当です。 しかし、人間の脳はスパース処理に大きく依存しており、マルチモーダル性と同様に、スパース性が将来の世代のニューラル ネットワークを支配する可能性があります。 GPT-4はGPT-3よりも整合が取れているOpenAI は、AI の価値観の整合の問題、つまり言語モデルを人間の意図に従わせ、価値観に沿わせる方法の解決に懸命に取り組んできました。これには、AIがより正確な理解を達成できるように数学的に可能にするだけでなく、さまざまな人間グループの価値観を哲学的に考慮することも必要です。 OpenAI は、指示に従うことを学習させるために、InstructGPT で人間からのフィードバックによるトレーニングの実験を行いました。 InstructGPT の主な進歩は、言語ベンチマークの結果に関係なく、人間の評価者によって満場一致で GPT-3 よりも優れたモデルであると見なされていることです。これは、AI の能力を評価するための唯一の指標としてベンチマークを使用することは不適切であることを示唆しています。人間がモデルをどのように認識するかは、同様に、あるいはそれ以上に重要です。 アルトマン氏と OpenAI の有益な AGI への取り組みを考えると、GPT-4 は InstructGPT から得られた発見に基づくものになると思います。 GPT-3 は英語のコーパスと注釈のみを使用するため、モデルの調整方法が改善されます。真の整合には、さまざまな性別、人種、国籍、宗教などの情報機能が含まれる必要があります。これは大きな課題であり、この目標に向けて一歩を踏み出すことは意義深いことでしょう。 要約すると、GPT-4 に関する私の予測には、おおよそ次の側面が含まれます。 モデル サイズ: GPT-4 は GPT-3 よりも大きくなりますが、それほど大きくはありません。モデルのサイズは特徴ではありません。 最適化: GPT-4 は GPT-3 よりも多くの計算を使用し、パラメータ化 (最適なハイパーパラメータ) とスケーリング法則 (トレーニング トークンの数はモデル サイズと同じくらい重要) に新たな改善を加えます。 マルチモーダル: GPT-4 はテキストのみのモデルであり、OpenAI は DALL E のようなマルチモーダル モデルに移行する前に言語モデルを限界まで押し上げようとしています。 スパース性: GPT-4 は GPT-2 と GPT-3 のトレンドに従い、密なモデルになりますが、将来的にはスパース性が主流になるでしょう。 整合: GPT-4 は GPT-3 よりも人々の価値観に沿ったものとなり、InstructGPT から学んだ教訓を適用します。 アルベルト・ロメロ氏は、アルトマン氏と OpenAI が提供した情報に基づいて推測を行いましたが、数か月以内にリリースされると予想される GPT-4 でこれらの予測が裏付けられると期待されます。 |
>>: 美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践
生成 AI は、ほぼすべての業界で急速に導入され、ビジネス界の状況を急速に変えつつあります。企業は、...
Adobe Make itのシェアを聞いて、Adobeの人工知能ブラックテクノロジーに衝撃を受けま...
実際、ディープラーニングは多くの厄介な最適化問題を解決しています。ニューラル ネットワークは、問題に...
ジェマとはジェマ軽量で最先端のオープンモデルシリーズで、 ジェミニ同じ研究と技術をモデル化します。 ...
顔認証と指紋認証は、携帯電話のロックを解除する主な 2 つの方法です。私たちは、日常の仕事でも公共の...
病院の集中治療室 (ICU) では、重病の患者を一日中一連の機器に接続し、いつでもバイタルサインを監...
大規模モデルの出現は、インテリジェントエージェントの設計に革命的な変化を引き起こしました。ChatG...
翻訳者|朱 仙中レビュー | Chonglou概要:このブログでは、検索拡張生成と呼ばれるプロンプト...
著者: 張傑[51CTO.com からのオリジナル記事]コンピューター ビジョン (CV) は、人工...
深層畳み込みニューラル ネットワークは、顕著なオブジェクトの検出に広く使用されており、最先端のパフォ...
[[347833]]近年、人工知能は急速に発展し、新たな科学技術革命と産業変革を主導する中核的な原動...
コンピュータサイエンスとエレクトロニクスの急速な発展により、顔認証は現在、指紋に次いで世界第2位の市...
世界を見渡すと、各国の社会進歩、産業グレードアップ、国防建設などにおける科学技術の価値がますます明ら...
Prompt プロジェクトをどのように説明すればよいでしょうか? ChatGPT を初めて使用する初...