優れたプレーンテキストモデル? GPT-4は準備完了

優れたプレーンテキストモデル? GPT-4は準備完了

2020年5月、GPT-3はGPT-2のリリースから1年後に正式にリリースされました。GPT-2も、オリジナルのGPT論文が発表されてから1年後にリリースされました。この流れに沿って、GPT-4 は 1 年前にリリースされるはずでしたが、まだリリースされていません。

OpenAIのCEOサム・アルトマン氏は数か月前、GPT-4が間もなく登場し、2022年7月から8月にリリースされる予定であると述べた。

GPT-3 の強力なパフォーマンスにより、GPT-4 に対する期待が高まっています。 GPT-4 についての公開情報はほとんどありませんが、アルトマン氏は昨年の Q&A で OpenAI の GPT-4 に関する考え方についていくつかのヒントを示しました。彼は、GPT-4 には 100T のパラメータはないことを明らかにしました。

GPT-4 に関する公開情報が非常に少ないため、人々はそれについて多くの予測を立ててきました。最近、あるアナリストが  Alberto Romero 氏は、OpenAI と Sam Altman 氏が明らかにした情報、および言語 AI の現在の動向と最新技術に基づいて、GPT-4 に関する新たな予測を行いました。以下は彼のオリジナルの予測です。

1.モデルサイズ: GPT-4はそれほど大きくない

GPT-4 は最大の言語モデルにはならず、アルトマン氏は GPT-3 よりもそれほど大きくはならないと述べています。そのサイズはおそらく GPT-3 と Gopher (175B -280B) の間です。

この推測には十分な理由があります。

昨年NVIDIAとMicrosoftが共同で開発したMegatron-Turing NLG(MT-NLG)は、530Bのパラメータを持つ最大の高密度ニューラルネットワークと言われており、これはGPT-3の3倍のパラメータ数です。最近では、GoogleのPaLMが540Bのパラメータを持っています。しかし、MT-NLG 以降に登場したいくつかの小型モデルが、実際にはより高いパフォーマンス レベルを達成したことは注目に値します。

つまり、大きい方が必ずしも良いわけではないということです。

業界の多くの企業は、モデルのサイズがパフォーマンスを決定する要因ではなく、モデルを拡張することがパフォーマンスを向上させる最善の方法ではないことを認識しています。 2020年、OpenAIのJared Kaplan氏とその同僚は、増加した計算予算が主にパラメータ数の増加に割り当てられた場合、パフォーマンスの向上が最も顕著であり、べき乗関係に従うという結論に達しました。

しかし、超大規模 MT-NLG を例にとると、パフォーマンスの面では最適ではありません。実際のところ、ベンチマークのどのカテゴリーにおいても最高というわけではありません。 Gopher (280B) や Chinchilla (70B) などの小型モデルは、一部のタスクでは MT-NLG よりもはるかに優れたパフォーマンスを発揮します。

明らかに、モデルのサイズは、言語理解のパフォーマンスを向上させる唯一の要素ではありません。

業界の多くの企業は、「大きいほど良い」という教義を放棄し始めています。パラメータが増えると、計算コストが高くなったり、パフォーマンスのボトルネックが発生したりするなどの副作用も生じます。これらの企業は、より小さなモデルから同様の結果、あるいはより優れた結果が得られる場合、巨大なモデルを構築する前によく考えるでしょう。

アルトマン氏は、もはやモデルを大きくすることではなく、より小さなモデルを最大限に活用することに重点を置いていると述べた。 OpenAI はスケーリング仮説を早くから提唱していたが、現在では他の未踏の道筋でもモデルを改善できることに気付いた。

したがって、GPT-4 は GPT-3 よりそれほど大きくなりません。 OpenAI は、データ、アルゴリズム、パラメータ化、値の調整など、より大幅な改善につながる可能性のある他の側面に重点を移します。 100T パラメータ モデルの機能性については、待って見るしかありません。

2最適化: GPTは「最適性」を追求する

最適化の観点から見た言語モデルの主な制限は、トレーニングに非常にコストがかかることです。そのため、R&D チームは精度とコストの間でトレードオフを行う必要がありました。この結果、モデルが大幅に最適化されないことがよくあります。

GPT-3 は一度だけトレーニングされ、一部のユースケースでエラーが発生した場合は再トレーニングする必要があります。 OpenAI は、研究者がモデルに最適なハイパーパラメータのセット (学習率、バッチ サイズ、シーケンスの長さなど) を見つけるにはコストがかかりすぎるため、GPT-4 ではこのアプローチを採用しないと決定しました。

トレーニング コストが高いことによるもう 1 つの結果は、モデルの動作の分析が制限されることです。カプラン氏のチームは、モデルのサイズがパフォーマンス向上に最も関連のある変数であると結論付けたとき、大量のコンピューティング リソースを必要とするトレーニング トークンの数を考慮していませんでした。

確かに、一部の大企業はカプラン氏のチームの結論に基づいたモデルの拡大に何百万ドルも「無駄」にしてきた。現在、DeepMind と OpenAI が率いる企業は他のアプローチを模索しています。彼らは、単に大きなモデルではなく、最適なモデルを見つけようとします。

最適化パラメータ

先月、Microsoft と OpenAI は、最適化されたハイパーパラメータを使用してトレーニングすると GPT-3 が大幅に改善されることを実証しました。彼らは、GPT-3 の 6.7B バージョンのパフォーマンスが大幅に向上し、元の 13B GPT-3 に匹敵することを発見しました。ハイパーパラメータのチューニングによってもたらされるパフォーマンスの向上は、パラメータの数を 2 倍にすることと同等です。

彼らは、小さなモデルに最適なハイパーパラメータが同じタイプのより大きなモデルにも適用される、μP と呼ばれる新しいパラメータ化を活用しています。その結果、μP は、トレーニング コストのほんの一部で任意のサイズのモデルを最適化し、ほとんどコストをかけずにハイパーパラメータをより大きなモデルに転送できるようになります。

計算モデルの最適化

数週間前、DeepMind は Kaplan らの研究結果を再検討し、人々が信じていたのとは反対に、トレーニング トークンの数はモデルのサイズと同じくらいパフォーマンスに影響を与えることを認識しました。 DeepMind は、計算予算は拡張パラメータとデータの間で均等に分配されるべきだと結論付けました。彼らは、大規模言語モデルの4倍のデータ量(1.4Tトークン)でChinchilla(70B)をトレーニングすることでこの仮説を実証しました。

画像出典: DeepMind

結果は明らかで、Chinchilla は多くの言語ベンチマークにおいて Gopher、GPT-3、MT-NLG などの言語モデルよりも「大幅に」優れていることが示されており、現在の大規模モデルはトレーニングが不十分でサイズが大きすぎることが示唆されています。

DeepMind の調査結果によると、GPT-4 は GPT-3 よりわずかに大きくなることを考慮すると、計算の最適性を達成するために必要なトレーニング トークンの数は約 5 兆となり、現在のデータセットよりも 1 桁多くなります。トレーニング損失を最小限に抑えるために、GPT-4 のトレーニングに必要な FLOP は GPT-3 の約 10 ~ 20 倍になります (Gopher の計算量を参照)。

アルトマン氏は質疑応答で、GPT-4 は GPT-3 よりも計算負荷が高くなると述べており、おそらくこれが彼が言及していたことだ。

確かに、OpenAI はモデルサイズ以外の変数の最適化にも取り組む予定です。最適なハイパーパラメータのセットと、最適な計算モデルのサイズおよびパラメータの数を見つけることで、すべてのベンチマークで驚異的な成果が得られる可能性があります。

3.マルチモーダル: GPT-4はテキストのみのモデルになる

私たちはマルチモーダルな世界に住んでいるため、人間の脳は多感覚的です。一度に 1 つのモダリティでのみ世界を認識すると、AI が世界を理解する能力が大幅に制限されます。したがって、ディープラーニングの未来はマルチモーダルモデルであると考えられています。

ただし、優れたマルチモーダル モデルを構築するのは、優れた純粋言語モデルや純粋視覚モデルを構築するよりも困難です。視覚情報とテキスト情報を 1 つの表現に組み合わせるのは、非常に困難な作業です。脳がこれをどのように行うかについての私たちの理解はまだ非常に限られており、それをニューラル ネットワークに実装することは困難です。

おそらくこの理由から、アルトマン氏は質疑応答で、GPT-4 はマルチモーダルではなく、純粋なテキスト モデルになるとも述べました。私の推測では、彼らは次世代のマルチモーダル AI に移行する前に、モデルやデータセットのサイズなどの要素を微調整して、言語モデルの限界に到達しようとしているのです。

4スパース性: GPT-4は密なモデルになる

最近、スパース モデルは、条件付き計算を活用し、モデルのさまざまな部分を使用してさまざまな種類の入力を処理することで大きな成功を収めています。これらのモデルは、法外な計算コストをかけずに 1T を超えるパラメータ マークに簡単に拡張できるため、モデル サイズと計算予算の間に直交関係が確立されます。ただし、この MoE アプローチの利点は、非常に大規模なモデルでは減少します。

OpenAI が高密度言語モデルに重点を置いていることを考えると、GPT-4 も高密度モデルになると予想するのは妥当です。

しかし、人間の脳はスパース処理に大きく依存しており、マルチモーダル性と同様に、スパース性が将来の世代のニューラル ネットワークを支配する可能性があります。

5 GPT-4はGPT-3よりも整合がとれている

OpenAI は、AI の価値観の整合の問題、つまり言語モデルを人間の意図に従わせ、価値観に沿わせる方法の解決に多大な努力を払ってきました。これには、AIがより正確な理解を達成できるように数学的に可能にするだけでなく、さまざまな人間グループの価値観を哲学的に考慮することも必要です。 OpenAI は、指示に従うことを学習させるために、InstructGPT で人間からのフィードバックによるトレーニングの実験を行いました。

InstructGPT の主な進歩は、言語ベンチマークの結果に関係なく、人間の評価者によって満場一致で GPT-3 よりも優れたモデルであると見なされていることです。これは、AI の能力を評価するための唯一の指標としてベンチマークを使用することは不適切であることを示唆しています。人間がモデルをどのように認識するかは、同様に、あるいはそれ以上に重要です。

Altman 氏と OpenAI の有益な AGI への取り組みを考えると、GPT-4 は InstructGPT からの発見を実装し、それに基づいて構築していくと信じています。

GPT-3 は英語のコーパスと注釈のみを使用するため、モデルの調整方法が改善されます。真の整合には、さまざまな性別、人種、国籍、宗教などの情報機能が含まれる必要があります。これは大きな挑戦であり、この目標に向かって進むことは大きな意義があります。

6 結論

要約すると、GPT-4 に関する私の予測には、おおよそ次の側面が含まれます。

モデル サイズ: GPT-4 は GPT-3 よりも大きくなりますが、それほど大きくはありません。モデルのサイズは特徴ではありません。

最適化: GPT-4 は GPT-3 よりも多くの計算を使用し、パラメータ化 (最適なハイパーパラメータ) とスケーリング法則 (トレーニング トークンの数はモデル サイズと同じくらい重要) に新たな改善を加えます。

マルチモーダル: GPT-4 はテキストのみのモデルであり、OpenAI は DALL E のようなマルチモーダル モデルに移行する前に言語モデルを限界まで押し上げようとしています。

スパース性: GPT-4 は GPT-2 と GPT-3 のトレンドに従います。密なモデルになりますが、将来的にはスパース性が主流になるでしょう。

整合: GPT-4 は GPT-3 よりも人々の価値観に沿ったものとなり、InstructGPT から学んだ教訓を適用します。

アルベルト・ロメロ氏は、アルトマン氏とOpenAIから提供された情報に基づいて推測を行い、これらの予測が数か月以内にリリースされるGPT-4で確認されると予想しています。​

<<:  Meituanグラフニューラルネットワークトレーニングフレームワークの実践と探索

>>:  ビジネスニーズに基づいて AI ソリューションを選択するにはどうすればよいでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

モノのインターネットにおける人工知能の主要技術と手法

人工知能は、IoT の機能を実現する上で重要な役割を果たします。 AI と IoT の融合を推進し、...

最新のロボット学習システムが登場、たった1本の動画で仕事内容を学習可能

近い将来、人間はロボットにやり方を一度見せるだけで、タスクの実行方法を教えることができるようになるか...

機械学習に関する12の現実世界の真実

導入現実世界で働くときには、直面しなければならない事実がいくつかあります。この記事ではそれについて説...

建築環境における人工知能:その可能性を実現するためのステップ

AI と自動化により、企業はさまざまな最適化ソフトウェアを使用して、冷房、暖房、発電を自動的に改善し...

IBMとNASAが炭素排出量追跡のためのオープンソースAIモデルを発表

IBM は最近、NASA と提携して、炭素排出量の追跡を改善し、気候変動の影響を監視するための新しい...

競争が激化する中、ドローン配達の時代はいつ来るのでしょうか?

現在、電子商取引の発展が継続的に加速する中、物流と配送のプレッシャーは高まり続けており、ドローンは業...

アルゴリズムの改善とハードウェアの反復、どちらがより収益性が高いでしょうか? MITの最新の研究結果がこの答えを提供している

コンピューターが登場する前には、アルゴリズムがありました。コンピュータの誕生により、コンピュータの強...

...

マイクロソフトはセキュリティ上の理由から従業員によるOpenAI ChatGPTの使用を制限

11月10日、マイクロソフトは人工知能研究企業OpenAIに100億ドル以上を投資したにもかかわらず...

人工知能が中国の医療サービスに力を与える

「医者にかかりにくい」「入院しにくい」など、人々の生活における医療上の困難な問題が相次ぐ中、「インタ...

ジャック・マー氏:教育はデジタル時代に合わせて変えなければならない、そうでなければ子どもたちは機械と競争できなくなる

9月23日、ジャック・マー氏は国連総会で、デジタル時代を理解し、参加し、受け入れるためには教育改革が...

顔認識機能付きマスクでiPhoneのロックを解除できる、ネットユーザー「大丈夫、必要ない」

[[315444]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

人工知能、機械学習、ディープラーニングとは、いったい何なのでしょうか?

近年のホットな言葉といえば、「人工知能」が挙げられます。昨年のChatGPTの人気爆発により、「AI...