優れたプレーンテキストモデル? GPT-4は準備完了

2020年5月、GPT-3はGPT-2のリリースから1年後に正式にリリースされました。GPT-2も、オリジナルのGPT論文が発表されてから1年後にリリースされました。この流れに沿って、GPT-4 は 1 年前にリリースされるはずでしたが、まだリリースされていません。

OpenAIのCEOサム・アルトマン氏は数か月前、GPT-4が間もなく登場し、2022年7月から8月にリリースされる予定であると述べた。

GPT-3 の強力なパフォーマンスにより、GPT-4 に対する期待が高まっています。 GPT-4 についての公開情報はほとんどありませんが、アルトマン氏は昨年の Q&A で OpenAI の GPT-4 に関する考え方についていくつかのヒントを示しました。彼は、GPT-4 には 100T のパラメータはないことを明らかにしました。

GPT-4 に関する公開情報が非常に少ないため、人々はそれについて多くの予測を立ててきました。最近、あるアナリストが Alberto Romero 氏は、OpenAI と Sam Altman 氏が明らかにした情報、および言語 AI の現在の動向と最新技術に基づいて、GPT-4 に関する新たな予測を行いました。以下は彼のオリジナルの予測です。

1.モデルサイズ: GPT-4はそれほど大きくない

GPT-4 は最大の言語モデルにはならず、アルトマン氏は GPT-3 よりもそれほど大きくはならないと述べています。そのサイズはおそらく GPT-3 と Gopher (175B -280B) の間です。

この推測には十分な理由があります。

昨年NVIDIAとMicrosoftが共同で開発したMegatron-Turing NLG（MT-NLG）は、530Bのパラメータを持つ最大の高密度ニューラルネットワークと言われており、これはGPT-3の3倍のパラメータ数です。最近では、GoogleのPaLMが540Bのパラメータを持っています。しかし、MT-NLG 以降に登場したいくつかの小型モデルが、実際にはより高いパフォーマンスレベルを達成したことは注目に値します。

つまり、大きい方が必ずしも良いわけではないということです。

業界の多くの企業は、モデルのサイズがパフォーマンスを決定する要因ではなく、モデルを拡張することがパフォーマンスを向上させる最善の方法ではないことを認識しています。 2020年、OpenAIのJared Kaplan氏とその同僚は、増加した計算予算が主にパラメータ数の増加に割り当てられた場合、パフォーマンスの向上が最も顕著であり、べき乗関係に従うという結論に達しました。

しかし、超大規模 MT-NLG を例にとると、パフォーマンスの面では最適ではありません。実際のところ、ベンチマークのどのカテゴリーにおいても最高というわけではありません。 Gopher (280B) や Chinchilla (70B) などの小型モデルは、一部のタスクでは MT-NLG よりもはるかに優れたパフォーマンスを発揮します。

明らかに、モデルのサイズは、言語理解のパフォーマンスを向上させる唯一の要素ではありません。

業界の多くの企業は、「大きいほど良い」という教義を放棄し始めています。パラメータが増えると、計算コストが高くなったり、パフォーマンスのボトルネックが発生したりするなどの副作用も生じます。これらの企業は、より小さなモデルから同様の結果、あるいはより優れた結果が得られる場合、巨大なモデルを構築する前によく考えるでしょう。

アルトマン氏は、もはやモデルを大きくすることではなく、より小さなモデルを最大限に活用することに重点を置いていると述べた。 OpenAI はスケーリング仮説を早くから提唱していたが、現在では他の未踏の道筋でもモデルを改善できることに気付いた。

したがって、GPT-4 は GPT-3 よりそれほど大きくなりません。 OpenAI は、データ、アルゴリズム、パラメータ化、値の調整など、より大幅な改善につながる可能性のある他の側面に重点を移します。 100T パラメータモデルの機能性については、待って見るしかありません。

2最適化: GPTは「最適性」を追求する

最適化の観点から見た言語モデルの主な制限は、トレーニングに非常にコストがかかることです。そのため、R&D チームは精度とコストの間でトレードオフを行う必要がありました。この結果、モデルが大幅に最適化されないことがよくあります。

GPT-3 は一度だけトレーニングされ、一部のユースケースでエラーが発生した場合は再トレーニングする必要があります。 OpenAI は、研究者がモデルに最適なハイパーパラメータのセット (学習率、バッチサイズ、シーケンスの長さなど) を見つけるにはコストがかかりすぎるため、GPT-4 ではこのアプローチを採用しないと決定しました。

トレーニングコストが高いことによるもう 1 つの結果は、モデルの動作の分析が制限されることです。カプラン氏のチームは、モデルのサイズがパフォーマンス向上に最も関連のある変数であると結論付けたとき、大量のコンピューティングリソースを必要とするトレーニングトークンの数を考慮していませんでした。

確かに、一部の大企業はカプラン氏のチームの結論に基づいたモデルの拡大に何百万ドルも「無駄」にしてきた。現在、DeepMind と OpenAI が率いる企業は他のアプローチを模索しています。彼らは、単に大きなモデルではなく、最適なモデルを見つけようとします。

最適化パラメータ

先月、Microsoft と OpenAI は、最適化されたハイパーパラメータを使用してトレーニングすると GPT-3 が大幅に改善されることを実証しました。彼らは、GPT-3 の 6.7B バージョンのパフォーマンスが大幅に向上し、元の 13B GPT-3 に匹敵することを発見しました。ハイパーパラメータのチューニングによってもたらされるパフォーマンスの向上は、パラメータの数を 2 倍にすることと同等です。

彼らは、小さなモデルに最適なハイパーパラメータが同じタイプのより大きなモデルにも適用される、μP と呼ばれる新しいパラメータ化を活用しています。その結果、μP は、トレーニングコストのほんの一部で任意のサイズのモデルを最適化し、ほとんどコストをかけずにハイパーパラメータをより大きなモデルに転送できるようになります。

計算モデルの最適化

数週間前、DeepMind は Kaplan らの研究結果を再検討し、人々が信じていたのとは反対に、トレーニングトークンの数はモデルのサイズと同じくらいパフォーマンスに影響を与えることを認識しました。 DeepMind は、計算予算は拡張パラメータとデータの間で均等に分配されるべきだと結論付けました。彼らは、大規模言語モデルの4倍のデータ量（1.4Tトークン）でChinchilla（70B）をトレーニングすることでこの仮説を実証しました。

画像出典: DeepMind

結果は明らかで、Chinchilla は多くの言語ベンチマークにおいて Gopher、GPT-3、MT-NLG などの言語モデルよりも「大幅に」優れていることが示されており、現在の大規模モデルはトレーニングが不十分でサイズが大きすぎることが示唆されています。

DeepMind の調査結果によると、GPT-4 は GPT-3 よりわずかに大きくなることを考慮すると、計算の最適性を達成するために必要なトレーニングトークンの数は約 5 兆となり、現在のデータセットよりも 1 桁多くなります。トレーニング損失を最小限に抑えるために、GPT-4 のトレーニングに必要な FLOP は GPT-3 の約 10 ～ 20 倍になります (Gopher の計算量を参照)。

アルトマン氏は質疑応答で、GPT-4 は GPT-3 よりも計算負荷が高くなると述べており、おそらくこれが彼が言及していたことだ。

確かに、OpenAI はモデルサイズ以外の変数の最適化にも取り組む予定です。最適なハイパーパラメータのセットと、最適な計算モデルのサイズおよびパラメータの数を見つけることで、すべてのベンチマークで驚異的な成果が得られる可能性があります。

3.マルチモーダル: GPT-4はテキストのみのモデルになる

私たちはマルチモーダルな世界に住んでいるため、人間の脳は多感覚的です。一度に 1 つのモダリティでのみ世界を認識すると、AI が世界を理解する能力が大幅に制限されます。したがって、ディープラーニングの未来はマルチモーダルモデルであると考えられています。

ただし、優れたマルチモーダルモデルを構築するのは、優れた純粋言語モデルや純粋視覚モデルを構築するよりも困難です。視覚情報とテキスト情報を 1 つの表現に組み合わせるのは、非常に困難な作業です。脳がこれをどのように行うかについての私たちの理解はまだ非常に限られており、それをニューラルネットワークに実装することは困難です。

おそらくこの理由から、アルトマン氏は質疑応答で、GPT-4 はマルチモーダルではなく、純粋なテキストモデルになるとも述べました。私の推測では、彼らは次世代のマルチモーダル AI に移行する前に、モデルやデータセットのサイズなどの要素を微調整して、言語モデルの限界に到達しようとしているのです。

4スパース性: GPT-4は密なモデルになる

最近、スパースモデルは、条件付き計算を活用し、モデルのさまざまな部分を使用してさまざまな種類の入力を処理することで大きな成功を収めています。これらのモデルは、法外な計算コストをかけずに 1T を超えるパラメータマークに簡単に拡張できるため、モデルサイズと計算予算の間に直交関係が確立されます。ただし、この MoE アプローチの利点は、非常に大規模なモデルでは減少します。

OpenAI が高密度言語モデルに重点を置いていることを考えると、GPT-4 も高密度モデルになると予想するのは妥当です。

しかし、人間の脳はスパース処理に大きく依存しており、マルチモーダル性と同様に、スパース性が将来の世代のニューラルネットワークを支配する可能性があります。

5 GPT-4はGPT-3よりも整合がとれている

OpenAI は、AI の価値観の整合の問題、つまり言語モデルを人間の意図に従わせ、価値観に沿わせる方法の解決に多大な努力を払ってきました。これには、AIがより正確な理解を達成できるように数学的に可能にするだけでなく、さまざまな人間グループの価値観を哲学的に考慮することも必要です。 OpenAI は、指示に従うことを学習させるために、InstructGPT で人間からのフィードバックによるトレーニングの実験を行いました。

InstructGPT の主な進歩は、言語ベンチマークの結果に関係なく、人間の評価者によって満場一致で GPT-3 よりも優れたモデルであると見なされていることです。これは、AI の能力を評価するための唯一の指標としてベンチマークを使用することは不適切であることを示唆しています。人間がモデルをどのように認識するかは、同様に、あるいはそれ以上に重要です。

Altman 氏と OpenAI の有益な AGI への取り組みを考えると、GPT-4 は InstructGPT からの発見を実装し、それに基づいて構築していくと信じています。

GPT-3 は英語のコーパスと注釈のみを使用するため、モデルの調整方法が改善されます。真の整合には、さまざまな性別、人種、国籍、宗教などの情報機能が含まれる必要があります。これは大きな挑戦であり、この目標に向かって進むことは大きな意義があります。

6 結論

要約すると、GPT-4 に関する私の予測には、おおよそ次の側面が含まれます。

モデルサイズ: GPT-4 は GPT-3 よりも大きくなりますが、それほど大きくはありません。モデルのサイズは特徴ではありません。

最適化: GPT-4 は GPT-3 よりも多くの計算を使用し、パラメータ化 (最適なハイパーパラメータ) とスケーリング法則 (トレーニングトークンの数はモデルサイズと同じくらい重要) に新たな改善を加えます。

マルチモーダル: GPT-4 はテキストのみのモデルであり、OpenAI は DALL E のようなマルチモーダルモデルに移行する前に言語モデルを限界まで押し上げようとしています。

スパース性: GPT-4 は GPT-2 と GPT-3 のトレンドに従います。密なモデルになりますが、将来的にはスパース性が主流になるでしょう。

整合: GPT-4 は GPT-3 よりも人々の価値観に沿ったものとなり、InstructGPT から学んだ教訓を適用します。

アルベルト・ロメロ氏は、アルトマン氏とOpenAIから提供された情報に基づいて推測を行い、これらの予測が数か月以内にリリースされるGPT-4で確認されると予想しています。

<<: Meituanグラフニューラルネットワークトレーニングフレームワークの実践と探索

>>: ビジネスニーズに基づいて AI ソリューションを選択するにはどうすればよいでしょうか?

45年前のマイクロソフトの予測が現実になりました！シャム：将来、AIの数は人類の人口を上回るだろう

優れたプレーンテキストモデル? GPT-4は準備完了

1.モデルサイズ: GPT-4はそれほど大きくない

2最適化: GPTは「最適性」を追求する

最適化パラメータ

計算モデルの最適化

3.マルチモーダル: GPT-4はテキストのみのモデルになる

4スパース性: GPT-4は密なモデルになる

5 GPT-4はGPT-3よりも整合がとれている

6 結論

45年前のマイクロソフトの予測が現実になりました！シャム：将来、AIの数は人類の人口を上回るだろう

ヘルスケアにおける人工知能

Google がオールラウンドな音楽転写 AI を発表: 曲を一度聴くだけでピアノとバイオリンの楽譜がすべて手に入る

作業効率を大幅に向上できるAIツール

DeepMindは「Transformerは事前学習データを超えて一般化できない」と指摘しているが、疑問視する人もいる。

移転可能で適応性のある運転行動予測

2017-2019 AIの3年間の浮き沈み

史上最も完全な自動運転ポジションの紹介

将来の医療における人工知能の重要な役割

推薦する

企業はどのように AI を活用してビジネスの成長を促進できるのでしょうか?

AIアルゴリズムが軍用無人車両への中間者攻撃を検出

AIがビジネスプロセス管理を根本的に変える方法

李開復：人工知能の「7つのブラックホール」は、最終的にはオープンエコシステムに置き換えられるだろう

AI+サイエンス: PaddlePaddle をベースにした AlphaFold2 でタンパク質構造予測を実現

機械学習の仕組み

インテリジェントな意思決定の新時代: AutoGen による財務データの分析

失礼ながら、モデルはプロンプトが何を言っているのか理解できない可能性があります。

「ブロックチェーン+人工知能」は医療金融やその他の応用シナリオに応用されています

アクセシブルな旅行はより安全です！ ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

趙傑：面接では（純粋な）アルゴリズムの質問が見られる