カリフォルニア大学バークレー校の教授が驚くべき予測を発表: 2030年までにGPTは180万年分の人間の作業を実行し、2,500年分の知識を1日で学習できるようになる

カリフォルニア大学バークレー校の教授が驚くべき予測を発表: 2030年までにGPTは180万年分の人間の作業を実行し、2,500年分の知識を1日で学習できるようになる

今は GPT-4 で、年は 2023 年です。

今から 7 年後の 2030 年、GPT はどのようになっているでしょうか?

カリフォルニア大学バークレー校の機械学習教授であるジェイコブ・スタインハード氏は、2030年のGPT(以下、GPT 2030)を予測する長文の記事を発表しました。

より適切な予測を行うために、Jacob は、経験的なスケーリング法則、将来のコンピューティングとデータの可用性に関する予測、特定のベンチマークの改善率、現在のシステムの経験的な推論速度、並列処理の将来の改善の可能性など、さまざまなソースからの情報を参照します。

要約すると、ジェイコブ氏は、GPT 2030 が以下の点で人間の労働者を上回ると考えています。

1. プログラミング、ハッキング、数学、タンパク質設計。

2. 作業と思考のスピード:GPT 2030は1分間に人間の5倍の単語を処理できると予想されており、各FLOPが5倍であれば合計は125倍になります。

3. GPT 2030 は任意に複製して並列実行できます。計算能力が十分であれば、人間が 180 万年かけて行う作業を完了するのに十分です。2 の結論と合わせると、これらのタスクはわずか 2.4 か月で完了できます。

4. モデルの重みが同じなので、GPT のコピーは知識を共有し、高速な並列学習を実現できます。したがって、GPT は人間が学習するのに 2,500 年かかることを 1 日で学習できます。

5. テキストや画像に加えて、GPT は分子構造、ネットワーク トラフィック、低レベルのマシン コード、天文画像、脳スキャンなど、直感に反するものも含め、他のモダリティでトレーニングできます。その結果、私たちがあまり経験のない分野を直感的に強く把握したり、私たちが持っていない概念を形成したりすることもあります。

もちろん、パフォーマンスの飛躍的な向上に加え、GPT の悪用問題もさらに深刻化し、並列化と高速化によりこのモデルはネットワーク セキュリティに対する深刻な脅威となるだろうと Jacob 氏は述べました。

ロボットの急速な並行学習は人間の行動にも応用され、「数千年」の経験を習得しているため、人間を操作したり、誤解させたりすることも容易になるだろう。

加速の面では、最大のボトルネックとなるのは GPT の自律性です。

作業を自動的にチェックできる数学研究などの分野では、GPT 2030 がほとんどのプロの数学者を上回るだろうとジェイコブ氏は予測しています。

機械学習の分野では、GPT が独自に実験を完了し、グラフや論文を生成できるようになるが、具体的なガイダンスを提供して結果を評価するには、依然として人間の研究者が必要になるだろうと彼は予測している。

どちらの場合も、GPT 2030 は科学研究プロセスの不可欠な部分となります。

ジェイコブ氏は、GPT 2030 の機能に関する予測は今日のシステムからは直感的に理解できるものではなく、2030 年に ML がどのようなものになるかについては不確実性が大きいため、予測が間違っている可能性があると述べました。

しかし、GPT 2030 がどのようなものになるにせよ、少なくとも GPT-4 のより優れたバージョンになると Jacob 氏は考えています。

したがって、私たちは 7 年後ではなく今、AI がもたらす可能性のある影響 (1 兆ドル、1,000 万人の命に影響を与えたり、人類社会の進歩に大きな混乱を引き起こしたりするなど) に備える必要があります。

特定の能力

GPT 2030 は超人的なコーディング、ハッキング、数学の能力を備えているとされています。

大規模なコーパスを読み取って処理し、パターンや洞察を拾い上げ、事実を思い出すという驚くべき能力を備えています。

AlphaFold と AlphaZero はどちらもタンパク質構造の予測とゲームプレイにおいて超人的な能力を持っているため、GPT 2030 も、たとえば AlphaFold/AlphaZero モデルと同様のデータでマルチモーダル トレーニングを実行できるようにすることで、同様に実行できることは明らかです。

プログラミングスキル

GPT-4 は、LeetCode の問題でのトレーニングのカットオフ後に人間のベースラインを上回り、いくつかの大手テクノロジー企業での模擬面接に合格しました。

彼らの進歩も非常に速く、GPT-3 から GPT-4 に 19% 直接ジャンプしています。

より難易度の高い CodeForces コンテストでは、GPT-4 のパフォーマンスは低下しましたが、AlphaCode は CodeForces の競合他社の中央レベルと同等でした。

より難しい APPS データセットでは、Parcel が AlphaCode をさらに上回ります (7.8% -> 25.5%)。

将来的には、予測プラットフォームMetaculusが示した中央値は2027年で、その頃にはアプリの80%がAIとなり、最高のプログラマーを除くすべての人間を上回ることになるだろう。

ハッカー

ジェイコブ氏は、プログラミングスキルの向上に伴って GPT 2030 のハッキング能力が向上し、ML モデルは人間よりも大規模かつ熱心に大規模なコードベースの脆弱性を検索できるようになると予測しています。

実際、ChatGPT は脆弱性を生成するために長い間使用されてきました。

ChatGPT によって生成されたフィッシングメール

数学

Minerva は、競争的な数学ベンチマーク (MATH) で 50% の精度を達成し、ほとんどの人間の競争相手を上回りました。

さらに、この手法は急速に改善しており(1 年で 30% 以上)、自動形式化、アルゴリズム エラーの削減、思考の連鎖の改善、データの改善を通じて目覚ましい成果を達成しています。

Metaculusは、2025年までにGPTの数学スコアが92%に達し、国際数学オリンピックにおけるAIの金メダルの平均数は2028個となり、世界トップの高校生に匹敵すると予測しています。

ジェイコブ氏は個人的に、GPT 2030 は定理の証明においてほとんどのプロの数学者よりも優れていると期待しています。

情報処理

事実を思い出し、大規模なコーパスを処理することは、言語モデルのメモリ容量と大きなコンテキスト ウィンドウの自然な結果です。

経験的に、GPT-4 は、司法試験、MCAT、大学の数学、物理学、生化学、哲学を含む広範な標準化されたテストである MMLU で 86% の精度を達成しています。これは、テストの汚染の可能性を考慮しても、人間の知識の範囲を超えています。

大規模コーパスに関しては、研究者は GPT-3 を使用して、大規模なテキスト データセットでこれまで知られていなかったいくつかのパターンを発見するシステムを構築しました。また、このモデルがまもなく「超人的」になることを示唆する研究のスケーリング レートも発見しました。

どちらの作品も、現在 100,000 トークンを超え、成長を続けている LLM の大規模なコンテキスト ウィンドウを活用しています。

より一般的には、機械学習モデルは人間とは異なるスキル プロファイルを持っています。これは、人間と機械学習が非常に異なるデータ ソースに適応するためです (前者は進化を通じて、後者は膨大なインターネット データを通じて)。

モデルがビデオ認識などのタスクで人間レベルのパフォーマンスに達すると、数学、プログラミング、ハッキングなど、他の多くのタスクでも超人的な能力を発揮する可能性があります。

さらに、時間が経つにつれて、より大きなモデルとより優れたデータが利用可能になり、モデルがより強力になり、人間のレベルを下回るパフォーマンスを発揮する可能性が低くなります。

現在のディープラーニング手法は、一部の分野では人間のレベルに達しないかもしれませんが、人間が優れているように進化していない数学などの分野では、人間を大幅に上回る可能性が高いです。

推論速度

ML モデルの速度を研究するために、研究者は ML モデルがテキストを生成できる速度を、人間の脳の速度である 1 分あたり 380 語を基準として測定します。

OpenAI のチャット補完 API を使用すると、GPT-3.5 は 1 分あたり 1,200 語 (wpm) を生成できますが、GPT-4 は 2023 年 4 月初旬の時点で 370 wpm を生成できます。

Pythia-12B のような小さなオープンソース モデルは、A100 GPU 上ですぐに使用できるツールを使用して少なくとも 1350 語/分を生成でき、さらに最適化すれば 2 倍に達する可能性もあります。

したがって、4 月時点の OpenAI モデルを考慮すると、人間の速度の約 3 倍、または人間の速度と同等になります。推論を加速させたいという強い商業的圧力があるため、モデルの推論速度は将来さらに速くなるでしょう。

実際、Fabien Roger の追跡データによると、この記事が書かれた前の週には、GPT-4 の速度はすでに約 540wpm (12 トークン/秒) まで向上しており、まだ実行の余地が十分にあることがわかります。

Steinhard の予測の中央値は、モデルが 1 分間に生成する単語数が人間の 5 倍 (範囲: [0.5 倍、20 倍]) であり、それ以上増加させると収穫逓減に陥るおおよその水準です。

重要なのは、機械学習モデルの速度は固定されていないということです。モデルのシリアル推論は、スループットが k 倍低下する代わりに、k^2 倍高速化できます (言い換えると、モデルの $$k^3$$ 個の並列コピーを、 $$k^2$$ 倍高速な単一のモデルに置き換えることができます)。

これは、理論的には $$k^2$$ の値が少なくとも 100 以上であっても機能する並列タイリング スキームを使用して実行できます。

したがって、k=5 に設定すると、人間の速度の 5 倍で動作するモデルを人間の速度の 125 倍まで加速できます。

もちろん、スピードは必ずしも品質に結びつくわけではありません。GPT 2030では、

スキル特性が異なると、簡単と思われるタスクでは失敗するものの、難しいと思われるタスクではうまく機能することもあります。

したがって、GPT 2030 を「加速された人間」と考えるのではなく、直感に反するスキルを開発する可能性を秘めた「超加速された労働者」と考えるべきです。

それでも、加速は便利です。

125 倍高速な言語モデルの場合、GPT 2030 のスキル範囲内であれば、学習に 1 日かかる認知アクションをわずか数分で完了できます。

前述のハッキング技術を使用すると、機械学習システムは脆弱性や攻撃を迅速に生成できますが、人間がそれらを生成するのは非常に時間がかかります。

スループットと並列レプリカ

モデルは、利用可能なコンピューティングとメモリに基づいて必要な頻度で複製できるため、効果的に並列化できる作業を迅速に完了できます。

さらに、モデルが特に効果的になるように微調整されると、その変更はすぐに他のインスタンスに伝播されます。モデルは特定のタスク用に抽出することもできるため、実行速度が速くなり、コストも削減されます。

モデルがトレーニングされると、モデルの複数のコピーを実行するのに十分なリソースが存在する場合があります。

モデルのトレーニングにはモデルの多数の並列コピーを実行する必要があり、組織はモデルを展開する際にそれらのリソースを所有し続けるためです。したがって、トレーニングコストを見積もることでレプリカの数を減らすことができます。

たとえば、GPT-3 のトレーニングコストは、9x10^11 回の順方向伝播を実行するのに十分です。人間に換算すると、人間は 1 分間に約 380 語考え、1 語は平均 1.33 トークンを占めるため、9x10^11 回の前方伝播は人間の速度で約 3400 年分の作業に相当します。

その結果、組織はモデルの 3,400 個の並列コピーを人間の速度で 1 年間実行することができ、同じ数のコピーを人間の 5 倍の速度で 2.4 か月間実行できるようになりました。

次に、将来のモデルに対して同じ「トレーニング超過」(トレーニングコストと推論コストの比率)を予測してみます。この数値は、主にデータセットのサイズにほぼ比例し、データセットは時間の経過とともに増加するため、大きくなります。

この傾向は、自然言語データが枯渇するにつれて鈍化しますが、新しいモダリティや合成データ、または自己生成データによって引き続き推進されるでしょう。

上記の予測は、組織が追加のコンピューティング能力を購入した場合、モデルがトレーニング中に使用されたリソースよりも多くのリソースで実行される可能性があるため、やや控えめなものです。

大まかな見積もりでは、GPT-4 のトレーニングには世界のコンピューティング リソースの約 0.01% が費やされており、将来的にはそのトレーニングと運用が世界のコンピューティング能力のより大きな割合を占めるため、トレーニング後のさらなる拡張の余地は少なくなります。

それでも、組織は、正当な理由があれば、実行するレプリカの数をさらに 1 桁増やすことができます。

知識の共有

モデルの異なるコピーはパラメータの更新を共有できます。

たとえば、ChatGPT を何百万ものユーザーに展開し、各インタラクションから何かを学習し、勾配の更新を中央サーバーに伝播して、その後モデルのすべてのコピーに適用することができます。

このようにして、ChatGPT は 1 時間で人間の一生 (100 万時間 = 114 年) よりも多くの人間性を観察します。並列学習はおそらく私たちのモデルの最も重要な利点の 1 つであり、不足しているスキルを迅速に学習できることを意味します。

並列学習の速度は、同時に実行されるモデルのコピーの数、データを取得できる速度、およびデータを並列で効果的に利用できるかどうかによって異なります。

実際には数百万単位のバッチ サイズが一般的であり、勾配ノイズ スケールでは、ある「臨界バッチ サイズ」を下回ると学習パフォーマンスの低下が最小限に抑えられると予測されるため、極端な並列化でも学習効率に大きな影響はありません。

したがって、並列レプリカとデータ収集に重点を置いています。

次の 2 つの推定は、少なくとも約 100 万のモデルのコピーを人間の速度で並行して学習できることを示唆しています。

これは、100 万日 = 2,500 年であるため、人間が毎日学習する 2,500 年に相当します。

まず、上記のセクション 3 の数値を使用し、モデルのトレーニング コストは 180 万年の作業 (人間の速度に合わせて調整) をシミュレートするのに十分であると結論付けました。

トレーニングの実行自体が 1.2 年未満であったと仮定すると、モデルをトレーニングした組織には、人間の速度で 150 万回のコピーを実行できる十分な GPU があったことになります。

2 番目の見積もりでは、モデルを導入している組織の市場シェアを考慮します。

たとえば、100 万人のユーザーが一度にモデルをクエリする場合、組織にはモデルの 100 万コピーを提供するためのリソースが必要です。

ChatGPT は 2023 年 5 月時点で 1 億人のユーザーを抱えており、2023 年 1 月時点で 1,300 万人の毎日のアクティブユーザーがいます。

平均的なユーザーがモデル生成テキストを数分間でリクエストすると仮定すると、1 月の数字は 1 日あたり約 50,000 人からのテキストを意味する可能性があります。

しかし、将来の ChatGPT スタイルのモデルでは、その数はおそらくその 20 倍になり、1 日あたり 2 億 5000 万人以上のアクティブ ユーザーに達するため、1 日あたり 100 万人という数字はかなり妥当です。

参考までに、Facebook には 1 日あたり 20 億人のアクティブ ユーザーがいます。

ツール、モード、アクチュエータ

これまで、GPT スタイルのモデルは主にテキストとコードでトレーニングされており、チャット会話以外で外部と対話する機能は限られていました。

しかし、モデルが他のモダリティ(画像など)でトレーニングされ、物理的なアクチュエータとインターフェースし始めるにつれて、この状況は急速に変化しています。

さらに、モデルは、テキスト、自然画像、ビデオ、音声などの人間中心のモダリティに限定されず、ネットワーク トラフィック、天文画像、その他の大規模なデータ ソースなど、私たちにとって馴染みのないモダリティでもトレーニングされる可能性があります。

道具

最近リリースされたモデルでは、ChatGPT プラグインなどの外部ツールが多数使用されています。

モデルはすでに、人間に行動を起こさせ、API 呼び出しやトランザクションを実行し、潜在的にサイバー攻撃を実行させるコードを記述して実行できます。

この機能は将来さらに開発される予定です。

新しいモダリティ

OpenFlamingo などの大規模なオープンソースの視覚言語モデルはすでに存在しており、商用分野では GPT-4 と Flamingo の両方が視覚データとテキストデータでトレーニングされています。研究者たちは、タンパク質と言語など、より型破りな組み合わせのモダリティも試みている。

大規模な事前トレーニング済みモデルのパラダイムは、2 つの理由から今後も拡大し続けると予想されます。

まず、ユーザーが説明の恩恵を受け、効率的に変更を行えるように、あまり馴染みのないモダリティ(タンパク質など)と言語を組み合わせることは経済的に有益です。これは、タンパク質、生物医学データ、CAD モデル、および経済分野に関連するその他の手法に関するマルチモーダル トレーニングを意味します。

第二に、言語データが枯渇するにつれて、モデル開発者は規模の経済の恩恵を受け続けるために新しいタイプのデータを探すようになります。

従来のテキストやビデオの他に、既存の最大のデータソースには天文学データ (まもなく 1 日あたりエクサバイトに達する予定) やゲノムデータ (1 日あたり約 0.1 エクサバイト) などがあります。これらの膨大なデータ ソースは、GPT 2030 のトレーニングに使用される可能性があります。

非伝統的なモダリティを使用するということは、GPT 2030 に直感的でない機能がある可能性があることを意味します。たとえ体力はなくても、人間よりも星や遺伝子についてよく理解しているかもしれない。

これにより、新しいタンパク質の設計など、予期せぬ発見につながる可能性があります。

アクチュエータ

現在、大規模なモデルでも物理アクチュエータが使用され始めています。ChatGPT はロボットの制御に使用されており、OpenAI はヒューマノイド ロボット企業に投資しています。

しかし、物理領域でのデータ収集はデジタル領域よりもはるかにコストがかかり、人間は進化の過程で物理領域に適応しています(したがって、機械学習モデルが人間と競争するためのハードルは高くなります)。

スタインハルト氏は、2030年までにAIモデルがフェラーリを自律的に管理できるようになる可能性が40%あると予測している。

GPT-2030の影響

GPT-2030のようなAIが登場すると、社会にとってどのような意味を持つのでしょうか?

特定の研究分野の発展を大幅に加速させると推測されるが、悪用される可能性も高い。

利点

GPT-2030 は、大規模で適応性が高く、スループットの高い労働力を表しています。

180 万年分の作業を並列コピーで実行することができ、各コピーは人間の 5 倍の速度で実行されます。

つまり、180 万のエージェントの 1 年間の作業をわずか 2.4 か月でシミュレートできることになります (並列処理の制約による)。

FLOP コストの 5 倍を支払うことで、さらに 25 倍の高速化 (人間の速度の 125 倍) が得られるため、14,000 エージェントの 1 年間の作業を 3 日間でシミュレートすることもできます。

制限

このデジタル労働力を制限する主な障壁は、スキル要件、実験コスト、自律性の 3 つです。

まず、GPT-2030 のスキル要件は人間のものとは異なるため、一部のタスクではパフォーマンスが低下します。

第二に、シミュレートされた労働者はデータを収集するために依然として世界と関わる必要があり、それには時間と計算コストがかかります。

最後に、現在のモデルは、一連の思考の後に数千個のトークンしか生成できず、その後は「行き詰まり」、高品質の出力を生成できなくなる状態になります。

おそらく、GPT-2030 は、リセットされるか外部からのフィードバックによって誘導される前に、人間の数日分の労働時間に相当する時間、継続的に実行できるようになるでしょう。

モデルが 5 倍の速度で実行される場合、数時間ごとに人間による監視が必要になります。

したがって、GPT-2030 が最も影響を与える可能性が高いタスクは次のとおりです。

1. 人間に対するAIの強み

2. 外部の経験的データを迅速かつ簡単に収集することのみを必要とするタスク(高価な物理的実験ではなく)

3. 事前に確実に実行できるサブタスクに分解できるタスク、またはモデルのガイドに役立つ明確で自動化可能なフィードバック指標を持つタスク

加速しろ!

上記の 3 つの基準をすべて満たすタスクは数学的研究です。

第一に、GPT-2030 は超人的な数学的能力を備えている可能性があります。

2 番目と 3 番目の点については、数学は純粋に考えることと書くことによって行うことができ、定理が証明されれば、私たちはそれを知ることができます。

さらに、世界には数学者がそれほど多くはいない(米国ではわずか 3,000 人)ため、GPT-2030 はわずか数日間で、すべての数学者が 1 年間に生み出すよりも多くの結果をシミュレートできる可能性があります。

機械学習の研究も基本的には上記の基準を満たしています。

GPT-2030 は、実験の実装と実行を含む超人的なプログラミング機能を備えています。

GPT-4 は複雑なトピックをわかりやすく説明できるため、実験結果の提示や説明でも非常に優れたパフォーマンスを発揮し、市場で大きな需要があります。

その結果、機械学習の研究は、実行する実験を考え、実験結果の高品質(ただし信頼性が低い可能性がある)レポートとやり取りすることに限定される可能性があります。

2030 年までに、修士課程および博士課程の学生は、あたかも優秀な学生が数人いるかのように、今日の教授と同じリソースを得られるようになるかもしれません。

社会科学の発展も大幅に加速する可能性があります。多くの論文における作業の大部分は、興味深いデータソースを追跡、分類、ラベル付けし、パターンを抽出することです。

分類とラベル付けは単純なサブタスクに分解できるため、要件 3 を満たします。また、データがインターネット上で入手可能であるか、オンライン調査を通じて収集できる限り、要件 2 も満たします。

<<: 

>>:  これはオートエンコーダーとRNNの両方である。DeepMindの科学者は拡散モデルを8つの観点から分析する。

ブログ    
ブログ    

推薦する

...

AIと機械理解の限界を押し広げ、オックスフォード大学の博士論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械が人間のように 3D の物体や環境を認識できるようにすることは、人工知能の分野における重要なトピ...

本当に知っておくべき 10 の AI テクノロジートレンド

人工知能技術のトレンドは人類を前進させています。デジタル変革はあらゆる業界に広がり、人工知能は科学者...

CMU、清華大学、MITが世界初のエージェント無限フローをリリース。ロボット「007」は残業して勉強が止まらない!具現化された知能は革命を起こしている

世界初の生成型ロボットエージェントがリリースされました!長い間、大規模なインターネットデータでトレー...

生成AIにおけるデータ制限を克服する方法

生成 AI は、トレーニングに使用されるデータに大きく依存します。ただし、データの制限により、望まし...

機械学習における再現率、精度、正確さの指標は何ですか?

以前の記事では、Naive Bayes、KNN、KMeans、EM、線形回帰、ロジスティック回帰など...

...

生成 AI が運輸業界に登場します。準備はできていますか?

運輸業界は、人や物を輸送する 10 兆ドル規模の多様なグローバル ネットワークです。しかし現在、業界...

Wu Sinan の機械学習への旅: Numpy で多次元配列を作成する

[[188605]] Numpy は Python 科学計算のコアライブラリの 1 つであり、主に多...

...

...

AIがまだ人間を超えられない9つの分野

人工知能技術の急速な発展により、画像認識や音声認識など多くの分野で大きな進歩を遂げ、一部の分野では人...

「乾物」テイクアウト注文に8大AI配送・配分内部機構搭載、元気いっぱい!

過去2年間、テイクアウトの市場規模は驚異的なペースで成長を続けています。美団の最近のフードデリバリー...

...

ディープラーニングツール:スマート端末におけるTensorFlowの応用

[[204425]]序文ディープラーニングは、画像処理、音声認識、自然言語処理の分野で大きな成功を収...