GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

機械学習の場合、パラメータはアルゴリズムの鍵となります。パラメータは、履歴入力データであり、モデルトレーニングの結果であり、モデルの一部です。

一般的に言えば、NLP の分野では、パラメータの数と複雑さのレベルの間には正の相関関係があります。 OpenAI の GPT-3 は、1,750 億のパラメータを持つ、現在までに最大規模の言語モデルの 1 つです。

それで、GPT-4 はどのようなものになるのでしょうか?

最近、一部のネットユーザーがGTP-4とその「オープンソース版」GPT-NeoXについて大胆な予測を立てました。

著者は、GPT-4 のパラメータは現在の GPT-3 モデルの 57 倍以上である 10T に達する可能性があると考えています。一方、GPT-NeoX の規模は GPT-3 と同等になる可能性があります。

待ってください、もしそうだとしたら、プログラマーはGPT-NeoXのパラメータを喜んで調整できるのでしょうか？

モデル	リリース時間	トークン	パラメータ	1.75Tの割合	トレーニングテキスト
GPT-2 （オープンAI）	2019年2月	10B	15億	0.09%	40GB
GPT-J (エレウサーAI)	2021年6月	400B	6B	0.34%	800GB
GPT-3 （オープンAI）	2020年5月	499B	175B	10.00%	570GB
盤古（中国語）	2021年4月	40B	200B	11.43%	1.1TB
HyperCLOVA（韓国語）	2021年5月	560B	204B	11.66%	1TBですか？
武道 2.0 (中国語)	2021年6月	500B？	1.75T	100.00%	2.4TB
ラムダ（グーグル）	2021年6月	1Tですか？	200B？	11.43%	1TBですか？
GPT-4 （オープンAI）	未定	20T?	10T?	571.43%	5TBですか？
GPT-NeoX (エレウサーAI)	未定	500B？	175B?	10.00%	825GBですか？

データセット分析

現在最も広く使用されている GPT-3 のトレーニングコーパスは、膨大な量の構造化テキストから作成されています。すべてのデータセットはインデックス付け、並べ替え、フィルタリング、重み付けされ、多くの重複が削除されます。

GPT-3 は、OpenAI 専用に構築され、Microsoft Azure でホストされている、世界で最も強力なスーパーコンピューターの 1 つでトレーニングされました。このスーパーコンピューティングシステムには 285,000 個を超える CPU コアと 10,000 個を超える GPU があり、400Gbps で動作します。

GPT-3

Wikipedia DataSet は、Wikipedia の英語コンテンツです。その品質、文体、幅広さにより、言語モデリングのための高品質テキストの標準的なソースとなっています。

WebTextデータセット (およびその拡張バージョン WebText2) は、関連する投稿に 2 つ以上の賛成票が付けられた Reddit の 4,500 万を超える Web ページのテキストです。

月間アクティブユーザー数が 4 億 3,000 万人を超えるこのデータセットのコンテンツは、最も「人気のある」 Web サイトの意見と見なすことができます。

Books1とBooks2は、インターネットに基づく 2 つの書籍データセットです。類似のデータセットには以下が含まれます。

BookCorpus は、未出版の著者が書いた無料のフィクション本のコレクションで、少なくとも 10,000 冊の本が含まれています。
Library Genesis (Libgen) は、科学論文、フィクション、ノンフィクション書籍の膨大なコレクションです。

Common Crawl は、50 億を超える Web ページのメタデータと抽出されたテキストのオープンソースアーカイブです。

8 年間分のペタバイト (数千テラバイト、数百万ギガバイト) のデータ。
250億のウェブサイト。
何兆ものリンク。
英語75%、中国語3%、スペイン語2.5%、ドイツ語2.5%など。
上位 10 ドメインのコンテンツ: Facebook、Google、Twitter、Youtube、Instagram、LinkedIn。

GPT-3で使用されるデータセット

GPT-Neo と GPT-J

今年 3 月、Eleuther AI は GitHub 上で GPT-Neo オープンソースプロジェクトを立ち上げました。これは Colab で微調整できます。

GPT-Neo は、GPT-3 (13 億と 27 億) に比べてパラメータ数はまだ少ないですが、オープンソースで無料であり、依然として「同性の友達」という認識を持っています。

今年6月、Eleuther AIは再びGPT-Neoの強化版ともいえるGPT-J-6Bをリリースしました。名前の通り、モデルのパラメータ数が6Bに増加しました。

GPT-J は、22 個の小規模で高品質なデータセットで構成される 825 GB の多様なオープンソース言語モデリングデータセットである The Pile データベースでもトレーニングされています。

HackerNews、Github、Stack Exchangeなどの専門的なフォーラムやナレッジベース、プレプリントウェブサイトArXivに加えて、The PileにはYoutubeの字幕やEnron Emailsコーパスも含まれています。

GPT-NeoとGPT-Jで使用されるデータセット

ゼロショットタスクでは、GPT-J のパフォーマンスは 67 億のパラメータを持つ GPT-3 に匹敵します。また、GPT-J は、さまざまな下流のゼロショットタスクで現在利用可能な最高のパフォーマンスを発揮する Transformer 言語モデルでもあります。

この観点から、GPT-3と同規模のGPT-NeoXのパフォーマンスに期待が持てます。

ユーザーコメント

GPT-4 はなぜこんなに大きいのでしょうか?

「GPT-3はすでにトークンあたりの理論上の最大効率に近づいています。OpenAIモデルが正しく動作すれば、より大きなモデルは計算能力の無駄遣いに過ぎません。」

あるネットユーザーはこう答えた。「規模は確かに改善をもたらすことができます。本質的には関係性のメタファーモデルであるため、『関係性についてより多くを知る』ということは、より多くのことやより微妙な方法で対応できるようになることを意味します。もちろん、これはマーケティング手法でもあります。」

<<: CVサークル対決：GoogleがViTGANを提案、GANをトレーニングするためにビジュアルトランスフォーマーを使用

>>: FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

ブログ

GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

データセット分析

GPT-3

GPT-Neo と GPT-J

ユーザーコメント

退屈な「機械学習」がこのように学べるとは思ってもいませんでした！

5Gが普及しつつある中、人工知能は「取り残される」ことになるのか？

中国のこの場所で：人工知能の新たな革命が起こる - 中国におけるAIの現状分析

モノのインターネット、ブロックチェーン、人工知能といった注目のトレンドの中で、どれを選ぶべきでしょうか?

AIはプログラマーの仕事を破壊する最初のものとなるでしょうか?プログラマーの90％は就職が難しくなっていると考えており、大学生もキャリアプランの調整が必要

ドローン盗撮の防止は難しく、3つの面での取り組みが必須

ChatGPT がワンクリックで Excel データを自動的に作成してくれるのは本当に素晴らしいです!リクエストしてコピー＆ペーストするだけで1分で完了します

推薦する

歴史上3大AI失敗事例を徹底解説

AIは生成的敵対ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。

集中治療室における人工知能の未来

数行のコードでUNetが安定！中山大学などが提案したScaleLong拡散モデル：スケーリングへの疑問からスケーリングへ

Python 機械学習チュートリアル

ルイ・ヨンがレノボの人工知能について語る：デバイスの入り口をマスターすることで新たな可能性が開かれる

機械学習を拡張するための5つのポイント

ガートナー、2022年の銀行・投資サービスにおける3つの注目のテクノロジートレンドを発表

人工知能を背景とした公共読書空間の探究と創造

高性能自動運転ドメインコントローラ設計の主要要素

CES 2024 AIスマートホームのハイライト

検討すべき5つのスマートホームテクノロジー

顔認識技術の法的ギャップを埋める必要がある