GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

GPT-4 パラメータは 10 兆に達します!この表は、新しい言語モデルのパラメータが GPT-3 の 57 倍になると予測しています。

機械学習の場合、パラメータはアルゴリズムの鍵となります。パラメータは、履歴入力データであり、モデルトレーニングの結果であり、モデルの一部です。

一般的に言えば、NLP の分野では、パラメータの数と複雑さのレベルの間には正の相関関係があります。 OpenAI の GPT-3 は、1,750 億のパラメータを持つ、現在までに最大規模の言語モデルの 1 つです。

それで、GPT-4 はどのようなものになるのでしょうか?

最近、一部のネットユーザーがGTP-4とその「オープンソース版」GPT-NeoXについて大胆な予測を立てました。

著者は、GPT-4 のパラメータは現在の GPT-3 モデルの 57 倍以上である 10T に達する可能性があると考えています。一方、GPT-NeoX の規模は GPT-3 と同等になる可能性があります。

待ってください、もしそうだとしたら、プログラマーはGPT-NeoXのパラメータを喜んで調整できるのでしょうか?

モデル

リリース時間

トークン

パラメータ

1.75Tの割合

トレーニングテキスト

GPT-2

(オープンAI)

2019年2月

10B

15億

0.09%

40GB

GPT-J

(エレウサーAI)

2021年6月

400B

6B

0.34%

800GB

GPT-3

(オープンAI)

2020年5月

499B

175B

10.00%

570GB

盤古(中国語)

2021年4月

40B

200B

11.43%

1.1TB

HyperCLOVA(韓国語)

2021年5月

560B

204B

11.66%

1TBですか?

武道 2.0 (中国語)

2021年6月

500B?

1.75T

100.00%

2.4TB

ラムダ

(グーグル)

2021年6月

1Tですか?

200B?

11.43%

1TBですか?

GPT-4

(オープンAI)

未定

20T?

10T?

571.43%

5TBですか?

GPT-NeoX

(エレウサーAI)

未定

500B?

175B?

10.00%

825GBですか?

データセット分析

現在最も広く使用されている GPT-3 のトレーニング コーパスは、膨大な量の構造化テキストから作成されています。すべてのデータセットはインデックス付け、並べ替え、フィルタリング、重み付けされ、多くの重複が削除されます。

GPT-3 は、OpenAI 専用に構築され、Microsoft Azure でホストされている、世界で最も強力なスーパーコンピューターの 1 つでトレーニングされました。このスーパーコンピューティング システムには 285,000 個を超える CPU コアと 10,000 個を超える GPU があり、400Gbps で動作します。

GPT-3

Wikipedia DataSet は、Wikipedia の英語コンテンツです。その品質、文体、幅広さにより、言語モデリングのための高品質テキストの標準的なソースとなっています。

WebTextデータセット (およびその拡張バージョン WebText2) は、関連する投稿に 2 つ以上の賛成票が付けられた Reddit の 4,500 万を超える Web ページのテキストです。

月間アクティブユーザー数が 4 億 3,000 万人を超えるこのデータセットのコンテンツは、最も「人気のある」 Web サイトの意見と見なすことができます。

Books1Books2は、インターネットに基づく 2 つの書籍データセットです。類似のデータセットには以下が含まれます。

  • BookCorpus は、未出版の著者が書いた無料のフィクション本のコレクションで、少なくとも 10,000 冊の本が含まれています。
  • Library Genesis (Libgen) は、科学論文、フィクション、ノンフィクション書籍の膨大なコレクションです。

Common Crawl は、50 億を超える Web ページのメタデータと抽出されたテキストのオープン ソース アーカイブです。

  • 8 年間分のペタバイト (数千テラバイト、数百万ギガバイト) のデータ。
  • 250億のウェブサイト。
  • 何兆ものリンク。
  • 英語75%、中国語3%、スペイン語2.5%、ドイツ語2.5%など。
  • 上位 10 ドメインのコンテンツ: Facebook、Google、Twitter、Youtube、Instagram、LinkedIn。

GPT-3で使用されるデータセット

GPT-Neo と GPT-J

今年 3 月、Eleuther AI は GitHub 上で GPT-Neo オープンソース プロジェクトを立ち上げました。これは Colab で微調整できます。

GPT-Neo は、GPT-3 (13 億と 27 億) に比べてパラメータ数はまだ少ないですが、オープンソースで無料であり、依然として「同性の友達」という認識を持っています。

今年6月、Eleuther AIは再びGPT-Neoの強化版ともいえるGPT-J-6Bをリリースしました。名前の通り、モデルのパラメータ数が6Bに増加しました。

GPT-J は、22 個の小規模で高品質なデータセットで構成される 825 GB の多様なオープンソース言語モデリング データセットである The Pile データベースでもトレーニングされています。

HackerNews、Github、Stack Exchangeなどの専門的なフォーラムやナレッジベース、プレプリントウェブサイトArXivに加えて、The PileにはYoutubeの字幕やEnron Emailsコーパスも含まれています。

GPT-NeoとGPT-Jで使用されるデータセット

ゼロショットタスクでは、GPT-J のパフォーマンスは 67 億のパラメータを持つ GPT-3 に匹敵します。また、GPT-J は、さまざまな下流のゼロショットタスクで現在利用可能な最高のパフォーマンスを発揮する Transformer 言語モデルでもあります。

この観点から、GPT-3と同規模のGPT-NeoXのパフォーマンスに期待が持てます。

ユーザーコメント

GPT-4 はなぜこんなに大きいのでしょうか?

「GPT-3はすでにトークンあたりの理論上の最大効率に近づいています。OpenAIモデルが正しく動作すれば、より大きなモデルは計算能力の無駄遣いに過ぎません。」

あるネットユーザーはこう答えた。「規模は確かに改善をもたらすことができます。本質的には関係性のメタファーモデルであるため、『関係性についてより多くを知る』ということは、より多くのことやより微妙な方法で対応できるようになることを意味します。もちろん、これはマーケティング手法でもあります。」

<<:  CVサークル対決:GoogleがViTGANを提案、GANをトレーニングするためにビジュアルトランスフォーマーを使用

>>:  FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

ブログ    
ブログ    

推薦する

人工知能が自立して考えることができるようになると、機械生命体になるのでしょうか?必ずしも

人類が人工知能の時代に突入したことは否定できません。人工知能技術が急速に発展するにつれ、私たちの周り...

AIをベッド管理に適用し、追跡予測により患者にベッドの空きを確保

[[228998]]画像出典: Visual China医療分野はAIが進歩していく上で重要な方向で...

...

マイクロソフト リサーチの新たな成果: 携帯電話のカメラを使用して心肺バイタル サインを遠隔測定

Microsoft Research は、消費者の手に握られたスマートフォンのカメラを使用して、遠隔...

...

AI、VR、ブロックチェーンにより、新しい時代は貧しい人々にとっての楽園となるのでしょうか?

今日の社会では貧困がまだ存在しています。 [[275832]]国連開発計画(UNDP)のデータによる...

AIは近い将来自己認識できるようになるのでしょうか? Facebook がメタバースへの扉を開く「Ego4D」を発表

ある日、ヘルメットをかぶると、SFのような美しい世界が目の前に浮かび上がるのを想像したことはありませ...

クラッシュラマ2!マイクロソフトの13億パラメータphi-1.5は、単一のA100でトレーニングされ、SOTAを更新します

モデルが大きくなれば機能も増えるのでしょうか?しかし、そうではありません。最近、マイクロソフトの研究...

陸奇氏が楽観視するAI時代のGitHubがついに実現へ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データ構造とアルゴリズム - グラフ理論: 連結成分と強連結成分の検出

無向グラフの連結成分を見つける深さ優先探索を使用すると、グラフのすべての接続コンポーネントを簡単に見...

卒業生は就職活動のためにアルゴリズムを知っておく必要があります。バイナリ検索をステップバイステップで教えます

1. 二分探索の背景配列またはコレクションに多数の要素が格納されている場合、特定の要素の位置または存...

...

996の非効率性にノーと言いましょう: ChatGPTはコードコメントとドキュメントを簡単に処理するのに役立ちます

適切なコメントは、Python プロジェクトを成功させる上で非常に重要です。実際には、コメントを書く...

人工知能分野における神話を再考する

人工知能の健全な発展は、この国家戦略の効果的な実施に関係しています。現在、技術、経営、倫理、法律の観...

人工知能がデータセンターの需要を爆発的に増加させる

JLLの新しいレポートによると、人工知能の需要とクラウドサービスの継続的な導入により、データセンター...