機械学習の場合、パラメータはアルゴリズムの鍵となります。パラメータは、履歴入力データであり、モデルトレーニングの結果であり、モデルの一部です。 一般的に言えば、NLP の分野では、パラメータの数と複雑さのレベルの間には正の相関関係があります。 OpenAI の GPT-3 は、1,750 億のパラメータを持つ、現在までに最大規模の言語モデルの 1 つです。 それで、GPT-4 はどのようなものになるのでしょうか? 最近、一部のネットユーザーがGTP-4とその「オープンソース版」GPT-NeoXについて大胆な予測を立てました。 著者は、GPT-4 のパラメータは現在の GPT-3 モデルの 57 倍以上である 10T に達する可能性があると考えています。一方、GPT-NeoX の規模は GPT-3 と同等になる可能性があります。 待ってください、もしそうだとしたら、プログラマーはGPT-NeoXのパラメータを喜んで調整できるのでしょうか?
データセット分析現在最も広く使用されている GPT-3 のトレーニング コーパスは、膨大な量の構造化テキストから作成されています。すべてのデータセットはインデックス付け、並べ替え、フィルタリング、重み付けされ、多くの重複が削除されます。 GPT-3 は、OpenAI 専用に構築され、Microsoft Azure でホストされている、世界で最も強力なスーパーコンピューターの 1 つでトレーニングされました。このスーパーコンピューティング システムには 285,000 個を超える CPU コアと 10,000 個を超える GPU があり、400Gbps で動作します。 GPT-3Wikipedia DataSet は、Wikipedia の英語コンテンツです。その品質、文体、幅広さにより、言語モデリングのための高品質テキストの標準的なソースとなっています。 WebTextデータセット (およびその拡張バージョン WebText2) は、関連する投稿に 2 つ以上の賛成票が付けられた Reddit の 4,500 万を超える Web ページのテキストです。 月間アクティブユーザー数が 4 億 3,000 万人を超えるこのデータセットのコンテンツは、最も「人気のある」 Web サイトの意見と見なすことができます。 Books1とBooks2は、インターネットに基づく 2 つの書籍データセットです。類似のデータセットには以下が含まれます。
Common Crawl は、50 億を超える Web ページのメタデータと抽出されたテキストのオープン ソース アーカイブです。
GPT-3で使用されるデータセット GPT-Neo と GPT-J今年 3 月、Eleuther AI は GitHub 上で GPT-Neo オープンソース プロジェクトを立ち上げました。これは Colab で微調整できます。 GPT-Neo は、GPT-3 (13 億と 27 億) に比べてパラメータ数はまだ少ないですが、オープンソースで無料であり、依然として「同性の友達」という認識を持っています。 今年6月、Eleuther AIは再びGPT-Neoの強化版ともいえるGPT-J-6Bをリリースしました。名前の通り、モデルのパラメータ数が6Bに増加しました。 GPT-J は、22 個の小規模で高品質なデータセットで構成される 825 GB の多様なオープンソース言語モデリング データセットである The Pile データベースでもトレーニングされています。 HackerNews、Github、Stack Exchangeなどの専門的なフォーラムやナレッジベース、プレプリントウェブサイトArXivに加えて、The PileにはYoutubeの字幕やEnron Emailsコーパスも含まれています。 GPT-NeoとGPT-Jで使用されるデータセット ゼロショットタスクでは、GPT-J のパフォーマンスは 67 億のパラメータを持つ GPT-3 に匹敵します。また、GPT-J は、さまざまな下流のゼロショットタスクで現在利用可能な最高のパフォーマンスを発揮する Transformer 言語モデルでもあります。 この観点から、GPT-3と同規模のGPT-NeoXのパフォーマンスに期待が持てます。 ユーザーコメントGPT-4 はなぜこんなに大きいのでしょうか? 「GPT-3はすでにトークンあたりの理論上の最大効率に近づいています。OpenAIモデルが正しく動作すれば、より大きなモデルは計算能力の無駄遣いに過ぎません。」 あるネットユーザーはこう答えた。「規模は確かに改善をもたらすことができます。本質的には関係性のメタファーモデルであるため、『関係性についてより多くを知る』ということは、より多くのことやより微妙な方法で対応できるようになることを意味します。もちろん、これはマーケティング手法でもあります。」 |
<<: CVサークル対決:GoogleがViTGANを提案、GANをトレーニングするためにビジュアルトランスフォーマーを使用
>>: FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している
人工知能 (AI) が普及し、人生を変えるような意思決定に組み込まれるようになるにつれて、透明性の必...
「データが王様」と言われる今日の世界では、データサイエンスに興味を持つ人が増えています。データ サ...
[[395482]] [51CTO.com クイック翻訳]近年、人工知能 (AI) と機械学習 (M...
論文アドレス: https://arxiv.org/abs/2307.09283コードアドレス: h...
人工知能の革新により、よりスマートなロボットが開発されました。ロボットはコンピューターによってプログ...
人工知能は非常にホットな話題になっています。普通のプログラマーとして、人工知能に転向する方法。プログ...
[[259190]]近年、人工知能技術のあらゆる分野への応用がますます普及し、関連する専門的・技術...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...
機械学習におけるデータバイアスとは、データセットの一部の要素が他の要素よりも重み付けされ、または高く...
多くの IT 企業では、アルゴリズムは面接で非常に重要な部分を占めていますが、実際の仕事でアルゴリズ...
最近人気の AI スタートアップ企業 Groq は、現在一般的な GPU 推論システムよりも 4 倍...
[[205069]] 1. 数学的な定義順序保存回帰は回帰アルゴリズムの一種です。基本的な考え方は、...