GPT-4 モデルアーキテクチャが漏洩: 1.8 兆個のパラメータを含み、混合エキスパートモデルを使用

7月13日、海外メディアSemianalysisは最近、今年3月にOpenAIが発表したGPT-4モデルを公開した。これにはGPT-4モデルのアーキテクチャ、トレーニングおよび推論インフラストラクチャ、パラメータ量、トレーニングデータセット、トークン数、コスト、専門家の混合などの具体的なパラメータと情報が含まれている。

▲ 画像出典：セミアナリシス

海外メディアによると、 GPT-4には120層で合計1兆8000億のパラメータが含まれるが、GPT-3には約1750億のパラメータしかないという。コストを適正に保つために、OpenAI は建設に混合エキスパートモデルを使用します。

IT ホーム注記: Mixture of Experts はニューラルネットワークです。システムはデータに基づいて複数のモデルを個別にトレーニングします。各モデルの出力後、システムはこれらのモデルを統合し、単一のタスクに出力します。

▲ 画像出典：セミアナリシス

GPT-4 は、それぞれ 1110 億のパラメータを持つ 16 人のエキスパートの混合を使用し、各フォワードパスは 2 つのエキスパートモデルを通過すると報告されています。

さらに、550億の共有注意パラメータがあり、13兆のトークンを含むデータセットを使用してトレーニングされます。トークンは一意ではなく、反復回数に応じてより多くのトークンとして計算されます。

GPT-4の事前トレーニング段階のコンテキスト長は8kで、32kバージョンは8kバージョンを微調整した結果です。トレーニングコストはかなり高くなっています。海外メディアによると、 8x H100も1秒あたり33.33トークンの速度で必要な密なパラメータモデルを提供できないとのことです。そのため、モデルのトレーニングには非常に高い推論コストがかかります。H100物理マシン1台あたり1時間あたり1ドルで計算すると、1回のトレーニングセッションのコストは6,300万ドル（約4億5,100万元）にもなります。

これを受けて、 OpenAIはクラウド上のA100 GPUトレーニングモデルを使用することを選択し、最終的なトレーニングコストを約2,150万ドル（約1億5,400万人民元）に抑え、少し時間がかかり、トレーニングコストも削減しました。

<<: 海外メディア：マスク氏はxAIがOpenAIに勝つと夢想しているが、わずか11人の研究者に頼るのは難しすぎる

>>: MIT の FrameDiff ツールがリリースされ、AI を使用してタンパク質構造を設計し、医療開発の促進に役立てられるようになりました。

ザッカーバーグ氏が深夜に登場し、世界初のMRヘッドセットがVision Proに勝利！ ChatGPTのメタバージョンが「メタバース」に移動し、インターネットセレブのアーティファクトグラスが高エネルギーで登場

GPT-4 モデルアーキテクチャが漏洩: 1.8 兆個のパラメータを含み、混合エキスパートモデルを使用

ザッカーバーグ氏が深夜に登場し、世界初のMRヘッドセットがVision Proに勝利！ ChatGPTのメタバージョンが「メタバース」に移動し、インターネットセレブのアーティファクトグラスが高エネルギーで登場

サイバーセキュリティにおける AI の 4 つの主要なユースケースを理解する

AIとIoTはどのように連携するのでしょうか?

元Googleロボット部門責任者が伸縮自在のアシスタントロボットを開発

機械学習と脳科学が次の10年間の教育発展をリードする

形式言語を認識する能力が不十分で、不完全なトランスフォーマーは自己注意の理論的欠陥を克服する必要がある

エッジAIの夢と課題

Python コードを書くことができる人工知能 Kite が Linux のサポートを発表。プログラマーは職を失うことになるのでしょうか?

推薦する

予測分析が米国におけるインフルエンザ流行の乗り切りにどのように役立つか

LLM評価レビュー論文が出版され、3つの側面から包括的にまとめられ、データベースも掲載されている

Microsoft が機械学習モデルを簡単に作成できる Lobe デスクトップアプリケーションをリリース

2018年のソフトウェア開発に関する10の予測、注目のブロックチェーンとAIを含む

トランスフォーマー後継モデル！ MSRA が新しい大規模モデルインフラストラクチャを提案: 推論速度が 8 倍に向上し、メモリ使用量が 70% 削減

お茶や水を出すロボットを購入する見込みはありますか?メタとニューヨーク大学がOK-Robotを開発

顧客サービスの革命: 現代のビジネスにおける広報ロボットの役割

OpenAI は PyTorch、TensorFlow を全面的に採用していますが、なぜそれほど優れていないのでしょうか?

テレンス・タオが新プロジェクトを立ち上げ：リーンで素数定理を証明、研究計画は完成

目に見える機械学習: ニューラルネットワークをゼロから理解する

Google GeminiのRAW画像機能が緊急停止され、その評判は一夜にして崩壊した。ヤン・ルカン「ずっと前からわかっていた」

論文を Nature に投稿する前に GPT-4 に問い合わせてください。スタンフォード大学は5,000本の論文をテストし、コメントの半分は人間の査読者のコメントと変わらないことを発見した。

Llama2がオープンソース化された後、国内の大型モデルはどのような展開を見せるのでしょうか？

既存のビッグデータ技術を使用して機械学習プラットフォームを構築する方法