7月13日、海外メディアSemianalysisは最近、今年3月にOpenAIが発表したGPT-4モデルを公開した。これにはGPT-4モデルのアーキテクチャ、トレーニングおよび推論インフラストラクチャ、パラメータ量、トレーニングデータセット、トークン数、コスト、専門家の混合などの具体的なパラメータと情報が含まれている。 ▲ 画像出典:セミアナリシス 海外メディアによると、 GPT-4には120層で合計1兆8000億のパラメータが含まれるが、GPT-3には約1750億のパラメータしかないという。コストを適正に保つために、OpenAI は建設に混合エキスパート モデルを使用します。 IT ホーム 注記: Mixture of Experts はニューラル ネットワークです。システムはデータに基づいて複数のモデルを個別にトレーニングします。各モデルの出力後、システムはこれらのモデルを統合し、単一のタスクに出力します。 ▲ 画像出典:セミアナリシス GPT-4 は、それぞれ 1110 億のパラメータを持つ 16 人のエキスパートの混合を使用し、各フォワード パスは 2 つのエキスパート モデルを通過すると報告されています。 さらに、550億の共有注意パラメータがあり、13兆のトークンを含むデータセットを使用してトレーニングされます。トークンは一意ではなく、反復回数に応じてより多くのトークンとして計算されます。 GPT-4の事前トレーニング段階のコンテキスト長は8kで、32kバージョンは8kバージョンを微調整した結果です。トレーニングコストはかなり高くなっています。海外メディアによると、 8x H100も1秒あたり33.33トークンの速度で必要な密なパラメータモデルを提供できないとのことです。そのため、モデルのトレーニングには非常に高い推論コストがかかります。H100物理マシン1台あたり1時間あたり1ドルで計算すると、1回のトレーニングセッションのコストは6,300万ドル(約4億5,100万元)にもなります。 これを受けて、 OpenAIはクラウド上のA100 GPUトレーニングモデルを使用することを選択し、最終的なトレーニングコストを約2,150万ドル(約1億5,400万人民元)に抑え、少し時間がかかり、トレーニングコストも削減しました。 |
<<: 海外メディア:マスク氏はxAIがOpenAIに勝つと夢想しているが、わずか11人の研究者に頼るのは難しすぎる
>>: MIT の FrameDiff ツールがリリースされ、AI を使用してタンパク質構造を設計し、医療開発の促進に役立てられるようになりました。
新型コロナウイルスの武漢での感染拡大が続く中、米国でのインフルエンザも大きな注目を集めている。毎年の...
大規模言語モデル (LLM) は、学界や産業界から幅広い注目を集めています。有用な LLM を開発す...
なお、Lobe はインターネット接続やログインを必要とせず、現在は機械学習モデルの出力のみ可能である...
[[221321]]ブロックチェーン、NLP、AI 駆動型ツール、機械学習、サーバーレス コンピュー...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「xx、テレビ台のリモコンを取ってきて。」 家庭環境では、多くの家族が必然的にこの種の作業を命じられ...
人工知能 (AI) の登場により、企業の運営方法は劇的に変化し、PR ボットが顧客サービスの革命にお...
TensorFlow と PyTorch フレームワーク間の戦いは長い間続いています。最近のニュー...
「アレックス・コントロヴィッチと私が率いる新しいリーン形式化プロジェクトが正式に発表されました。この...
機械学習に関する古いジョークがあります。機械学習は高校のセックスのようなものです。誰もがやっていると...
昨年末、Google Geminiが業界に衝撃を与えた。これはGoogleの「最大、最も有能、最も多...
GPT-4 は論文をレビューできますか?スタンフォード大学などの研究者が実際にテストしました。彼ら...
7 月 19 日、オープン ソース コミュニティの最も強力な大規模モデルが Llama から Ll...
[[210160]]機械はどのように学習するのでしょうか?人間の脳は継続的に経験を蓄積する能力があり...