GPT-4 のモデルアーキテクチャ、インフラストラクチャ、トレーニングデータセット、コストなどの情報について、誰もが非常に興味を持っています。 残念ながら、OpenAI は口が堅すぎるため、長い間、誰もがこれらのデータについて推測することしかできませんでした。 少し前、George Hotz 氏は、Latent Space という AI テクノロジーのポッドキャストのインタビューで、GPT-4 は 8 つのハイブリッド エキスパート モデルで構成される統合システムであり、各モデルには 2,200 億のパラメーター (GPT-3 の 1,750 億のパラメーターよりわずかに多い) があり、これらのモデルはさまざまなデータとタスクの分布に合わせてトレーニングされていると、ちょっとしたニュースを明らかにしました。 このニュースは検証できないものの、広く流布しており、業界関係者の間では非常に合理的であると考えられている。 最近、さらに多くのニュースが漏れているようです。 本日、SemiAnalysis は有料サブスクリプション コンテンツをリリースし、GPT-4 に関する詳細情報を「公開」しました。 写真 記事によると、モデルアーキテクチャ、トレーニングインフラストラクチャ、推論インフラストラクチャ、パラメータ数、トレーニングデータセットの構成、トークン数、レイヤー数、並列戦略、マルチモーダル視覚適応、さまざまなエンジニアリングトレードオフの背後にある思考プロセス、独自の実装手法、巨大モデル推論に関連するボトルネックを軽減する方法など、多くのソースから GPT-4 に関する多くの情報を収集したとのことです。 著者らは、GPT-4 の最も興味深い点は、OpenAI が特定のアーキテクチャ上の決定を下した理由を理解することだと述べています。 さらに、記事ではA100上でのGPT-4のトレーニングと推論のコスト、次世代モデルアーキテクチャH100への拡張方法についても紹介しています。 私たちは、Deep Trading(アルゴリズム取引会社)の創設者であるYam Peleg氏のツイート(現在は削除済み)に基づいて、GPT-4に関する以下のデータをまとめました。興味のある読者は詳細を研究することができます。 写真 ただし、これは公式に確認されたデータではないため、正確性については各自で判断する必要があることに注意してください。 写真 1.パラメータ数:GPT-4のサイズはGPT-3の10倍以上です。記事によれば、120 層のネットワークには合計 1.8 兆個のパラメータがあるとのこと。 2.それはまさに混合エキスパートモデルです。 OpenAI は、専門家混合 (MoE) モデルを使用することでコストを適正に抑えることができました。彼らはモデルに 16 個のエキスパート モデルを使用しましたが、各モデルには約 111B 個のパラメータがありました。これらのエキスパート モデルのうち 2 つが各フォワード パスにルーティングされます。 3. MoE ルーティング: 各トークンをどのエキスパート モデルにルーティングするかを選択する高度なルーティング アルゴリズムについては文献で多くの議論がありますが、OpenAI は現在の GPT-4 モデルでかなり単純なルーティング アプローチを使用していると報告されています。このモデルは、注意計算に約 550 億個の共有パラメータを使用します。 写真 4.推論: 推論の各フォワードパス (1 トークンの生成) では、約 2,800 億個のパラメーターと約 560 TFLOP の計算のみが使用されます。比較すると、純粋に密なモデルでは、約 1.8 兆個のパラメーターと、フォワード パスごとに約 3700 TFLOP の計算が必要になります。 5.データセット: GPT-4 のトレーニング データセットには約 13 兆個のトークンが含まれています。これらのトークンは繰り返し計算された結果であり、複数のエポックからのトークンがカウントされます。 エポック数: テキストベースのデータの場合は 2 エポック、コードベースのデータの場合は 4 エポックがトレーニングされました。さらに、ScaleAI および内部ソースからのデータを微調整する命令が何百万行もあります。 6. GPT-4 32K : 事前トレーニング段階では、GPT-4 は 8k のコンテキスト長 (seqlen) を使用しました。 GPT-4 の 32k シーケンス長バージョンは、事前トレーニング後に 8k バージョンを微調整することによって取得されます。 写真 7.バッチ サイズ: コンピューティング クラスターでは、バッチ サイズが数日かけて徐々に増加しました。最終的に、OpenAI は 6000 万のバッチ サイズを使用しました。もちろん、すべてのエキスパート モデルがすべてのトークンを表示できるわけではないため、これは各エキスパート モデルによって処理される 750 万トークンのバッチ サイズのみです。 実際のバッチ サイズ: この数値をシーケンスの長さ (seq len) で割ると、実際のバッチ サイズが算出されます。このような誤解を招く数字の使用はやめてください。 8.並列戦略: すべての A100 GPU で並列コンピューティングを実行するために、NVLink の限界である 8 方向テンソル並列処理を採用しました。さらに、15 ウェイのパイプライン並列処理も採用しました。 (ZeRo Stage 1 を使用する可能性が高く、ブロック レベルの FSDP を使用する可能性もあります)。 9.トレーニングコスト: OpenAI は GPT-4 のトレーニングに約 2.15e25 FLOPS を使用し、約 25,000 個の A100 GPU を使用し、90 ~ 100 日間トレーニングを行い、使用率 (MFU) は約 32% ~ 36% でした。この極端に低い使用率の理由の 1 つは、チェックポイントの再開を必要とする障害の数が多いことです。 クラウド内の A100 GPU 1 台あたりのコストが 1 時間あたり約 1 ドルだとすると、このトレーニングのコストだけで約 6,300 万ドルになります。 (現在、約 8,192 個の H100 GPU を使用した事前トレーニングには約 55 日かかり、コストは 2,150 万ドル、H100 GPU 1 個あたり 1 時間あたり 2 ドルの料金がかかります。) 10.エキスパート混合モデルを使用する場合のトレードオフ: エキスパート混合モデルを使用する場合、多くのトレードオフが存在します。 たとえば、トークン生成ごとにモデルのすべての部分が利用されるわけではないため、推論中に MoE を処理するのは非常に困難です。つまり、一部の部品が使用されている間、他の部品はアイドル状態になっている可能性があります。これは、ユーザーにサービスを提供する際のリソース使用率に重大な影響を与える可能性があります。研究者は、64 ~ 128 人の専門家を使用すると、16 人の専門家を使用するよりも損失が少なくなることを示していますが、これは単なる研究の結果です。 より少ないエキスパートモデルを選択する理由はいくつかあります。 OpenAI が 16 のエキスパート モデルを選択した主な理由の 1 つは、多くのタスクにおいて、エキスパート モデルの数が増えると一般化が難しくなり、収束が難しくなる可能性があるためです。 トレーニングの規模が大きいため、OpenAI はエキスパート モデルの数をより控えめにすることを選択しました。 写真 11.推論コスト: GPT-4 の推論コストは、1,750 億のパラメータを持つ Davinci モデルの 3 倍です。これは主に、GPT-4 でははるかに大きなクラスターが必要となり、使用率がはるかに低くなるためです。 推論に 128 個の A100 GPU を使用する場合、8k GPT-4 推論のコストは 1,000 トークンあたり 0.0049 セントと推定されます。推論に 128 個の H100 GPU を使用する場合、同じ 8k バージョンの GPT-4 推論のコストは 1,000 トークンあたり 0.0021 セントになります。これらの見積もりは、高い使用率と高いバッチ サイズを前提としていることに注意してください。 12.マルチクエリアテンション: OpenAI も他の機関と同様に、マルチクエリアテンション (MQA) を使用しています。 MQA ではアテンション ヘッドが 1 つだけ必要なので、KV キャッシュに使用されるメモリ容量を大幅に削減できます。それでも、シーケンス長が 32k の GPT-4 は 40GB の A100 GPU では確実に実行されず、シーケンス長が 8k のモデルは最大バッチ サイズによって制限されます。 写真 13.連続バッチ処理: OpenAI は可変バッチサイズと連続バッチ処理を実装しました。これは、一定レベルの最大レイテンシを許可し、推論コストを最適化するために行われます。 14.視覚的マルチモダリティ: テキストエンコーダーから独立した視覚エンコーダーであり、両者の間には相互注意があります。アーキテクチャは Flamingo に似ています。これにより、GPT-4 の 1.8 兆個のパラメータに加えて、さらに多くのパラメータが追加されます。プレーンテキストで事前トレーニングした後、さらに約 2 兆個のトークンで微調整されました。 視覚モデルについては、OpenAI は当初ゼロからトレーニングするつもりでしたが、まだ成熟していなかったため、リスクを軽減するためにテキストでトレーニングを開始することにしました。 この視覚機能の主な目的の 1 つは、自律エージェントが Web ページを読み取り、画像やビデオのコンテンツを書き写せるようにすることです。 彼らがトレーニングに使用したデータの一部は、データ(レンダリングされた LaTeX/テキストを含む)、Web ページのスクリーンショット、YouTube ビデオ(サンプリングされたフレーム)の組み合わせであり、それらを Whisper に通して転記されたテキストを取得しました。 写真 15.投機的デコード: OpenAI は、GPT-4 の推論プロセスで投機的デコード技術を使用した可能性があります (100% かどうかは不明)。このアプローチでは、より小さく高速なモデルを使用して複数のトークンを事前にデコードし、それらを単一のバッチとして大規模な予測モデル (オラクル モデル) に入力します。 小さなモデルの予測が正しければ、大きなモデルもそれに同意し、1 つのバッチで複数のトークンをデコードできます。 ただし、ドラフト モデルによって予測されたトークンを大規模モデルが拒否した場合、バッチの残りは破棄され、大規模モデルを使用してデコードを続行します。 新しい GPT-4 の品質が低下したという陰謀説がありますが、これは単に、推測的デコード モデルが予測モデルに低い確率のシーケンスを渡すようにしたために、この誤解につながったと考えられます。 写真 16.推論アーキテクチャ: 推論は 128 個の GPU のクラスター上で実行されます。このようなクラスターは、さまざまな場所にある複数のデータセンターに複数存在します。推論プロセスでは、8 方向のテンソル並列処理と 16 方向のパイプライン並列処理が使用されます。 8 つの GPU で構成される各ノードには、約 1,300 億個のパラメーターしかありません。 モデルには 120 のレイヤーがあるため、15 個の異なるノードに収まります。最初のノードでは埋め込みも計算する必要があるため、レイヤー数が少なくなる場合があります。 これらの数字に基づくと、OpenAI がチンチラに最適なメトリックをトレーニングしようとした場合、現在の 2 倍のトークンを使用する必要があったことになります。これは、高品質のデータを入手するのに苦労していることを示唆しています。 最後に、これはこれまでで最も詳細な GPT-4 に関するデータ開示になるはずだと言いたい。それが真実かどうかは検証できませんが、研究する価値はあります。原作者はこう述べています。「興味深いのは、OpenAI がなぜ特定のアーキテクチャ上の決定を下したのかを理解することです。 」 GPT-4 に関するこのアーキテクチャ情報についてどう思いますか? |
<<: FudanNLPチームの最新の成果、RLHFと人間のアラインメントのためのMOSS-RLHFがここにあります
翻訳者|朱 仙中レビュー | Chonglou概要:機械は考えることができるか?この論文では、この問...
今日、人工知能技術は、ウェアラブルデバイス、自動車、生産性アプリケーション、軍事、ヘルスケア、ホーム...
[[209375]]単一画像の超解像度では、品質の低下を最小限に抑えながら小さな画像のサイズを拡大...
既存企業は、クラウド コンピューティングの導入を検討する際、ジレンマに直面します。メリットは魅力的か...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
次のことは直感に反するように思えるかもしれません: AI が現実世界のアプリケーション シナリオに適...
近年、人工知能が話題になっています。 AlphaGoが次々と人間の囲碁の名人に勝利して以来、人工知能...
パンデミックの発生により、世界中の労働システムが危険にさらされています。コンタクト センターの従業員...
8月29日、2019年世界人工知能会議が上海で開幕した。世界各国の著名なテクノロジー企業や学界、産業...