「誰がどれだけの H100 を受け取るのか、そしていつ H100 を受け取るのかは、シリコンバレーで最もホットな話題です。」 OpenAIの共同設立者であり、パートタイムの科学者でもあるAndrej Karpathy氏は最近、NvidiaのGPU不足についての見解を説明する記事を公開した。 最近、コミュニティで広く流布している「GPUは何個必要か?」という画像が、多くのネットユーザーの間で議論を巻き起こしています。 図に示す内容によると、 - GPT-4はおそらく約10,000〜25,000個のA100でトレーニングされた - 21000 A100に関するメタ - テスラ A100 約7000台 - 安定性AI約5000A100 - ファルコン40Bは384機のA100で訓練された – Inflectionは3500とH100を使用して、GPT-3.5に匹敵する機能を持つモデルをトレーニングしました。 さらに、マスク氏によると、GPT-5には3万〜5万個のH100が必要になる可能性があるという。 以前、モルガン・スタンレーは、GPT-5は25,000個のGPUを使用し、2月からトレーニングされていると述べていましたが、サム・アルトマンは後にGPT-5はまだトレーニングされていないことを明らかにしました。 しかし、アルトマンは以前、 GPU の供給が非常に不足しており、当社の製品を使用する人が少なければ少ないほど良いのです。 GPU が足りないので、使用量が減れば嬉しいです。 「Nvidia H100 GPU: 需要と供給」と題したこの記事では、テクノロジー企業による GPU の現在の使用状況と需要を詳細に分析します。 記事では、中小規模のクラウドプロバイダーの大規模H100クラスターの容量が枯渇しつつあると推測しており、H100の需要動向は少なくとも2024年末までは続くだろうとしている。 では、GPU の需要は本当にボトルネックに達したのでしょうか? 大手企業のGPU需要:約43万台H100現在、生成 AI の爆発的な増加は減速しておらず、コンピューティング能力に対する要求は高まっています。 一部のスタートアップ企業は、モデルのトレーニングに、Nvidia の高価で非常に高性能な H100 を使用しています。 マスク氏は、現時点ではGPUは医薬品よりも入手困難だと述べた。 Sam Altman 氏は、OpenAI は GPU によって制限されており、それが短期的な計画 (微調整、専用容量、32k コンテキスト ウィンドウ、マルチモーダル性) を遅らせていると述べました。 カルパシー氏のコメントは、大手テクノロジー企業の年次報告書でも GPU アクセス関連の問題について議論されている中で出されたものだ。 マイクロソフトは先週、年次報告書を発表し、急速に成長しているクラウド事業にとってGPUは「重要な原材料」であると投資家に強調した。必要なインフラストラクチャが利用できない場合は、データセンターの停止のリスク要因が発生する可能性があります。 この記事はHKポストの著者によって書かれたとされています。 彼は、OpenAI には 50,000 台の H100 が必要かもしれない、Inflection には 22,000 台、Meta には 25,000 台、大手クラウド プロバイダー (Azure、Google Cloud、AWS、Oracle など) には 30,000 台が必要になるかもしれないと推測しています。 Lambda、CoreWeave、その他のプライベート クラウドでは合計で 10 万が必要になる可能性があります。彼は、Anthropic、Helsing、Mistral、Character にはそれぞれ 10k 必要になるかもしれないと書いています。 著者らは、これらは純粋に大まかな見積もりと推測であり、その一部はコンピューティング クラウドとクラウドから機器をレンタルするエンド カスタマーの間で重複していると述べています。 全体として、世界中の企業では約 432,000 台の H100 が必要です。 H100 1 台あたり約 35,000 ドルなので、GPU の総需要は 150 億ドルになります。 これには、H800 のような製品を必要とする中国の多数のインターネット企業は含まれていません。 また、Jane Street、JP Morgan、Two Sigma などの有名な金融会社もいくつかあります。各社とも、数百台の A/H100 から始めて、数千台の A/H100 に拡大して導入を進めています。 OpenAI、Anthropic、DeepMind、Google、X.ai などの大手研究室はすべて大規模な言語モデルをトレーニングしており、Nvidia の H100 はかけがえのない存在です。 なぜH100が第一選択肢なのでしょうか?H100 は A100 よりも人気があり、キャッシュ レイテンシの低さと FP8 コンピューティングのせいで好まれる選択肢になりました。 効率は最大 3 倍ですが、コストは (1.5 ~ 2 倍) しかかかりません。システム全体のコストを考慮すると、H100 のパフォーマンスははるかに優れています。 技術的な詳細としては、A100 と比較して、H100 は 16 ビット推論で約 3.5 倍、16 ビットトレーニングで約 2.3 倍高速です。 A100 対 H100 速度 H100 トレーニング MoE H100 圧倒的な加速 ほとんどの企業は H100 を購入し、トレーニングと推論の両方に使用しますが、A100 は主に推論に使用されます。 しかし、コスト、容量、新しいハードウェアの使用とセットアップのリスク、そして既存のソフトウェアがすでに A100 用に最適化されているという事実から、一部の企業は切り替えを躊躇するでしょう。 GPU不足は存在しない、それはサプライチェーンの問題だNvidiaの幹部は、問題はGPUの不足ではなく、それらのGPUがいかにして市場に流通するかであると述べた。 NvidiaはGPUの生産にフル稼働しているが、幹部はGPUの生産能力は主にサプライチェーンによって制限されていると述べた。 チップ自体の生産能力は十分かもしれませんが、他のコンポーネントの生産能力が不十分であれば、GPU の生産能力は大幅に制限されます。 これらの部品の生産は世界中の他のサプライヤーに依存しています。 しかし、需要は予測可能なので、問題は現在解決されつつあります。 GPUチップ生産能力 まず、Nvidia は H100 の製造に TSMC とのみ協力しています。 Nvidia は、すべての 5nm GPU について TSMC とのみ連携しています。 将来的にはインテルやサムスンとの連携が可能になるかもしれないが、短期的には不可能であり、H100の生産は制限される。 内部告発者によると、TSMCは5nmチップの生産能力を提供するために、N5、N5P、N4、N5Pの4つの生産ノードを持っている。 H100 は、強化された 5nm ノードである N5 または N5P の 4N ノードでのみ生成されます。 Nvidia は、このノードの生産能力を Apple、Qualcomm、AMD と共有する必要があります。 TSMC のウェハー工場では、各顧客の生産能力割り当てを 12 か月前に計画する必要があります。 Nvidia と TSMC が以前 H100 の需要を過小評価していた場合、現在では生産能力は限られているでしょう。 内部告発者によると、H100は生産から出荷まで約半年かかるという。 内部告発者はまた、引退した半導体業界の専門家の発言を引用し、ウエハー工場はTSMCの生産ボトルネックではなく、CoWoS(3Dスタッキング)パッケージングがTSMCの生産能力の限界点であると述べた。 H100 メモリ容量 H100のもう一つの重要なコンポーネントであるH100メモリに関しては、生産能力不足の問題があるかもしれません。 特別な方法で GPU に統合された HBM (高帯域幅メモリ) は、GPU のパフォーマンスを確保するための重要なコンポーネントです。 内部告発者は業界関係者の発言を引用して次のように述べた。 主な問題は HBM です。それを作るのは悪夢でした。 HBMは生産が難しいため、供給量が非常に限られています。制作とデザインの両方がそのリズムに従わなければなりません。 HBM3 メモリの場合、Nvidia はほぼ独占的に SK Hynix 製品を使用しており、Samsung 製品もいくつかあるかもしれませんが、Micron 製品は使用されていないはずです。 Nvidia は SK Hynix が生産能力を増強できることを期待しており、実際にそうしている。しかし、サムスンとマイクロンの生産能力は非常に限られています。 さらに、GPU の製造には希土類元素を含む他の多くの材料やプロセスも使用され、これらも GPU の生産能力を制限する要因となる可能性があります。 GPU チップは今後どのように発展していくのでしょうか? Nvidiaの声明 Nvidiaは今年後半にさらに多くのGPUを供給できるようになると明らかにしただけで、定量的な情報は提供しなかった。 当社は今四半期の供給を現在処理中ですが、下半期の供給も多数調達済みです。 今年後半の供給量は前半より大幅に増加すると予想しています。 – エヌビディアのCFOコレット・クレスが2023年2月~4月の決算発表で明らかに 次に何が起こるでしょうか? GPU 供給問題は現在、不足により GPU の所有権が防御壁とみなされ、さらに多くの GPU が買いだめされ、不足がさらに悪化するという悪循環に陥っています。 – プライベートクラウドマネージャーが明らかに 次世代のH100はいつリリースされますか? Nvidia の以前のロードマップによると、次世代の H100 製品は 2024 年後半または 2025 年初頭まで発表されない予定です。 それまでは、H100 が Nvidia の主力製品となるでしょう。 ただし、NVIDIA はこの期間中に H100 の 120GB 水冷バージョンを発売する予定です。 内部告発者がインタビューした業界関係者によると、H100は2023年末までに完売するとのこと。 ! H100ハッシュレートを取得するにはどうすればいいですか?NVIDIAの幹部が先に述べたように、H100 GPUが提供するコンピューティングパワーは、最終的にはさまざまなクラウドコンピューティングプロバイダーを通じて業界チェーンに統合されるため、H100の不足はGPU世代によって部分的に引き起こされます。 もう 1 つの側面は、コンピューティング クラウド プロバイダーが NVIDIA から H100 を効果的に入手し、クラウド コンピューティング パワーを提供することで、最終的に必要としている顧客にリーチできる方法です。 プロセスは簡単です: コンピューティング クラウド プロバイダーは、OEM から H100 チップを購入し、コンピューティング クラウド サービスを構築してさまざまな AI 企業に販売し、エンド ユーザーが H100 のコンピューティング能力を利用できるようにします。 このプロセスにはさまざまな要因があり、それが現在の H100 コンピューティング パワーの不足を引き起こしており、爆発的な記事では、皆様の参考になる多くの業界情報も提供しています。 H100 マザーボードはどこで購入できますか? Dell、Lenovo、HPE、Supermicro、Quanta などの OEM が H100 および HGX H100 を販売しています。 CoreWeave や Lambda などの GPU クラウド プロバイダーは、OEM から購入し、スタートアップにリースします。 ハイパースケーラー (Azure、GCP、AWS、Oracle) は Nvidia とより直接的に連携しますが、OEM からも購入します。これは、ゲーマーがグラフィック カードを購入するチャネルに似ているようです。しかし、DGX を購入する場合でも、ユーザーは OEM を通じて購入する必要があり、NVIDIA に直接注文することはできません。 納期 8 GPU HGX サーバーの配信時間はひどいものでしたが、4 GPU HGX サーバーの配信時間はまったく問題ありませんでした。 しかし、すべての顧客は 8 GPU サーバーを望んでいます。 スタートアップ企業は OEM や再販業者から製品を購入していますか? スタートアップ企業が H100 の計算能力を手に入れたい場合、最終的に H100 を購入して自社の GPU クラスターに接続するということはありません。 通常、Oracle などの大規模クラウド、Lambda や CoreWeave などのプライベート クラウド、または FluidStack などの OEM やデータ センターと連携するプロバイダーからコンピューティング能力をレンタルします。 独自のデータセンターを構築する場合は、データセンターの構築にどれくらいの時間がかかるか、ハードウェアに関する人員と経験があるかどうか、設備投資に余裕があるかどうかを考慮する必要があります。 サーバーのレンタルやホスティングが簡単になりました。ユーザーが独自のデータセンターを構築したい場合は、インターネットに接続するためのダークファイバー回線を敷設する必要があります(1キロメートルあたり1万ドル)。このインフラの多くは、ドットコム・ブームの時代にすでに構築され、支払いも済んでいました。レンタルするだけ、安いですよ。 – プライベートクラウドの責任者 リースから自社構築のクラウドサービスまでの順序は、大まかに、オンデマンドクラウドサービスレンタル(純粋なリースクラウドサービス)、スケジュールクラウドサービス、ホスト型クラウドサービス(サーバーを購入し、プロバイダーと協力してサーバーのホスティングと管理を行う)、セルフホスティング(自分でサーバーを購入してホスティングする)となります。 H100 のコンピューティング能力を必要とするスタートアップのほとんどは、クラウド サービスまたはホスト型クラウド サービスを予約することを選択します。 主要なクラウドコンピューティングプラットフォームの比較 多くのスタートアップにとって、大手クラウド コンピューティング企業が提供するクラウド サービスは、H100 の究極のソースです。 クラウド プラットフォームの選択によって、最終的に安定した H100 のコンピューティング能力を得られるかどうかが決まります。 一般的なポイントは、Oracle は 3 大クラウドほど信頼できないということです。しかし、Oracle はより多くの技術サポート支援を提供します。 他の主要なクラウド コンピューティング企業との主な違いは次のとおりです。 ネットワーキング: 大規模な A100/H100 クラスターを探しているスタートアップ企業のほとんどは InfiniBand に注目していますが、AWS と Google Cloud は独自のサービス提供アプローチを採用しているため、InfiniBand の導入が遅れています。 可用性: Microsoft Azure の H100 のほとんどは OpenAI 専用です。 GoogleがH100を入手するのは困難です。 なぜなら、Nvidia は競合する機械学習チップを開発する予定のないクラウドに、より多くの H100 割り当てを提供する傾向があるように思われるからです。 (これはすべて推測であり、確かな事実ではありません。) マイクロソフトを除く3大クラウド企業はいずれも機械学習チップを開発しており、AWSやGoogleのNvidia代替品もすでに市場に出回っており、市場シェアの一部を占めている。 Nvidia との関係で言えば、次のようになるかもしれません: Oracle と Azure > GCP と AWS。しかし、これは単なる推測に過ぎません。 小規模なクラウド コンピューティング プロバイダーは安価になりますが、場合によっては、一部のクラウド コンピューティング プロバイダーがコンピューティング能力を株式と交換することがあります。 NvidiaがH100を配布する方法Nvidia は各顧客に H100 の割り当てを提供します。 しかし、Azure が「Inflection で使用するために 10,000 台の H100 を取得したい」と言った場合と、「Azure クラウドで使用するために 10,000 台の H100 を取得したい」と言った場合では割り当てが異なります。 Nvidia はエンド カスタマーが誰であるかを重視しているため、Nvidia がエンド ユーザーに関心を持つと、クラウド コンピューティング プロバイダーはより多くの H100 を導入することになります。 Nvidia は、最終顧客が誰なのかをできるだけ詳しく知りたいと考えており、優れたブランドや実績のあるスタートアップ企業を持つ顧客を優先しています。 はい、その通りだと思います。 NVIDIA は、新興の AI 企業 (その多くは NVIDIA と密接な関係がある) が GPU にアクセスできるようにしたいと考えています。同社が投資した AI 企業 Inflection が、同じく投資した CoreWeave 上で大規模な H100 クラスターをテストしている様子をご覧ください。 – プライベートクラウドの責任者 結論GPU に対する現在の需要はバブルと誇大宣伝が混在していますが、客観的には存在しています。 OpenAIなどの一部の企業はChatGPTなどの製品を発売しており、市場で好評を得ていますが、まだ十分なGPUを入手できていません。 他の企業は、将来の使用に備えて、または市場では決して使用されない可能性のある大規模な言語モデルをトレーニングするために、GPU を購入して買いだめしています。これにより、GPU不足のバブルが発生しました。 しかし、どう見ても、Nvidia は要塞の中のグリーン王だ。 |
<<: あなたの将来の子供はどんな風になるでしょうか?このAIミニプログラムは海外のDouyinアプリで大人気となり、数え切れないほどのネットユーザーが感動して涙しました!
>>: LK-99の完全懸架映像が初めて物議を醸した。ネットユーザー:本当なら画期的
タンパク質分野とは異なり、RNA 分野の研究では十分な注釈付きデータが不足していることがよくあります...
[[264168]] 3年前、人工知能の時代が始まり、「人工知能はますます多くのこと、ほぼすべての...
[[436253]]米国は人工知能に関連するハイエンド技術に対する輸出規制を強化し続けている。今回の...
1. 製造業の発展の現状まず、製造業企業の発展状況について紹介します。 1. 企業経営は直線的な発展...
IoT が広く普及したことにより、さまざまな目的のためのスマートな接続型ガジェットの開発が促進され...
相関ルールは、データ間の潜在的な関連性を発見するために使用されます。最も一般的なアプリケーションは、...
自動運転車は、車線を正確に検出するために、さまざまな色や照明条件下で車線を認識する必要があります。車...
数年間この業界に携わってきたデータ サイエンティストとして、私は LinkedIn や QuoLa ...
人工知能 (AI) はクラウドからエッジへと急速に移行しており、ますます小型の IoT デバイスに導...
機械学習分野のオープンデータセットにはどのようなものがあるでしょうか。Gengo は最近、高品質の無...
10月24日、DeePhi Technologyの2017年新製品発表会が北京の朗園にあるVinta...
[[256558]] AIが大量失業を引き起こすという懸念は根拠がない世界的な研究機関である羅漢研究...