11 分で GPT-3 をトレーニングしましょう! Nvidia H100が8つのMLPerfベンチマークを制覇、25年ぶりにリリースされた次世代グラフィックカード

11 分で GPT-3 をトレーニングしましょう! Nvidia H100が8つのMLPerfベンチマークを制覇、25年ぶりにリリースされた次世代グラフィックカード

最新の MLPerf トレーニング ベンチマークでは、H100 GPU が 8 つのテストすべてで新記録を樹立しました。

NVIDIA H100 は今日ではほぼすべてのカテゴリーで優位を占めており、新しい LLM ベンチマークで使用される唯一の GPU です。

写真

3,584 個の H100 GPU のクラスターは、GPT-3 に基づく大規模なベンチマークをわずか 11 分で完了しました。

MLPerf LLM ベンチマークは、1,750 億個のパラメータを含む OpenAI の GPT-3 モデルに基づいています。

Lambda Labs は、このような大規模なモデルをトレーニングするには約 3.14E23 FLOPS の計算が必要であると見積もっています。

GPT-3を11分で訓練したモンスターはいかにして作られたか

LLM および BERT 自然言語処理 (NLP) ベンチマークでトップランクにランクされたシステムは、NVIDIA と Inflection AI が共同で開発しました。

エンタープライズ グレードの GPU アクセラレーション ワークロードに特化したクラウド サービス プロバイダーである CoreWeave がホストします。

このシステムは、3,584 個の NVIDIA H100 アクセラレータと 896 個の Intel Xeon Platinum 8462Y+ プロセッサを組み合わせています。

写真

NVIDIA は H100 に新しい Transformer エンジンを導入しました。このエンジンは、Transformer モデルのトレーニングと推論を高速化するように特別に設計されており、トレーニング速度が 6 倍向上します。

CoreWeave がクラウドから提供するパフォーマンスは、Nvidia がローカル データ センターで稼働する AI スーパーコンピューターから提供できるパフォーマンスに非常に近いものです。

これは、CoreWeave が使用する NVIDIA Quantum-2 InfiniBand ネットワークの低遅延ネットワーキングによって可能になります。

トレーニングに関与する H100 GPU の数が数百から 3,000 以上に増加しました。

適切な最適化により、技術スタック全体が、要求の厳しい LLM テストにおいてほぼ線形のパフォーマンス スケーリングを実現できるようになります。

GPU の数を半分に減らすと、同じモデルをトレーニングする時間は 24 分に増加します。

これは、GPU の数が増えるにつれて、システム全体の効率性が極めて直線的になることを示しています。

主な理由は、NVIDIA が GPU 設計の初期段階からこの問題を考慮し、NVLink テクノロジを使用して GPU 間の通信を効率的に実現したことです。

写真

テストされた 90 のシステムのうち、82 はアクセラレーションに NVIDIA GPU を使用しました。

写真

シングルカードトレーニングの効率

写真

システムクラスターのトレーニング時間の比較

テストされた Intel システムでは、64 ~ 96 個の Intel Xeon Platinum 8380 プロセッサーと 256 ~ 389 個の Intel Habana Gaudi2 アクセラレーターが使用されていました。

しかし、Intel の GPT-3 への提出ではトレーニングに 311 分かかりました。

結果は NVIDIA と比べると少しひどいです。

アナリスト:Nvidiaの優位性は大きすぎる

業界アナリストは、GPU における Nvidia の技術的優位性は非常に明白であると考えています。

AI インフラストラクチャ プロバイダーとしての業界における同社の支配的な地位は、NVIDIA が長年にわたって構築してきたエコシステムの粘り強さにも反映されています。

AIコミュニティもNvidiaのソフトウェアに大きく依存しています。

ほぼすべての AI フレームワークは、NVIDIA が提供する基盤となる CUDA ライブラリとツールに基づいています。

写真

また、フルスタックの AI ツールとソリューションも提供しています。

Nvidia は、AI 開発者のサポートに加えて、ワークロードとモデルを管理するためのエンタープライズ グレードのツールへの投資も継続しています。

Nvidia の業界におけるリーダーとしての地位は、近い将来、非常に堅固なものとなるでしょう。

アナリストらはさらに指摘した。

MLPerf テスト結果に示されているように、クラウドで AI トレーニングを実施する際の NVIDIA システムの強力な機能と効率性は、「未来のために戦う」 NVIDIA の最大の資産です。

次世代Ada Lovelace GPU、2025年にリリース

Tom's Hardware のフリーランス ライターである Zhiye Liu 氏も最近、次世代の Nvidia Ada Lovelace グラフィック カードの計画を紹介する記事を公開しました。

H100 が大規模モデルをトレーニングする能力については疑いの余地はありません。

GPT-3 モデルは、わずか 3584 個の H100 を使用してわずか 11 分でトレーニングできます。

最近の記者会見で、Nvidia は、現在入手可能な最高のゲーミング グラフィック カードである GeForce RTX 40 シリーズ Ada Lovelace GPU の後継機を含む、次世代製品の詳細を示す新しいロードマップを公開しました。

写真

ロードマップによると、Nvidiaは2025年に「Ada Lovelace-Next」グラフィックカードを発売する予定だ。

現在の命名方式が引き続き使用される場合、次世代の GeForce 製品は GeForce RTX 50 シリーズとして発売されるはずです。

南米の団体LAPSU$が入手した情報によると、ホッパー・ネクストはブラックウェルと名付けられる可能性が高い。

消費者向けグラフィック カードの場合、NVIDIA は 2 年ごとに更新のペースを維持しています。

彼らは2016年にPascal、2018年にTuring、2020年にAmpere、2022年にAda Lovelaceをリリースしました。

Ada Lovelaceの後継機が2025年に発売されれば、Nvidiaは間違いなく通常のリズムを崩すことになるだろう。

写真

最近の AI の爆発的な増加により、最新の H100 であれ、前世代の A100 であれ、NVIDIA GPU に対する需要が急増しています。

報道によると、大手メーカーは今年、10億ドル相当のNvidia GPUを注文したという。

輸出制限にもかかわらず、私の国は依然としてNvidiaにとって世界最大の市場の一つです。

(深セン華強北電子市場では、Nvidia A100が少量販売されており、1台あたり2万ドルと通常の2倍の値段が付けられているという。)

これに対応して、Nvidia は AI 製品の一部を微調整し、輸出要件を満たす H100 や A800 などの特定の SKU をリリースしました。

Zhiye Liu 氏は、別の観点から見ると、輸出規制はチップメーカーの顧客が同じパフォーマンスを得るために元の GPU のより多くのバリエーションを購入しなければならないことを意味するため、実際には Nvidia にとって有利であると分析しました。

これは、Nvidia がゲーム用 GPU ではなくコンピューティング用 GPU の世代を優先する理由も説明しています。

最近の報告によると、Nvidia はコンピューティングクラスの GPU の生産を増加したとのことです。

AMD の RDNA 3 製品スタックからの深刻な競争や、Intel による GPU 複占への深刻な脅威に直面していないため、Nvidia は消費者側で足踏みする余裕がある。

Nvidia は最近、GeForce RTX 4060 と GeForce RTX 4060 Ti を追加し、GeForce RTX 40 シリーズ製品スタックを拡張しました。

GeForce RTX 4050、そして最上位の RTX 4080 Ti や GeForce RTX 4090 Ti などには、いずれも潜在能力があります。

必要であれば、Nvidia は古い Turing バージョンの製品を採用し、Ada Lovelace を更新して「Super」処理を施し、Ada のラインナップをさらに拡張することもできます。

最後に、Zhiye Liu 氏は、Lovelace アーキテクチャは少なくとも今年か来年までは本格的に更新されないだろうと述べました。

<<:  ChatGPTの不正行為から逃れるのは難しいです! 99%のヒット検出、カンザス大学の新しいアルゴリズム、Cellジャーナルに掲載された研究

>>:  研究によると、話題が真実か虚偽かに関係なく、AIが書いたマイクロブログは実際の人間よりも説得力があるという。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

テンセント・フンユアン・ビッグモデル・アップグレード:「文勝図」を追加し、コード能力を大幅に向上

テンセントは10月26日、テンセント渾源モデルが新たなアップグレードを経て、「文勝図」機能を正式に公...

...

人気は過ぎ去り、ユーザーの関心は低下しました。データによると、ChatGPTのトラフィックは6月に初めて減少しました。

7月6日、ChatGPTの人気が衰えの兆しを見せていると報じられた。分析会社Similarwebの...

AI と機械学習: 大きなデマか、それとも大きな希望か?

ダニング=クルーガー効果は重大なバイアスです。これは、能力の低い人が自分の軽率な決断に基づいて誤った...

インテルと4Paradigmが協力し、誰もがAIを利用できるように

[51CTO.com からのオリジナル記事] 今日、人工知能はもはや遠い概念ではなく、私たちの仕事と...

顔スキャンの時代、顔認識起業家の進むべき道

[[205201]] 9月26日、北京市内の中学校で、顔認証システムで本人確認がされた受験者が模擬試...

初の高校向けAI基礎教科書が出版:唐暁氏が編集、重点中学校40校が導入

教育は幼少期から始めるべきであり、AIは高校から学ぶことができます。 4月28日、SenseTime...

光学行列乗算は人工知能をどう変えるのか

現在の AI の世界は電力を大量に消費し、計算能力が制限されています。モデル開発の軌跡は急速でしたが...

スタンフォード大学の10のグラフはAI開発の新たなトレンドを分析している

スタンフォード大学のAI 100のAI Indexプロジェクトは、人工知能の活動と進歩を追跡し、人工...

...

光量子コンピュータ「九章3号」が発売されました!スーパーコンピューターの1000億倍の速さ、USTCのパン・ジアンウェイ氏のチームより

私の国の量子コンピューティングは新たな進歩をもたらしました。 USTC公式ウェブサイトからのニュース...

GPT-4はあなたよりも質問をするのが得意です。大きなモデルを繰り返し使用して、人間との対話の障壁を打ち破りましょう。

人工知能の分野における最新の開発では、人工的に生成されたプロンプトの品質が、大規模言語モデル (LL...

Bzip2アルゴリズムハードウェアアクセラレーション方式

本発明は、Bzip2 アルゴリズムのハードウェア アクセラレーション実装方法を開示する。この方法は、...

...

RedditユーザーがAppleのCSAMツールをリバースエンジニアリングし、アルゴリズムがすでに存在していることを発見

[[418306]]今月初め、アップルはエコシステム全体に新たな子どもの安全機能を導入すると発表し...