Huang H100 が再び記録を更新し、GPT-3 を 4 分でトレーニングしました。新しい「特別版」H20、L20、L2が公開され、パフォーマンスが大幅に低下

Huang H100 が再び記録を更新し、GPT-3 を 4 分でトレーニングしました。新しい「特別版」H20、L20、L2が公開され、パフォーマンスが大幅に低下

H100 が再び MLPerf の記録を更新しました!

スーパーコンピューターのNVIDIA Eosは、GPT-3モデルのベンチマークテストでわずか3.9分でトレーニングを完了しました。

これは6月に記録された10.9分のほぼ3倍の記録だ。

Eos は最大 10,752 個の H100 と NVIDIA Quantum-2 InfiniBand ネットワーク相互接続を使用します。

推測すると、Eos はわずか 8 日間でトレーニングできるようになり、512 個の A100 GPU を使用した従来の最先端システムよりも 73 倍高速になります。

この新しい生成 AI テストでは、1,024 個の NVIDIA Hopper アーキテクチャ GPU が、Stable Diffusion テキストから画像への変換モデルに基づくトレーニング ベンチマークを 2.5 分で完了し、この新しいワークロードに高い基準を設定しました。

同時に、海外メディアは、新しい規制に対応するために開発されたNvidiaの新しい「特別版」チップ、H20、L20、L2を暴露した。

システム拡張効率が93%向上

最新の結果は、MLPerf ベンチマークにこれまで適用されたアクセラレータの最大数を使用したことに一部起因しています。

10,752 個の H100 GPU は、Nvidia が 3,584 個の Hopper GPU を使用した 6 月の AI トレーニングの規模をはるかに上回ります。

ソフトウェアの最適化のおかげもあり、GPU の数は 3 倍、パフォーマンスは 2.8 倍に拡大し、効率は 93% に達しました。

LLM は毎年桁違いに成長しているため、効率的なスケーリングは生成 AI にとって重要な要件です。

最新の結果は、NVIDIA が世界最大のデータセンターに対してもこの前例のない課題に対応できる能力があることを示しています。

この成果は、EOS と Microsoft Azure の両方が最新のテスト ラウンドで使用したアクセラレータ、システム、ソフトウェア イノベーションのフルスタック プラットフォームによるものです。

Eos と Azure は、それぞれ 10,752 個の H100 を獲得しました。パフォーマンスの差は 2% 未満であり、データ センターとパブリック クラウドの展開における NVIDIA AI の効率性が実証されました。

Nvidia はさまざまな重要なタスクを完了するために Eos に依存しています。

これは、次世代 GPU の設計に役立つ生成 AI ツールである NVIDIA DLSS や ChipNeMo などの取り組みの推進に役立ちます。

9つのベンチマークテストで記録を破る

生成 AI の進歩に加え、Nvidia は今回のテストでいくつかの新記録も樹立しました。

たとえば、レコメンデーション システム モデルのトレーニング テストでは、H100 GPU は前回のラウンドよりも 1.6 倍高速でした。コンピュータービジョンモデルRetinaNetのテストでは、パフォーマンスが1.8倍向上しました。

これらのパフォーマンスの向上は、ソフトウェアの最適化とハードウェアのスケーリングの組み合わせによって実現されます。

Nvidia は今回も MLPerf テストをすべて完了した唯一の企業となりました。 H100 は、9 つ​​のベンチマーク テストで最速のパフォーマンスと最高のスケーラビリティを実証しました。

これらのアクセラレーションにより、ユーザーは大規模なモデルをトレーニングしたり、NeMo などのフレームワークを使用してモデルをカスタマイズしてビジネス ニーズを満たすことができるため、市場投入までの時間が短縮され、コストとエネルギーが削減されます。

今回のテストでは、ASUS、Dell Technologies、富士通、GIGABYTE、Lenovo、QCT、Supermicro を含む 11 社のシステム メーカーが、提出物に NVIDIA AI プラットフォームを使用しました。

特別版H20、L20、L2パフォーマンスエクスポージャー

過去数年間、米国は高性能ハードウェアの輸出に対して非常に厳しい制限を課してきました。

特に、2023 年 11 月に発効する新しい規制では、一定の総処理性能および/または性能密度に達するすべてのハードウェアは輸出ライセンスを取得することが義務付けられます。

新たに流出した文書と事情に詳しい4人によると、Nvidiaは米国の輸出規制に従うため、HGX H20、L20 PCle、L2 PCle GPUという3つの新しい「中国カスタマイズ」チップを発売した。

中でもHGX H20は、最大96GBのHBM3ビデオメモリと4TB/sの帯域幅を備え、新しいHopperアーキテクチャをベースにしています。

H20 には、H100 の 50MB L2 キャッシュと比較して、より大きな 60MB L2 キャッシュも搭載されています。

しかし、パフォーマンス面では、HGX H20 は FP64 精度で 1 TFLOPS (H100 の34 TFLOPS )、FP16/BF16 精度で148 TFLOPS (H100 の1,979 TFLOPS ) しか提供できません。

その結果、消費電力は700Wから400Wに削減されました。

興味深いことに、Ampere アーキテクチャをベースとし、24GB HBM2 を搭載したエントリーレベルの A30 GPU は、FP64 と FP16/BF16 の両方の精度で HGX H20 よりも大幅に高速です。

L20 および L2 PCIe GPU に関しては、L40 および L40S と同じ市場に対応する、強化された AD102 および AD104 コアをベースにしています。

より直感的に言えば、RTX 4090 は AD102 のバリアントを使用し、4070 と 4070Ti は AD104 のバリアントに基づいています。

さらに、新しい規制に準拠するために、HGX H20、L20 PCle、L2 PCle GPU はパフォーマンスが低いだけでなく、低パフォーマンスの NVLink 接続のみが搭載されています。

<<:  AI検出器は復活するのか?成功率は98%と高く、OpenAIを上回っている。

>>:  スマートフォンの代替品?元アップルデザイナーが699ドルの人工知能ブローチ「AI Pin」を発売

ブログ    
ブログ    
ブログ    

推薦する

AIの未来: 次世代の生成モデルの探究

ニシャ・アーヤ著翻訳者 | ブガッティレビュー | Chonglou生成 AI には現在どのような機...

AIを活用した臨床モニタリングシステムの台頭

[[355709]]現在、医療システムもさまざまな方法で人工知能の利点を取り入れています。人工知能(...

パナソニック、AI企業ブルーヨンダーを60億ドル超で買収へ

海外メディアの報道によると、パナソニックは今年3月にアメリカのAIソフト開発会社ブルーヨンダーを70...

顔認証は必見!顔のなりすまし防止、クロスポーズ認識などを実現する方法を学ぶための 5 つの論文 (リンク付き)

[[281197]] [はじめに] 顔認識はコンピュータビジョンにおける最大の研究分野の一つです。...

AIは細胞構造の識別において人間にはできないことができる

[[390952]]人工知能 (AI) を使用して細胞の 3D 構造にラベルを付けて識別することは、...

インテリジェント アシスタントが、設計から運用、保守まで、ソフトウェア開発プロセス全体を処理します。

設計、コーディングからテスト、導入、運用・保守まで、ソフトウェア開発の全プロセスをAIに任せることが...

...

シャンダイノベーション研究所とソゴウ研究者:自然言語処理の応用

【TechWeb Report】6月26日、山大創新研究所検索テーマ研究所研究員の賈文傑氏と捜狗自然...

...

想像を超える: 5つの興味深い実用的なChatGPTのヒントとコツ

ChatGPT は情報を提供したり質問に答えたりするだけでなく、インテリジェントなアシスタントとして...

...

ロボットは「職業を変える」、新しいトレンドは新しい機会をもたらす

ドイツ特派員 青木「昨年、北米のロボット受注の大半は初めて自動車工場で受注されなかった」ロイター通信...

大量のニューロンを必要とせず、ニューロモルフィックロボットはスピードと正確さでテーブルサッカーをプレイします

人間は機械にゲームをさせることに魅了されているようだ。1770 年という早い時期に、発明家たちは「ト...

レースをしながら「機械学習」を学ぶ? 380万人が観ていなかったら、信じられなかったでしょう。

[[440972]] 「秋名山には人が少なく、ドライバー同士が競争することが多い。今は自動運転車が...

インターネット ミュージアムは大ヒットとなり、ネットユーザーの間では思い出が溢れています。あなたはいくつ思い出せるでしょうか?

インターネットの博物館を作るとしたら、どんな「コレクション」を収蔵しますか?今では、あるプログラマー...