Nvidiaの生成AIスーパーチップGH200はH100の2倍の計算能力を持つ。黄仁訓：それは狂ったように推論できる

アーキテクチャの革新を待つことができず、Nvidia は生成 AI 専用のチップを「先行して」リリースしました。

NVIDIA CEOのジェンスン・フアンは現地時間8月8日、世界最高峰のコンピュータグラフィックスカンファレンス「SIGGRAPH 2023」において、生成AI向けに特別に設計された次世代のGH200 Grace Hopperプラットフォームを発表し、OVXサーバーやAI Workbenchを含む一連のメジャーアップデートを発表しました。

5年前、同じくSIGGRAPHカンファレンスでの講演で、NVIDIAはGPUへのAIとリアルタイムレイトレーシングの導入を発表しました。当時のこの決定は、計算グラフィックスに新たな形を与えたと言えます。

「ラスタライゼーションが限界に達したことに気づきました」と Huang 氏は言います。「ハードウェア、ソフトウェア、アルゴリズムを改革する必要があります。AI で CG を改革するのと同時に、AI 用の GPU も改革しています。」

その予測は現実になりました。長年にわたり、コンピューティングシステムはますます強力になってきています。たとえば、8 つの GPU と合計 1 兆個のトランジスタを活用して、CPU ベースのシステムに比べて大幅な高速化を実現する NVIDIA HGX H100 などです。

「世界中のデータセンターが急速にアクセラレーテッドコンピューティングに移行しているのはそのためです」と、今年の SIGGRAPH カンファレンスで Huang 氏は繰り返し述べました。「購入すればするほど、節約できる金額も増えます。」

現在、ますます大規模になる生成 AI モデルのトレーニングに必要な計算は、ある程度の GPU パワーを備えた従来のデータセンターでは必ずしも実行できるわけではなく、大規模コンピューティング向けにゼロから設計された H100 などのシステムによって実行できます。 AI の開発は、ある程度、これらのコンピューティングリソースの可用性によってのみ制限されると言えます。

しかし黄氏は、これはまだ始まりに過ぎないと主張する。新しいモデルには、トレーニングだけでなく、数百万、あるいは数十億のユーザーによるリアルタイムでの実行にも計算能力が必要です。

「将来、LLM はほぼすべてのもののフロントエンドに配置されるでしょう。つまり、人間が新しいプログラミング言語となるのです。視覚効果から急速にデジタル化が進む製造市場、工場設計、重工業まで、すべてが自然言語インターフェースを使用するようになるでしょう」と Huang Renxun 氏は言います。

1時間以上に及ぶこの講演で、黄仁勲氏は「生成型AI」を目的とした一連の新製品を発表した。

より強力なGH200グレースホッパースーパーチッププラットフォーム

NVIDIA の Grace Hopper スーパーチップである NVIDIA GH200 は、72 コアの Grace CPU と Hopper GPU を組み合わせたもので、5 月に本格生産が開始されました。

現在、黄仁訓氏は、Grace Hopper スーパーチップに HBM3e 高帯域幅メモリ (HBM3e は現在の HBM3 より 50% 高速) が搭載され、次世代の GH200 Grace Hopper プラットフォームによって生成 AI の計算速度が大幅に向上すると発表しました。

新しい GH200 は、メモリ容量が元の 3.5 倍、帯域幅が 3 倍になります。144 個の Arm Neoverse コアと 282 GB の HBM3e メモリを搭載したサーバーが含まれ、8 ペタフロップスの AI コンピューティング能力を提供します。

大規模モデルの実用化効率を向上させるために、生成 AI モデルのワークロードは通常、大規模な言語モデル、推奨システム、ベクトルデータベースをカバーします。 GH200 プラットフォームは、これらのワークロードを全面的に処理するように設計されており、さまざまな構成で利用できます。

エヌビディアは、GH200と呼ばれるスーパーチップが2024年第2四半期に生産開始される予定だと述べた。

Nvidia AI Workbench、サービスとしてのモデル

さらに、黄氏は、世界中の企業による生成AIのカスタマイズされた導入を加速するために、NvidiaがまもなくNvidia AI Workbenchをリリースすると発表しました。

事前トレーニング済みのモデルの多くはオープンソースですが、独自のビジネスに役立つようにカスタマイズするのは依然として困難です。 AI Workbench は、必要なすべてのエンタープライズグレードのモデル、フレームワーク、ソフトウェア開発キット、ライブラリを統合されたワークスペースに統合することで、エンタープライズ AI プロジェクトの開始の複雑さを軽減します。

AI Workbench を使用すると、ローカルシステムで実行される簡素化されたインターフェイスから数回クリックするだけで、開発者は Hugging Face、GitHub、NGC などの一般的なリポジトリのモデルをカスタムデータで微調整し、データセンター、パブリッククラウド、または Nvidia DGX Cloud に拡張できます。

フアン氏はまた、NVIDIA が Hugging Face と協力し、開発者が Hugging Face プラットフォームで NVIDIA DGX Cloud AI スーパーコンピューティングにアクセスして AI モデルのトレーニングと調整を行えるようになることも発表しました。これにより、大規模な言語モデルやその他の高度な AI アプリケーションを構築する何百万もの開発者が、生成 AI スーパーコンピューティングに簡単にアクセスできるようになります。

「これは、世界最大のAIコミュニティと世界最高のトレーニングおよびインフラストラクチャを結び付けるまったく新しいサービスになります」と黄氏は語った。

新しい RTX ワークステーションと Omniverse

フアン氏はまた、NVIDIA が BOXX、Dell Technologies、HP、Lenovo などのワークステーションメーカーと提携して、高性能 RTX ワークステーションの新シリーズを開発していることも発表しました。

新しく発表された RTX ワークステーションは、それぞれ 48 GB のメモリを搭載した最大 4 つの Nvidia RTX 6000 Ada GPU を提供します。単一のデスクトップワークステーションで、最大 5828 TFLOPS のパフォーマンスと 192 GB の GPU メモリを実現します。

ユーザーのニーズに応じて、これらのシステムは Nvidia AI Enterprise または Omniverse Enterprise ソフトウェアを使用して構成でき、要求の厳しいさまざまな生成 AI およびグラフィックスを多用するワークロードに必要なパワーを提供します。これらの新リリースは秋に発売される予定です。

新しくリリースされた Nvidia AI Enterprise 4.0 では、生成 AI インフラストラクチャモデルを構築およびカスタマイズするためのエンドツーエンドのフレームワークである Nvidia NeMo が導入されています。また、データサイエンス向けの Nvidia Rapids ライブラリも含まれており、レコメンダー、仮想アシスタント、サイバーセキュリティソリューションなどの一般的なエンタープライズ AI ユースケース向けのフレームワーク、事前トレーニング済みモデル、ツールも提供されます。

産業用デジタル化プラットフォームである Omniverse Enterprise は、Nvidia エコシステムのもう 1 つのコンポーネントであり、チームが相互運用可能な 3D ワークフローと OpenUSD アプリケーションを開発できるようにします。 Omniverse は OpenUSD ネイティブプラットフォームを活用して、世界中に分散したチームが何百もの 3D アプリケーションからの完全な設計忠実度データセットで共同作業できるようにします。

今回、NVIDIA は主に Omniverse Kit (ネイティブ OpenUSD アプリケーションおよび拡張機能を開発するためのエンジン) と、NVIDIA Omniverse Audio2Face 基本アプリケーションおよび空間コンピューティング機能をアップグレードしました。開発者は、NVIDIA が提供する 600 を超えるコア Omniverse 拡張機能を簡単に活用して、カスタムアプリケーションを構築できます。

発売の一環として、Nvidia はデスクトップワークステーション向けの 3 つの新しい Ada 世代 GPU、Nvidia RTX 5000、RTX 4500、RTX 4000 も発表しました。

新しい NVIDIA RTX 5000、RTX 4500、および RTX 4000 デスクトップ GPU は、最新の NVIDIA Ada Lovelace アーキテクチャテクノロジに基づいています。これらには、単精度浮動小数点スループットを向上させる強化された NVIDIA CUDA コア、レイトレーシング機能を向上させる第 3 世代 RT コア、AI トレーニングパフォーマンスを高速化する第 4 世代 Tensor コアが含まれます。

Nvidia RTX 5000 Ada 世代 GPU。

これらの GPU は DLSS 3 もサポートしており、リアルタイムグラフィックスに新たなレベルのリアリティとインタラクティブ性を提供するほか、大規模な 3D モデル、レンダリングされた画像、シミュレーション、AI データセットのエラーのない計算を可能にする大規模な GPU メモリオプションも提供します。さらに、高性能な AR、VR、複合現実コンテンツを作成するニーズを満たす拡張現実機能も提供します。

第 3 世代の RT コアを搭載したこれらの GPU は、前世代の最大 2 倍のスループットを実現し、ユーザーはより大きく、より忠実度の高い画像をリアルタイムで処理できるため、芸術作品の創作やデザイン制作に活用できます。

RTX 5000 GPU は現在 HP および販売パートナーから入手可能で出荷中ですが、RTX 4500 および RTX 4000 GPU は BOXX、Dell Technologies、HP、Lenovo およびそれぞれの販売パートナーから秋に入手可能になる予定です。

Nvidia OVX サーバー

Nvidia はまた、生成 AI とデジタル時代の開発とコンテンツ作成向けに、Nvidia L40S GPU を搭載した Nvidia OVX Server も発売しました。

各 Nvidia OVX サーバーは、それぞれ 48 GB のメモリを搭載した最大 8 個の Nvidia L40S GPU をサポートします。 L40S GPU は、Nvidia Ada Lovelace GPU アーキテクチャを採用し、第 4 世代のテンソルコアと FP8 Transformer エンジンを搭載し、1.45 ペタフロップスを超えるテンソル処理能力を実現します。

Nvidia L40S GPU。

数十億のパラメータと複数のデータモードを備えた生成 AI ワークロードの分野において、L40S GPU は、Nvidia A100 Tensor Core GPU と比較して、1.2 倍優れた生成 AI 推論パフォーマンスと 1.7 倍優れたトレーニングパフォーマンスを実現します。これにより、AI のトレーニングと推論、3D 設計と視覚化、ビデオ処理、産業用デジタル化などの計算集約型アプリケーションのニーズがより適切に満たされ、複数の業界でワークフローとサービスが加速されます。

<<: ChatGLM-6Bを最適化するにはどうすればいいですか?たった 1 行のコード | 最も「流行」のモデル

>>: