老黄が深夜に爆発、AIGCがiPhoneの瞬間に突入！ハギングフェイスは最強のスーパーコンピューターに接続されており、謎のグラフィックカードはA100よりも優れている

生成 AI の時代が到来し、iPhone の時代が到来しました。

8月8日、NVIDIA CEOのジェンスン・フアン氏が再び、世界最高峰のコンピュータグラフィックスカンファレンスであるSIGGRAPHのステージに立った。

次世代のGH200スーパーチッププラットフォーム、AI Workbench、OpenUSDなど、一連のメジャーアップデートが次々と続きました。

NVIDIA はまた、この機会を利用して、人工知能、仮想世界、加速、シミュレーション、コラボレーションなど、過去数十年間のすべてのイノベーションを統合しました。

LLM が爆発的に増加しているこの時代に、黄氏は依然として「買えば買うほど節約できる」と断言しています。

Nvidiaの最も強力なAIスーパーコンピューターが再びアップグレード

5 年前の SIGGRAPH で、NVIDIA は人工知能とリアルタイムレイトレーシングテクノロジを GPU に導入することで、コンピューターグラフィックスを再定義しました。

Huang氏は、「AIを通じてコンピューターグラフィックスを再定義するのと同様に、AI向けのGPUも再定義しています」と述べた。

その後、ますます強力なコンピューティングシステムが誕生しました。たとえば、NVIDIA HGX H100 には 8 つの GPU が統合されており、1 兆個のトランジスタが搭載されています。

ちょうど今日、老黄は再びAIコンピューティングを新たなレベルに引き上げました——

次世代の GH200 スーパーチッププラットフォームでは、NVIDIA GH200 Grace Hopper にさらに高度な HBM3e メモリを搭載するだけでなく、複数の GPU を接続する機能も備えており、優れたパフォーマンスと簡単に拡張できるサーバー設計が可能になります。

複数の構成で利用可能なこの新しいプラットフォームは、大規模な言語モデル、推奨システム、ベクターデータベースなど、世界で最も複雑な生成ワークロードを処理できるようになります。

たとえば、デュアルコアソリューションには、144 個の Arm Neoverse コアと 282 GB の HBM3e メモリを搭載したサーバーが含まれており、8 ペタフロップスの AI コンピューティング能力を提供できます。

その中で、新しい HBM3e メモリは、現在の HBM3 よりも 50% 高速です。また、合計 10 TB/秒の帯域幅により、新しいプラットフォームでは、以前のバージョンよりも 3.5 倍大きいモデルを実行できるようになり、メモリ帯域幅が 3 倍高速化されてパフォーマンスも向上します。

この製品は2024年第2四半期に発売される予定だと報じられている。

RTXワークステーション：優れたナイフスキル、4つの新しいグラフィックカード

今回、黄氏のデスクトップ AI ワークステーション GPU シリーズも全面的にアップデートされ、RTX 6000、RTX 5000、RTX 4500、RTX 4000 の 4 つの新製品が同時に発売されました。

H100 とそのサポート製品ラインが Nvidia の GPU のパフォーマンスを披露するものだとすれば、デスクトップやデータセンター向けのこれらの製品は、コストに敏感な顧客向けの Huang の優れた「ナイフスキル」です。

この新しい GPU がリリースされたとき、予想外のちょっとした情報が登場しました。

Huang 氏が舞台裏から最初の GPU を取り出した際、誤ってミラーパネルに指紋を残してしまったようです。

黄氏はそれを知ったとき、失敗したかもしれないと思い、恥ずかしそうに聴衆に謝罪し、今回の製品発表はこれまでで最悪かもしれないと語った。

黄氏のように記者会見を上手に行う人でも失敗することがあるようだ。

そんな可愛い黄おじさんも観客を笑い続けさせました。

話を元に戻すと、フラッグシップのプロ用カードとして、RTX 6000 のパフォーマンスパラメータは、4 つの新製品の中で間違いなく最も強力です。

48GB のビデオメモリ、18,176 個の CUDA コア、568 個の Tensor コア、142 個の RT コア、最大 960GB/秒の帯域幅を備え、他をはるかに上回っています。

RTX 5000 には、32GB のビデオメモリ、12,800 個の CUDA コア、400 個の Tensor コア、100 個の RT コアが搭載されています。

RTX 4500 には、24GB のビデオメモリ、7680 個の CUDA コア、240 個の Tensor コア、60 個の RT コアが搭載されています。

RTX 4000 には、20GB のビデオメモリ、6144 個の CUDA コア、192 個の Tensor コア、48 個の RT コアが搭載されています。

Huang 氏は、新たにリリースされた 4 つの新しい GPU をベースに、エンタープライズ顧客向けのワンストップソリューションである RTX Workstation も用意しました。

最大 4 つの RTX 6000 GPU をサポートし、8 億 6000 万トークンの GPT3-40B の微調整を 15 時間で完了できます。

また、Stable Diffusion XL では、1 分あたり 40 枚の画像を生成することができ、4090 枚よりも 5 倍高速になります。

OVXサーバー：L40Sを搭載し、A100よりわずかに優れたパフォーマンス

データセンターの構築に特化して設計された NVIDIA L40S GPU は、さらに爆発的なパフォーマンスを発揮します。

Ada Lovelace アーキテクチャに基づく L40S には、48GB の GDDR6 ビデオメモリと 846GB/s の帯域幅が搭載されています。

第 4 世代 Tensor コアと FP8 Transformer エンジンのサポートにより、1.45 ペタフロップスを超える Tensor 処理能力を提供できます。

より高い計算能力を必要とするタスクの場合、L40S の 18,176 個の CUDA コアは、A100 のほぼ 5 倍の単精度浮動小数点 (FP32) パフォーマンスを提供し、複雑な計算やデータ集約型の分析を高速化します。

さらに、リアルタイムレンダリング、製品設計、3D コンテンツ作成などのプロフェッショナルな視覚処理タスクをサポートするために、NVIDIA は L40S に 142 個の第 3 世代 RT コアを搭載し、212 テラフロップスのレイトレーシングパフォーマンスを実現しました。

数十億のパラメータと複数のモダリティを持つ生成 AI ワークロードの場合、L40S は前世代の A100 と比較して、推論パフォーマンスが最大 1.2 倍、トレーニングパフォーマンスが最大 1.7 倍向上します。

Huang は、L40S GPU のサポートにより、データセンター市場向けに最大 8 個の L40S を搭載できる OVX サーバーを発売しました。

8 億 6,000 万トークンの GPT3-40B モデルの場合、OVX サーバーは微調整を完了するのにわずか 7 時間しかかかりません。

Stable Diffusion XL モデルでは、1 分あたり 80 枚の画像を生成できます。

AI ワークベンチ: カスタム生成 AI アプリケーションの高速化

さまざまな強力なハードウェアに加えて、Huang は生成 AI モデルの開発と展開を支援する新しい NVIDIA AI Workbench もリリースしました。

要約すると、AI Workbench は開発者に、PC またはワークステーション上でモデルを迅速に作成、テスト、微調整し、ほぼすべてのデータセンター、パブリッククラウド、または NVIDIA DGX Cloud にシームレスに拡張するための、統合された使いやすいツールキットを提供します。

具体的には、AI Workbench の利点は次のとおりです。

-使いやすい

AI Workbench は、データ、モデル、コンピューティングリソースを管理するための単一のプラットフォームを提供することで開発プロセスを簡素化し、マシンや環境間でのコラボレーションを可能にします。

- 統合されたAI開発ツールとリポジトリ

AI Workbench は GitHub、NVIDIA NGC、Hugging Face などのサービスと統合されており、開発者は JupyterLab や VS Code などのツールを使用して、さまざまなプラットフォームやインフラストラクチャで開発できます。

- 強化されたコラボレーション

AI Workbench はプロジェクト中心のアーキテクチャを採用しており、開発者が自動バージョン管理、コンテナ管理、機密情報の処理などの複雑なタスクを簡単に実行できると同時に、チーム間のコラボレーションもサポートします。

- 高速コンピューティングリソースへのアクセス

AI Workbench はクライアントサーバーモードで展開されます。チームは、現時点ではローカルコンピューティングリソースで開発を行い、トレーニングタスクが大きくなったときにデータセンターまたはクラウドリソースに切り替えることができます。

安定した拡散XLカスタム画像生成

まず、AI Workbench を開いてリポジトリをクローンします。

次に、Jupyter Notebook で、Hugging Face から事前トレーニング済みの Stable Diffusion XL モデルを読み込み、「Toy Jensen in Space」を生成するように指示します。

しかし、出力画像を見ると、モデルはToy Jensenが誰なのか全く分かっていないことがわかります。

これで、DreamBooth を使用して、8 つの Toy Jensen 画像を使用してモデルを微調整できるようになりました。

最後に、UI で推論を再実行します。

Toy Jensen が誰であるかがわかったので、ニーズに合った画像を生成できます。

ハグフェイス最も強力なコンピューティングパワーにワンクリックでアクセス

AI開発者に最も人気のあるプラットフォームの1つとして、200万人のユーザー、25万以上のモデル、5万のデータセットを擁するHugging Faceも、今回NVIDIAとの協力に成功しました。

開発者は、Hugging Face プラットフォームを通じて NVIDIA DGX Cloud AI スーパーコンピューティングのサポートを直接受けられるようになり、AI モデルのトレーニングと微調整をより効率的に完了できるようになります。

各 DGX Cloud インスタンスには 8 個の H100 または A100 80GB GPU が搭載されており、各ノードには合計 640GB のビデオメモリがあり、トップレベルの AI ワークロードのパフォーマンス要件を満たすことができます。

さらに、NVIDIA は Hugging Face と連携して、企業が生成 AI モデルを作成およびカスタマイズするプロセスを簡素化する新しい「Training Cluster as a Service」サービスを開始します。

黄氏は興奮気味にこう語った。「今回、Hugging Face と NVIDIA は、世界最大の AI コミュニティと世界をリードするクラウド AI コンピューティングプラットフォームを真に結び付けました。Hugging Face ユーザーは、ワンクリックで NVIDIA の最も強力な AI コンピューティングパワーにアクセスできます。」

AIエンタープライズ4.0: エンタープライズグレードの生成AIのカスタマイズ

生成 AI の応用をさらに加速するために、NVIDIA はエンタープライズレベルのプラットフォーム NVIDIA AI Enterprise もバージョン 4.0 にアップグレードしました。

現在、AI Enterprise 4.0 は、企業に生成 AI に必要なツールを提供するだけでなく、本番環境への展開に必要なセキュリティと API の安定性も提供します。

- NVIDIA ネモ

大規模な言語モデルを構築、カスタマイズ、デプロイするためのクラウドネイティブフレームワーク。 NeMo により、NVIDIA AI Enterprise は大規模な言語モデルアプリケーションの作成とカスタマイズをエンドツーエンドでサポートします。

- NVIDIA Triton マネージドサービス

企業が本番環境の展開を自動化および最適化できるように支援し、Kubernetes に複数の推論サーバーインスタンスを自動的に展開し、モデルの調整を通じてスケーラブルな A の効率的な運用を実現できるようにします。

- NVIDIA Base Command Manager Essentials クラスタ管理ソフトウェア

企業がデータセンター、マルチクラウド、ハイブリッドクラウド環境における AI サーバーのパフォーマンスと利用率を最大化できるように支援します。

AI Enterprise 4.0 は、NVIDIA 自体に加えて、Google Cloud や Microsoft Azure などの他のパートナーにも統合されます。

さらに、Azure Machine Learning、ClearML、Domino Data Lab、Run:AI、Weights & Biases などの MLOps プロバイダーも NVIDIA AI プラットフォームとシームレスに統合され、生成 AI モデルの開発が簡素化されます。

Omniverse: メタバースに大規模言語モデルを追加する

最後に、NVIDIA Omniverse プラットフォームのアップデートがあります。

OpenUSD および AIGC ツールに接続すると、開発者は現実世界をシミュレートする 3D シーンとグラフィックスをより簡単に生成できるようになります。

写真

Omniverse はその名の通り、さまざまなツールを統合した 3D グラフィック制作コラボレーションプラットフォームとして位置付けられています。

写真

3D 開発者は、Lark や DingTalk のテキストエディターと同じように、Omniverse で 3D グラフィックスとシーンを共同で作成できます。

さらに、さまざまな 3D 制作ツールで生成された結果を Omniverse に直接統合できるため、3D グラフィックスとシーンの制作ワークフローが完全に開かれ、プロセスが簡素化されます。

オープンUSD

そして、今回のアップデートで接続される OpenUSD とは何でしょうか?

OpenUSD (Universal Scene Description) は、さまざまなブランドや種類の 3D 設計ソフトウェア間でのバリアフリーなコラボレーションを可能にする、オープンソースのユニバーサルシーン記述形式を提供します。

Omniverse 自体は USD システム上に構築されています。今回、Omniverse が OpenUSD にアップグレードされたことで、Omniverse は開発者や企業向けにさらに多くのフレームワークやリソースサービスを開始できるようになりました。

オープンソースの3D画像編集フォーマットであるOpenUSDをベースに、5社（Apple、Pixar、Adobe、Autodesk、NVIDIA）がAOUSDアライアンスを設立し、3D画像業界におけるOpenUSDフォーマットの採用をさらに推進しています。

さらに、AOUSDアライアンスの設立により、Omniverse開発者はAppleのARKitやRealityKitと互換性のあるさまざまな素材やコンテンツを簡単に作成することもできます。アップデート後、OmniverseはOpenXR標準もサポートし、HTC VIVE、Magic Leap、VajioなどのVRヘッドセットをサポートできるようになりました。