この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 彼はここにいます、彼はここにいます、Huang は Nvidia の最新世代の GPU を持ってここにいます。 5nm に関するこれまでの予想は間違っていました。驚いたことに、Huang 氏はTSMC の 4nmプロセスにすぐに進みました。 新しいカードはH100と名付けられ、新しいHopperアーキテクチャを採用しています。800億個のトランジスタを直接統合しており、これは前世代のA100より260億個多い数です。 コア数は前世代の A100 カードの 2.5 倍となる、前例のない16,896に急増しました。 浮動小数点演算とテンソルコア演算能力も少なくとも 3 倍向上しました。たとえば、FP32 は 1 秒あたり 60 兆回に達しました。 注目すべきは、H100 が AI コンピューティング向けに設計されており、 Transformer の最適化エンジンを搭載しており、大規模モデルのトレーニング速度を直接 6 倍に向上させることができることです。 (ついに、5,300億のパラメータを持つメガトロン・チューリングの秘密が分かりました。) 爆発的なパフォーマンスを備えた新しい GPU として、予期せぬことが起こらない限り、H100 は、その前身である V100 や A100 と同様に、AI 実践者が待ち望んでいる宝物になるでしょう。 しかし、消費電力も爆発的に増加し、前例のない700Wに達し、核爆弾のレベルに戻ったことも特筆すべき点です。 このカンファレンスでは、自社開発のGrace CPUに関する詳細も発表されました。 意外にも、Huang 氏は Cook 氏から1+1=2というトリックを学び、2 つの CPU を「接着」して CPU スーパー チップ、Grace CPU スーパーチップを形成しました。 Grace CPU は最新の Arm v9 アーキテクチャを採用しています。2 つの部品には合計 144 個のコアと 1TB/秒のメモリ帯域幅があり、これは Apple の最新の M1 Ultra の 800GB/秒よりもはるかに高いものです。 このカンファレンスでは、新しいCPUとGPUの基本ハードウェアをベースに、次世代のエンタープライズレベルのAIインフラストラクチャDXG H100と世界最速のAIスーパーコンピューターEosも紹介されました。 もちろん、メタバースの真の先駆者として、NVIDIA は Omniverse の新たな開発とも切り離せない関係にあります。 以下で詳しく見てみましょう。 大幅なパフォーマンス向上を実現した初のホッパーアーキテクチャGPU前世代のGPUアーキテクチャA100(Ampereアーキテクチャ)の後継として、新たなHopperアーキテクチャを搭載したH100はどれほどの進化を遂げたのだろうか。 さっそく、パラメータは以下のとおりです。 黄氏は多額の資金を投入し、まずTSMCの4nmプロセスを直接採用し、 800億個のトランジスタを一気に集積した。 ご存知のとおり、前世代のA100は7nmアーキテクチャに過ぎませんでした。今回の記者会見の前に、多くの外部の人が黄氏が5nmプロセスを採用すると推測していました。その結果、リリースされるとすぐに皆に大きな驚きを与えました。 最も恐ろしいのは、CUDA コアの数が16,896 個に急増し、A100 の約 2.5 倍になったことです。 (コア数はV100からA100までわずかに増加しただけであることに注意してください) 今度は、老黄のナイフの技術の正確さにもう驚嘆することはできない。 浮動小数点演算やINT8/FP16/TF32/FP64テンソル演算を見ると、基本的にパフォーマンスが3倍以上向上しています。比較すると、前2世代のアーキテクチャのアップグレードは軽微なようです。 これにより、H100 の熱消費電力 (TDP) も前例のない700Wに直接到達し、Nvidia の「核爆弾工場」はまさにその名にふさわしいものとなりました (手動犬頭)。 さらに、今回の H100 は PCle 5.0 と HBM3 をサポートする最初の GPU でもあり、データ処理速度がさらに向上し、メモリ帯域幅は 3TB/s に達します。 コンセプトは何ですか? 老黄氏は記者会見で不思議な笑みを浮かべた。「H100を20台持っていれば、世界中のインターネットトラフィックが手に入ります。」 全体的なパラメータの詳細は、前世代の A100 および V100 と比較することで確認できます。 △画像出典 @anandtech 特筆すべきは、Hopper アーキテクチャに基づく新しい GPU と NVIDIA CPU Grace の名前が組み合わさって、有名な女性コンピューター科学者Grace Hopperの名前が形成され、NVIDIA が自社のスーパーチップの名前にも使用していることです。 グレース・ホッパーは世界初のコンパイラと COBOL 言語を発明し、「コンピュータ ソフトウェア エンジニアリングのファーストレディ」として知られています。 たった1日で3,950億パラメータのモデルをトレーニングもちろん、Hopper の新機能は単なるパラメータ以上のものです。 今回、黄氏は記者会見でホッパーに初めて搭載されたトランスフォーマーエンジンについて具体的に言及した。 Transformers 専用に構築されたこのツールにより、これらのモデルはトレーニング中に同じ精度を維持し、パフォーマンスを6 倍向上させることができます。つまり、トレーニング時間が数週間から数日に短縮されます。 どのように表現すればいいでしょうか? さて、 GPT-3を1750億のパラメータで訓練しているかどうか 3,950億個のパラメータを持つ大規模なTransformerモデル(19時間)でも、3,950億個のパラメータを持つ大規模なTransformerモデル(21時間)でも、H100はトレーニング時間を1週間から1日に短縮し、速度を最大9倍向上させます。 推論性能も大幅に向上しており、例えば5300億 MegatronモデルはH100で推論する場合、スループットがA100の30倍高く、応答遅延は1秒に短縮されており、完璧に保たれていると言えます。 確かに、Nvidia はトランスフォーマー分野に躍進を遂げたと言わざるを得ません。 これに先立ち、NVIDIA の一連の GPU 最適化設計は基本的に畳み込みアーキテクチャを対象としており、まるで額に「畳み込みが大好き」という言葉を印刷しているかのようでした。 それは最近トランスフォーマーが大人気だから。 (手動犬頭) もちろん、H100のハイライトはそれだけではありません。NVIDIAは、H100と一連のNVIDIAチップに加えて、 NVLink第 4 世代相互接続テクノロジー。 つまり、チップスタックがより効率的になり、I/O 帯域幅が 900GB/s に拡張されます。 今回、黄氏はインスタンス間の分離保護や新しい GPU の機密コンピューティング機能など、GPU のセキュリティについても強調しました。 もちろん数学の計算能力も向上しました。 H100 の新しい DPX 命令は動的プログラミングを高速化し、計算パスの最適化やゲノミクスを含む一連の動的プログラミング アルゴリズムを実行する際の速度を 7 倍向上させます。 Lao Huang氏によると、H100は今年第3四半期に出荷可能になる予定で、ネットユーザーらは「おそらく安くはないだろう」と冗談を飛ばした。 現在、H100 には 2 つのバージョンがあります。 1つは高性能サーバーで使用される最大700Wの電力を備えたSXMで、もう1つはより主流のサーバーPCIeに適しており、その消費電力は前世代のA100の300Wよりも50W高くなっています。 4608台のH100で世界最速のAIスーパーコンピュータを構築H100がリリースされた今、黄氏は当然ながらスーパーコンピューターを構築する機会を逃すことはないだろう。 H100 をベースにした最新の DGX H100 コンピューティング システムにも、前世代の「オーブン」と同様に 8 つの GPU が搭載されています。 違いは、DGX H100 システムが FP8 精度で 32 ペタフロップスの AI パフォーマンスを実現していることです。これは、前世代の DGX A100 システムよりも6 倍高い数値です。 GPU間の接続速度も高速化しており、速度は900GB/秒と前世代の約1.5倍となっています。 最も重要なのは、今回NVIDIAもDGX H100をベースにしたEosスーパーコンピューターを構築し、AIスーパーコンピューター業界でトップクラスの性能を実現したことだ。 AIコンピューティング性能だけでも18.4エクサフロップスと、日本のスーパーコンピューター「富岳」の4倍の速度を誇る。 このスーパーコンピュータには 576 台の DGX H100 システムが搭載されており、そのうち 4608 台の H100 が直接使用されています。 従来の科学計算でも、計算能力は275ペタフロップスに達する。 (富岳は442ペタフロップス)なので、トップ5のスーパーコンピュータに入るのは問題ありません。 「組み立て済み」CPU、実行スコアはTOP1このGTCカンファレンスで、黄氏はスーパーサーバーチップGraceについて言及しました。 これは昨年4月のGTCカンファレンスで発表された。その時と同じように、黄氏は「2023年に出荷開始予定だが、いずれにせよ今年中に発売するのは不可能だ」と述べた。 しかし、グレースのパフォーマンスは「驚くべき進歩」をしており、特筆に値する。 これは 2 つのスーパーチップで使用されます。 1 つはGrace Hopper スーパー チップで、Grace CPU と Hopper アーキテクチャ GPU で構成される単一の MCM です。 1つはGrace CPUスーパーチップで、NVIDIA NVLink-C2Cテクノロジーで相互接続された2つのGrace CPUで構成され、144個のArmコアを含み、最大1TB/秒のメモリ帯域幅を備えています。帯域幅が2倍になっているのに、消費電力は「わずか」500ワットです。 Appleが新たに発表したM1 Ultraを思い浮かべずにはいられない。チップ間の相互接続技術の進歩により、「組み立て」がチップ業界の大きなトレンドになったようだ。 Grace スーパーチップは、SPECrate®2017_int_base ベンチマークで 740 ポイントのシミュレーション パフォーマンスを達成しました。これは、現在の DGX A100 CPU (460 ポイント) の 1.5 倍に相当します。 Grace スーパーチップは、すべての NVIDIA コンピューティング プラットフォームで実行できます。独立した純粋な CPU システムとして使用することも、NVLink-C2C テクノロジを使用して Hopper アーキテクチャに基づく 1 ~ 8 個の GPU を搭載する GPU アクセラレーション サーバーとして使用することもできます。 (まあ、私が話し終えたちょうどその時、黄さんのチップスタックは積み上げられていました。) NVIDIAが NVLink-C2C をサードパーティのカスタム チップに開放したことは注目に値します。 これは、カスタム ダイと NVIDIA GPU、CPU、DPU、NIC、SOC 間の一貫した相互接続を可能にする、超高速のチップ間、ダイ間の相互接続テクノロジです。 おそらく、任天堂の新しい携帯ゲーム機に期待できるのではないでしょうか。 産業もメタバースで発展する必要があるもちろん、NVIDIA は上記の内容に加えて、今回、産業用途に関する事例も数多く公開しました。 自動運転であれ、仮想工場のデジタルツインなどのシナリオであれ、それらはすべてコンピューターレンダリングやシミュレーション技術と密接に関連しています。 Nvidiaは、仮想環境でのシミュレーションを通じて、産業界もAIトレーニング用のデータ量を増やすことができると考えています。つまり、「メタバースで大規模なトレーニングを実施できる」ということです。 たとえば、AI インテリジェント運転をメタバースで「練習」させ、シミュレートされたデータを使用して半現実の環境を作成し、突然の障害を引き起こす可能性のある環境シミュレーションをいくつか追加します。 例えば、実際の環境と同じ比率、同じパラメータで「デジタル工場」を構築し、構築前に試運転を開始することで、環境内で起こり得る問題を迅速に特定することができます。 デジタルツインに加えて、デジタル資産の生成も、メタバース構築の初期段階で考慮する必要がある重要な部分です。 この点に関して、NVIDIA は、いつでもどこでもクラウド上でのコラボレーションを可能にするOmniverse Cloudを立ち上げました。 最も興味深いのは、今回の記者会見でAI駆動型バーチャルキャラクターシステムも実演されたことだ。 現実世界では 3 日間で、仮想キャラクターはメタバースでの強化学習を通じて 10 年間のハードワークを実践します。 一度スキルを身につければ、ゲームでもアニメでも優れた「アクション俳優」になれます。 アニメーション生成に使用する場合、ボーンやKフレームをバインドする必要がなく、実際の俳優と監督がコミュニケーションをとるのと同じように、自然言語で指示を出すことができるため、開発プロセスが大幅に短縮されます。 メタバースのインフラストラクチャに関しては、 Huang 氏に頼る必要があります。 Venturebeat は「これらの事例はメタバースに真の意味を与える」とコメントした。 それで、Nvidia の Omniverse の見通しについて楽観的ですか? 詳細については、スピーチ全文(中国語字幕付き)をクリックしてください:https://www.nvidia.cn/gtc-global/keynote/?nvid=nv-int-bnr-223538&sfdcid=Internal_banners |
<<: このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。
>>: バイトダンスの最新のテキスト生成画像AIには、トレーニングセットにテキスト説明付きの画像が含まれていません。
全米経済研究所が実施した最近の調査によると、ChatGPT のような AIGC を導入すると、従業員...
以前、オープンソース プロジェクトをやったことがあります。GitHub ログインが完成した後、もっと...
優れた AI システムは、企業に大きな競争上の優位性をもたらすことができます。理論的には、AI と機...
パンデミック以前は、AIの導入は世間の関心を集めていたものの、人々はまだAIの長所と短所、ビジネスへ...
人工知能は、コンピューターが人間と同様のレベルの知能を発揮できるようにするさまざまな技術を網羅する幅...
2023 年には、AI、ML、特に GenAI があらゆるところに存在しますが、内容よりもパフォーマ...
他のインターネットの概念と同様に、AI は人気が出ると数え切れないほどの支持者を獲得しました。彼らは...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...