H100推理が8倍に急上昇！ NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

GPU が不足している人々は、その苦境に別れを告げようとしています。

NVIDIA は現在、H100 上で大規模言語モデルの推論を高速化できるオープンソースソフトウェア TensorRT-LLM をリリースしました。

それで、何回改善できるのでしょうか?

TensorRT-LLM とその一連の最適化機能 (In-Flight バッチ処理を含む) を追加した後、全体的なモデルスループットが 8 倍に増加しました。

GPT-J-6B A100 と H100 の TensorRT-LLM の有無の比較

さらに、Llama 2を例にとると、A100のみを使用した場合と比較して、TensorRT-LLMは推論性能を4.6倍向上させることができます。

Llama 2 70B、A100、H100 と TensorRT-LLM の有無の比較

ネットユーザーによると、強力な H100 と TensorRT-LLM を組み合わせることで、大規模言語モデル推論の現状は間違いなく完全に変わるとのことです。

TensorRT-LLM: 大規模モデル推論を加速する強力なツール

現状では、大規模モデルのパラメータ規模が巨大であるため、「展開と推論」の難易度とコストは依然として高いままです。

NVIDIA が開発した TensorRT-LLM は、GPU を通じて LLM スループットを大幅に向上し、コストを削減することを目的としています。

具体的には、TensorRT-LLM は、TensorRT のディープラーニングコンパイラー、FasterTransformer の最適化されたカーネル、前処理と後処理、およびマルチ GPU/マルチノード通信を、シンプルなオープンソース Python API にカプセル化します。

NVIDIA は FasterTransformer をさらに強化し、製品化されたソリューションにしました。

TensorRT-LLM は、使いやすく、オープンソースでモジュール化された Python アプリケーションプログラミングインターフェイスを提供していることがわかります。

コーダーは、さまざまな大規模言語モデルを展開、実行、デバッグし、最高のパフォーマンスと迅速なカスタマイズ機能を実現するために、C++ または CUDA の詳細な専門知識を必要としません。

Nvidia の公式ブログによると、TensorRT-LLM は 4 つの方法で Nvidia GPU 上の LLM 推論パフォーマンスを最適化します。

まず、現在の 10 を超える大規模モデルに対して、開発者がすぐに実行できるように TensorRT-LLM が導入されました。

2 番目に、オープンソースソフトウェアライブラリである TensorRT-LLM により、LLM は複数の GPU と複数の GPU サーバーで同時に推論を実行できるようになります。

サーバーはそれぞれ Nvidia の NVLink および InfiniBand 相互接続を介して接続されます。

3 つ目は「インフライトバッチング」です。これは、異なるモデルタスクが他のタスクとは独立して GPU に出入りできるようにする新しいスケジューリングテクノロジです。

最後に、TensorRT-LLM は、H100 Transformer Engine を活用してモデル推論中のメモリ使用量とレイテンシを削減するように最適化されています。

次に、TensorRT-LLM がモデルのパフォーマンスをどのように向上させるかを詳しく見てみましょう。

豊かなLLMエコシステムをサポート

TensorRT-LLM は、オープンソースモデルエコシステムに優れたサポートを提供します。

Meta の Llama 2-70B などの最大かつ最も高度な言語モデルでは、リアルタイムで応答を提供するために複数の GPU が連携して動作する必要があります。

以前は、LLM 推論の最適なパフォーマンスを実現するために、開発者は AI モデルを書き直し、手動で複数のフラグメントに分割し、GPU 間で実行を調整する必要がありました。

TensorRT-LLM はテンソル並列処理を使用して重み行列を各デバイスに分散し、このプロセスを簡素化して大規模で効率的な推論を可能にします。

各モデルは、開発者の介入やモデルの変更なしに、NVLink 経由で接続された複数の GPU および複数のサーバー上で並列に実行できます。

新しいモデルとモデルアーキテクチャが利用可能になると、開発者は TensorRT-LLM でオープンソース化された最新の NVIDIA AI カーネルを使用してモデルを最適化できます。

GPT モデル実行のコンテキストと生成フェーズ向けの最先端の FlashAttention 実装と Masked Multi-Head Attention を含む Kernal Fusion をサポートしました。

さらに、TensorRT-LLM には、多くの一般的な大規模言語モデルの完全に最適化された、すぐに実行できるバージョンが含まれています。

これらには、Meta Llama 2、OpenAI GPT-2 および GPT-3、Falcon、Mosaic MPT、BLOOM など 10 を超えるモデルが含まれており、これらはすべてシンプルで使いやすい TensorRT-LLM Python API を使用して呼び出すことができます。

これらの機能により、開発者はさまざまな業界のさまざまなニーズを満たすカスタマイズされた大規模言語モデルをより迅速かつ正確に構築できるようになります。

飛行中のバッチ処理

大規模言語モデルは、今日ではさまざまなアプリケーションで使用されています。

チャットボットでの単純な質疑応答から、ドキュメントの要約や長いコードブロックの生成まで、1 つのモデルを複数の一見異なるタスクに同時に使用できます。ワークロードは非常に動的であり、出力サイズはさまざまな規模のタスクのニーズを満たす必要があります。

タスクが多様であると、リクエストを効率的にバッチ処理して効率的に並列実行することが難しくなり、一部のリクエストが他のリクエストよりも早く完了する可能性があります。

これらの動的負荷を管理するために、TensorRT-LLM には「インフライトバッチング」と呼ばれる最適化されたスケジューリング手法が含まれています。

その基本原理は、大規模な言語モデルのテキスト生成プロセス全体を、モデル上の複数の実行反復に分解できることです。

インフライトバッチ処理では、TensorRT-LLM ランタイムは、バッチ全体が完了するまで待ってから次のリクエストセットを続行するのではなく、バッチから完了したシーケンスを直ちに解放します。

新しいリクエストが実行されている間も、前のバッチでまだ完了していない他のリクエストは引き続き処理されます。

インフライトバッチ処理と追加のカーネルレベルの最適化により GPU の使用率が向上し、H100 での LLM リアルタイムリクエストベンチマークのスループットが少なくとも 2 倍になります。

FP8を使用したH100トランスフォーマーエンジン

TensorRT-LLM は、H100 Transformer Engine と呼ばれる機能も提供しており、大規模なモデル推論時のメモリ消費とレイテンシを効果的に削減できます。

LLM には数十億のモデル重みと活性化関数が含まれているため、通常は FP16 または BF16 値を使用してトレーニングおよび表現され、それぞれが 16 ビットのメモリを占有します。

ただし、推論時には、量子化技術を使用して、ほとんどのモデルを 8 ビットまたは 4 ビットの整数 (INT8 または INT4) などの低い精度で効率的に表現できます。

量子化とは、精度を犠牲にすることなく、モデルの重みとアクティベーションの精度を下げるプロセスです。精度を低くすると、各パラメータが小さくなり、モデルが GPU メモリで占めるスペースが少なくなります。

これにより、実行中のメモリ操作に費やす時間を短縮しながら、同じハードウェアを使用して大規模なモデルでの推論が可能になります。

H100 Transformer Engine テクノロジーにより、TensorRT-LLM を搭載した H100 GPU では、モデルの重みを新しい FP8 形式に簡単に変換し、最適化された FP8 カーネルを活用するためにモデルを自動的にコンパイルできるようになります。

このプロセスにはコードは必要ありません。 H100 で導入された FP8 データ形式により、開発者はモデルを量子化し、モデルの精度を犠牲にすることなくメモリ消費を大幅に削減できます。

INT8 や INT4 などの他のデータ形式と比較すると、FP8 量子化はより高い精度を維持しながら最速のパフォーマンスを実現し、実装が最も簡単です。

TensorRT-LLMの入手方法

TensorRT-LLMはまだ正式にリリースされていませんが、ユーザーはまずこれを体験することができます。

応募リンクは以下の通りです。

https://developer.nvidia.com/tensorrt-llm-early-access/join

NVIDIA はまた、TensorRT-LLM を NVIDIA NeMo フレームワークに近々統合する予定であると述べました。

このフレームワークは、NVIDIA が最近開始した AI Enterprise の一部であり、企業顧客に安全で安定した、管理しやすいエンタープライズレベルの AI ソフトウェアプラットフォームを提供します。

開発者や研究者は、NVIDIA NGC の NeMo フレームワークまたは GitHub のプロジェクトを通じて TensorRT-LLM にアクセスできます。

ただし、このバージョンへの早期アクセスを申請するには、ユーザーは NVIDIA 開発者プログラムに登録する必要があることに注意してください。

ネットユーザーの間で熱い議論

Reddit のネットユーザーたちは TensorRT-LLM のリリースについて白熱した議論を交わしました。

LLM 専用にハードウェアを最適化した後、パフォーマンスがどの程度向上するかは想像しにくいです。

しかし、一部のネットユーザーは、この出来事の意義は黄氏がH100をもっと売るのに役立つことだと信じている。

しかし、一部のネットユーザーはこれにあまり同意していません。彼らは、Tensor RTはSDをローカルに展開するユーザーにとっても役立つため、RTX GPUを持っている限り、将来的に同様の製品の恩恵を受けることができるはずだと考えています。

よりマクロな視点で見ると、おそらく LLM の場合、一連のハードウェアレベルの最適化が行われ、将来的には LLM のパフォーマンスを向上させるために LLM 専用に設計されたハードウェアも登場するでしょう。この状況は実際に多くの一般的なアプリケーションで発生しており、LLM も例外ではありません。

<<: 世界がH100を奪い合っている！ Nvidia が GPU の優位性を達成、主任科学者が成功の 4 つの要素を明らかに

>>:

Google Bard「叙事詩」アップデート：カスタマイズされた中国語サービス、画像分析機能を公開

H100推理が8倍に急上昇！ NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

TensorRT-LLM: 大規模モデル推論を加速する強力なツール

豊かなLLMエコシステムをサポート

飛行中のバッチ処理

FP8を使用したH100トランスフォーマーエンジン

TensorRT-LLMの入手方法

ネットユーザーの間で熱い議論

Google Bard「叙事詩」アップデート：カスタマイズされた中国語サービス、画像分析機能を公開

Google がオールラウンドな音楽転写 AI を発表: 曲を一度聴くだけでピアノとバイオリンの楽譜がすべて手に入る

人工知能の波で私たちは職を失うのでしょうか？

高性能な PyTorch はどのように実現されるのでしょうか?経験豊富な専門家がまとめた落とし穴を避ける10のヒント

機械学習の問題を解決する一般的な方法があります!これを読んでください

企業内で AI 分析を導入し拡張する方法

Apple、新しいGPUアクセラレーションツールCreate MLをリリース

AIモデルは兆レベルの時代へと加速しており、中国のAIコンピューティングパワーは世界の30％を占めています

チャットテクノロジーと IoT セキュリティの将来はどうなるのでしょうか?

共感覚はAI労働者を刺激するために必要な条件

推薦する

GPU の無駄遣いをやめよう: FlashAttention がアップグレードされ、長いテキストの推論速度が 8 倍に向上

自律走行車の障害物回避、経路計画、制御技術の詳細な説明

MIT とハーバード大学が協力して、ニューラルネットワークが自身の強みを理解する方法を研究しています。

AI イニシアチブを成功させるために必要な 10 のこと

カーネルCF: 推薦システムのための最適リコール戦略

人工知能の知られざる歴史: 目に見えない女性プログラマーたち

サイバーセキュリティにおける AI: 誇大宣伝と現実

仮想通貨取引ロボットが手動取引に取って代わり、システム開発が進む

フロントエンドエンジニアは、これらの18のトリックをマスターすることで、ブラウザでディープラーニングを習得できます

通信 AI 市場は 2031 年に 388 億ドルに達すると予想されます。5G/6G と AI の統合により、さまざまなメリットがもたらされます。

Facebook、AIが著作権侵害を正確に識別できるようにソースデータ拡張ライブラリを公開: 100以上の拡張方法が提供される

マイクロソフトコンピュータビジョンイノベーション & リサーチフォーラム 1 日目: 3 つの最先端検出テクノロジの解説

Pytorch の核心であるオプティマイザを突破！！