H100推理が8倍に急上昇! NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

H100推理が8倍に急上昇! NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

GPU が不足している人々は、その苦境に別れを告げようとしています。

NVIDIA は現在、H100 上で大規模言語モデルの推論を高速化できるオープンソース ソフトウェア TensorRT-LLM をリリースしました。

それで、何回改善できるのでしょうか?

TensorRT-LLM とその一連の最適化機能 (In-Flight バッチ処理を含む) を追加した後、全体的なモデル スループットが 8 倍に増加しました。

GPT-J-6B A100 と H100 の TensorRT-LLM の有無の比較

さらに、Llama 2を例にとると、A100のみを使用した場合と比較して、TensorRT-LLMは推論性能を4.6倍向上させることができます。

Llama 2 70B、A100、H100 と TensorRT-LLM の有無の比較

ネットユーザーによると、強力な H100 と TensorRT-LLM を組み合わせることで、大規模言語モデル推論の現状は間違いなく完全に変わるとのことです。

TensorRT-LLM: 大規模モデル推論を加速する強力なツール

現状では、大規模モデルのパラメータ規模が巨大であるため、「展開と推論」の難易度とコストは依然として高いままです。

NVIDIA が開発した TensorRT-LLM は、GPU を通じて LLM スループットを大幅に向上し、コストを削減することを目的としています。

具体的には、TensorRT-LLM は、TensorRT のディープラーニング コンパイラー、FasterTransformer の最適化されたカーネル、前処理と後処理、およびマルチ GPU/マルチノード通信を、シンプルなオープン ソース Python API にカプセル化します。

NVIDIA は FasterTransformer をさらに強化し、製品化されたソリューションにしました。

TensorRT-LLM は、使いやすく、オープンソースでモジュール化された Python アプリケーション プログラミング インターフェイスを提供していることがわかります。

コーダーは、さまざまな大規模言語モデルを展開、実行、デバッグし、最高のパフォーマンスと迅速なカスタマイズ機能を実現するために、C++ または CUDA の詳細な専門知識を必要としません。

Nvidia の公式ブログによると、TensorRT-LLM は 4 つの方法で Nvidia GPU 上の LLM 推論パフォーマンスを最適化します。

まず、現在の 10 を超える大規模モデルに対して、開発者がすぐに実行できるように TensorRT-LLM が導入されました。

2 番目に、オープンソース ソフトウェア ライブラリである TensorRT-LLM により、LLM は複数の GPU と複数の GPU サーバーで同時に推論を実行できるようになります。

サーバーはそれぞれ Nvidia の NVLink および InfiniBand 相互接続を介して接続されます。

3 つ目は「インフライト バッチング」です。これは、異なるモデル タスクが他のタスクとは独立して GPU に出入りできるようにする新しいスケジューリング テクノロジです。

最後に、TensorRT-LLM は、H100 Transformer Engine を活用してモデル推論中のメモリ使用量とレイテンシを削減するように最適化されています。

次に、TensorRT-LLM がモデルのパフォーマンスをどのように向上させるかを詳しく見てみましょう。

豊かなLLMエコシステムをサポート

TensorRT-LLM は、オープンソース モデル エコシステムに優れたサポートを提供します。

Meta の Llama 2-70B などの最大かつ最も高度な言語モデルでは、リアルタイムで応答を提供するために複数の GPU が連携して動作する必要があります。

以前は、LLM 推論の最適なパフォーマンスを実現するために、開発者は AI モデルを書き直し、手動で複数のフラグメントに分割し、GPU 間で実行を調整する必要がありました。

TensorRT-LLM はテンソル並列処理を使用して重み行列を各デバイスに分散し、このプロセスを簡素化して大規模で効率的な推論を可能にします。

各モデルは、開発者の介入やモデルの変更なしに、NVLink 経由で接続された複数の GPU および複数のサーバー上で並列に実行できます。

新しいモデルとモデル アーキテクチャが利用可能になると、開発者は TensorRT-LLM でオープン ソース化された最新の NVIDIA AI カーネルを使用してモデルを最適化できます。

GPT モデル実行のコンテキストと生成フェーズ向けの最先端の FlashAttention 実装と Masked Multi-Head Attention を含む Kernal Fusion をサポートしました。

さらに、TensorRT-LLM には、多くの一般的な大規模言語モデルの完全に最適化された、すぐに実行できるバージョンが含まれています。

これらには、Meta Llama 2、OpenAI GPT-2 および GPT-3、Falcon、Mosaic MPT、BLOOM など 10 を超えるモデルが含まれており、これらはすべてシンプルで使いやすい TensorRT-LLM Python API を使用して呼び出すことができます。

これらの機能により、開発者はさまざまな業界のさまざまなニーズを満たすカスタマイズされた大規模言語モデルをより迅速かつ正確に構築できるようになります。

飛行中のバッチ処理

大規模言語モデルは、今日ではさまざまなアプリケーションで使用されています。

チャットボットでの単純な質疑応答から、ドキュメントの要約や長いコード ブロックの生成まで、1 つのモデルを複数の一見異なるタスクに同時に使用できます。ワークロードは非常に動的であり、出力サイズはさまざまな規模のタスクのニーズを満たす必要があります。

タスクが多様であると、リクエストを効率的にバッチ処理して効率的に並列実行することが難しくなり、一部のリクエストが他のリクエストよりも早く完了する可能性があります。

これらの動的負荷を管理するために、TensorRT-LLM には「インフライト バッチング」と呼ばれる最適化されたスケジューリング手法が含まれています。

その基本原理は、大規模な言語モデルのテキスト生成プロセス全体を、モデル上の複数の実行反復に分解できることです。

インフライト バッチ処理では、TensorRT-LLM ランタイムは、バッチ全体が完了するまで待ってから次のリクエスト セットを続行するのではなく、バッチから完了したシーケンスを直ちに解放します。

新しいリクエストが実行されている間も、前のバッチでまだ完了していない他のリクエストは引き続き処理されます。

インフライト バッチ処理と追加のカーネル レベルの最適化により GPU の使用率が向上し、H100 での LLM リアルタイム リクエスト ベンチマークのスループットが少なくとも 2 倍になります。

FP8を使用したH100トランスフォーマーエンジン

TensorRT-LLM は、H100 Transformer Engine と呼ばれる機能も提供しており、大規模なモデル推論時のメモリ消費とレイテンシを効果的に削減できます。

LLM には数十億のモデル重みと活性化関数が含まれているため、通常は FP16 または BF16 値を使用してトレーニングおよび表現され、それぞれが 16 ビットのメモリを占有します。

ただし、推論時には、量子化技術を使用して、ほとんどのモデルを 8 ビットまたは 4 ビットの整数 (INT8 または INT4) などの低い精度で効率的に表現できます。

量子化とは、精度を犠牲にすることなく、モデルの重みとアクティベーションの精度を下げるプロセスです。精度を低くすると、各パラメータが小さくなり、モデルが GPU メモリで占めるスペースが少なくなります。

これにより、実行中のメモリ操作に費やす時間を短縮しながら、同じハードウェアを使用して大規模なモデルでの推論が可能になります。

H100 Transformer Engine テクノロジーにより、TensorRT-LLM を搭載した H100 GPU では、モデルの重みを新しい FP8 形式に簡単に変換し、最適化された FP8 カーネルを活用するためにモデルを自動的にコンパイルできるようになります。

このプロセスにはコードは必要ありません。 H100 で導入された FP8 データ形式により、開発者はモデルを量子化し、モデルの精度を犠牲にすることなくメモリ消費を大幅に削減できます。

INT8 や INT4 などの他のデータ形式と比較すると、FP8 量子化はより高い精度を維持しながら最速のパフォーマンスを実現し、実装が最も簡単です。

TensorRT-LLMの入手方法

TensorRT-LLMはまだ正式にリリースされていませんが、ユーザーはまずこれを体験することができます。

応募リンクは以下の通りです。

https://developer.nvidia.com/tensorrt-llm-early-access/join

NVIDIA はまた、TensorRT-LLM を NVIDIA NeMo フレームワークに近々統合する予定であると述べました。

このフレームワークは、NVIDIA が最近開始した AI Enterprise の一部であり、企業顧客に安全で安定した、管理しやすいエンタープライズ レベルの AI ソフトウェア プラットフォームを提供します。

開発者や研究者は、NVIDIA NGC の NeMo フレームワークまたは GitHub のプロジェクトを通じて TensorRT-LLM にアクセスできます。

ただし、このバージョンへの早期アクセスを申請するには、ユーザーは NVIDIA 開発者プログラムに登録する必要があることに注意してください。

ネットユーザーの間で熱い議論

Reddit のネットユーザーたちは TensorRT-LLM のリリースについて白熱した議論を交わしました。

LLM 専用にハードウェアを最適化した後、パフォーマンスがどの程度向上するかは想像しにくいです。

しかし、一部のネットユーザーは、この出来事の意義は黄氏がH100をもっと売るのに役立つことだと信じている。

しかし、一部のネットユーザーはこれにあまり同意していません。彼らは、Tensor RTはSDをローカルに展開するユーザーにとっても役立つため、RTX GPUを持っている限り、将来的に同様の製品の恩恵を受けることができるはずだと考えています。

よりマクロな視点で見ると、おそらく LLM の場合、一連のハードウェア レベルの最適化が行われ、将来的には LLM のパフォーマンスを向上させるために LLM 専用に設計されたハードウェアも登場するでしょう。この状況は実際に多くの一般的なアプリケーションで発生しており、LLM も例外ではありません。


<<:  世界がH100を奪い合っている! Nvidia が GPU の優位性を達成、主任科学者が成功の 4 つの要素を明らかに

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ChatGPTのiOS版はBing検索機能を統合しており、有料会員のみが利用可能

6月28日、OpenAIは今年5月にリリースしたChatGPTアプリのiOS版をリリースした。このア...

アンドリュー・ングのパレートの法則: データの 80% + モデルの 20% = より優れた機械学習

機械学習の進歩がモデルによってもたらされるのか、それともデータによってもたらされるのかは、今世紀の論...

スマート水利建設を加速する必要があり、ドローンが大きな推進力となる

夏の気温が上昇し続け、雨季が近づいているため、我が国の水利インフラは再び大きな試練に直面することにな...

普及モデルはどのようにして新しい世代の意思決定エージェントを構築するのでしょうか?自己回帰を超えて長いシーケンス計画軌道を生成する

部屋の中に立っていて、ドアに向かって歩こうとしていると想像してください。自己回帰を使用して、一歩ずつ...

...

遠隔管理+早期警告人工知能が危険物輸送の安全性を向上

2017年7月、国務院は「新世代人工知能開発計画」を発表し、人工知能が国家戦略の重要なツールとなって...

...

顔認識はどのようにして国民の個人情報を侵害するのでしょうか?犯罪者がアリペイを騙し取るために3D顔モデルを作成

[[360029]]記者 | 趙孟近年、顔認識技術の普及に伴い、国民の個人情報のセキュリティに関する...

人工知能が製造業のデジタル変革を推進

製造業における人工知能がデジタル変革を推進製造業における人工知能はデジタル変革を可能にし、より効果的...

...

...

...

...

教育は新世代の人工知能の発展を積極的に支援すべきである

[[250135]]習近平総書記は中国共産党中央委員会政治局第9回集団学習会で、人工知能は新たな科学...

ロボットが人間を攻撃、しかしテスラはそのニュースを隠蔽?マスク氏はこう答えた。

テスラのオプティマスロボットが労働者を攻撃? !マスク氏は噂を払拭するために緊急で姿を現し、事実を歪...