Nvidia は、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソース ソフトウェアをリリースしました。

Nvidia は、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソース ソフトウェアをリリースしました。

Nvidia は最近、TensorRT-LLM と呼ばれる新しいオープンソース ソフトウェア スイートのリリースを発表しました。これは、Nvidia GPU 上の大規模言語モデル最適化の機能を拡張し、展開後の人工知能推論パフォーマンスの限界を押し上げます。

生成 AI ビッグ言語モデルは、その優れた機能により人気が高まり、人工知能の可能性を広げています。多くの業界で広く使用されており、ユーザーはチャットボットを通じて「データと対話」したり、大きな文書を要約したり、ソフトウェア コードを記述したり、情報を理解する新しい方法を発見したりできます。

「大規模言語モデルの推論はますます困難になっています」と、Nvidia のハイパースケールおよび高性能コンピューティング担当副社長の Ian Buck 氏は語ります。「モデルが複雑になり、よりスマートになり、より大きくなるのは当然ですが、モデルが単一の GPU を超えて拡張され、複数の GPU で実行する必要がある場合は課題になります。」

人工知能において、推論とは、要約、コードの生成、推奨事項の提供、質問への回答など、モデルがこれまでに見たことのない新しいデータを処理するプロセスです。これは、大規模な言語モデルの主力です。

モデル エコシステムが急速に拡大するにつれて、モデルはより大きく強力になり、モデルが大きくなりすぎて単一の GPU で同時に実行できなくなり、分割する必要が生じます。開発者とエンジニアは、リアルタイムで応答を得るために、ワークロードを手動で分離またはセグメント化し、実行を調整する必要があります。 TensorRT-LLM は、「テンソル並列処理」を通じてこの問題を解決し、複数の GPU にわたる大規模で効率的な推論を可能にします。

さらに、現在市場にはさまざまな大規模言語モデルが存在するため、Nvidia はコアを現在主流の大規模言語モデルに合わせて最適化しました。ソフトウェア スイートには、Meta Platform の Llama 2、OpenAI の GPT-2 および GPT-3、Falcon、MosaicMPT、BLOOM など、大規模言語モデルの完全に最適化された、すぐに実行できるバージョンが含まれています。

動的ワークロードのための「バッチオンザフライ」メカニズム

大規模言語モデルの性質上、モデルのワークロードは非常に動的になる可能性があります。ワークロードの要件とタスクの使用法は、時間の経過とともに変化する可能性があります。単一のモデルをチャットボットとして使用して質問したり回答したりできるほか、大きなドキュメントや短いドキュメントを要約するためにも使用できます。したがって、出力サイズはまったく異なる桁数になる可能性があります。

これらのさまざまなワークロードを処理するために、TensorRT-LLM は「オンザフライ バッチング」と呼ばれるメカニズムを導入します。これは、テキスト生成プロセスを複数のフラグメントに分割して GPU に出入りできるようにする最適化されたスケジューリング プロセスであり、新しいバッチを開始する前にワークロードのバッチ全体を完了する必要がありません。

以前は、非常に大きなドキュメントの要約抽出などの大きなリクエストがあった場合、キューを先に進める前に、後ろにあるすべての処理はそのプロセスが完了するまで待機する必要がありました。

Nvidia は、Meta、Cohere、Grammarly、Databricks、Tabnine など、多数のベンダーと協力して TensorRT-LLM を最適化してきました。彼らの協力により、Nvidia は、大規模言語モデルをカスタマイズするための新しいアーキテクチャを定義および最適化するためのオープンソースの Python アプリケーション ユーザー インターフェイスを含む、ソフトウェア スイートの機能とツールセットの合理化を継続してきました。

たとえば、MosaicML は、TensorRT-LLM を既存のソフトウェア スタックに統合するときに、TensorRT-LLM の上に追加機能を追加します。これは簡単なプロセスだとデータブリックスのエンジニアリング担当副社長、ナビーン・ラオ氏は言う。

「TensorRT-LLM は使いやすく、機能が豊富で (トークン ストリーミング、動的バッチ処理、ページ アテンション、量子化など)、効率的で、NVIDIA GPU を使用した大規模言語モデルの提供に最高のパフォーマンスを提供し、コスト削減をお客様に還元できます。」

Nvidia は、TensorRT-LLM とそれがもたらすオンザフライ バッチ処理などのメリットにより、Nvidia H100 を使用して記事の要約を抽出する推論パフォーマンスが 2 倍以上に向上すると主張しています。 GPT-J-6B モデルを使用した CNN/Daily Mail の記事要約の A100 テストでは、H100 単体では A100 より 4 倍高速で、TensorRT-LLM 最適化を有効にすると 8 倍高速になりました。

TensorRT-LLM は、開発者やエンジニアにディープラーニング コンパイラ、最適化された大規模言語モデル カーネル、前処理と後処理、マルチ GPU/マルチノード通信機能、シンプルなオープン ソース API を提供し、大規模言語モデルの作成のための推論を迅速に最適化して実行できるようにします。大規模な言語モデルがデータ センターを継続的に再形成するにつれて、企業のより高いパフォーマンスに対する需要は、開発者がこれまで以上に、より高いパフォーマンスの結果を実現するための機能とアクセスを提供するツールを必要とすることを意味します。

TensorRT-LLM ソフトウェア スイートは現在、Nvidia の開発者プログラムの開発者向けに早期アクセスが可能で、来月には、実稼働 AI 向けのエンドツーエンドのソフトウェア プラットフォームである Nvidia AI Enterprise の NeMo フレームワークに統合される予定です。

<<: 

>>:  Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成

ブログ    
ブログ    
ブログ    

推薦する

Mac専用の大型モデルフレームワークが登場! 2行のコードでデプロイでき、ローカルデータとチャットでき、中国語もサポートしています

Mac ユーザーは、ついに、RTX を使用した独自の大型モデル チャットを持つ N カード プレーヤ...

...

サイバーセキュリティの専門家が知っておくべきAI用語

人工知能の急速な発展により、私たちは第四次産業革命の真っ只中にいます。このデジタル時代において、サイ...

パーソナライズされたサービス + 5G アプリケーション IBM が 2022 年の 5 つの AI 予測を発表

2022年も、疫病やサプライチェーン危機などの悪影響は続くとみられ、AIに対する消費者の信頼獲得や気...

タイム誌のAI分野で最も影響力のある100人:フェイフェイ・リー、ジェンスン・ファン、ロビン・リー、イー・ゼンらが選出

ちょうど今、タイム誌が2023年にAI分野で最も影響力のある100人のリストを発表しました。このリス...

初心者のためのホームオートメーション完全ガイド

スマートホームはテクノロジーを活用して、居住者にさらなる利便性、節約、快適性、セキュリティを提供しま...

ディープラーニングにおける PyTorch と NumPy 間のデータ変換についてどれくらい知っていますか?

ディープラーニングでは、PyTorch と NumPy はデータの処理と変換によく使用される 2 つ...

機械学習を学ぶ必要がない5つの理由

機械学習を学び始めるべきだと言うインフルエンサーが増えています。彼らの言うことを聞くべきでしょうか?...

次世代産業用ロボットに対する人工知能(AI)の影響

[[389728]]大量生産される製品に対する需要が高まるにつれ、製品には高品質で信頼性が高く、より...

ChatGPTに勝つ? OpenChat が 105.7% のパフォーマンスでスタンフォード AlpacaEval オープンソース リストのトップに

一夜にして、新しいオープンソースモデル「OpenLLM」がChatGPTを打ち負かしたというニュース...

機械学習における 5 つのよくある問題点とその解決方法

[[394332]]機械学習のさまざまな使用例について聞いたことがあるかもしれません。たとえば、カン...

...

2020 年の企業向け最高の AI プラットフォーム

企業は長年にわたり、業務と分析を手作業で処理してきましたが、その結果、人件費と事務処理が増加し、最適...

製造業におけるロボット:脅威か、それともチャンスか?

過去10年間で製造業におけるロボットの使用が増加しています。先進オートメーション協会が最近発表した調...

...