Nvidia は、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリースしました。

Nvidia は最近、TensorRT-LLM と呼ばれる新しいオープンソースソフトウェアスイートのリリースを発表しました。これは、Nvidia GPU 上の大規模言語モデル最適化の機能を拡張し、展開後の人工知能推論パフォーマンスの限界を押し上げます。

生成 AI ビッグ言語モデルは、その優れた機能により人気が高まり、人工知能の可能性を広げています。多くの業界で広く使用されており、ユーザーはチャットボットを通じて「データと対話」したり、大きな文書を要約したり、ソフトウェアコードを記述したり、情報を理解する新しい方法を発見したりできます。

「大規模言語モデルの推論はますます困難になっています」と、Nvidia のハイパースケールおよび高性能コンピューティング担当副社長の Ian Buck 氏は語ります。「モデルが複雑になり、よりスマートになり、より大きくなるのは当然ですが、モデルが単一の GPU を超えて拡張され、複数の GPU で実行する必要がある場合は課題になります。」

人工知能において、推論とは、要約、コードの生成、推奨事項の提供、質問への回答など、モデルがこれまでに見たことのない新しいデータを処理するプロセスです。これは、大規模な言語モデルの主力です。

モデルエコシステムが急速に拡大するにつれて、モデルはより大きく強力になり、モデルが大きくなりすぎて単一の GPU で同時に実行できなくなり、分割する必要が生じます。開発者とエンジニアは、リアルタイムで応答を得るために、ワークロードを手動で分離またはセグメント化し、実行を調整する必要があります。 TensorRT-LLM は、「テンソル並列処理」を通じてこの問題を解決し、複数の GPU にわたる大規模で効率的な推論を可能にします。

さらに、現在市場にはさまざまな大規模言語モデルが存在するため、Nvidia はコアを現在主流の大規模言語モデルに合わせて最適化しました。ソフトウェアスイートには、Meta Platform の Llama 2、OpenAI の GPT-2 および GPT-3、Falcon、MosaicMPT、BLOOM など、大規模言語モデルの完全に最適化された、すぐに実行できるバージョンが含まれています。

動的ワークロードのための「バッチオンザフライ」メカニズム

大規模言語モデルの性質上、モデルのワークロードは非常に動的になる可能性があります。ワークロードの要件とタスクの使用法は、時間の経過とともに変化する可能性があります。単一のモデルをチャットボットとして使用して質問したり回答したりできるほか、大きなドキュメントや短いドキュメントを要約するためにも使用できます。したがって、出力サイズはまったく異なる桁数になる可能性があります。

これらのさまざまなワークロードを処理するために、TensorRT-LLM は「オンザフライバッチング」と呼ばれるメカニズムを導入します。これは、テキスト生成プロセスを複数のフラグメントに分割して GPU に出入りできるようにする最適化されたスケジューリングプロセスであり、新しいバッチを開始する前にワークロードのバッチ全体を完了する必要がありません。

以前は、非常に大きなドキュメントの要約抽出などの大きなリクエストがあった場合、キューを先に進める前に、後ろにあるすべての処理はそのプロセスが完了するまで待機する必要がありました。

Nvidia は、Meta、Cohere、Grammarly、Databricks、Tabnine など、多数のベンダーと協力して TensorRT-LLM を最適化してきました。彼らの協力により、Nvidia は、大規模言語モデルをカスタマイズするための新しいアーキテクチャを定義および最適化するためのオープンソースの Python アプリケーションユーザーインターフェイスを含む、ソフトウェアスイートの機能とツールセットの合理化を継続してきました。

たとえば、MosaicML は、TensorRT-LLM を既存のソフトウェアスタックに統合するときに、TensorRT-LLM の上に追加機能を追加します。これは簡単なプロセスだとデータブリックスのエンジニアリング担当副社長、ナビーン・ラオ氏は言う。

「TensorRT-LLM は使いやすく、機能が豊富で (トークンストリーミング、動的バッチ処理、ページアテンション、量子化など)、効率的で、NVIDIA GPU を使用した大規模言語モデルの提供に最高のパフォーマンスを提供し、コスト削減をお客様に還元できます。」

Nvidia は、TensorRT-LLM とそれがもたらすオンザフライバッチ処理などのメリットにより、Nvidia H100 を使用して記事の要約を抽出する推論パフォーマンスが 2 倍以上に向上すると主張しています。 GPT-J-6B モデルを使用した CNN/Daily Mail の記事要約の A100 テストでは、H100 単体では A100 より 4 倍高速で、TensorRT-LLM 最適化を有効にすると 8 倍高速になりました。

TensorRT-LLM は、開発者やエンジニアにディープラーニングコンパイラ、最適化された大規模言語モデルカーネル、前処理と後処理、マルチ GPU/マルチノード通信機能、シンプルなオープンソース API を提供し、大規模言語モデルの作成のための推論を迅速に最適化して実行できるようにします。大規模な言語モデルがデータセンターを継続的に再形成するにつれて、企業のより高いパフォーマンスに対する需要は、開発者がこれまで以上に、より高いパフォーマンスの結果を実現するための機能とアクセスを提供するツールを必要とすることを意味します。

TensorRT-LLM ソフトウェアスイートは現在、Nvidia の開発者プログラムの開発者向けに早期アクセスが可能で、来月には、実稼働 AI 向けのエンドツーエンドのソフトウェアプラットフォームである Nvidia AI Enterprise の NeMo フレームワークに統合される予定です。

<<:

>>: Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成

ブログ

テレンス・タオ：私の数学的経験に基づくと、室温超伝導LK-99とその再現は非常に刺激的です

Nvidia は、ハイエンド GPU チップ上の AI モデルのパフォーマンスを向上させる TensorRT-LLM オープンソースソフトウェアをリリースしました。

動的ワークロードのための「バッチオンザフライ」メカニズム

テレンス・タオ：私の数学的経験に基づくと、室温超伝導LK-99とその再現は非常に刺激的です

コーディング能力はGPT-4を超え、このモデルはBig Codeランキングでトップとなり、YC創設者も賞賛している

人工知能の博士による記事では、分類と回帰評価指標について詳しく説明しています。機械学習の必読書です。

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

青いテスラモデルXが米国で中央分離帯に衝突し炎上

IoTとAIが出会うとき: テクノロジーの未来

「顔認証」の時代に「顔を守る」には？代表者と議員は顔認識に関する特別立法を実施し、不正なデータ収集を是正することを提案した。

人工知能の「ホットテクノロジー」をどう応用するか

推薦する

中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

米メディア記事：米中AI競争は東南アジアにとって何を意味するのか？

伝説のゲーム開発者カーマック氏：汎用人工知能は2030年に誕生する

AI を活用した会話型顧客体験の可能性を引き出す方法

自社開発のAIチップのトレンドが始まっており、テクノロジー依存からの脱却は始まりに過ぎない

線形ネットワークに基づく音声合成のための話者適応

人工知能が生き残るために頼りにしているビッグデータは、独占企業の手に渡ると本当に恐ろしいものになる

MITはディープラーニングが計算限界に近づいていると警告。ネットユーザー：減速は良いことだ

Google は患者の質問に答える医療 AI チャットボット Med-PaLM 2 を病院でテスト中

ガートナー：2025年までにデータセンターの半数がAI対応ロボットを導入

AIが初めて新型コロナウイルスの警告を発するのか？人工知能はあなたが思っている以上に信頼できるものです!

Nvidia H100 は GPT-3 を 11 分でトレーニングしました。PyTorch の創設者: 時間だけを見るのはやめましょう