Nvidia は最近、TensorRT-LLM と呼ばれる新しいオープンソース ソフトウェア スイートのリリースを発表しました。これは、Nvidia GPU 上の大規模言語モデル最適化の機能を拡張し、展開後の人工知能推論パフォーマンスの限界を押し上げます。 生成 AI ビッグ言語モデルは、その優れた機能により人気が高まり、人工知能の可能性を広げています。多くの業界で広く使用されており、ユーザーはチャットボットを通じて「データと対話」したり、大きな文書を要約したり、ソフトウェア コードを記述したり、情報を理解する新しい方法を発見したりできます。 「大規模言語モデルの推論はますます困難になっています」と、Nvidia のハイパースケールおよび高性能コンピューティング担当副社長の Ian Buck 氏は語ります。「モデルが複雑になり、よりスマートになり、より大きくなるのは当然ですが、モデルが単一の GPU を超えて拡張され、複数の GPU で実行する必要がある場合は課題になります。」 人工知能において、推論とは、要約、コードの生成、推奨事項の提供、質問への回答など、モデルがこれまでに見たことのない新しいデータを処理するプロセスです。これは、大規模な言語モデルの主力です。 モデル エコシステムが急速に拡大するにつれて、モデルはより大きく強力になり、モデルが大きくなりすぎて単一の GPU で同時に実行できなくなり、分割する必要が生じます。開発者とエンジニアは、リアルタイムで応答を得るために、ワークロードを手動で分離またはセグメント化し、実行を調整する必要があります。 TensorRT-LLM は、「テンソル並列処理」を通じてこの問題を解決し、複数の GPU にわたる大規模で効率的な推論を可能にします。 さらに、現在市場にはさまざまな大規模言語モデルが存在するため、Nvidia はコアを現在主流の大規模言語モデルに合わせて最適化しました。ソフトウェア スイートには、Meta Platform の Llama 2、OpenAI の GPT-2 および GPT-3、Falcon、MosaicMPT、BLOOM など、大規模言語モデルの完全に最適化された、すぐに実行できるバージョンが含まれています。 動的ワークロードのための「バッチオンザフライ」メカニズム大規模言語モデルの性質上、モデルのワークロードは非常に動的になる可能性があります。ワークロードの要件とタスクの使用法は、時間の経過とともに変化する可能性があります。単一のモデルをチャットボットとして使用して質問したり回答したりできるほか、大きなドキュメントや短いドキュメントを要約するためにも使用できます。したがって、出力サイズはまったく異なる桁数になる可能性があります。 これらのさまざまなワークロードを処理するために、TensorRT-LLM は「オンザフライ バッチング」と呼ばれるメカニズムを導入します。これは、テキスト生成プロセスを複数のフラグメントに分割して GPU に出入りできるようにする最適化されたスケジューリング プロセスであり、新しいバッチを開始する前にワークロードのバッチ全体を完了する必要がありません。 以前は、非常に大きなドキュメントの要約抽出などの大きなリクエストがあった場合、キューを先に進める前に、後ろにあるすべての処理はそのプロセスが完了するまで待機する必要がありました。 Nvidia は、Meta、Cohere、Grammarly、Databricks、Tabnine など、多数のベンダーと協力して TensorRT-LLM を最適化してきました。彼らの協力により、Nvidia は、大規模言語モデルをカスタマイズするための新しいアーキテクチャを定義および最適化するためのオープンソースの Python アプリケーション ユーザー インターフェイスを含む、ソフトウェア スイートの機能とツールセットの合理化を継続してきました。 たとえば、MosaicML は、TensorRT-LLM を既存のソフトウェア スタックに統合するときに、TensorRT-LLM の上に追加機能を追加します。これは簡単なプロセスだとデータブリックスのエンジニアリング担当副社長、ナビーン・ラオ氏は言う。 「TensorRT-LLM は使いやすく、機能が豊富で (トークン ストリーミング、動的バッチ処理、ページ アテンション、量子化など)、効率的で、NVIDIA GPU を使用した大規模言語モデルの提供に最高のパフォーマンスを提供し、コスト削減をお客様に還元できます。」 Nvidia は、TensorRT-LLM とそれがもたらすオンザフライ バッチ処理などのメリットにより、Nvidia H100 を使用して記事の要約を抽出する推論パフォーマンスが 2 倍以上に向上すると主張しています。 GPT-J-6B モデルを使用した CNN/Daily Mail の記事要約の A100 テストでは、H100 単体では A100 より 4 倍高速で、TensorRT-LLM 最適化を有効にすると 8 倍高速になりました。 TensorRT-LLM は、開発者やエンジニアにディープラーニング コンパイラ、最適化された大規模言語モデル カーネル、前処理と後処理、マルチ GPU/マルチノード通信機能、シンプルなオープン ソース API を提供し、大規模言語モデルの作成のための推論を迅速に最適化して実行できるようにします。大規模な言語モデルがデータ センターを継続的に再形成するにつれて、企業のより高いパフォーマンスに対する需要は、開発者がこれまで以上に、より高いパフォーマンスの結果を実現するための機能とアクセスを提供するツールを必要とすることを意味します。 TensorRT-LLM ソフトウェア スイートは現在、Nvidia の開発者プログラムの開発者向けに早期アクセスが可能で、来月には、実稼働 AI 向けのエンドツーエンドのソフトウェア プラットフォームである Nvidia AI Enterprise の NeMo フレームワークに統合される予定です。 |
>>: Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成
人工知能の登場以来、研究者たちはロボットに人間とゲームをさせることで機械システムの知能をテストしよう...
[51CTO.comより引用] 2017年1月9日にWeChatミニプログラムが正式リリースされて以...
一般的なデータ構造にはどのようなものがありますか? 基本的な操作は何ですか? 一般的なソート アルゴ...
教育の分野では、人工知能の倫理に関する人々の考え方には複数の道が存在します。例えば、主観に基づく検討...
[[189044]]昨年、自動運転車がニュージャージー州モンマス郡に侵入した。チップメーカーのNvi...
2022年北京冬季オリンピックが新たなニュースをもたらしました。冬季オリンピックでの「ブラックテク...
人工知能(AI)はノーベル賞の領域に入った。最近の研究により、人々にこのような感覚を与えるものが生み...
[[261230]]エイプリルフールは私たちにとってただ楽しい日です。親にとって、ネット上の噂は日々...
検索分野では、Google画像検索、Baidu画像検索、Taobaoの商品写真検索など、「類似画像・...