4090はA100の代替品になるのでしょうか?トークン生成速度はA100よりわずか18%低い。上海交通大学の推論エンジンが人気。

4090はA100の代替品になるのでしょうか?トークン生成速度はA100よりわずか18%低い。上海交通大学の推論エンジンが人気。

それだけでなく、PowerInfer は、モデルの精度を維持しながら、単一の RTX 4090 (24G) で Falcon (ReLU)-40B-FP16 を実行する場合、最先端のローカル LLM 推論フレームワーク llama.cpp と比較して 11 倍以上の高速化を実現します。

具体的には、PowerInfer はローカルに展開された LLM 用の高速推論エンジンです。複数のエキスパート システム (MoE) を採用するものとは異なり、PowerInfer は LLM 推論における高い局所性を活用して GPU-CPU ハイブリッド推論エンジンを巧みに設計します。

これは、頻繁にアクティブになるニューロン (ホット アクティブ) を GPU にプリロードして高速アクセスできるようにし、あまりアクティブにならないニューロン (コールド アクティブ) (大部分) は CPU で計算することによって機能します。

このアプローチにより、GPU メモリ要件と CPU-GPU データ転送が大幅に削減されます。

  • プロジェクトアドレス: https://github.com/SJTU-IPADS/PowerInfer
  • 論文アドレス: https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

PowerInfer は、単一のコンシューマー GPU を搭載した PC 上で LLM を高速に実行できます。ユーザーは PowerInfer を Llama 2 および Faclon 40B で使用できるようになりました。Mistral-7B のサポートも近日中に開始される予定です。

PowerInfer は 1 日で 2,000 個の星を獲得しました。

この研究を見たネットユーザーは興奮してこう述べた。「1枚の4090グラフィックカードで175Bの大型モデルを動かすのはもはや夢ではない。」


PowerInfer アーキテクチャ

PowerInfer の設計の鍵となるのは、ニューロン活性化のべき乗分布を特徴とする LLM 推論に固有の高度な局所性を活用することです。この分布は、ホット ニューロンと呼ばれるニューロンのごく一部が入力全体にわたって一貫して発火するのに対し、コールド ニューロンの大部分は特定の入力に応じて異なる発火をすることを示唆しています。 PowerInfer はこのメカニズムを使用して、GPU-CPU ハイブリッド推論エンジンを設計します。

下の図 7 は、オフライン コンポーネントとオンライン コンポーネントを含む PowerInfer のアーキテクチャの概要を示しています。オフライン コンポーネントは、LLM の活性化スパース性を処理し、ホット ニューロンとコールド ニューロンを区別します。オンライン フェーズでは、推論エンジンは両方のタイプのニューロンを GPU と CPU にロードし、実行時に低レイテンシで LLM 要求を処理します。

図 8 は、PowerInfer が GPU と CPU を調整してレイヤー間のニューロンを処理する方法を示しています。 PowerInfer は、オフライン データに基づいてニューロンを分類し、ホットにアクティブ化されたニューロン (インデックス 3、5、7 など) を GPU メモリに割り当て、その他のニューロンを CPU メモリに割り当てます。

入力を受け取ると、予測子は現在の層内のどのニューロンがアクティブになる可能性が高いかを識別します。オフライン統計分析によって識別されたホットアクティブニューロンは、実行時のアクティブ化動作と一致しない可能性があることに注意する必要があります。たとえば、ニューロン 7 は、ホット活性化とラベル付けされているものの、実際にはそうではありませんでした。次に、CPU と GPU の両方がアクティブになったニューロンを処理し、アクティブにならなかったニューロンを無視します。 GPU はニューロン 3 と 5 を計算し、CPU はニューロン 4 を処理します。ニューロン 4 の計算が完了すると、その出力は結果の統合のために GPU に送信されます。

実験

この研究では、67Bから175Bまでのさまざまなパラメータを持つOPTモデル、Falcon (ReLU)-40Bモデル、LLaMA (ReGLU)-70Bモデルを使用して実験を実施しました。 175B パラメータ モデルのサイズは GPT-3 モデルと同程度であることは注目に値します。

この論文では、PowerInfer と最先端のネイティブ LLM 推論フレームワークである llama.cpp も比較しています。比較を容易にするために、この研究では llama.cpp を拡張して OPT モデルをサポートしました。

このホワイト ペーパーでは低レイテンシ設定に焦点を当てているため、評価メトリックはエンドツーエンドの生成速度であり、1 秒あたりに生成されるトークンの数 (トークン/秒) として定量化されます。

この研究では、まずバッチ サイズ 1 で PowerInfer と llama.cpp のエンドツーエンドの推論パフォーマンスを比較します。

図10は、NVIDIA RTX 4090を搭載したPC-Highにおける各種モデルと入出力構成の生成速度を示しています。平均すると、PowerInfer は 8.32 トークン/秒、最大 16.06 トークン/秒の生成速度を達成します。これは llama.cpp よりも大幅に優れており、llama.cpp よりも 7.23 倍、Falcon-40B よりも 11.69 倍高速です。

出力トークンの数が増えるにつれて、生成フェーズが全体的な推論時間においてより重要な役割を果たすため、PowerInfer のパフォーマンス上の利点がより顕著になります。この段階では、CPU と GPU の両方で少数のニューロンがアクティブ化され、llama.cpp と比較して不要な計算が削減されます。たとえば、OPT-30B の場合、トークンが生成されるたびに約 20% のニューロンのみがアクティブになり、そのほとんどは GPU で処理されます。これは、PowerInfer のニューロン認識推論の利点です。

図 11 は、PC-Low では PowerInfer が llama.cpp に比べて大幅にパフォーマンスが向上し、平均で 5.01 倍、ピークで 7.06 倍の高速化を達成していることを示しています。ただし、これらの改善は PC-High と比較すると小さく、これは主に PC-Low の 11 GB GPU メモリ制限によるものです。この制限は、特に約 30B 以上のパラメータを持つモデルの場合、GPU に割り当てることができるニューロンの数に影響し、多数のアクティブ化されたニューロンを処理するために CPU への依存度が高まります。

図 12 は、PowerInfer と llama.cpp の CPU と GPU 間のニューロン負荷分散を示しています。 PC-High では、PowerInfer によって GPU のニューロン負荷の割合が平均 20% から 70% に大幅に増加していることは注目に値します。これは、GPU が活性化されたニューロンの 70% を処理することを示しています。ただし、11GB 2080Ti GPU で 60GB モデルを実行するなど、モデルのメモリ要件が GPU の容量を大幅に超える場合は、GPU のニューロン負荷は 42% に低下します。この低下は、GPU のメモリが限られており、すべてのホットアクティブニューロンを保持するには不十分であるため、CPU でこれらのニューロンの一部を計算する必要があるためです。

図 13 は、PowerInfer が INT4 量子化を使用して圧縮された LLM を効果的にサポートしていることを示しています。 PC-High では、PowerInfer の平均応答速度は 13.20 トークン/秒で、ピークは 29.08 トークン/秒です。 llama.cpp と比較すると、平均速度向上は 2.89 倍、最大速度向上は 4.28 倍です。 PC-Lowでは平均速度向上は5.01倍、ピーク速度向上は8.00倍です。量子化によりメモリ要件が削減されるため、PowerInfer はより大きなモデルをより効率的に管理できます。たとえば、PC-High で OPT-175B モデルを使用した実験では、PowerInfer は 1 秒あたりほぼ 2 トークンを達成し、llama.cpp を 2.66 倍上回りました。

最後に、この研究では、図 14 に示すように、さまざまなバッチ サイズでの PowerInfer のエンドツーエンドの推論パフォーマンスも評価しました。バッチ サイズが 32 未満の場合、PowerInfer は llama と比較して平均 6.08 倍のパフォーマンス向上を示し、大きな利点を示します。バッチ サイズが大きくなるにつれて、PowerInfer によって提供される高速化は減少します。ただし、バッチ サイズを 32 に設定した場合でも、PowerInfer は大幅な高速化を維持します。

参考リンク: https://weibo.com/1727858283/NxZ0Ttdnz

詳細については、原文論文をご覧ください。

<<:  Ctrip カスタマー サービス ロボット ASR エンジンの負荷分散の実践

>>: 

ブログ    
ブログ    
ブログ    

推薦する

チップ設計に特化したNVIDIAが、カスタマイズされた大規模言語モデルChipNeMoをリリース!

先日開幕した ICCAD 2023 カンファレンスで、NVIDIA チームは AI モデルを使用して...

SAIC Maxus、クローズドループエコシステム構築に向けた「RVスマートモビリティビジョン」を発表

2017年6月30日、第一回世界知能大会で上汽大通の「RVスマートモビリティビジョン」が盛大に発表さ...

人工知能、ディープラーニング、マシンビジョン、理解すべき概念

人工知能の概念は長年提唱されてきたが、最近の流行は「人間対機械」の競争で囲碁の世界的名人、イ・セドル...

...

遺伝的アルゴリズムとPython実装におけるいくつかの異なる選択演算子

序文この論文では、遺伝的アルゴリズムにおけるいくつかの選択戦略についてまとめています。比例ルーレット...

プロジェクト管理における人工知能の役割

人工知能 (AI) の台頭とさまざまな業界への統合の増加に伴い、プロジェクト管理も進化しています。 ...

データから診断へ: 緑内障検出のためのディープラーニング手法

緑内障は、世界中の無数の人々に回復不可能な失​​明を引き起こす障害の主な原因です。緑内障自体は、眼と...

Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成

翻訳者|朱 仙中レビュー | Chonglou概要:このブログでは、検索拡張生成と呼ばれるプロンプト...

OpenAI、「超知能」AIを制御するための新チームを発表

米国現地時間7月6日水曜日、人工知能の新興企業OpenAIは、「超知能」人工知能システムを誘導・制御...

速報です! ImageNetデータセット内のすべての顔はぼかされている

2012 年、AI 研究者はコンピューター ビジョンで大きな進歩を遂げ、ImageNet として知ら...

IBM Watson Healthの大規模レイオフによるAI導入の苦痛

少し前、The Register紙はIBMの内部情報筋が、ワトソン・ヘルス部門が従業員の約50%から...

...

AI を活用してインテリジェントな医療システムを構築するにはどうすればよいでしょうか?

近年、人工知能 (AI) はヘルスケア業界に変革をもたらす力となっています。 AI ベースのソフトウ...

機械学習は「原子幾何学」の秘密を明らかにし、数学の発展を促進した

代数多様体とその方程式。代数幾何学は、一方では方程式の研究である代数学、他方では図形の研究である幾何...

...