4090はA100の代替品になるのでしょうか？トークン生成速度はA100よりわずか18%低い。上海交通大学の推論エンジンが人気。

それだけでなく、PowerInfer は、モデルの精度を維持しながら、単一の RTX 4090 (24G) で Falcon (ReLU)-40B-FP16 を実行する場合、最先端のローカル LLM 推論フレームワーク llama.cpp と比較して 11 倍以上の高速化を実現します。

具体的には、PowerInfer はローカルに展開された LLM 用の高速推論エンジンです。複数のエキスパートシステム (MoE) を採用するものとは異なり、PowerInfer は LLM 推論における高い局所性を活用して GPU-CPU ハイブリッド推論エンジンを巧みに設計します。

これは、頻繁にアクティブになるニューロン (ホットアクティブ) を GPU にプリロードして高速アクセスできるようにし、あまりアクティブにならないニューロン (コールドアクティブ) (大部分) は CPU で計算することによって機能します。

このアプローチにより、GPU メモリ要件と CPU-GPU データ転送が大幅に削減されます。

プロジェクトアドレス: https://github.com/SJTU-IPADS/PowerInfer
論文アドレス: https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

PowerInfer は、単一のコンシューマー GPU を搭載した PC 上で LLM を高速に実行できます。ユーザーは PowerInfer を Llama 2 および Faclon 40B で使用できるようになりました。Mistral-7B のサポートも近日中に開始される予定です。

PowerInfer は 1 日で 2,000 個の星を獲得しました。

この研究を見たネットユーザーは興奮してこう述べた。「1枚の4090グラフィックカードで175Bの大型モデルを動かすのはもはや夢ではない。」

PowerInfer アーキテクチャ

PowerInfer の設計の鍵となるのは、ニューロン活性化のべき乗分布を特徴とする LLM 推論に固有の高度な局所性を活用することです。この分布は、ホットニューロンと呼ばれるニューロンのごく一部が入力全体にわたって一貫して発火するのに対し、コールドニューロンの大部分は特定の入力に応じて異なる発火をすることを示唆しています。 PowerInfer はこのメカニズムを使用して、GPU-CPU ハイブリッド推論エンジンを設計します。

下の図 7 は、オフラインコンポーネントとオンラインコンポーネントを含む PowerInfer のアーキテクチャの概要を示しています。オフラインコンポーネントは、LLM の活性化スパース性を処理し、ホットニューロンとコールドニューロンを区別します。オンラインフェーズでは、推論エンジンは両方のタイプのニューロンを GPU と CPU にロードし、実行時に低レイテンシで LLM 要求を処理します。

図 8 は、PowerInfer が GPU と CPU を調整してレイヤー間のニューロンを処理する方法を示しています。 PowerInfer は、オフラインデータに基づいてニューロンを分類し、ホットにアクティブ化されたニューロン (インデックス 3、5、7 など) を GPU メモリに割り当て、その他のニューロンを CPU メモリに割り当てます。

入力を受け取ると、予測子は現在の層内のどのニューロンがアクティブになる可能性が高いかを識別します。オフライン統計分析によって識別されたホットアクティブニューロンは、実行時のアクティブ化動作と一致しない可能性があることに注意する必要があります。たとえば、ニューロン 7 は、ホット活性化とラベル付けされているものの、実際にはそうではありませんでした。次に、CPU と GPU の両方がアクティブになったニューロンを処理し、アクティブにならなかったニューロンを無視します。 GPU はニューロン 3 と 5 を計算し、CPU はニューロン 4 を処理します。ニューロン 4 の計算が完了すると、その出力は結果の統合のために GPU に送信されます。

実験

この研究では、67Bから175Bまでのさまざまなパラメータを持つOPTモデル、Falcon (ReLU)-40Bモデル、LLaMA (ReGLU)-70Bモデルを使用して実験を実施しました。 175B パラメータモデルのサイズは GPT-3 モデルと同程度であることは注目に値します。

この論文では、PowerInfer と最先端のネイティブ LLM 推論フレームワークである llama.cpp も比較しています。比較を容易にするために、この研究では llama.cpp を拡張して OPT モデルをサポートしました。

このホワイトペーパーでは低レイテンシ設定に焦点を当てているため、評価メトリックはエンドツーエンドの生成速度であり、1 秒あたりに生成されるトークンの数 (トークン/秒) として定量化されます。

この研究では、まずバッチサイズ 1 で PowerInfer と llama.cpp のエンドツーエンドの推論パフォーマンスを比較します。

図10は、NVIDIA RTX 4090を搭載したPC-Highにおける各種モデルと入出力構成の生成速度を示しています。平均すると、PowerInfer は 8.32 トークン/秒、最大 16.06 トークン/秒の生成速度を達成します。これは llama.cpp よりも大幅に優れており、llama.cpp よりも 7.23 倍、Falcon-40B よりも 11.69 倍高速です。

出力トークンの数が増えるにつれて、生成フェーズが全体的な推論時間においてより重要な役割を果たすため、PowerInfer のパフォーマンス上の利点がより顕著になります。この段階では、CPU と GPU の両方で少数のニューロンがアクティブ化され、llama.cpp と比較して不要な計算が削減されます。たとえば、OPT-30B の場合、トークンが生成されるたびに約 20% のニューロンのみがアクティブになり、そのほとんどは GPU で処理されます。これは、PowerInfer のニューロン認識推論の利点です。

図 11 は、PC-Low では PowerInfer が llama.cpp に比べて大幅にパフォーマンスが向上し、平均で 5.01 倍、ピークで 7.06 倍の高速化を達成していることを示しています。ただし、これらの改善は PC-High と比較すると小さく、これは主に PC-Low の 11 GB GPU メモリ制限によるものです。この制限は、特に約 30B 以上のパラメータを持つモデルの場合、GPU に割り当てることができるニューロンの数に影響し、多数のアクティブ化されたニューロンを処理するために CPU への依存度が高まります。

図 12 は、PowerInfer と llama.cpp の CPU と GPU 間のニューロン負荷分散を示しています。 PC-High では、PowerInfer によって GPU のニューロン負荷の割合が平均 20% から 70% に大幅に増加していることは注目に値します。これは、GPU が活性化されたニューロンの 70% を処理することを示しています。ただし、11GB 2080Ti GPU で 60GB モデルを実行するなど、モデルのメモリ要件が GPU の容量を大幅に超える場合は、GPU のニューロン負荷は 42% に低下します。この低下は、GPU のメモリが限られており、すべてのホットアクティブニューロンを保持するには不十分であるため、CPU でこれらのニューロンの一部を計算する必要があるためです。

図 13 は、PowerInfer が INT4 量子化を使用して圧縮された LLM を効果的にサポートしていることを示しています。 PC-High では、PowerInfer の平均応答速度は 13.20 トークン/秒で、ピークは 29.08 トークン/秒です。 llama.cpp と比較すると、平均速度向上は 2.89 倍、最大速度向上は 4.28 倍です。 PC-Lowでは平均速度向上は5.01倍、ピーク速度向上は8.00倍です。量子化によりメモリ要件が削減されるため、PowerInfer はより大きなモデルをより効率的に管理できます。たとえば、PC-High で OPT-175B モデルを使用した実験では、PowerInfer は 1 秒あたりほぼ 2 トークンを達成し、llama.cpp を 2.66 倍上回りました。

最後に、この研究では、図 14 に示すように、さまざまなバッチサイズでの PowerInfer のエンドツーエンドの推論パフォーマンスも評価しました。バッチサイズが 32 未満の場合、PowerInfer は llama と比較して平均 6.08 倍のパフォーマンス向上を示し、大きな利点を示します。バッチサイズが大きくなるにつれて、PowerInfer によって提供される高速化は減少します。ただし、バッチサイズを 32 に設定した場合でも、PowerInfer は大幅な高速化を維持します。

参考リンク: https://weibo.com/1727858283/NxZ0Ttdnz

詳細については、原文論文をご覧ください。

<<: Ctrip カスタマーサービスロボット ASR エンジンの負荷分散の実践

>>: