Llama2推論: RTX3090はレイテンシとスループットで4090を上回るが、A800には遠く及ばない

大規模言語モデル (LLM) は、学界と産業界の両方で大きな進歩を遂げてきました。しかし、LLM のトレーニングと展開には非常にコストがかかり、多くのコンピューティングリソースとメモリが必要になるため、研究者は LLM の事前トレーニング、微調整、推論を加速するための多くのオープンソースフレームワークとメソッドを開発してきました。ただし、ハードウェアスタックとソフトウェアスタックの実行時パフォーマンスは大きく異なる場合があり、最適な構成を選択することが困難になります。

最近、「大規模言語モデルのトレーニング、微調整、推論の実行時パフォーマンスの分析」というタイトルの新しい論文が発表され、マクロとミクロの両方の観点から LLM のトレーニング、微調整、推論の実行時パフォーマンスが詳細に分析されました。

論文アドレス: https://arxiv.org/pdf/2311.03687.pdf

具体的には、この研究ではまず、ZeRO、量子化、再計算、FlashAttention などの個別の最適化手法の有無にかかわらず、3 つの 8 GPU プラットフォーム上で事前トレーニング、微調整、および提供を行うために、さまざまなサイズ (7B、13B、70B パラメータ) の LLM のエンドツーエンドのパフォーマンスベンチマークを実施しました。次に、この研究では、LLM の計算演算子と通信演算子を含むサブモジュールの詳細な実行時分析をさらに提供します。

方法の紹介

この研究のベンチマークではトップダウンアプローチを採用しており、図 3 に示すように、3 つの 8 GPU ハードウェアプラットフォーム上の Llama2 のエンドツーエンドのステップ時間パフォーマンス、モジュールレベルの時間パフォーマンス、およびオペレーター時間パフォーマンスをカバーしています。

3 つのハードウェアプラットフォームは RTX4090、RTX3090、A800 であり、それぞれの具体的な仕様は以下の表 1 に示されています。

ソフトウェア面では、この研究では、事前トレーニングと微調整におけるDeepSpeedとMegatron-LMのエンドツーエンドのステップ時間を比較しました。最適化手法を評価するために、本研究ではDeepSpeedを使用して、ZeRO-2、ZeRO-3、オフロード、アクティベーション再計算、量子化、FlashAttentionの最適化を1つずつ有効にして、パフォーマンスの向上と時間とメモリ消費の削減を測定しました。

LLM サービスに関しては、vLLM、LightLLM、TGI という 3 つの高度に最適化されたシステムがあり、この調査では 3 つのテストプラットフォームでそれらのパフォーマンス (レイテンシとスループット) を比較します。

結果の正確性と再現性を確保するために、本研究では、一般的に使用されている LLM データセット alpaca の命令、入力、出力の平均長 (サンプルあたり 350 トークン) を計算し、ランダムに生成された文字列を使用して 350 のシーケンス長を達成しました。

推論サービスでは、コンピューティングリソースを総合的に活用し、フレームワークの堅牢性と効率性を評価するために、すべてのリクエストがバーストモードでスケジュールされます。実験データセットは 1000 個の合成文で構成され、各文には 512 個の入力トークンが含まれています。この研究では、結果の一貫性と比較可能性を確保するために、同じ GPU プラットフォーム上のすべての実験で「最大生成トークン長」パラメータを常に維持しました。

エンドツーエンドのパフォーマンス

この調査では、さまざまなサイズの Llama2 モデル (7B、13B、70B) の事前トレーニング、微調整、推論について、ステップ時間、スループット、メモリ消費などの指標を使用して、3 つのテストプラットフォームでエンドツーエンドのパフォーマンスを測定します。広く使用されている 3 つの推論サービスシステム (TGI、vLLM、LightLLM) が評価され、レイテンシ、スループット、メモリ消費などのメトリックに重点が置かれます。

モジュールレベルのパフォーマンス

LLM は通常、独自の計算特性と通信特性を持つ一連のモジュール (またはレイヤー) で構成されます。たとえば、Llama2 モデルを構成する主要なモジュールは、Embedding、LlamaDecoderLayer、Linear、SiLUActivation、および LlamaRMSNorm です。

事前トレーニングの結果

事前トレーニング実験では、研究者らはまず3つのテストプラットフォーム上で異なるサイズ（7B、13B、70B）のモデルの事前トレーニングパフォーマンス（反復時間またはスループット、メモリ消費量）を分析し、次にモジュールレベルと操作レベルでマイクロベンチマークテストを実施しました。

エンドツーエンドのパフォーマンス

研究者らはまず、Megatron-LM と DeepSpeed のパフォーマンスを比較する実験を実施しました。どちらも、A800-80GB サーバーで Llama2-7B を事前トレーニングする際に、メモリ最適化技術 (ZeRO など) を使用しませんでした。

彼らは 350 のシーケンス長を使用し、Megatron-LM と DeepSpeed に 1 から最大バッチサイズまでの範囲の 2 セットのバッチサイズを提供しました。結果は、以下の表 II に示されており、トレーニングスループット (トークン/秒) とコンシューマーグレードの GPU メモリ (GB 単位) をベンチマークしたものです。

結果は、バッチサイズが 1 の場合、Megatron-LM が DeepSpeed よりもわずかに高速であることを示しています。しかし、バッチサイズが最大になると、DeepSpeed のトレーニング速度が最も速くなります。バッチサイズが同じ場合、DeepSpeed はテンソル並列ベースの Megatron-LM よりも多くの GPU メモリを消費します。バッチサイズが小さい場合でも、両方のシステムは大量の GPU メモリを消費し、RTX4090 または RTX3090 GPU サーバーでメモリオーバーフローが発生します。

Llama2-7B（シーケンス長350、バッチサイズ2）をトレーニングする際、研究者は量子化を備えたDeepSpeedを使用して、さまざまなハードウェアプラットフォームでのスケーリング効率を調査しました。結果は下の図4に示されています。A800はほぼ線形拡張ですが、RTX4090とRTX3090の拡張効率はそれぞれ90.8%と85.9%とわずかに低くなっています。 RTX3090 プラットフォームでは、NVLink 接続により、NVLink なしの場合と比較して拡張効率が 10% 向上します。

研究者らはDeepSpeedを使用して、さまざまなメモリ効率と計算効率の高い方法のトレーニングパフォーマンスを評価しました。公平を期すために、すべての評価はシーケンス長 350、バッチサイズ 1 に設定され、デフォルトで読み込まれるモデルの重みは bf16 になります。

オフロード機能を備えた ZeRO-2 および ZeRO-3 では、それぞれオプティマイザーの状態とオプティマイザーの状態 + モデルが CPU RAM にオフロードされます。量子化には、二重量子化による 4 ビット構成を使用しました。また、NVLink が無効になっている場合 (つまり、すべてのデータが PCIe バス経由で転送される場合) の RTX3090 のパフォーマンスも報告されています。結果は下の表IIIに示されています。

研究者らは、各方法のバッチサイズを最大化してスループットを最大化することで、さまざまな GPU サーバーの計算能力をさらに活用しました。結果は以下の表 IV に示されており、バッチサイズを増やすとトレーニングプロセスが簡単に改善されることがわかります。したがって、高帯域幅と大容量メモリを備えた GPU サーバーは、コンシューマーグレードの GPU サーバーよりも、フルパラメータ混合精度トレーニングに適しています。

モジュールレベルの分析

以下の表 V は、単一ステップの事前トレーニング済み Llama2-7B モデルのフォワード、バックワード、およびオプティマイザーの全体および計算コア時間のコストを示しています。後方フェーズでは、合計時間に重複しない時間が含まれるため、計算コア時間は前方フェーズやオプティマイザーの時間よりもはるかに短くなります。後方位相から非重複時間を除くと、値は 94.8 になります。

再計算とFlashAttentionの影響

事前トレーニングを高速化する手法は、メモリを節約してバッチサイズを増やすことと、コンピューティングコアを高速化することの 2 つのカテゴリに大別できます。下の図 5 に示すように、GPU は、フォワード、バックワード、およびオプティマイザーフェーズ中に 5 ～ 10% の時間アイドル状態になります。

研究者たちは、このアイドル時間の原因はバッチサイズが小さいことにあると考え、すべての技術で使用できる最大のバッチサイズをテストしました。最後に、再計算を使用してバッチサイズを増やし、FlashAttention を使用してコア分析の計算を高速化します。

下の表 VII に示すように、バッチサイズが大きくなるにつれて、順方向フェーズと逆方向フェーズの時間が大幅に増加し、GPU のアイドル時間はほぼゼロになります。

下の表 VIII は、FlashAttention によって前方アテンションモジュールと後方アテンションモジュールの速度がそれぞれ 34.9% と 24.7% 向上することを示しています。

微調整の結果

微調整セッションでは、研究者らは主にパラメータ効率の良い微調整法（PEFT）について議論し、さまざまなモデルサイズとハードウェア設定でのLoRAとQLoRAの微調整パフォーマンスを実証しました。シーケンス長 350、バッチサイズ 1 を使用し、モデルの重みをデフォルトで bf16 にロードします。

結果は下の表 IX に示されています。LoRA と QLoRA で微調整された Llama2-13B のパフォーマンス傾向は、Llama2-7B の傾向と一致しています。 Llama2-13B を微調整した場合のスループットは、lama2-7B に比べて約 30% 低下します。

ただし、すべての最適化手法を組み合わせると、RTX4090 と RTX3090 でも Llama2-70B を微調整し、合計 200 トークン/秒のスループットを達成できます。

推論結果

エンドツーエンドのパフォーマンス

下の図 6 は、Llama2-70B の関連推論データを省略し、さまざまなハードウェアプラットフォームと推論フレームワークにおけるスループットの包括的な分析を示しています。 TGI フレームワークは、特に RTX3090 や RTX4090 などの 24GB のメモリを搭載した GPU で優れたスループットを示します。さらに、A800 GPU プラットフォームでの LightLLM のパフォーマンスは TGI や vLLM よりも大幅に優れており、スループットはほぼ 2 倍になります。

これらの実験結果は、TGI 推論フレームワークが 24GB メモリ GPU プラットフォームで優れたパフォーマンスを発揮し、LightLLM 推論フレームワークが A800 80GB GPU プラットフォームで最高のスループットを発揮することを示しています。この結果は、LightLLM が A800/A100 シリーズの高性能 GPU 向けに特別に最適化されていることを示しています。

さまざまなハードウェアプラットフォームと推論フレームワークでのレイテンシパフォーマンスを図 7、8、9、10 に示します。

要約すると、A800 プラットフォームは、スループットとレイテンシの点で、2 つのコンシューマーグレードプラットフォームである RTX4090 と RTX3090 よりも大幅に優れています。そして、2 つのコンシューマーレベルプラットフォームのうち、RTX3090 は RTX4090 よりもわずかに優れています。コンシューマーグレードのプラットフォームで実行する場合、3 つの推論フレームワーク (TGI、vLLM、LightLLM) ではスループットに大きな違いは見られません。対照的に、TGI はレイテンシの点では他の 2 つよりも一貫して優れています。 A800 GPU プラットフォームでは、LightLLM はスループットの点で最高のパフォーマンスを発揮し、そのレイテンシは TGI フレームワークのレイテンシに非常に近くなります。

詳しい実験結果については原著論文を参照してください。

<<: チューリング賞受賞者のヤン・ルカン氏への最新インタビュー: AI は世界を支配するだろうが、人類を征服することはない!

>>: トイレ掃除から純資産435億ドルへ！黄仁訓の成功の秘訣：時計を着けないこと