Llama2推論: RTX3090はレイテンシとスループットで4090を上回るが、A800には遠く及ばない

Llama2推論: RTX3090はレイテンシとスループットで4090を上回るが、A800には遠く及ばない

大規模言語モデル (LLM) は、学界と産業界の両方で大きな進歩を遂げてきました。しかし、LLM のトレーニングと展開には非常にコストがかかり、多くのコンピューティング リソースとメモリが必要になるため、研究者は LLM の事前トレーニング、微調整、推論を加速するための多くのオープン ソース フレームワークとメソッドを開発してきました。ただし、ハードウェア スタックとソフトウェア スタックの実行時パフォーマンスは大きく異なる場合があり、最適な構成を選択することが困難になります。

最近、「大規模言語モデルのトレーニング、微調整、推論の実行時パフォーマンスの分析」というタイトルの新しい論文が発表され、マクロとミクロの両方の観点から LLM のトレーニング、微調整、推論の実行時パフォーマンスが詳細に分析されました。

論文アドレス: https://arxiv.org/pdf/2311.03687.pdf

具体的には、この研究ではまず、ZeRO、量子化、再計算、FlashAttention などの個別の最適化手法の有無にかかわらず、3 つの 8 GPU プラットフォーム上で事前トレーニング、微調整、および提供を行うために、さまざまなサイズ (7B、13B、70B パラメータ) の LLM のエンドツーエンドのパフォーマンス ベンチマークを実施しました。次に、この研究では、LLM の計算演算子と通信演算子を含むサブモジュールの詳細な実行時分析をさらに提供します。

方法の紹介

この研究のベンチマークではトップダウン アプローチを採用しており、図 3 に示すように、3 つの 8 GPU ハードウェア プラットフォーム上の Llama2 のエンドツーエンドのステップ時間パフォーマンス、モジュール レベルの時間パフォーマンス、およびオペレーター時間パフォーマンスをカバーしています。

3 つのハードウェア プラットフォームは RTX4090、RTX3090、A800 であり、それぞれの具体的な仕様は以下の表 1 に示されています。

ソフトウェア面では、この研究では、事前トレーニングと微調整におけるDeepSpeedとMegatron-LMのエンドツーエンドのステップ時間を比較しました。最適化手法を評価するために、本研究ではDeepSpeedを使用して、ZeRO-2、ZeRO-3、オフロード、アクティベーション再計算、量子化、FlashAttentionの最適化を1つずつ有効にして、パフォーマンスの向上と時間とメモリ消費の削減を測定しました。

LLM サービスに関しては、vLLM、LightLLM、TGI という 3 つの高度に最適化されたシステムがあり、この調査では 3 つのテスト プラットフォームでそれらのパフォーマンス (レイテンシとスループット) を比較します。

結果の正確性と再現性を確保するために、本研究では、一般的に使用されている LLM データセット alpaca の命令、入力、出力の平均長 (サンプルあたり 350 トークン) を計算し、ランダムに生成された文字列を使用して 350 のシーケンス長を達成しました。

推論サービスでは、コンピューティング リソースを総合的に活用し、フレームワークの堅牢性と効率性を評価するために、すべてのリクエストがバースト モードでスケジュールされます。実験データセットは 1000 個の合成文で構成され、各文には 512 個の入力トークンが含まれています。この研究では、結果の一貫性と比較可能性を確保するために、同じ GPU プラットフォーム上のすべての実験で「最大生成トークン長」パラメータを常に維持しました。

エンドツーエンドのパフォーマンス

この調査では、さまざまなサイズの Llama2 モデル (7B、13B、70B) の事前トレーニング、微調整、推論について、ステップ時間、スループット、メモリ消費などの指標を使用して、3 つのテスト プラットフォームでエンドツーエンドのパフォーマンスを測定します。広く使用されている 3 つの推論サービス システム (TGI、vLLM、LightLLM) が評価され、レイテンシ、スループット、メモリ消費などのメトリックに重点が置かれます。

モジュールレベルのパフォーマンス

LLM は通常、独自の計算特性と通信特性を持つ一連のモジュール (またはレイヤー) で構成されます。たとえば、Llama2 モデルを構成する主要なモジュールは、Embedding、LlamaDecoderLayer、Linear、SiLUActivation、および LlamaRMSNorm です。

事前トレーニングの結果

事前トレーニング実験では、研究者らはまず3つのテストプラットフォーム上で異なるサイズ(7B、13B、70B)のモデルの事前トレーニングパフォーマンス(反復時間またはスループット、メモリ消費量)を分析し、次にモジュールレベルと操作レベルでマイクロベンチマークテストを実施しました。

エンドツーエンドのパフォーマンス

研究者らはまず、Megatron-LM と DeepSpeed のパフォーマンスを比較する実験を実施しました。どちらも、A800-80GB サーバーで Llama2-7B を事前トレーニングする際に、メモリ最適化技術 (ZeRO など) を使用しませんでした。

彼らは 350 のシーケンス長を使用し、Megatron-LM と DeepSpeed に 1 から最大バッチ サイズまでの範囲の 2 セットのバッチ サイズを提供しました。結果は、以下の表 II に示されており、トレーニング スループット (トークン/秒) とコンシューマー グレードの GPU メモリ (GB 単位) をベンチマークしたものです。

結果は、バッチ サイズが 1 の場合、Megatron-LM が DeepSpeed よりもわずかに高速であることを示しています。しかし、バッチサイズが最大になると、DeepSpeed のトレーニング速度が最も速くなります。バッチサイズが同じ場合、DeepSpeed はテンソル並列ベースの Megatron-LM よりも多くの GPU メモリを消費します。バッチ サイズが小さい場合でも、両方のシステムは大量の GPU メモリを消費し、RTX4090 または RTX3090 GPU サーバーでメモリ オーバーフローが発生します。

Llama2-7B(シーケンス長350、バッチサイズ2)をトレーニングする際、研究者は量子化を備えたDeepSpeedを使用して、さまざまなハードウェアプラットフォームでのスケーリング効率を調査しました。結果は下の図4に示されています。A800はほぼ線形拡張ですが、RTX4090とRTX3090の拡張効率はそれぞれ90.8%と85.9%とわずかに低くなっています。 RTX3090 プラットフォームでは、NVLink 接続により、NVLink なしの場合と比較して拡張効率が 10% 向上します。

研究者らはDeepSpeedを使用して、さまざまなメモリ効率と計算効率の高い方法のトレーニング パフォーマンスを評価しました。公平を期すために、すべての評価はシーケンス長 350、バッチ サイズ 1 に設定され、デフォルトで読み込まれるモデルの重みは bf16 になります。

オフロード機能を備えた ZeRO-2 および ZeRO-3 では、それぞれオプティマイザーの状態とオプティマイザーの状態 + モデルが CPU RAM にオフロードされます。量子化には、二重量子化による 4 ビット構成を使用しました。また、NVLink が無効になっている場合 (つまり、すべてのデータが PCIe バス経由で転送される場合) の RTX3090 のパフォーマンスも報告されています。結果は下の表IIIに示されています。

研究者らは、各方法のバッチ サイズを最大化してスループットを最大化することで、さまざまな GPU サーバーの計算能力をさらに活用しました。結果は以下の表 IV に示されており、バッチ サイズを増やすとトレーニング プロセスが簡単に改善されることがわかります。したがって、高帯域幅と大容量メモリを備えた GPU サーバーは、コンシューマーグレードの GPU サーバーよりも、フルパラメータ混合精度トレーニングに適しています。

モジュールレベルの分析

以下の表 V は、単一ステップの事前トレーニング済み Llama2-7B モデルのフォワード、バックワード、およびオプティマイザーの全体および計算コア時間のコストを示しています。後方フェーズでは、合計時間に重複しない時間が含まれるため、計算コア時間は前方フェーズやオプティマイザーの時間よりもはるかに短くなります。後方位相から非重複時間を除くと、値は 94.8 になります。

再計算とFlashAttentionの影響

事前トレーニングを高速化する手法は、メモリを節約してバッチ サイズを増やすことと、コンピューティング コアを高速化することの 2 つのカテゴリに大別できます。下の図 5 に示すように、GPU は、フォワード、バックワード、およびオプティマイザー フェーズ中に 5 ~ 10% の時間アイドル状態になります。

研究者たちは、このアイドル時間の原因はバッチサイズが小さいことにあると考え、すべての技術で使用できる最大のバッチサイズをテストしました。最後に、再計算を使用してバッチ サイズを増やし、FlashAttention を使用してコア分析の計算を高速化します。

下の表 VII に示すように、バッチ サイズが大きくなるにつれて、順方向フェーズと逆方向フェーズの時間が大幅に増加し、GPU のアイドル時間はほぼゼロになります。

下の表 VIII は、FlashAttention によって前方アテンション モジュールと後方アテンション モジュールの速度がそれぞれ 34.9% と 24.7% 向上することを示しています。

微調整の結果

微調整セッションでは、研究者らは主にパラメータ効率の良い微調整法(PEFT)について議論し、さまざまなモデルサイズとハードウェア設定でのLoRAとQLoRAの微調整パフォーマンスを実証しました。シーケンス長 350、バッチ サイズ 1 を使用し、モデルの重みをデフォルトで bf16 にロードします。

結果は下の表 IX に示されています。LoRA と QLoRA で微調整された Llama2-13B のパフォーマンス傾向は、Llama2-7B の傾向と一致しています。 Llama2-13B を微調整した場合のスループットは、lama2-7B に比べて約 30% 低下します。

ただし、すべての最適化手法を組み合わせると、RTX4090 と RTX3090 でも Llama2-70B を微調整し、合計 200 トークン/秒のスループットを達成できます。

推論結果

エンドツーエンドのパフォーマンス

下の図 6 は、Llama2-70B の関連推論データを省略し、さまざまなハードウェア プラットフォームと推論フレームワークにおけるスループットの包括的な分析を示しています。 TGI フレームワークは、特に RTX3090 や RTX4090 などの 24GB のメモリを搭載した GPU で優れたスループットを示します。さらに、A800 GPU プラットフォームでの LightLLM のパフォーマンスは TGI や vLLM よりも大幅に優れており、スループットはほぼ 2 倍になります。

これらの実験結果は、TGI 推論フレームワークが 24GB メモリ GPU プラットフォームで優れたパフォーマンスを発揮し、LightLLM 推論フレームワークが A800 80GB GPU プラットフォームで最高のスループットを発揮することを示しています。この結果は、LightLLM が A800/A100 シリーズの高性能 GPU 向けに特別に最適化されていることを示しています。

さまざまなハードウェア プラットフォームと推論フレームワークでのレイテンシ パフォーマンスを図 7、8、9、10 に示します。

要約すると、A800 プラットフォームは、スループットとレイテンシの点で、2 つのコンシューマー グレード プラットフォームである RTX4090 と RTX3090 よりも大幅に優れています。そして、2 つのコンシューマー レベル プラットフォームのうち、RTX3090 は RTX4090 よりもわずかに優れています。コンシューマーグレードのプラットフォームで実行する場合、3 つの推論フレームワーク (TGI、vLLM、LightLLM) ではスループットに大きな違いは見られません。対照的に、TGI はレイテンシの点では他の 2 つよりも一貫して優れています。 A800 GPU プラットフォームでは、LightLLM はスループットの点で最高のパフォーマンスを発揮し、そのレイテンシは TGI フレームワークのレイテンシに非常に近くなります。

詳しい実験結果については原著論文を参照してください。

<<:  チューリング賞受賞者のヤン・ルカン氏への最新インタビュー: AI は世界を支配するだろうが、人類を征服することはない!

>>:  トイレ掃除から純資産435億ドルへ!黄仁訓の成功の秘訣:時計を着けないこと

ブログ    
ブログ    

推薦する

世の中に人工知能は存在しないのか?私たちはディープラーニングに騙されているのでしょうか?

著者のJean-Christophe Baillie氏は、Novaquarkの創設者兼社長であり、「...

クラウドベースの生成 AI システムを実行するためのベスト プラクティス

翻訳者 |ブガッティレビュー | Chonglou何だと思う?クラウド コンピューティング カンファ...

2019年に人工知能をマスターするには?世界のAI専門家が答えを教えます

[[265422]]人工知能はビジネスを変えています。自然言語処理やインテリジェント音声からモノのイ...

インテル、コード名「NLP Architect」の自然言語処理用オープンソースライブラリを発表

[[230933]] 1年前に設立されたインテルAIラボは最近、新たな動きを見せている。数日前、In...

3D AI が新しい遊び方を生み出します。何時間もかかる代わりに、1 枚の写真からわずか 45 秒で 3D モデルを生成できます。

3D AI生成は近年急速に発展しており、最新の作品の多くは文章・画像から高品質な3Dモデルを生成で...

...

大型モデルの中に泥棒はいますか?上海交通大学は、パラメータを保護するために、大規模モデル用の「人間が読める指紋」を作成します

大規模モデルの事前トレーニングには膨大な量のコンピューティング リソースとデータが必要となるため、事...

2021年の量子コンピューティング研究開発の現状と将来展望

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

中国のAI研究は米国を上回る?専門家:例えば、ディープラーニングに関する論文の発表数

現在、世界の人工知能分野には、業界で「神のような存在」とみなされるトップの専門家が3人いる。そのうち...

...

...

年末総括: 2021 年の人工知能 (AI) と機械学習 (ML) の 5 つの主要な開発トレンド

[[359772]]来年、AI テクノロジーはビジネス業務にさらに深く浸透するでしょう。人工知能 (...

...

新素材の画期的な進歩、AIの医療への参入…2021年はどんな新しい技術トレンドを迎えるのでしょうか?

2020年も終わりに近づいていますが、疫病は科学技術の進歩を止めることはなく、量子コンピューティン...