A100よりもコストパフォーマンスに優れています! FlightLLM により、大規模モデル推論でパフォーマンスとコストを同時に心配する必要がなくなりました。

端末側での大規模言語モデルの適用により、コンピューティング性能とエネルギー効率の需要が「引き出され」、アルゴリズムとチップ間の十分な推論競争の場が生まれました。

想像される終末シナリオに直面すると、GPU および FPGA ベースの推論ソリューションの応用可能性を再検討する必要があります。

最近、武文新瓊、清華大学、上海交通大学は共同でFPGA向け大規模モデル軽量展開プロセスを提案し、初めて単一のXilinx U280 FPGA上でLLaMA2-7Bの効率的な推論を実現しました。

第一著者は、清華大学電子工学科博士で、武文新瓊のハードウェア責任者である曾樹林氏です。責任著者は、上海交通大学准教授で武文新瓊の共同設立者兼主任科学者である戴国昊氏と、清華大学電子工学科教授兼学部長で武文新瓊の発起者である王宇氏です。

関連研究は、再構成可能コンピューティング分野のトップカンファレンスである FPGA'24 に採択されました。

論文リンク: https://arxiv.org/pdf/2401.03868.pdf

FPGA 国際会議に含まれていた清華大学電子工学部の関連研究の最後のラウンドを振り返ると、2016 年の「Going Deeper with Embedded FPGA Platform for Convolutional Neural Network」と 2017 年の「ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA」にまで遡ることができます。

前者は SenseTime の設立のきっかけとなり、後者は International FPGA Conference でその年の唯一の最優秀論文として評価され、機械学習の分野における FPGA の役割の変化について具体的に議論するための特別なチュートリアルセッション「機械学習における FPGA の役割」が設定されました。

FPGA の高性能コンピューティングへの応用可能性が継続的に探求されるにつれて、その影響は学界から産業界に広がり、半導体分野における FPGA 企業の買収が相次ぎました。

高性能コンピューティングは、将来の世界に大きな影響を与える可能性のあるほぼすべての生産および研究のトレンドにおいて重要な役割を果たします。デバイスのコアコンピューティングコンポーネントは依然として CPU と GPU ですが、人工知能アルゴリズムが絶えず改善され、新しい標準が次々と登場する時代においては、急速に変化するこれらのアルゴリズムの推論を加速することが重要です。

ソフトウェアとハードウェアの共同最適化のトレンドの下、FPGA は効率的な大規模モデル推論システムを柔軟に構築する上でますます重要な役割を果たすようになります。これは、5G通信、データセンター、自動運転車など、多くの兆ドル規模の市場への鍵となると考えられています。

FPGA'24 で受け入れられた新しい結果は FlightLLM と名付けられました。単一のバッチシナリオでは、同じプロセスで V100S GPU 上の vLLM 推論フレームワークと SmoothQuant 量子化ライブラリを使用する場合と比較して、FlightLLM はエネルギー効率が 6.0 倍、コストパフォーマンスが 1.8 倍向上します。

今後 1 ～ 2 年を見据えると、コード補完、リアルタイムチャットボット、アフターサポートなど、遅延に敏感なアプリケーションシナリオに大規模なモデルが実装される可能性があります。このようなシナリオでは、低遅延と低消費電力がユーザーのインタラクティブなエクスペリエンスにとって重要です。

しかし、現在の大規模モデルの計算要件とストレージ要件は、従来のニューラルネットワークよりも桁違いに高く、その推論速度とエネルギー効率では、高速フィードバックを必要とし、エネルギーに敏感なシナリオのニーズを満たすことが困難になっています。

上記の問題を解決するために、業界では通常、スパース化や量子化などの方法を使用して大規模なモデルを圧縮します。ただし、GPU ハードウェアプラットフォームでは、一部の粗粒度のモデル圧縮方法しかサポートされず、カスタマイズされたモデル圧縮方法の計算効率は非常に低くなります。

著者らは、低コスト、構成可能性、低消費電力を備えた FPGA が、大規模モデル推論を加速するための潜在的なソリューションになり得ると考えています。ただし、これをうまく活用するには、次の課題に対処する必要があります。

計算の非効率性: 大規模モデルにおける柔軟なスパースパターン (ブロックスパース、N:M スパースなど) は、計算の非効率性につながります。
メモリ帯域幅の使用率が低い: 大規模モデルのデコードフェーズでは、オフチップメモリから細かいデータを繰り返し読み書きするため、帯域幅の使用率が低くなります (29% ～ 43%)。
高いコンパイルオーバーヘッド: 大規模モデルの動的なスパースパターンと可変入力長により、大きな命令空間が構成されます。たとえば、2048 の入力トークン長の命令を生成すると、FPGA 上で約 TB のストレージオーバーヘッドが発生します。

FlightLLM の中心的なアイデアは、FPGA 上の特定のリソース (DSP48 や異種メモリ階層など) を活用して、大規模モデルの計算およびストレージのオーバーヘッドの問題を解決することです。

FlightLLM の全体的なアーキテクチャ。

スパース性は理論的には大規模モデルの推論のパフォーマンス向上をもたらしますが、既存のハードウェアアーキテクチャに直接実装することはできません。大規模な Transformer ベースのモデルでは、スパースアテンションやプルーニングなどのスパースメソッドが主に推論を高速化するために使用されます。

しかし、スパース化によって生成されるスパース行列の密度とスパースパターンは不確実です。これは、特に固定 DSP48 乗算ユニットに基づく FPGA アーキテクチャの場合、ハードウェア設計に大きな課題をもたらします。これまでの研究では、スパースコンピューティングをサポートするために多くの追加のハードウェアアーキテクチャが導入されましたが、その結果、ハードウェアリソースが大幅に増加しました。推定によると、消費されるハードウェアリソースは 5 倍近くになります。

(a) 統合マトリックス処理エンジン (MPE)。(b) 行列-行列乗算 (MMMult) および (c) 行列-ベクトル乗算 (MVMult) 計算モードを柔軟にサポートできます。 (d) 各MPEは、スパースDSP48チェーンに基づく複数のベクトル処理エンジン（VPE）で構成されています。

このため、FlightLLM はソフトウェアとハードウェアの共同設計を採用し、コンピューティング効率の低さという課題を克服しています。研究者らは、行列計算に関連するすべての操作を処理するための統合行列処理エンジン (MPE) を設計しました (上図を参照)。

これまでの研究では、DSP をカスケード接続してハードウェアのオーバーヘッドを削減することで、DSP48 のハードウェアリソースを最大限に活用してきました。ただし、カスケードチェーンのパスは固定されているため、完全にカスケードされた DSP アーキテクチャはスパースコンピューティングに適していません。

FlightLLM はこの問題に対する的を絞った解決策を提案しました。 FlightLLM は、FPGA 上の DSP48 計算ユニットを使用して、構成可能なスパース DSP チェーンを設計します。スパース DSP チェーンはさまざまなスパースモードをサポートし、計算効率 (つまり、実行時の DSP 使用率) が 1.6 倍向上します。

さらに、デコード段階では、大規模モデル推論の主な効率制限は、オフチップメモリに頻繁にアクセスする小さなデータサイズのアクティベーションベクトルから生じることがわかります。

(a) 大規模モデル推論ステージにおけるアテンション層/線形層と非線形活性化演算 (MISC) の演算子融合実装。(b) プリフィルステージと (c) デコードステージにおける完全なオンチップデコードの概略図。演算子融合と FPGA の高オンチップストレージを利用することで、大規模モデル推論デコードステージの活性化値をオフチップで書き込む必要がなくなります。

アクティベーションベクトルのオフチップメモリアクセスを削減し、メモリアクセス帯域幅の使用率が低いという課題を解決するために、FlightLLM は演算子融合テクノロジを使用して、デコードステージで各推論の計算を融合し、常時オンチップのデコードデータフローを提案します。混合精度量子化と演算子融合の設計により、デコード段階のアクティベーション値がオンチップキャッシュ内で最大限に再利用されます。

最後に、大規模モデルでは推論プロセスごとにトークンの長さが増加するため、異なる命令が必要になります。大規模なモデルでは大量の計算とストレージが必要となり、粗粒度の命令を使用した場合でも命令の数は依然として非常に多くなります。

異なる入力トークン長での推論パフォーマンスを測定することにより、著者らは、プレフィルおよびデコード遅延と入力トークン長との関係に「ステップ」成長特性があり、プレフィル段階の遅延は入力トークン長とともにより速く増加することを観察しました。

これは、プリフィルステージが計算のボトルネックであり、計算量はトークンの長さに応じて大幅に増加するのに対し、デコードステージはメモリアクセスのボトルネックであるため、遅延の増加は明らかではないためです。段階的な成長の理由は、主に粗粒度の命令セットによるものです。行列-行列乗算命令の出力並列度は 128 であり、行列-ベクトル乗算命令の出力並列度は 16 であるため、プリフィルとデコードの「ラダー」の幅はそれぞれ 128 と 16 になります。

これらの調査結果に基づいて、FlightLLM は、プリフィルおよびデコード段階で命令を再利用することでコンパイル命令のストレージオーバーヘッドを削減し、各「ラダー」入力トークン長の命令をグループ化して、「ラダー」幅の命令シーケンスを再利用する、トークン長適応型コンパイル方法を提案しました。この設計により、命令の総ストレージオーバーヘッドが大幅に削減されます。

現在、著者らは FlightLLM を Xilinx Alveo U280 FPGA (16nm) に実装しています。 OPT-6.7B および LLaMA2-7B での実験結果では、FlightLLM のエンドツーエンドのレイテンシが NVIDIA V100S GPU よりも優れていることが示されています。

さらに、FlightLLM (U280 FPGA と VHK158 FPGA ベース) は、エネルギー効率で NVIDIA V100S および A100 GPU をそれぞれ 6.0 倍と 4.2 倍上回り、価格性能比では 1.8 倍と 1.5 倍上回ります。

詳細については原論文を参照してください。

<<:

>>: 磁気リンクがネットワーク全体を爆発させ、Mixtral 8x7B ペーパーが登場しました。クラッシュラマ2 70B、各トークンをアクティブにするには13Bのパラメータのみが必要です

[技術的な詳細] 自動化プラットフォームの将来はどうなるのでしょうか? IBM Cloud Pak for Business Automationのコンポーネントを詳しく見る

ブログ

A100よりもコストパフォーマンスに優れています! FlightLLM により、大規模モデル推論でパフォーマンスとコストを同時に心配する必要がなくなりました。

[技術的な詳細] 自動化プラットフォームの将来はどうなるのでしょうか? IBM Cloud Pak for Business Automationのコンポーネントを詳しく見る

ドバイ、街頭にロボット警察を配備へ

機械学習の運用はサイバーセキュリティに革命をもたらす可能性がある

第3回世界情報会議は5月16日に開催されます。主な特徴は次の5つです。

中国で自動運転元年となるのは何年でしょうか？ 2021年かも

図解による古典的なプロセススケジューリングアルゴリズム

銀行業界の「退化」の原因は人工知能なのか？

推薦する

プログラミングに熟練する必要はありません。人工知能への参入は思っているより簡単です

60年間の浮き沈みを経て、人工知能はどれだけの偏見や誤った判断を経験するのでしょうか?

ヘルスケアにおける AI 自動化: 患者ケアと業務効率の革命

ウォータールー大学はヒートマップ回帰を放棄し、複数人の姿勢推定のための新しい方法を提案した。

GenAI の投資が 2024 年にデータセンターにどのような変化をもたらすか

AIビッグモデルは今後も拡大し続けるのか？

新しいドローン産業は急速に発展しているが、まだ3つの大きな障害を取り除く必要がある。

業界の未来を牽引する8つのデジタル変革トレンド

Transformer はコンピュータービジョンの分野でどこまで進歩したのでしょうか?

周紅一の2024年大模型予測は8つの点を検証し、ソラの出現は予想を超えていると述べている