端末側での大規模言語モデルの適用により、コンピューティング性能とエネルギー効率の需要が「引き出され」、アルゴリズムとチップ間の十分な推論競争の場が生まれました。 想像される終末シナリオに直面すると、GPU および FPGA ベースの推論ソリューションの応用可能性を再検討する必要があります。 最近、武文新瓊、清華大学、上海交通大学は共同でFPGA向け大規模モデル軽量展開プロセスを提案し、初めて単一のXilinx U280 FPGA上でLLaMA2-7Bの効率的な推論を実現しました。 第一著者は、清華大学電子工学科博士で、武文新瓊のハードウェア責任者である曾樹林氏です。責任著者は、上海交通大学准教授で武文新瓊の共同設立者兼主任科学者である戴国昊氏と、清華大学電子工学科教授兼学部長で武文新瓊の発起者である王宇氏です。 関連研究は、再構成可能コンピューティング分野のトップカンファレンスである FPGA'24 に採択されました。 論文リンク: https://arxiv.org/pdf/2401.03868.pdf FPGA 国際会議に含まれていた清華大学電子工学部の関連研究の最後のラウンドを振り返ると、2016 年の「Going Deeper with Embedded FPGA Platform for Convolutional Neural Network」と 2017 年の「ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA」にまで遡ることができます。 前者は SenseTime の設立のきっかけとなり、後者は International FPGA Conference でその年の唯一の最優秀論文として評価され、機械学習の分野における FPGA の役割の変化について具体的に議論するための特別なチュートリアル セッション「機械学習における FPGA の役割」が設定されました。 FPGA の高性能コンピューティングへの応用可能性が継続的に探求されるにつれて、その影響は学界から産業界に広がり、半導体分野における FPGA 企業の買収が相次ぎました。 高性能コンピューティングは、将来の世界に大きな影響を与える可能性のあるほぼすべての生産および研究のトレンドにおいて重要な役割を果たします。デバイスのコアコンピューティングコンポーネントは依然として CPU と GPU ですが、人工知能アルゴリズムが絶えず改善され、新しい標準が次々と登場する時代においては、急速に変化するこれらのアルゴリズムの推論を加速することが重要です。 ソフトウェアとハードウェアの共同最適化のトレンドの下、FPGA は効率的な大規模モデル推論システムを柔軟に構築する上でますます重要な役割を果たすようになります。これは、5G通信、データセンター、自動運転車など、多くの兆ドル規模の市場への鍵となると考えられています。 FPGA'24 で受け入れられた新しい結果は FlightLLM と名付けられました。単一のバッチ シナリオでは、同じプロセスで V100S GPU 上の vLLM 推論フレームワークと SmoothQuant 量子化ライブラリを使用する場合と比較して、FlightLLM はエネルギー効率が 6.0 倍、コスト パフォーマンスが 1.8 倍向上します。 今後 1 ~ 2 年を見据えると、コード補完、リアルタイム チャットボット、アフター サポートなど、遅延に敏感なアプリケーション シナリオに大規模なモデルが実装される可能性があります。このようなシナリオでは、低遅延と低消費電力がユーザーのインタラクティブなエクスペリエンスにとって重要です。 しかし、現在の大規模モデルの計算要件とストレージ要件は、従来のニューラル ネットワークよりも桁違いに高く、その推論速度とエネルギー効率では、高速フィードバックを必要とし、エネルギーに敏感なシナリオのニーズを満たすことが困難になっています。 上記の問題を解決するために、業界では通常、スパース化や量子化などの方法を使用して大規模なモデルを圧縮します。ただし、GPU ハードウェア プラットフォームでは、一部の粗粒度のモデル圧縮方法しかサポートされず、カスタマイズされたモデル圧縮方法の計算効率は非常に低くなります。 著者らは、低コスト、構成可能性、低消費電力を備えた FPGA が、大規模モデル推論を加速するための潜在的なソリューションになり得ると考えています。ただし、これをうまく活用するには、次の課題に対処する必要があります。
FlightLLM の中心的なアイデアは、FPGA 上の特定のリソース (DSP48 や異種メモリ階層など) を活用して、大規模モデルの計算およびストレージのオーバーヘッドの問題を解決することです。 FlightLLM の全体的なアーキテクチャ。 スパース性は理論的には大規模モデルの推論のパフォーマンス向上をもたらしますが、既存のハードウェア アーキテクチャに直接実装することはできません。大規模な Transformer ベースのモデルでは、スパース アテンションやプルーニングなどのスパース メソッドが主に推論を高速化するために使用されます。 しかし、スパース化によって生成されるスパース行列の密度とスパースパターンは不確実です。これは、特に固定 DSP48 乗算ユニットに基づく FPGA アーキテクチャの場合、ハードウェア設計に大きな課題をもたらします。これまでの研究では、スパースコンピューティングをサポートするために多くの追加のハードウェア アーキテクチャが導入されましたが、その結果、ハードウェア リソースが大幅に増加しました。推定によると、消費されるハードウェア リソースは 5 倍近くになります。 (a) 統合マトリックス処理エンジン (MPE)。(b) 行列-行列乗算 (MMMult) および (c) 行列-ベクトル乗算 (MVMult) 計算モードを柔軟にサポートできます。 (d) 各MPEは、スパースDSP48チェーンに基づく複数のベクトル処理エンジン(VPE)で構成されています。 このため、FlightLLM はソフトウェアとハードウェアの共同設計を採用し、コンピューティング効率の低さという課題を克服しています。研究者らは、行列計算に関連するすべての操作を処理するための統合行列処理エンジン (MPE) を設計しました (上図を参照)。 これまでの研究では、DSP をカスケード接続してハードウェアのオーバーヘッドを削減することで、DSP48 のハードウェア リソースを最大限に活用してきました。ただし、カスケード チェーンのパスは固定されているため、完全にカスケードされた DSP アーキテクチャはスパース コンピューティングに適していません。 FlightLLM はこの問題に対する的を絞った解決策を提案しました。 FlightLLM は、FPGA 上の DSP48 計算ユニットを使用して、構成可能なスパース DSP チェーンを設計します。スパース DSP チェーンはさまざまなスパース モードをサポートし、計算効率 (つまり、実行時の DSP 使用率) が 1.6 倍向上します。 さらに、デコード段階では、大規模モデル推論の主な効率制限は、オフチップメモリに頻繁にアクセスする小さなデータサイズのアクティベーションベクトルから生じることがわかります。 (a) 大規模モデル推論ステージにおけるアテンション層/線形層と非線形活性化演算 (MISC) の演算子融合実装。(b) プリフィルステージと (c) デコードステージにおける完全なオンチップデコードの概略図。演算子融合と FPGA の高オンチップストレージを利用することで、大規模モデル推論デコードステージの活性化値をオフチップで書き込む必要がなくなります。 アクティベーション ベクトルのオフチップ メモリ アクセスを削減し、メモリ アクセス帯域幅の使用率が低いという課題を解決するために、FlightLLM は演算子融合テクノロジを使用して、デコード ステージで各推論の計算を融合し、常時オンチップのデコード データ フローを提案します。混合精度量子化と演算子融合の設計により、デコード段階のアクティベーション値がオンチップ キャッシュ内で最大限に再利用されます。 最後に、大規模モデルでは推論プロセスごとにトークンの長さが増加するため、異なる命令が必要になります。大規模なモデルでは大量の計算とストレージが必要となり、粗粒度の命令を使用した場合でも命令の数は依然として非常に多くなります。 異なる入力トークン長での推論パフォーマンスを測定することにより、著者らは、プレフィルおよびデコード遅延と入力トークン長との関係に「ステップ」成長特性があり、プレフィル段階の遅延は入力トークン長とともにより速く増加することを観察しました。 これは、プリフィル ステージが計算のボトルネックであり、計算量はトークンの長さに応じて大幅に増加するのに対し、デコード ステージはメモリ アクセスのボトルネックであるため、遅延の増加は明らかではないためです。段階的な成長の理由は、主に粗粒度の命令セットによるものです。行列-行列乗算命令の出力並列度は 128 であり、行列-ベクトル乗算命令の出力並列度は 16 であるため、プリフィルとデコードの「ラダー」の幅はそれぞれ 128 と 16 になります。 これらの調査結果に基づいて、FlightLLM は、プリフィルおよびデコード段階で命令を再利用することでコンパイル命令のストレージ オーバーヘッドを削減し、各「ラダー」入力トークン長の命令をグループ化して、「ラダー」幅の命令シーケンスを再利用する、トークン長適応型コンパイル方法を提案しました。この設計により、命令の総ストレージ オーバーヘッドが大幅に削減されます。 現在、著者らは FlightLLM を Xilinx Alveo U280 FPGA (16nm) に実装しています。 OPT-6.7B および LLaMA2-7B での実験結果では、FlightLLM のエンドツーエンドのレイテンシが NVIDIA V100S GPU よりも優れていることが示されています。 さらに、FlightLLM (U280 FPGA と VHK158 FPGA ベース) は、エネルギー効率で NVIDIA V100S および A100 GPU をそれぞれ 6.0 倍と 4.2 倍上回り、価格性能比では 1.8 倍と 1.5 倍上回ります。 詳細については原論文を参照してください。 |
>>: 磁気リンクがネットワーク全体を爆発させ、Mixtral 8x7B ペーパーが登場しました。クラッシュラマ2 70B、各トークンをアクティブにするには13Bのパラメータのみが必要です
ゲスト: 周 麗編集者: Qianshan人間とコンピュータの対話は長い間私たちの日常生活に組み込ま...
[[269826]] 「設計アーキテクチャだけを見れば、国産の人工知能チップは外国製のものより劣って...
[[398288]]近年、気温が高くなり、多くの地域で扇風機やエアコンが使用されるようになり、それに...
[[393927]] Raft は、リーダーを基準としてノード間のログの一貫性を実現するコンセンサス...
異常検出タスクは、通常のデータ分布から大きく逸脱した外れ値を識別することを目的としており、産業検査、...
[[393258]]序文プログラムでは、MD5 sha1 など、多くの暗号化アルゴリズムをよく見かけ...
[51CTO.com クイック翻訳] 教師なし機械学習と人工知能は、組織のビジネス成長に役立つことは...
[[327792]]はじめに: この質問は、実はほとんどのプログラマーに当てはまります。国内のイン...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...
GPT4 などの現在の大規模言語モデル (LLM) は、画像が与えられた場合にオープンエンドの指示...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
過去 10 年間に AI で達成された重要な進歩を振り返ります。人工知能技術は過去 10 年間で飛躍...