この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 この記事では、大規模言語モデルのトレーニング後の量子化パフォーマンスを向上させる強化された SmoothQuant 手法を紹介し、その使用方法を説明し、精度の利点を示します。このアプローチはIntel® Neural Compressor[1]に統合されています。 Intel® Neural Compressor は、量子化、プルーニング (スパース性)、蒸留 (知識抽出)、ニューラル アーキテクチャ検索などのさまざまな一般的なモデル圧縮手法を含むオープン ソースの Python ライブラリです。 現在、TensorFlow、 Intel® Extension for TensorFlow[2]、PyTorch、 Intel® Extension for PyTorch[3]、ONNX Runtime、MXNetなどの主流のフレームワークはすべて互換性があります。 Intel® Neural Compressorは、 Intel® Xeon®スケーラブル・プロセッサー[4]、 Intel® Xeon® CPU Maxシリーズ[5]、 Intel® Data Center GPU Flexシリーズ[ 6 ]、 Intel® Data Center GPU Maxシリーズ[7]など、さまざまなIntel®アーキテクチャー・ベースのハードウェアをすでにサポートしています。本論文の実験は第4世代Intel® Xeon®スケーラブル・プロセッサー[8]に基づいて実施された。 大規模言語モデル大規模言語モデル (LLM) は、膨大なデータセットに基づいてトレーニングする必要があり、数十億の重みパラメータを持つ場合があります。 高度なネットワーク構造と膨大な数のパラメータにより、自然言語自体の複雑さにもうまく対応できます。 トレーニング後、大規模言語モデルはさまざまな下流の自然言語処理 (NLP) および自然言語生成 (NLG) タスクに合わせて調整できるため、会話型チャットボット (ChatGPT など)、機械翻訳、テキスト分類、不正検出、感情分析などのタスク シナリオに適したものになります。 大規模言語モデルの導入における課題大規模言語モデルは、自然言語処理および自然言語生成タスクでは優れたパフォーマンスを発揮しますが、そのトレーニングと展開は複雑であり、次のような課題に直面しています。
したがって、トレーニング後の量子化を使用して大規模な言語モデルをスリム化することは、低レイテンシの推論を実現するために不可欠です。 大規模言語モデルの量子化量子化は、モデルが占有するメモリ領域を削減し、推論パフォーマンスを向上できる一般的な圧縮操作です。 量子化手法を使用すると、大規模な言語モデルを展開する際の難しさを軽減できます。具体的には、量子化は浮動小数点行列を整数行列に変換します。 ここで、X_fp32、S、Z はそれぞれ入力行列、スケール係数、整数ゼロです。 チャネルごとの量子化は量子化損失を減らす可能性があるにもかかわらず、活性化量子化に使用できない理由については、SmoothQuantのドキュメント[10]を参照してください。 ただし、活性化値の量子化誤差損失は、モデルの量子化精度の低下につながる重要な要因です。 この目的のために、SPIQ[11]、Outlier Suppression[12]、SmoothQuant[13]など、活性化値の量子化損失を減らすための多くの方法が提案されている。 これら 3 つの方法は、活性化値の量子化の難しさを重みの量子化に転送するという同様の考え方を持っていますが、転送の難しさの度合いが 3 つの方法では異なります。 強化された SmoothQuantSmoothQuant は、各チャネルの量子化スケール係数を計算し、アクティベーション値と重みの量子化難易度のバランスをとるための平滑化係数としてハイパーパラメータ α を導入します。 ここで、j は入力チャネルのインデックスです。 OPT や BLOOM などのほとんどのモデルでは、α = 0.5 は、重みとアクティベーションの間で適切な量子化難易度の分割を実現できるバランスの取れた値です。モデルの活性化外れ値が大きいほど、量子化の難易度を重みにシフトするために、より大きな α 値を使用する必要があります。 オリジナルの SmoothQuant は、モデル全体に対して固定値 α を使用して、重みとアクティベーションの量子化の難しさを分割することを目的としています。 ただし、アクティベーション外れ値の分布は、異なるモデル間だけでなく、同じモデルの異なるレイヤー間でも異なります。 したがって、この記事では、 Intel® Neural Compressor の自動チューニング機能を使用して、レイヤーごとに最適な α 値を取得することを推奨します。 関連する方法には、次の 5 つの主なステップが含まれます (疑似コードを以下に示します)。
この論文で提案された方法は、Transformer ブロックの入力層正規化 (LayerNorm) 操作の α 値を決定するために、複数の基準 (最小、最大、平均など) を使用することをサポートします。 実験では、α 範囲を [0.3, 0.7] に設定し、ステップ サイズを 0.05 に設定すると、ほとんどのモデルで良好なバランスを実現できることが示されています。 この方法には 2 つの注目すべき特徴があります。1 つは完全に自動化されていること、もう 1 つは元の方法よりも多くの融合モードをサポートしていることです。 次の図は、BLOOM-1b7 モデルで SmoothQuant α 値の自動チューニングを実行するためのサンプル コードを示しています。 △ 強化された SmoothQuant を有効にするサンプルコード ユーザーはモデル名 (model_name) とデータ ローダーを渡すだけで済みます。モデル分析は主に Torch JIT に依存していることに注意してください。ユーザーは、Hugging Face[15]モデルをロードするときにtorchscriptをTrueに、return_dictをFalseに設定することができます。 詳細については、 Intel®ニューラルコンプレッサーのドキュメント[15]。 結果この論文で提案されている強化された SmoothQuant の主な利点は、精度が向上したことです。 複数の主流の大規模言語モデルを評価した結果、自動チューニング機能を備えた INT8 SmoothQuant の最後のトークンの予測精度は、元の INT8 SmoothQuant および FP32 ベースライン メソッドよりも高くなりました。詳細については、下の図を参照してください。 △ FP32ベースライン法、INT8(SmoothQuantの有無)、およびINT8(本論文で提案された拡張SmoothQuantを使用)の精度の比較 上の図からわかるように、OPT-1.3b モデルと BLOOM-1b7 モデルでは、この論文で提案された強化された SmoothQuant の精度は、デフォルトの SmoothQuant よりもそれぞれ 5.4% と 1.6% 高くなっています。 量子化モデルも FP32 モデルの 4 分の 1 に縮小され、メモリ フットプリントが大幅に削減されるため、 Intel®プラットフォーム上の大規模モデルの推論パフォーマンスが効果的に向上します。 より包括的な結果については、GitHubリポジトリ[16]を参照してください。 GitHubの問題[17]にプルリクエストやコメントを作成することもできます。皆様のご意見やご提案をお待ちしております。 詳しくは記事末尾の[原文を読む]をクリックしてください。 著者: Intel のシニア AI アーキテクトである Shen Haihao 氏、Intel のシニア AI ソフトウェア エンジニアである Cheng Wenhua 氏、Intel の AI ソフトウェア エンジニアである Lu Yintong 氏、He Xin 氏、Guo Heng 氏、Wang Chang 氏、Wang Mengni 氏は、モデルの量子化と圧縮の研究と最適化に取り組んでいます。 |
<<: 韓国のLK-99の作者が新しいビデオを公開し、サンプルは25度の室温で吊り下げられ、一部のネットユーザーは磁化率を推定した。
>>: ChatGPTは自分で質問することを学習し、複数のファイルのアップロードをサポートしています
次元削減とは、高次元のデータ セットを同等の低次元空間に変換するプロセスです。実際のデータ セットに...
Cybernews によると、ますます多くの企業が、検出がますます困難になっている悪意のあるボッ...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
ワクチン開発からオンラインショッピング、農作物の栽培まで、人工知能技術はますます活用されるようになり...
Zendesk は、企業と顧客の距離を縮めるために設計された顧客サービス プラットフォームを開発しま...
機械学習において、アンサンブルという用語は、複数のモデルを並行して組み合わせることを指します。その考...
ますますペースが速まるこの時代において、私たちは効率性を高め、ブレークスルーを追求し続けています。多...
手術室で外科医をサポートするロボットや、X 線や MRI 画像の評価を支援するソフトウェアが登場して...
過去2年間、人工知能によって人事部門が消滅するという議論をよく耳にしてきました。しかし、実際には誰も...
正直に言うと、顧客はおそらく、投資マネージャーが使用する高度な AI ツールを気にしていないでしょう...