清華大学の Zhu Jun 氏のチームによる新しい研究: 4 ビット整数を使用して Transformer をトレーニングすると、FP16 よりも 2.2 倍、35.1% 高速になり、AGI の到来が加速します。

清華大学の Zhu Jun 氏のチームによる新しい研究: 4 ビット整数を使用して Transformer をトレーニングすると、FP16 よりも 2.2 倍、35.1% 高速になり、AGI の到来が加速します。

アクティベーション、重み、勾配を 4 ビットに量子化すると、ニューラル ネットワークのトレーニングが高速化されると期待されます。

ただし、既存の 4 ビット トレーニング方法では、最新のハードウェアではサポートされていないカスタム数値形式が必要です。

最近、清華大学の Zhu Jun 氏のチームは、INT4 アルゴリズムを使用してすべての行列乗算を実装する Transformer トレーニング方法を提案しました。

極めて低い INT4 精度でのトレーニングは非常に困難です。この目標を達成するために、研究者はTransformerの活性化と勾配の特定の構造を注意深く分析し、専用の量子化器を提案しました。

研究者らは、順方向伝播において外れ値の問題を特定し、外れ値を抑制するためにアダマール量子化器を提案した。

逆方向パスでは、ビット分割を提案することで勾配の構造的スパース性を活用し、分数サンプリング技術を使用して勾配を正確に量子化します。

この新しいアルゴリズムは、自然言語理解、機械翻訳、画像分類など、幅広いタスクで競争力のある精度を実現します。

プロトタイプの線形演算子は、同様の FP16 演算子よりも 2.2 倍高速に動作し、トレーニング速度は 35.1% 向上します。

写真

論文アドレス: https://arxiv.org/abs/2306.11987

コードアドレス: https://github.com/xijiu9/Train_Transformers_with_INT4

新しいINT 4トレーニングアルゴリズム

ニューラル ネットワークのトレーニングには計算負荷がかかります。トレーニングに低精度演算を使用すると(完全量子化トレーニング/FQT)、計算効率とメモリ効率が向上することが期待されます。

FQT メソッドは、元の完全精度計算グラフにいくつかの量子化器と逆量子化器を追加し、より高価な浮動小数点演算をより安価な低精度浮動小数点演算に置き換えます。

FQT の研究は、収束速度や精度をあまり犠牲にすることなく、トレーニングの数値精度を下げることを目的としています。

必要な数値精度は FP16 から FP8、INT32+INT8、INT8+INT5 に削減されました。

FP8 トレーニングは、Transformer Engine を搭載した Nvidia H100 GPU に実装されており、大規模な Transformer のトレーニングを加速します。最近のトレーニングの数値精度は 4 桁に低下しました。

ただし、これらの 4 ビット トレーニング メソッドは、最新のハードウェアではサポートされていないカスタム数値形式を必要とするため、高速化に直接使用することはできません。

まず、順方向伝播における微分不可能な量子化器によって損失ランドスケープが凸凹になり、勾配ベースのオプティマイザーが簡単に局所最適状態に陥る可能性があります。

第二に、勾配は低い精度で近似的にしか計算されません。このような不正確な勾配は、トレーニング プロセスを遅くしたり、トレーニングが不安定になったり発散したりする原因となる可能性があります。

この研究では、研究者らはTransformer用の新しいINT4トレーニングアルゴリズムを提案しました。

写真

Transformer をトレーニングするためのすべての高価な線形演算は、行列乗算 (MM) の形式で記述できます。

この MM 形式により、Transformer のアクティベーション、重み、勾配の特定の構造を活用して、FP32 行列乗算をより適切に近似する、より柔軟な量子化器を設計できるようになります。

この量子化器は、乱数線形代数 (RandNLA) の分野における進歩を活用します。

研究者らは、フォワードパスの場合、アクティベーションの外れ値が精度低下の主な原因であることを発見した。

外れ値を抑制するために、彼らは活性化行列の変換バージョンを量子化するアダマール量子化器を提案しました。この変換は、外れ値に含まれる情報を行列の隣接するエントリに伝播し、外れ値の数値範囲を縮小するブロック対角アダマール行列です。

後方伝播では、活性化勾配の構造的スパース性を利用します。研究者たちは、いくつかのトークンの勾配が非常に大きいことを発見しました。同時に、他のほとんどのトークンの勾配は非常に均一であり、より大きな勾配の量子化された残差よりもさらに均一です。

写真

したがって、すべての勾配を計算するのではなく、より大きな勾配残差を計算して計算リソースを節約する方が適切です。

このスパース性を活用するために、研究者らは各トークンの勾配を上位 4 ビットと下位 4 ビットに分割するビット分割を提案しました。

次に、RandNLA の重要なサンプリング手法であるレバレッジ スコア サンプリングを通じて、最も有益な勾配が選択されます。

写真

研究者らは、順方向および逆方向の伝播量子化技術を組み合わせて、Transformer 内のすべての線形演算を INT4MM を使用して実行するアルゴリズムを提案し、自然言語理解、質問応答、機械翻訳、画像分類などのさまざまなタスクで Transformer をトレーニングするためのアルゴリズムを評価しました。

彼らのアルゴリズムは、既存の 4 ビット トレーニング アルゴリズムと比較して、競争力のある、あるいはそれ以上の精度を実現します。

さらに、このアルゴリズムは、FP4 や対数形式などのカスタム数値形式を必要としないため、GPU などの最新のハードウェアと互換性があります。

このプロトタイプの量子化 + INT4 MM 演算子の実装は、FP16MM ベースラインよりも 2.2 倍高速で、トレーニング速度が 35.1% 向上します。

関連研究

完全に量子化されたトレーニング

完全量子化トレーニング (FQT) 方式では、アクティベーション、重み、勾配を低精度に量子化することでトレーニングを高速化し、トレーニング中の線形および非線形演算子を低精度の演算で実装できるようにします。

FQT 研究では、完全精度テンソルをより正確に近似できる新しい数値形式と量子化アルゴリズムを設計します。

現在の研究の最先端は 4 桁の FQT です。 FQT は、勾配の数値範囲が広く、量子化ネットワークを最初からトレーニングするという最適化の問題があるために困難です。

これらの課題により、既存の 4 ビット FQT アルゴリズムでは、特定のタスクで依然として 1 ~ 2.5% の精度低下が発生しており、最新のハードウェアをサポートできません。

写真

その他の効果的なトレーニング方法

エキスパートを混合すると、トレーニング予算を増やすことなくモデルの容量が向上します。

構造化ドロップアウトは、計算効率の高い方法を使用してモデルを正規化します。効率的な注意により、注意を計算する際の時間の複雑さが 2 乗で軽減されます。

分散トレーニング システムは、より多くのコンピューティング リソースを活用することでトレーニング時間を短縮します。

数値精度を下げる研究者の研究は、これらの方向性とは直交しています。

写真

前方伝播

ニューラル ネットワークのトレーニングは、前方伝播と後方伝播を介して確率的勾配を計算する反復的な最適化プロセスです。

研究チームは、4 ビット整数 (INT4) 演算を使用して、前方伝播と後方伝播を加速しました。

順方向伝播は、線形演算子と非線形演算子 (GeLU、正規化、ソフトマックスなど) の組み合わせとして実装できます。

トレーニング プロセス中、すべての線形演算子を INT4 演算で高速化し、計算コストの低いすべての非線形演算子を 16 ビット浮動小数点 (FP16) 形式で保持します。

Transformer のすべての線形演算は、行列乗算 (MM) の形式で記述できます。

説明を簡単にするために、この記事では次の単純な行列乗算の高速化を検討します。

写真

この MM の主な使用例は、完全接続層です。

入力形状(バッチ サイズ S、シーケンス長 T、次元 D)を持つ Transformer を考えます。

完全に接続された層は上記の式で表すことができます。ここで、X は N = STtoken のアクティベーション、W は重み行列です。

注意層では、バッチ行列乗算 (BMMS) が必要になる場合があります。

私たちが提案する技術は BMMS に適用できます。

学習ステップ量子化

トレーニングを高速化するには、整数演算を使用してフォワードパスを計算する必要があります。

研究者たちはこの目的のために学習ステップサイズ量子化器 (LSQ) を利用しました。

LSQ は静的量子化方式であり、その量子化スケールは入力方式に依存しないため、反復ごとに量子化スケールを動的に計算する必要がある動的量子化方式よりも消費エネルギーが少なくなります。

外れ値をアクティブにする

4 ビットのアクティベーション/重みを持つ FQT に LSQ を単純に適用すると、外れ値がアクティベートされるため、精度が低下します。

写真

上の図に示すように、アクティベーションには、他のエントリよりもサイズがはるかに大きい外れ​​値のエントリがいくつかあります。

残念ながら、Transformer はこれらの外れ値に情報を保存する傾向があり、このような切り捨てによって精度が著しく低下する可能性があります。

外れ値の問題は、トレーニング タスクが、事前トレーニング済みのモデルを新しい下流タスクで微調整することである場合に特に顕著になります。

事前トレーニング済みモデルには、ランダム初期化よりも多くの外れ値が含まれているためです。

アダマール量子化

外れ値問題に対処するために、アダマール量子化 (HQ) を提案します。

主なアイデアは、外れ値の少ない別の線形空間で行列を量子化することです。

活性化マトリックス内の外れ値は特徴的な構造を形成します。

これらは通常、いくつかの次元に集中しており、つまり、X 内のいくつかの列だけが他の列よりも大幅に大きくなります。

Hardamand 変換は、外れ値を他のエントリ間で分散できる線形変換です。

逆伝播

ここで、線形層の逆伝播を高速化するために INT4 操作を使用することを検討します。

このセクションでは、活性化勾配/重み勾配の計算について説明します。

勾配の構造的スパース性

トレーニング中に、勾配行列が非常にスパースになることが多いことに気付きました。

そして、スパース性は次の構造を持ちます。

いくつかの行 (トークンなど) には大きなエントリがありますが、他のほとんどの行はすべてゼロのベクトルに近くなります。

写真

この構造的スパース性は、現代のニューラル ネットワークの過剰なパラメータ化によって生じます。

トレーニング プロセスのほぼ全体にわたって、ネットワークはハイパーパラメータ化されたスキームで実行され、いくつかの難しい例を除いて、ほとんどのトレーニング データに適合できます。

したがって、適切に適合されたデータ ポイントの場合、(活性化) 勾配はゼロに近くなります。

研究者らは、例えば事前トレーニングタスクの場合、数回のトレーニングサイクル後に構造的スパース性がすぐに現れることを発見した。

微調整タスクの場合、勾配はトレーニング プロセス全体を通じてスパースのままになります。

ビット分割とレバレッジスコアサンプリング

バックプロパゲーション中に MM を正確に計算するために、構造化されたスパース性を活用する勾配量子化器をどのように設計すればよいでしょうか?

大まかに言えば、勾配の行の多くは非常に小さいため、パラメータの勾配にはほとんど影響しませんが、計算には多くの無駄がかかります。

一方、大きな行は INT4 では正確に表現できません。

いくつかの小さな行を破棄し、節約した計算能力を使用して大きな行をより正確に表現します。

実験

研究者は、言語モデリング、機械翻訳、画像分類などのさまざまなタスクで、INT4 でトレーニングされたアルゴリズムの微調整を評価します。

研究者らは、CUDA と cutlass を使用して、提案された HQ-MM および LSS-MM アルゴリズムを実装しました。

研究者らは、すべての浮動小数点線形演算子を INT4 実装に置き換えましたが、埋め込み層に LSQ を単純に使用するのではなく、最後の分類層の精度を維持しました。

最後に、研究者は、評価したすべてのモデルに対してデフォルトのアーキテクチャ、オプティマイザー、スケジューラー、およびハイパーパラメータを使用しました。

収束モデルの精度

研究者たちは、以下の表でさまざまなタスクにおける収束モデルの精度を比較しています。

写真

比較方法には、フル精度トレーニング (FP)、INT8 トレーニング (INT8)、FP4 トレーニング (「超低」)、アクティベーションと重みに LSQ を使用した 4 ビット対数量子化 (LSQ+LUQ)、および順方向伝播に HQ を使用し、逆方向伝播に LSS を使用する当社のアルゴリズム (HQ+LSS) が含まれます。

SuperLow の公開実装は存在しないため、機械翻訳タスクに関する元の論文にのみそのパフォーマンスが記載されています。

大規模な機械翻訳タスクと大規模なビジュアル Transformer タスクを除き、各実行を 3 回繰り返し、標準偏差を表の下付き文字として報告します。

研究者らはいかなる種類の知識の蒸留やデータ拡張も行いませんでした。

アブレーション実験

研究者らは、前方法と後方法の有効性を実証するためにアブレーション実験を行った。

さまざまな量子化器のフォワードパスの有効性を調べるために、バックプロパゲーションを FP16 に残します。

結果は下の図に示されています。

写真

計算とメモリの効率

最後に、研究者らはプロトタイプの実装を評価することで、ニューラル ネットワークのトレーニングを加速するアプローチの可能性を実証しました。

そして、それらの実装はまだ完全に最適化されていません。

研究者らはまた、線形演算子を非線形性や正規化と融合させなかった。

したがって、結果は INT4 トレーニング アルゴリズムの可能性を完全に反映することはできません。

完全に最適化された実装には大規模なエンジニアリングが必要となり、本論文の範囲を超えています。

結論は

研究者らは、Transformer INT4 向けのハードウェアフレンドリーなトレーニング方法を提案しました。

研究者らは、Transformer の MM の特性を分析することで、精度を維持しながら活性化と勾配を量子化する HQ および LSS 方式を提案しました。

いくつかの重要なタスクにおいて、私たちの方法は既存の INT4 方法と同等かそれ以上のパフォーマンスを発揮します。

研究者の研究は、トランスフォーマー以外にも、MLP-Mixer、グラフニューラルネットワーク、リカレントニューラルネットワークなどの他の MM アーキテクチャにも拡張される可能性があります。

これが彼らの将来の研究の方向性です。

より広範な影響:研究者のアルゴリズムは、ニューラルネットワークのトレーニングの効率を向上させ、エネルギー消費を削減する可能性があり、ディープラーニングによる炭素排出量の削減に役立つ可能性があります。

しかし、効率的なトレーニング アルゴリズムは、人間にとって安全ではない大規模な言語モデルや悪意のある AI アプリケーションの開発を促進する可能性もあります。

たとえば、関連するモデルやアプリケーションを使用して偽のコンテンツが生成されます。

制限事項:この作業の主な制限事項は、大規模な行列乗算 (線形層) を持つ大規模モデルのみを高速化でき、畳み込み層は高速化できないことです。

さらに、提案された方法は、OPT-175B などの非常に大きなモデルには適していません。

私たちの知る限りでは、これらの非常に大規模なモデルの場合、INT8 トレーニングでさえ未解決の問題のままです。

<<:  人類の未来における人工知能の重要性

>>:  旅の途中で「おもしろさ」が爆発!絵文字ジェネレーター、マスクがプリンセスに変身 | チュートリアル付き

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AI一般技術の探求 WOT2019 グローバル人工知能技術サミットが継続

[51CTO.comより引用] 6月21日、WOT2019グローバルテクノロジーサミットとグローバル...

AIがあなたが何歳で死ぬかを予測?トランスフォーマーの「占い」がネイチャーのサブジャーナルに掲載され、事故死の予測に成功

AIは本当に科学的に占いができるんですね! ?デンマーク工科大学(DTU)の研究者らは、各人の死亡の...

国内の多くの大学が共同でオープンソースコミュニティLAMMを構築しています。マルチモーダル言語モデルファミリーに参加する時が来ました

ChatGPTの登場以来、大規模言語モデル(LLM)は飛躍的な発展を遂げ、自然言語に基づく人間とコン...

顔認証闇市場:実在人物認証ビデオは1セット100元、アプリで検証可能

「1セット100元で、身分証明書の表裏の写真、身分証明書を持っている写真、うなずいたり首を振ったり口...

CMU の専門家が「マルチモーダル機械学習」の 6 つの主要な課題を包括的にまとめています。36 ページの長い記事 + 120 ページの PPT、すべて実用的な情報です。

さまざまな言語、視覚、ビデオ、オーディオなどの大規模モデルのパフォーマンスが向上し続けるにつれて、マ...

...

ソフトウェア開発に AI とアジャイル管理を導入するための 9 つのヒント

[51CTO.com クイック翻訳] ご存知のとおり、人工知能 (AI) は 1956 年の誕生以来...

基礎 | 機械学習におけるロジスティック回帰、決定木、ニューラル ネットワーク アルゴリズムの理解

1. ロジスティック回帰ロジスティック回帰。まず線形回帰から始めます。線形回帰の出力は実用的な意味を...

黄仁勲のNVIDIAの1兆ドル規模のビジネスを管理するクレイジーな方法:計画なし、レポートなし、階層なし

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

一貫性のあるハッシュアルゴリズムとJava実装

コンシステント ハッシュ アルゴリズムは、1997 年にマサチューセッツ工科大学によって提案された分...

ジャック・マー氏がまたもや的を射た発言:「将来、住宅はタマネギのように安くなる」のは固定資産税ではなく人工知能のせい?

「家はタマネギのように安くなる」というのは、家を買う余裕のないすべての人にとっての将来のビジョンな...

ディープラーニング(CNN RNN Attention)を使用して大規模なテキスト分類問題を解決する - 概要と実践

[[188373]]著者は最近、深層学習を応用してタオバオ商品のカテゴリー予測問題を解決するプロジェ...

人工知能と機械学習の違いを本当に理解していますか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...