中国科学院のチームは、最初のLLMモデル圧縮レビューを発表しました。剪定、知識蒸留、量子化技術の詳細な議論です。

中国科学院のチームは、最初のLLMモデル圧縮レビューを発表しました。剪定、知識蒸留、量子化技術の詳細な議論です。

最近、大規模言語モデル (LLM) はさまざまなタスクで優れたパフォーマンスを示しています。しかし、優れたタスク処理機能を備えているにもかかわらず、LLM はその膨大なサイズと計算要件に起因する大きな課題に直面しています。たとえば、GPT-175B バージョンには 1,750 億という驚異的なパラメータがあり、少なくとも 320 GB (1024 の倍数を使用) の半精度 (FP16) 形式のストレージが必要です。さらに、このモデルを推論用に展開するには、効率的に実行するために、それぞれ 80 GB のメモリを搭載した少なくとも 5 つの A100 GPU が必要です。

これらの問題に対処するには、モデル圧縮と呼ばれる方法が解決策となります。モデル圧縮により、大規模でリソースを大量に消費するモデルを、制約のあるモバイル デバイスでの保存に適したコンパクトなバージョンに変換できます。さらに、モデルを最適化して、レイテンシを最小限に抑えながらより高速に実行したり、これらの目標のバランスを実現したりすることもできます。

技術的な側面に加えて、LLM は環境や倫理の問題に関する議論も引き起こしました。これらのモデルは、開発途上国のエンジニアや研究者にとって大きな課題となります。開発途上国では、限られたリソースが、モデルに必要な基本的なハードウェアの入手の障壁となる可能性があります。 LLMの大量のエネルギー消費は二酸化炭素排出量を増加させます。人工知能の研究と持続可能な開発も非常に重要な問題です。これらの課題に対する解決策の 1 つは、パフォーマンスに大きな影響を与えずに炭素排出量を削減できる可能性のあるモデル圧縮技術を活用することです。これにより、人間は環境問題を解決し、AI のアクセシビリティを高め、LLM 展開における包括性を促進することができます。

この記事では、中国科学院情報工学研究所と中国人民大学高陵人工知能学院の研究者が、LLM 向けに特別に調整されたモデル圧縮技術の最近の進歩について説明します。この論文では、方法、指標、ベンチマークの徹底的な調査と分類を提供します。

論文アドレス: https://arxiv.org/pdf/2308.07633.pdf

下の図 1 に示すように、この論文で提案された分類法は、LLM のモデル圧縮方法を理解するための完全な構造化されたフレームワークを提供します。この調査には、プルーニング、知識蒸留、量子化、低ランク因数分解など、既存の成熟した技術の徹底的な分析が含まれます。さらに、この論文では、現在の課題を明らかにし、この発展途上の分野における将来の研究の方向性を展望しています。

研究者たちはまた、LLM にとって環境に配慮した、包括的で持続可能な未来への道を切り開くために、コミュニティの協力を提唱しています。この論文は、特に LLM に焦点を当てたモデル圧縮分野における最初の調査であることは注目に値します。

方法論

剪定

プルーニングは、不要なコンポーネントや冗長なコンポーネントを削除することで、モデルのサイズや複雑さを軽減する強力な手法です。ご存知のとおり、モデルのパフォーマンスにほとんど影響を与えない冗長なパラメータが多数存在するため、これらの冗長なパラメータを直接削除しても、モデルのパフォーマンスに大きな影響は生じません。同時に、プルーニングは、モデルのストレージ、メモリ効率、コンピューティング効率の観点から、より優れたものになります。

プルーニングは、非構造化プルーニングと構造化プルーニングに分けられます。 2 つの主な違いは、プルーニングの目的と、結果として得られるネットワーク構造にあります。構造化プルーニングは、ネットワーク全体の構造を維持しながら、特定のルールに基づいて接続または階層構造を削除します。非構造化プルーニングは単一のパラメータを対象とし、不規則なスパース構造につながる可能性があります。最近の研究では、LLM に関連する大規模性と計算コストに対処することを目的として、LLM とプルーニング技術を組み合わせることに専念しています。

知識の蒸留

知識蒸留 (KD) は、モデルのパフォーマンスと一般化能力の向上を目的とした実用的な機械学習手法です。この技術は、教師モデルと呼ばれる複雑なモデルから、生徒モデルと呼ばれるより単純なモデルに知識を転送します。 KD の中心的な考え方は、教師モデルの包括的な知識を、よりスリムで効果的な表現に変換することです。この論文では、LLM を教師モデルとして使用する蒸留アプローチの概要を説明します。

研究者は、LLM の創発能力 (EA) を小さなモデル (SLM) に抽出することに重点を置いているかどうかに基づいて、これらの方法を分類します。したがって、これらの方法は、標準 KD と EA ベースの KD の 2 つのカテゴリに分類されます。視覚的表現タスクについては、図 2 に LLM 知識蒸留の簡単な分類を示します。

下の図 3 は、EA ベースの蒸留の概要を示しています。

定量化

モデル圧縮の分野では、量子化はディープラーニング モデルのストレージと計算のオーバーヘッドを軽減する手法として広く受け入れられています。重みは伝統的に浮動小数点数を使用して表されますが、量子化によって整数またはその他の離散形式に変換されます。この変換により、ストレージ要件と計算の複雑さが大幅に削減されます。ある程度の精度の低下はあるものの、洗練された量子化技術により、精度の低下を最小限に抑えながら大幅なモデル圧縮を実現できます。

量子化は、量子化を考慮したトレーニング (QAT)、量子化を考慮した微調整 (QAF)、およびトレーニング後の量子化 (PTQ) という 3 つの主な方法に分けられます。これらの方法の主な違いは、モデルを圧縮するために量子化が適用されるタイミングにあります。 QAT はモデルのトレーニング中に量子化を適用し、QAF は事前トレーニング済みモデルの微調整フェーズ中に量子化を適用し、PTQ はトレーニングが完了した後にモデルを量子化します。

最近の研究では、量子化を利用して LLM を圧縮することに重点が置かれており、印象的な結果が得られています。これらの研究は、主に、量子化を考慮したトレーニング、量子化を考慮した微調整、トレーニング後の量子化という、前述の 3 つの方法に分けられます。さらに、以下の表 1 は、LLM に適用された定量的手法の概要です。表では、LLM 重みのビット数 (精度) に基づいて、これらのジョブを 8 ビット量子化と低ビット量子化に分割しています。

低ランク分解

低ランク分解は、与えられた重み行列を、次元が大幅に低い 2 つ以上の小さな行列に分解して近似することを目的としたモデル圧縮手法です。低ランク分解の中心的な考え方は、大きな重み行列 W を 2 つの行列 U と V に分解することです。つまり、W ≈ UV となります。ここで、U は m×k 行列、V は k×n 行列で、k は m や n よりもはるかに小さくなります。 U と V の積は元の重み行列に近似し、パラメータの数と計算オーバーヘッドが大幅に削減されます。

LLM 研究分野では、LORA やその変種などの LLM を効果的に微調整するために、低ランク分解が広く採用されています。この論文では、低ランク分解を使用して LLM を圧縮するこれらの研究に焦点を当てています。 LLM モデル圧縮の分野では、研究者はパフォーマンスを維持しながらより効果的な圧縮を実現するために、LoRAPrune や ZeroQuantFP などのプルーニングや量子化を含む複数の手法を低ランク分解と組み合わせることがよくあります。

この分野の研究が進むにつれて、低ランク分解を適用して LLM を圧縮する技術がさらに進歩する可能性がありますが、LLM の可能性を最大限に活用するには、まだ調査と実験が必要です。

指標とベンチマーク

測定

LLM の推論効率は、さまざまなメトリックを使用して測定できます。これらのメトリックはパフォーマンスのさまざまな側面を考慮しており、通常は LLM の精度とゼロショット学習機能の包括的な評価とともに提示されます。

これらの指標には次のものが含まれます。

  • パラメータスケール
  • モデルスケール
  • 圧縮比
  • 推論の時間
  • 浮動小数点演算 (FLOP)

ベンチマーク

このベンチマークは、圧縮されていない LLM と比較した圧縮 LLM の有効性、効率性、および精度を測定することを目的としています。これらのベンチマークは通常、さまざまなタスクとデータセットで構成され、さまざまな自然言語処理の課題をカバーします。一般的なベンチマークには、HULK や ELUE などがあります。

最後に、研究者たちは、以下の分野でさらなる調査を行う必要があると考えています。

  • プロフェッショナルベンチマーク
  • パフォーマンスと規模のトレードオフ
  • 動的 LLM 圧縮
  • 説明可能性

詳細については原文論文を参照してください。

<<: 

>>: 

ブログ    

推薦する

検査業界は大きな変革期を迎えており、人工知能が次世代の検査をリードしている。

[[283895]]モバイルインターネットの隆盛時代を経て、中国のモバイルアプリケーションエコシス...

米国は戦闘における人工知能の活用を推進し続けている

海外メディアの報道によると、米国防総省は最近、トップレベルの設計を強化し、関連技術の急速な発展を促進...

ドイツ反トラスト長官:AIは大企業の支配を強める可能性がある

ドイツ独占禁止局のアンドレアス・ムント局長は10月10日、人工知能によって大手テクノロジー企業の市場...

Microsoft AI が IMO コンテストに参加します!小さな目標:数学の金メダル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Hudiに基づくByteDanceの機械学習アプリケーションシナリオ

統合ストリームとバッチサンプルの生成プロセスを明らかにし、Hudiカーネルの最適化と変換を共有し、デ...

無人RV、全電動、未来は明るい

科学技術の急速な発展は、自動車産業の技術進歩を直接的に推進してきました。自動運転は自動車と技術の結晶...

...

オープンソース | AREX: Ctrip の次世代自動回帰テスト ツールの設計と実装

著者についてCtrip の R&D エネルギー効率マネージャー兼 SRE である Haibi...

中国科学院は、プログラマーがバグを見つけるのを助けるために大きなモデルを使用し、102の論文を分析し、これらの解決策をまとめた。

中国科学院は「バグ発見」に着手し、一気に N 個の解決策をまとめました。魔法の武器は大きなモデルです...

5年後に最もホットなものは何でしょうか? 2025 年のトップ 10 トレンド: ゼロ検索時代の到来

[[273076]]ファーウェイは8月8日、世界産業展望GIV@2025を発表し、次のように予測した...

機械学習に必須: TensorFlow を使用するための 11 のヒント

[[326623]] TensorFlow 2.x は、モデルの構築と全体的な使用において多くの利便...

AI企業がソフトウェアサプライチェーンの脆弱性の犠牲になると何が起こるか

OpenAI の侵害を調査し、AI 企業 SSC のハッキングの可能性とその影響の可能性を推測します...

データサイエンティストにとって最も重要なアルゴリズムと統計モデル

数年間この業界に携わってきたデータ サイエンティストとして、私は LinkedIn や QuoLa ...

3つのステップで声紋システムを構築する方法

背景声紋検索は、その名前が示すように、話者認識であり、音を通じて話者の声を確認または識別します。声紋...