最近、大規模言語モデル (LLM) はさまざまなタスクで優れたパフォーマンスを示しています。しかし、優れたタスク処理機能を備えているにもかかわらず、LLM はその膨大なサイズと計算要件に起因する大きな課題に直面しています。たとえば、GPT-175B バージョンには 1,750 億という驚異的なパラメータがあり、少なくとも 320 GB (1024 の倍数を使用) の半精度 (FP16) 形式のストレージが必要です。さらに、このモデルを推論用に展開するには、効率的に実行するために、それぞれ 80 GB のメモリを搭載した少なくとも 5 つの A100 GPU が必要です。 これらの問題に対処するには、モデル圧縮と呼ばれる方法が解決策となります。モデル圧縮により、大規模でリソースを大量に消費するモデルを、制約のあるモバイル デバイスでの保存に適したコンパクトなバージョンに変換できます。さらに、モデルを最適化して、レイテンシを最小限に抑えながらより高速に実行したり、これらの目標のバランスを実現したりすることもできます。 技術的な側面に加えて、LLM は環境や倫理の問題に関する議論も引き起こしました。これらのモデルは、開発途上国のエンジニアや研究者にとって大きな課題となります。開発途上国では、限られたリソースが、モデルに必要な基本的なハードウェアの入手の障壁となる可能性があります。 LLMの大量のエネルギー消費は二酸化炭素排出量を増加させます。人工知能の研究と持続可能な開発も非常に重要な問題です。これらの課題に対する解決策の 1 つは、パフォーマンスに大きな影響を与えずに炭素排出量を削減できる可能性のあるモデル圧縮技術を活用することです。これにより、人間は環境問題を解決し、AI のアクセシビリティを高め、LLM 展開における包括性を促進することができます。 この記事では、中国科学院情報工学研究所と中国人民大学高陵人工知能学院の研究者が、LLM 向けに特別に調整されたモデル圧縮技術の最近の進歩について説明します。この論文では、方法、指標、ベンチマークの徹底的な調査と分類を提供します。 論文アドレス: https://arxiv.org/pdf/2308.07633.pdf 下の図 1 に示すように、この論文で提案された分類法は、LLM のモデル圧縮方法を理解するための完全な構造化されたフレームワークを提供します。この調査には、プルーニング、知識蒸留、量子化、低ランク因数分解など、既存の成熟した技術の徹底的な分析が含まれます。さらに、この論文では、現在の課題を明らかにし、この発展途上の分野における将来の研究の方向性を展望しています。 研究者たちはまた、LLM にとって環境に配慮した、包括的で持続可能な未来への道を切り開くために、コミュニティの協力を提唱しています。この論文は、特に LLM に焦点を当てたモデル圧縮分野における最初の調査であることは注目に値します。 方法論剪定 プルーニングは、不要なコンポーネントや冗長なコンポーネントを削除することで、モデルのサイズや複雑さを軽減する強力な手法です。ご存知のとおり、モデルのパフォーマンスにほとんど影響を与えない冗長なパラメータが多数存在するため、これらの冗長なパラメータを直接削除しても、モデルのパフォーマンスに大きな影響は生じません。同時に、プルーニングは、モデルのストレージ、メモリ効率、コンピューティング効率の観点から、より優れたものになります。 プルーニングは、非構造化プルーニングと構造化プルーニングに分けられます。 2 つの主な違いは、プルーニングの目的と、結果として得られるネットワーク構造にあります。構造化プルーニングは、ネットワーク全体の構造を維持しながら、特定のルールに基づいて接続または階層構造を削除します。非構造化プルーニングは単一のパラメータを対象とし、不規則なスパース構造につながる可能性があります。最近の研究では、LLM に関連する大規模性と計算コストに対処することを目的として、LLM とプルーニング技術を組み合わせることに専念しています。 知識の蒸留 知識蒸留 (KD) は、モデルのパフォーマンスと一般化能力の向上を目的とした実用的な機械学習手法です。この技術は、教師モデルと呼ばれる複雑なモデルから、生徒モデルと呼ばれるより単純なモデルに知識を転送します。 KD の中心的な考え方は、教師モデルの包括的な知識を、よりスリムで効果的な表現に変換することです。この論文では、LLM を教師モデルとして使用する蒸留アプローチの概要を説明します。 研究者は、LLM の創発能力 (EA) を小さなモデル (SLM) に抽出することに重点を置いているかどうかに基づいて、これらの方法を分類します。したがって、これらの方法は、標準 KD と EA ベースの KD の 2 つのカテゴリに分類されます。視覚的表現タスクについては、図 2 に LLM 知識蒸留の簡単な分類を示します。 下の図 3 は、EA ベースの蒸留の概要を示しています。 定量化 モデル圧縮の分野では、量子化はディープラーニング モデルのストレージと計算のオーバーヘッドを軽減する手法として広く受け入れられています。重みは伝統的に浮動小数点数を使用して表されますが、量子化によって整数またはその他の離散形式に変換されます。この変換により、ストレージ要件と計算の複雑さが大幅に削減されます。ある程度の精度の低下はあるものの、洗練された量子化技術により、精度の低下を最小限に抑えながら大幅なモデル圧縮を実現できます。 量子化は、量子化を考慮したトレーニング (QAT)、量子化を考慮した微調整 (QAF)、およびトレーニング後の量子化 (PTQ) という 3 つの主な方法に分けられます。これらの方法の主な違いは、モデルを圧縮するために量子化が適用されるタイミングにあります。 QAT はモデルのトレーニング中に量子化を適用し、QAF は事前トレーニング済みモデルの微調整フェーズ中に量子化を適用し、PTQ はトレーニングが完了した後にモデルを量子化します。 最近の研究では、量子化を利用して LLM を圧縮することに重点が置かれており、印象的な結果が得られています。これらの研究は、主に、量子化を考慮したトレーニング、量子化を考慮した微調整、トレーニング後の量子化という、前述の 3 つの方法に分けられます。さらに、以下の表 1 は、LLM に適用された定量的手法の概要です。表では、LLM 重みのビット数 (精度) に基づいて、これらのジョブを 8 ビット量子化と低ビット量子化に分割しています。 低ランク分解 低ランク分解は、与えられた重み行列を、次元が大幅に低い 2 つ以上の小さな行列に分解して近似することを目的としたモデル圧縮手法です。低ランク分解の中心的な考え方は、大きな重み行列 W を 2 つの行列 U と V に分解することです。つまり、W ≈ UV となります。ここで、U は m×k 行列、V は k×n 行列で、k は m や n よりもはるかに小さくなります。 U と V の積は元の重み行列に近似し、パラメータの数と計算オーバーヘッドが大幅に削減されます。 LLM 研究分野では、LORA やその変種などの LLM を効果的に微調整するために、低ランク分解が広く採用されています。この論文では、低ランク分解を使用して LLM を圧縮するこれらの研究に焦点を当てています。 LLM モデル圧縮の分野では、研究者はパフォーマンスを維持しながらより効果的な圧縮を実現するために、LoRAPrune や ZeroQuantFP などのプルーニングや量子化を含む複数の手法を低ランク分解と組み合わせることがよくあります。 この分野の研究が進むにつれて、低ランク分解を適用して LLM を圧縮する技術がさらに進歩する可能性がありますが、LLM の可能性を最大限に活用するには、まだ調査と実験が必要です。 指標とベンチマーク測定 LLM の推論効率は、さまざまなメトリックを使用して測定できます。これらのメトリックはパフォーマンスのさまざまな側面を考慮しており、通常は LLM の精度とゼロショット学習機能の包括的な評価とともに提示されます。 これらの指標には次のものが含まれます。
ベンチマーク このベンチマークは、圧縮されていない LLM と比較した圧縮 LLM の有効性、効率性、および精度を測定することを目的としています。これらのベンチマークは通常、さまざまなタスクとデータセットで構成され、さまざまな自然言語処理の課題をカバーします。一般的なベンチマークには、HULK や ELUE などがあります。 最後に、研究者たちは、以下の分野でさらなる調査を行う必要があると考えています。
詳細については原文論文を参照してください。 |
大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて...
若者はさまざまなスワイプサービスに慣れてきましたが、これは高齢者に一連のトラブルをもたらしました。医...
9月24日のニュース、本日早朝、テスラ オプティマスの公式Twitterアカウントが新しいビデオをア...
近年、人工知能の人気が急上昇しており、画像認識、音声認識、機械翻訳、自動運転車など、AI の能力と威...
ChatGPT と生成型人工知能 (AI) が世間の注目を集めるようになり、突如として世界で最も議論...
マイクロソフトは10月4日、新デザインと多くの機能改善をもたらし、Copilot AI機能を導入した...
人工知能の定義は、「人工知能」と「知能」の 2 つの部分に分けられます。 「人工的」というのは理解し...
海外メディアの報道によると、インターネットには数十億枚の写真が溢れており、その多くは放置されたアカウ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
過去数か月間、数学者のテレンス・タオ氏は、ChatGPT を使用して数学の問題を解くのに何度も試み、...
人工知能 (AI) が人材情報プラットフォームを変革することで採用業界に革命をもたらしていることは否...
最近はテクノロジーがあらゆるところに存在し、それに伴って変化も起こっています。つまり、ビジネス戦略に...