モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて優れた能力を発揮し、社会に大きな影響を与えてきました。ただし、これらの優れた機能には、膨大なトレーニングリソース (下の図の左を参照) と長い推論待ち時間 (下の図の右を参照) が必要になります。したがって、研究者は効率性の問題を解決するための効果的な技術的手段を開発する必要があります。

同時に、図の右側からは、最近人気のMistral-7Bなどの高効率LLMが、LLaMA1-33Bと同様の精度を確保しながら、推論メモリを大幅に削減し、推論レイテンシを短縮できることもわかります。いくつかの実現可能で効率的な手段がLLMの設計と展開にうまく適用されていることがわかります。

このレビューでは、オハイオ州立大学、インペリアル・カレッジ・ロンドン、ミシガン州立大学、ミシガン大学、Amazon、Google、Boson AI、Microsoft Research Asia の研究者が、効率的な LLM に関する研究の体系的かつ包括的な調査を提供します。 LLMの効率を最適化するための既存の技術を、モデル中心、データ中心、フレームワーク中心の3つのカテゴリに分類し、関連する最先端の技術をまとめ、議論しました。

論文: https://arxiv.org/abs/2312.03863
GitHub: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

同時に、研究者らはレビューに関係する論文を整理するための GitHub リポジトリを設立し、このリポジトリを積極的に維持し、新しい研究が出てくるたびに継続的に更新していきます。このレビューが、研究者や実務家の方々が効率的な LLM の研究と開発について体系的に理解し、この重要かつ刺激的な分野に貢献するきっかけとなることを願っています。

リポジトリ URL: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

モデル中心

モデル中心のアプローチは、アルゴリズムレベルとシステムレベルの両方で効率的な手法に焦点を当てており、モデル自体に焦点が当てられています。 LLM には数十億、あるいは数兆ものパラメータがあり、より小規模なモデルと比較して創発性などの独自の特性があるため、LLM の効率を最適化するための新しい技術を開発する必要があります。この記事では、モデル圧縮、効率的な事前トレーニング、効率的な微調整、効率的な推論、効率的なモデルアーキテクチャ設計など、モデル中心の手法の 5 つのカテゴリについて詳しく説明します。

1. モデルの圧縮

モデル圧縮技術は、主に量子化、パラメータ刈り込み、低ランク推定、知識蒸留の4つのカテゴリに分けられます（下図参照）。量子化は、モデルの重みまたは活性化値を高精度から低精度に圧縮し、パラメータ刈り込みは、モデルの重みのより冗長な部分を検索して削除し、低ランク推定は、モデルの重み行列をいくつかの低ランクの小さな行列の積に変換し、知識蒸留は、大きなモデルを使用して小さなモデルを直接トレーニングし、特定のタスクを実行するときに小さなモデルが大きなモデルを置き換える機能を持つようにします。

2. 効率的な事前トレーニング

LLM の事前トレーニングは非常に高価です。効率的な事前トレーニングは、LLM の事前トレーニングプロセスの効率を向上させ、コストを削減することを目的としています。効率的な事前トレーニングは、混合精度アクセラレーション、モデルスケーリング、初期化テクノロジー、最適化戦略、システムレベルのアクセラレーションに分けられます。

混合精度アクセラレーションは、低精度の重みを使用して勾配、重み、およびアクティベーション値を計算し、それらを高精度に変換して元の重みを更新するために適用することで、事前トレーニングの効率を向上させます。モデルのスケーリングは、小さなモデルのパラメータを使用して大きなモデルにスケーリングすることで、事前トレーニングの収束を加速し、トレーニングコストを削減します。初期化技術は、モデルの初期値を設計することでモデルの収束を高速化します。最適化戦略は、モデルトレーニング中のメモリ消費を削減するための軽量オプティマイザーの設計に重点を置いています。システムレベルのアクセラレーションでは、分散テクノロジやその他のテクノロジを使用して、システムレベルからモデルの事前トレーニングを加速します。

3. 効率的な微調整

効率的な微調整は、LLM の微調整プロセスの効率を向上させることを目的としています。一般的な効率的な微調整手法は、パラメータ効率の高い微調整とメモリ効率の高い微調整の 2 つのカテゴリに分けられます。

パラメータ効率的な微調整 (PEFT) は、LLM バックボーン全体を固定し、追加のパラメータの小さなセットのみを更新することで、LLM を下流のタスクに適応させることを目的としています。本論文では、PEFT をさらにアダプタベースの微調整、低ランク適応、接頭辞の微調整、およびキューワードの微調整に分類しています。

メモリベースの効率的な微調整は、オプティマイザーの状態やアクティベーション値によって消費されるメモリの削減など、LLM 微調整プロセス全体でのメモリ消費の削減に重点を置いています。

4. 効率的な推論

効率的な推論は、LLM の推論プロセスの効率を向上させることを目的としています。研究者は、一般的な効率的な推論技術を、アルゴリズムレベルの推論加速とシステムレベルの推論加速の 2 つのカテゴリに分類しています。

アルゴリズムレベルでの推論の高速化は、投機的デコードと KV キャッシュ最適化の 2 つのカテゴリに分けられます。投機的デコードは、小さなスクラッチモデルを使用してトークンを並列に計算し、より大きなターゲットモデルの投機的プレフィックスを作成することで、サンプリングプロセスを高速化します。 KV キャッシュの最適化とは、LLM の推論中にキーと値 (KV) のペアの繰り返し計算を最適化することを指します。

システムレベルの推論の高速化は、指定されたハードウェア上のメモリアクセス数を最適化し、アルゴリズムの並列処理量を増やすなどして、LLM 推論を高速化します。

5. 効率的なモデルアーキテクチャ設計

LLM の効率的なアーキテクチャ設計とは、モデル構造と計算プロセスを戦略的に最適化して、リソースの消費を最小限に抑えながらパフォーマンスとスケーラビリティを向上させることを指します。効率的なモデルアーキテクチャ設計は、モデルの種類に基づいて、効率的なアテンションモジュール、ハイブリッドエキスパートモデル、長いテキストの大規模モデル、トランスフォーマーを置き換えることができるアーキテクチャの 4 つのカテゴリに分類されます。

効率的なアテンションモジュールは、アテンションモジュールの複雑な計算とメモリ使用量を最適化することを目的としています。混合エキスパートモデル (MoE) は、LLM の特定のモジュールの推論決定を複数の小さなエキスパートモデルに置き換えることで、全体的なスパース性を実現します。長いテキストの大きなモデルは、超長いテキストを効率的に処理するために特別に設計された LLM です。代替トランスフォーマーアーキテクチャは、モデルの複雑さを軽減し、モデルアーキテクチャを再設計することで、ポストトランスフォーマーアーキテクチャと同じ推論機能を実現します。

データ中心

データ中心のアプローチは、LLM の効率を向上させる上でのデータの品質と構造の役割に重点を置いています。この論文では、研究者らは、データ選択とキューワードエンジニアリングを含む 2 種類のデータ中心の方法について詳細に議論しています。

1. データの選択

LLM のデータ選択は、トレーニングプロセスを高速化するために、冗長データや無効なデータを削除するなど、事前トレーニング/微調整データをクリーンアップして選択することを目的としています。

2. プロンプトワードエンジニアリング

プロンプトワードエンジニアリングは、効果的な入力（プロンプトワード）を設計することで、LLM が望ましい出力を生成するように導きます。プロンプトワードを設計することで、モデルのパフォーマンスを面倒な微調整後と同等にすることができるという効率性があります。研究者たちは、一般的なキューワードエンジニアリング手法を、少数サンプルのキューワードエンジニアリング、キューワード圧縮、キューワード生成の 3 つのカテゴリに分類しました。

少数ショットのキューエンジニアリングは、実行されるタスクの理解を導くための限られた一連の例を LLM に提供します。ヒント圧縮は、長いヒント入力や学習を圧縮し、ヒント表現を使用することで、LLM による入力の処理を高速化します。キューワード生成は、手動で注釈を付けられたデータを使用するのではなく、モデルが特定の関連性の高い応答を生成するようにガイドする効果的なプロンプトを自動的に作成することを目的としています。

フレームワーク中心

研究者らは最近、人気があり効率的な LLM フレームワークを調査し、事前トレーニング、微調整、推論など、最適化できる効率的なタスクをリストアップしました (下の図を参照)。

要約する

この調査では、研究者らが効果的な LLM の体系的なレビューを提供しており、これは LLM の民主化を目的とした重要な研究分野です。まず、効率的な LLM がなぜ必要なのかを説明します。この論文では、秩序だったフレームワークの中で、モデル中心、データ中心、フレームワーク中心の観点から、LLM のアルゴリズムレベルとシステムレベルの両方で効率的な手法を調査します。

研究者たちは、LLM および LLM 指向のシステムでは効率性がますます重要な役割を果たすようになると考えています。彼らは、この調査が研究者や実務家がこの分野に早く参入するのに役立ち、効果的な LLM に関する新たな研究を刺激するきっかけとなることを期待しています。

<<:

>>: 追加のトレーニングなしでモデルのパフォーマンスを 30% 向上します。ディープマインドの科学者がMIT博士課程学生のインターンシップの成果を称賛

青春が戻ってきた！ AIが『スラムダンク』の登場人物を実在の人物に変身させたら、一番イケメンは流川楓じゃないのか？

ブログ

モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

モデル中心

データ中心

フレームワーク中心

要約する

青春が戻ってきた！ AIが『スラムダンク』の登場人物を実在の人物に変身させたら、一番イケメンは流川楓じゃないのか？

調査：CIOはAIの実験や投資に依然として慎重

人工知能は石油・ガス生産者の業務改善と温室効果ガス排出削減に貢献

AIの計算能力は70年間で6億8000万倍に増加し、3つの歴史的段階でAI技術の指数関数的爆発が目撃されました。

春の耕作が進むにつれ、農業ロボットが近代的な農業システムの形成に貢献している

推薦する

住宅街、公衆トイレ、ジム...「顔認識」はどこにでもあります。どこでも顔をスキャンする必要があるのでしょうか?

スタンフォード大学の博士によるソロ作品！大規模モデルのトレーニング速度が再び2倍になり、彼はスタースタートアップの主任科学者として参加することを正式に発表した。

ロボットが人間に取って代わるのは時間の問題です。まずこれらの仕事がなくなるでしょう。

1 つの記事で RNN (リカレントニューラルネットワーク) の基礎を理解する

ヤン・ルカン氏ら専門家が2019年のAIの発展動向を予測

K-means クラスタリングがあるのに、なぜ DBSCAN クラスタリングアルゴリズムが必要なのでしょうか?

Raspberry Pi でボストンロボットドッグを DIY すれば、50 万ドル節約できます。オープンソースのチュートリアルで誰でも始められます。

Pythonを使用して独自のTwitterボットを構築する方法を学びます

インテリジェント衛生の開発が加速しており、衛生ロボットは応用の「先駆者」となっている。