モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて優れた能力を発揮し、社会に大きな影響を与えてきました。ただし、これらの優れた機能には、膨大なトレーニング リソース (下の図の左を参照) と長い推論待ち時間 (下の図の右を参照) が必要になります。したがって、研究者は効率性の問題を解決するための効果的な技術的手段を開発する必要があります。

同時に、図の右側からは、最近人気のMistral-7Bなどの高効率LLMが、LLaMA1-33Bと同様の精度を確保しながら、推論メモリを大幅に削減し、推論レイテンシを短縮できることもわかります。いくつかの実現可能で効率的な手段がLLMの設計と展開にうまく適用されていることがわかります。

このレビューでは、オハイオ州立大学、インペリアル・カレッジ・ロンドン、ミシガン州立大学、ミシガン大学、Amazon、Google、Boson AI、Microsoft Research Asia の研究者が、効率的な LLM に関する研究の体系的かつ包括的な調査を提供します。 LLMの効率を最適化するための既存の技術を、モデル中心、データ中心、フレームワーク中心の3つのカテゴリに分類し、関連する最先端の技術をまとめ、議論しました。


  • 論文: https://arxiv.org/abs/2312.03863
  • GitHub: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

同時に、研究者らはレビューに関係する論文を整理するための GitHub リポジトリを設立し、このリポジトリを積極的に維持し、新しい研究が出てくるたびに継続的に更新していきます。このレビューが、研究者や実務家の方々が効率的な LLM の研究と開発について体系的に理解し、この重要かつ刺激的な分野に貢献するきっかけとなることを願っています。

リポジトリ URL: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

モデル中心

モデル中心のアプローチは、アルゴリズム レベルとシステム レベルの両方で効率的な手法に焦点を当てており、モデル自体に焦点が当てられています。 LLM には数十億、あるいは数兆ものパラメータがあり、より小規模なモデルと比較して創発性などの独自の特性があるため、LLM の効率を最適化するための新しい技術を開発する必要があります。この記事では、モデル圧縮、効率的な事前トレーニング、効率的な微調整、効率的な推論、効率的なモデルアーキテクチャ設計など、モデル中心の手法の 5 つのカテゴリについて詳しく説明します。

1. モデルの圧縮

モデル圧縮技術は、主に量子化、パラメータ刈り込み、低ランク推定、知識蒸留の4つのカテゴリに分けられます(下図参照)。量子化は、モデルの重みまたは活性化値を高精度から低精度に圧縮し、パラメータ刈り込みは、モデルの重みのより冗長な部分を検索して削除し、低ランク推定は、モデルの重み行列をいくつかの低ランクの小さな行列の積に変換し、知識蒸留は、大きなモデルを使用して小さなモデルを直接トレーニングし、特定のタスクを実行するときに小さなモデルが大きなモデルを置き換える機能を持つようにします。

2. 効率的な事前トレーニング

LLM の事前トレーニングは非常に高価です。効率的な事前トレーニングは、LLM の事前トレーニング プロセスの効率を向上させ、コストを削減することを目的としています。効率的な事前トレーニングは、混合精度アクセラレーション、モデルスケーリング、初期化テクノロジー、最適化戦略、システムレベルのアクセラレーションに分けられます。

混合精度アクセラレーションは、低精度の重みを使用して勾配、重み、およびアクティベーション値を計算し、それらを高精度に変換して元の重みを更新するために適用することで、事前トレーニングの効率を向上させます。モデルのスケーリングは、小さなモデルのパラメータを使用して大きなモデルにスケーリングすることで、事前トレーニングの収束を加速し、トレーニング コストを削減します。初期化技術は、モデルの初期値を設計することでモデルの収束を高速化します。最適化戦略は、モデル トレーニング中のメモリ消費を削減するための軽量オプティマイザーの設計に重点を置いています。システム レベルのアクセラレーションでは、分散テクノロジやその他のテクノロジを使用して、システム レベルからモデルの事前トレーニングを加速します。

3. 効率的な微調整

効率的な微調整は、LLM の微調整プロセスの効率を向上させることを目的としています。一般的な効率的な微調整手法は、パラメータ効率の高い微調整とメモリ効率の高い微調整の 2 つのカテゴリに分けられます。

パラメータ効率的な微調整 (PEFT) は、LLM バックボーン全体を固定し、追加のパラメータの小さなセットのみを更新することで、LLM を下流のタスクに適応させることを目的としています。本論文では、PEFT をさらにアダプタベースの微調整、低ランク適応、接頭辞の微調整、およびキューワードの微調整に分類しています。

メモリベースの効率的な微調整は、オプティマイザーの状態やアクティベーション値によって消費されるメモリの削減など、LLM 微調整プロセス全体でのメモリ消費の削減に重点を置いています。

4. 効率的な推論

効率的な推論は、LLM の推論プロセスの効率を向上させることを目的としています。研究者は、一般的な効率的な推論技術を、アルゴリズム レベルの推論加速とシステム レベルの推論加速の 2 つのカテゴリに分類しています。

アルゴリズム レベルでの推論の高速化は、投機的デコードと KV キャッシュ最適化の 2 つのカテゴリに分けられます。投機的デコードは、小さなスクラッチ モデルを使用してトークンを並列に計算し、より大きなターゲット モデルの投機的プレフィックスを作成することで、サンプリング プロセスを高速化します。 KV キャッシュの最適化とは、LLM の推論中にキーと値 (KV) のペアの繰り返し計算を最適化することを指します。

システムレベルの推論の高速化は、指定されたハードウェア上のメモリアクセス数を最適化し、アルゴリズムの並列処理量を増やすなどして、LLM 推論を高速化します。

5. 効率的なモデルアーキテクチャ設計

LLM の効率的なアーキテクチャ設計とは、モデル構造と計算プロセスを戦略的に最適化して、リソースの消費を最小限に抑えながらパフォーマンスとスケーラビリティを向上させることを指します。効率的なモデル アーキテクチャ設計は、モデルの種類に基づいて、効率的なアテンション モジュール、ハイブリッド エキスパート モデル、長いテキストの大規模モデル、トランスフォーマーを置き換えることができるアーキテクチャの 4 つのカテゴリに分類されます。

効率的なアテンション モジュールは、アテンション モジュールの複雑な計算とメモリ使用量を最適化することを目的としています。混合エキスパート モデル (MoE) は、LLM の特定のモジュールの推論決定を複数の小さなエキスパート モデルに置き換えることで、全体的なスパース性を実現します。長いテキストの大きなモデルは、超長いテキストを効率的に処理するために特別に設計された LLM です。代替トランスフォーマー アーキテクチャは、モデルの複雑さを軽減し、モデル アーキテクチャを再設計することで、ポスト トランスフォーマー アーキテクチャと同じ推論機能を実現します。

データ中心

データ中心のアプローチは、LLM の効率を向上させる上でのデータの品質と構造の役割に重点を置いています。この論文では、研究者らは、データ選択とキューワードエンジニアリングを含む 2 種類のデータ中心の方法について詳細に議論しています。

1. データの選択

LLM のデータ選択は、トレーニング プロセスを高速化するために、冗長データや無効なデータを削除するなど、事前トレーニング/微調整データをクリーンアップして選択することを目的としています。

2. プロンプトワードエンジニアリング

プロンプトワードエンジニアリングは、効果的な入力(プロンプトワード)を設計することで、LLM が望ましい出力を生成するように導きます。プロンプトワードを設計することで、モデルのパフォーマンスを面倒な微調整後と同等にすることができるという効率性があります。研究者たちは、一般的なキューワードエンジニアリング手法を、少数サンプルのキューワードエンジニアリング、キューワード圧縮、キューワード生成の 3 つのカテゴリに分類しました。

少数ショットのキュー エンジニアリングは、実行されるタスクの理解を導くための限られた一連の例を LLM に提供します。ヒント圧縮は、長いヒント入力や学習を圧縮し、ヒント表現を使用することで、LLM による入力の処理を高速化します。キューワード生成は、手動で注釈を付けられたデータを使用するのではなく、モデルが特定の関連性の高い応答を生成するようにガイドする効果的なプロンプトを自動的に作成することを目的としています。

フレームワーク中心

研究者らは最近、人気があり効率的な LLM フレームワークを調査し、事前トレーニング、微調整、推論など、最適化できる効率的なタスクをリストアップしました (下の図を参照)。

要約する

この調査では、研究者らが効果的な LLM の体系的なレビューを提供しており、これは LLM の民主化を目的とした重要な研究分野です。まず、効率的な LLM がなぜ必要なのかを説明します。この論文では、秩序だったフレームワークの中で、モデル中心、データ中心、フレームワーク中心の観点から、LLM のアルゴリズムレベルとシステムレベルの両方で効率的な手法を調査します。

研究者たちは、LLM および LLM 指向のシステムでは効率性がますます重要な役割を果たすようになると考えています。彼らは、この調査が研究者や実務家がこの分野に早く参入するのに役立ち、効果的な LLM に関する新たな研究を刺激するきっかけとなることを期待しています。

<<: 

>>:  追加のトレーニングなしでモデルのパフォーマンスを 30% 向上します。ディープマインドの科学者がMIT博士課程学生のインターンシップの成果を称賛

ブログ    
ブログ    

推薦する

...

建設業界はAIとIoTの次の大きなターゲット

建設業界は、革新、破壊、あるいは何と呼ぼうと、何らかの変化が起こりやすい時期にあります。以前にも書い...

...

Tech Neo 10月号: 同時実行最適化

51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて、...

写真を3Dに変換する品質が急上昇! GitHub がショートポジションをオープンしたところ、300 人以上がスターを付けました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI および機械学習プロジェクトはどの程度安全ですか?

[[355693]]人工知能と機械学習はメリットをもたらす一方で、新たな脆弱性ももたらします。この...

「中国版GPT-3」が登場。算術演算が可能で、紅楼夢を書き続けることができる。64枚のV100画像で3週間トレーニングされた。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

もうひとつ:なぜ消費者向けロボット企業は失敗しているのか?

[[264899]] [51CTO.com クイック翻訳] ハードウェア分野の変化はどのくらい速い...

データのクリーニングと前処理の完全ガイド

データの前処理は、機械学習モデルを構築する際の最初の (そしておそらく最も重要な) ステップであり、...

...

...

フロスト&サリバンは、倉庫管理用の自律配送ロボットの市場が2025年までに272億ドルに達すると予測している。

コロナウイルスのパンデミックが業界に与える影響の程度は地域や業種によって異なると報告書は述べている合...

OpenAI が GPT-4 やその他のモデルを更新し、新しい API 関数呼び出しを追加し、価格を最大 75% 引き下げ

数日前、OpenAIのCEOサム・アルトマン氏は世界ツアーのスピーチで、OpenAIの最近の開発ルー...

OpenAIがMicrosoftに反旗を翻す!アルトマン氏が「ChatGPTのカスタマイズ」を企む。AI市場の未来はまた変わるのか?

ChatGPTはリリースからわずか半年で、5日間でユーザー数が100万人を超え、現在ユーザー総数は...