モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

モデル、データ、フレームワークの観点から、効率的な大規模言語モデルに関する54ページのレビューを紹介します。

大規模言語モデル (LLM) は、自然言語理解、言語生成、複雑な推論など、多くの重要なタスクにおいて優れた能力を発揮し、社会に大きな影響を与えてきました。ただし、これらの優れた機能には、膨大なトレーニング リソース (下の図の左を参照) と長い推論待ち時間 (下の図の右を参照) が必要になります。したがって、研究者は効率性の問題を解決するための効果的な技術的手段を開発する必要があります。

同時に、図の右側からは、最近人気のMistral-7Bなどの高効率LLMが、LLaMA1-33Bと同様の精度を確保しながら、推論メモリを大幅に削減し、推論レイテンシを短縮できることもわかります。いくつかの実現可能で効率的な手段がLLMの設計と展開にうまく適用されていることがわかります。

このレビューでは、オハイオ州立大学、インペリアル・カレッジ・ロンドン、ミシガン州立大学、ミシガン大学、Amazon、Google、Boson AI、Microsoft Research Asia の研究者が、効率的な LLM に関する研究の体系的かつ包括的な調査を提供します。 LLMの効率を最適化するための既存の技術を、モデル中心、データ中心、フレームワーク中心の3つのカテゴリに分類し、関連する最先端の技術をまとめ、議論しました。


  • 論文: https://arxiv.org/abs/2312.03863
  • GitHub: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

同時に、研究者らはレビューに関係する論文を整理するための GitHub リポジトリを設立し、このリポジトリを積極的に維持し、新しい研究が出てくるたびに継続的に更新していきます。このレビューが、研究者や実務家の方々が効率的な LLM の研究と開発について体系的に理解し、この重要かつ刺激的な分野に貢献するきっかけとなることを願っています。

リポジトリ URL: https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey

モデル中心

モデル中心のアプローチは、アルゴリズム レベルとシステム レベルの両方で効率的な手法に焦点を当てており、モデル自体に焦点が当てられています。 LLM には数十億、あるいは数兆ものパラメータがあり、より小規模なモデルと比較して創発性などの独自の特性があるため、LLM の効率を最適化するための新しい技術を開発する必要があります。この記事では、モデル圧縮、効率的な事前トレーニング、効率的な微調整、効率的な推論、効率的なモデルアーキテクチャ設計など、モデル中心の手法の 5 つのカテゴリについて詳しく説明します。

1. モデルの圧縮

モデル圧縮技術は、主に量子化、パラメータ刈り込み、低ランク推定、知識蒸留の4つのカテゴリに分けられます(下図参照)。量子化は、モデルの重みまたは活性化値を高精度から低精度に圧縮し、パラメータ刈り込みは、モデルの重みのより冗長な部分を検索して削除し、低ランク推定は、モデルの重み行列をいくつかの低ランクの小さな行列の積に変換し、知識蒸留は、大きなモデルを使用して小さなモデルを直接トレーニングし、特定のタスクを実行するときに小さなモデルが大きなモデルを置き換える機能を持つようにします。

2. 効率的な事前トレーニング

LLM の事前トレーニングは非常に高価です。効率的な事前トレーニングは、LLM の事前トレーニング プロセスの効率を向上させ、コストを削減することを目的としています。効率的な事前トレーニングは、混合精度アクセラレーション、モデルスケーリング、初期化テクノロジー、最適化戦略、システムレベルのアクセラレーションに分けられます。

混合精度アクセラレーションは、低精度の重みを使用して勾配、重み、およびアクティベーション値を計算し、それらを高精度に変換して元の重みを更新するために適用することで、事前トレーニングの効率を向上させます。モデルのスケーリングは、小さなモデルのパラメータを使用して大きなモデルにスケーリングすることで、事前トレーニングの収束を加速し、トレーニング コストを削減します。初期化技術は、モデルの初期値を設計することでモデルの収束を高速化します。最適化戦略は、モデル トレーニング中のメモリ消費を削減するための軽量オプティマイザーの設計に重点を置いています。システム レベルのアクセラレーションでは、分散テクノロジやその他のテクノロジを使用して、システム レベルからモデルの事前トレーニングを加速します。

3. 効率的な微調整

効率的な微調整は、LLM の微調整プロセスの効率を向上させることを目的としています。一般的な効率的な微調整手法は、パラメータ効率の高い微調整とメモリ効率の高い微調整の 2 つのカテゴリに分けられます。

パラメータ効率的な微調整 (PEFT) は、LLM バックボーン全体を固定し、追加のパラメータの小さなセットのみを更新することで、LLM を下流のタスクに適応させることを目的としています。本論文では、PEFT をさらにアダプタベースの微調整、低ランク適応、接頭辞の微調整、およびキューワードの微調整に分類しています。

メモリベースの効率的な微調整は、オプティマイザーの状態やアクティベーション値によって消費されるメモリの削減など、LLM 微調整プロセス全体でのメモリ消費の削減に重点を置いています。

4. 効率的な推論

効率的な推論は、LLM の推論プロセスの効率を向上させることを目的としています。研究者は、一般的な効率的な推論技術を、アルゴリズム レベルの推論加速とシステム レベルの推論加速の 2 つのカテゴリに分類しています。

アルゴリズム レベルでの推論の高速化は、投機的デコードと KV キャッシュ最適化の 2 つのカテゴリに分けられます。投機的デコードは、小さなスクラッチ モデルを使用してトークンを並列に計算し、より大きなターゲット モデルの投機的プレフィックスを作成することで、サンプリング プロセスを高速化します。 KV キャッシュの最適化とは、LLM の推論中にキーと値 (KV) のペアの繰り返し計算を最適化することを指します。

システムレベルの推論の高速化は、指定されたハードウェア上のメモリアクセス数を最適化し、アルゴリズムの並列処理量を増やすなどして、LLM 推論を高速化します。

5. 効率的なモデルアーキテクチャ設計

LLM の効率的なアーキテクチャ設計とは、モデル構造と計算プロセスを戦略的に最適化して、リソースの消費を最小限に抑えながらパフォーマンスとスケーラビリティを向上させることを指します。効率的なモデル アーキテクチャ設計は、モデルの種類に基づいて、効率的なアテンション モジュール、ハイブリッド エキスパート モデル、長いテキストの大規模モデル、トランスフォーマーを置き換えることができるアーキテクチャの 4 つのカテゴリに分類されます。

効率的なアテンション モジュールは、アテンション モジュールの複雑な計算とメモリ使用量を最適化することを目的としています。混合エキスパート モデル (MoE) は、LLM の特定のモジュールの推論決定を複数の小さなエキスパート モデルに置き換えることで、全体的なスパース性を実現します。長いテキストの大きなモデルは、超長いテキストを効率的に処理するために特別に設計された LLM です。代替トランスフォーマー アーキテクチャは、モデルの複雑さを軽減し、モデル アーキテクチャを再設計することで、ポスト トランスフォーマー アーキテクチャと同じ推論機能を実現します。

データ中心

データ中心のアプローチは、LLM の効率を向上させる上でのデータの品質と構造の役割に重点を置いています。この論文では、研究者らは、データ選択とキューワードエンジニアリングを含む 2 種類のデータ中心の方法について詳細に議論しています。

1. データの選択

LLM のデータ選択は、トレーニング プロセスを高速化するために、冗長データや無効なデータを削除するなど、事前トレーニング/微調整データをクリーンアップして選択することを目的としています。

2. プロンプトワードエンジニアリング

プロンプトワードエンジニアリングは、効果的な入力(プロンプトワード)を設計することで、LLM が望ましい出力を生成するように導きます。プロンプトワードを設計することで、モデルのパフォーマンスを面倒な微調整後と同等にすることができるという効率性があります。研究者たちは、一般的なキューワードエンジニアリング手法を、少数サンプルのキューワードエンジニアリング、キューワード圧縮、キューワード生成の 3 つのカテゴリに分類しました。

少数ショットのキュー エンジニアリングは、実行されるタスクの理解を導くための限られた一連の例を LLM に提供します。ヒント圧縮は、長いヒント入力や学習を圧縮し、ヒント表現を使用することで、LLM による入力の処理を高速化します。キューワード生成は、手動で注釈を付けられたデータを使用するのではなく、モデルが特定の関連性の高い応答を生成するようにガイドする効果的なプロンプトを自動的に作成することを目的としています。

フレームワーク中心

研究者らは最近、人気があり効率的な LLM フレームワークを調査し、事前トレーニング、微調整、推論など、最適化できる効率的なタスクをリストアップしました (下の図を参照)。

要約する

この調査では、研究者らが効果的な LLM の体系的なレビューを提供しており、これは LLM の民主化を目的とした重要な研究分野です。まず、効率的な LLM がなぜ必要なのかを説明します。この論文では、秩序だったフレームワークの中で、モデル中心、データ中心、フレームワーク中心の観点から、LLM のアルゴリズムレベルとシステムレベルの両方で効率的な手法を調査します。

研究者たちは、LLM および LLM 指向のシステムでは効率性がますます重要な役割を果たすようになると考えています。彼らは、この調査が研究者や実務家がこの分野に早く参入するのに役立ち、効果的な LLM に関する新たな研究を刺激するきっかけとなることを期待しています。

<<: 

>>:  追加のトレーニングなしでモデルのパフォーマンスを 30% 向上します。ディープマインドの科学者がMIT博士課程学生のインターンシップの成果を称賛

ブログ    
ブログ    

推薦する

人工知能がもたらすサイバー脅威はどれほど大きいのでしょうか?

チャットボットから ChatGPT のような大規模言語モデルまで、AI はあらゆるところに存在します...

興味深く実用的なオープンソース人工知能プロジェクトトップ10

皆さんは多くの人工知能プロジェクトを見たり使用したりしたことがあると思いますが、そのほとんどは非常に...

...

究極のAlp​​haGo、DeepMindの新アルゴリズムMuZero、著者の解釈

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

サイバーセキュリティにおける人工知能の応用

1956年、ダートマス大学で開催された会議で、コンピューターの専門家であるジョン・マッカーシーが初め...

人工知能は将来の建築をどのように変えるのでしょうか?

自動化された AI システムは、建物の暖房と冷房を最適化して効率性と持続可能性を向上させるのに役立ち...

プログラマー試験ノート4: ソートアルゴリズム

理由はよく分かりませんが、WORD ファイル内のすべての日付が変更されました。WORD マクロ ウイ...

自動化によってセキュリティアナリストがいなくなる可能性はありますか?

否定できない現実として、私たちは自動化の時代に入り、それに伴い人工知能 (AI)、機械学習 (ML)...

...

マイクロマシンラーニングは、マイクロプロセッサにディープラーニングを組み込むことを約束する

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟ディープラーニング モデルの初期の成功は、大量のメモリと ...

OpenAIのアルトマン氏、ニューヨークタイムズの訴訟に反応: AIはニュース出版社からのトレーニングデータを必要としない

ブルームバーグによると、1月17日、現地時間火曜日にダボスで行われた世界経済フォーラム年次総会で、O...

TiDB v5.1 体験: TiDB で機械学習モデルをトレーニングしました

序文ご存知のとおり、TiDB バージョン 5.1 では多くの新機能が追加されましたが、その 1 つが...

ロボットは「赤ちゃんを作る」こともできる:世界初の生きたロボットが生命の新たな繁殖方法を生み出す

[[437620]]彼らは何百もの自由細胞を集めて、「パックマン」の形をした「口」の中に「次世代」を...

AIOps によるネットワーク管理の一般的な方法

エンタープライズ NetOps チームは、大量の受信データを精査して、ネットワーク上で発生する技術、...