7億7千万パラメータ、5400億PaLMを超えます！ UW Google はトレーニングデータの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

大規模言語モデルは優れたパフォーマンスを持ち、ゼロショットまたは少数ショットのプロンプトで新しいタスクを解決できますが、LLM は実際のアプリケーションへの展開には実用的ではなく、メモリ利用効率が低く、多くのコンピューティングリソースを必要とします。

たとえば、1,750 億のパラメータを持つ言語モデルサービスを実行するには、少なくとも 350 GB のビデオメモリが必要です。また、現在最も高度な言語モデルのほとんどは、5,000 億を超えるパラメータを持っています。多くの研究チームには、それらを実行するための十分なリソースがなく、実際のアプリケーションでは低レイテンシのパフォーマンスを実現できません。

手動で注釈を付けたデータや、LLM によって生成されたラベルを使用した蒸留を使用して、より小さなタスク固有のモデルをトレーニングする研究もありますが、微調整と蒸留では、LLM に匹敵するパフォーマンスを達成するには大量のトレーニングデータが必要になります。

大規模モデルのリソース需要問題を解決するために、ワシントン大学とGoogleは共同で新しい蒸留メカニズム「Distilling Step-by-Step」を提案しました。蒸留後のモデルのサイズは元のモデルよりもはるかに小さくなりますが、パフォーマンスは向上し、微調整と蒸留中に必要なトレーニングデータが少なくなります。

論文リンク: https://arxiv.org/abs/2305.02301

分布蒸留メカニズムは、LLM から抽出された予測根拠を、マルチタスクフレームワークで小規模モデルをトレーニングするための追加の監視情報として使用します。

4 つの NLP ベンチマークで実験を行った結果、次のことがわかりました。

1. 微調整や蒸留と比較して、このメカニズムはより少ないトレーニングサンプルでより優れたパフォーマンスを実現します。

2. 少数ショットヒントLLMと比較して、このメカニズムはより小さなモデルサイズを使用してより優れたパフォーマンスを実現します。

3. モデルのサイズとデータ量の両方を削減することで、LLM よりも優れたパフォーマンスを実現することもできます。

実験では、770M の微調整された T5 モデルは、利用可能なデータの 80% のみを使用したベンチマークで、数回のショットでプロンプトされた 540B PaLM モデルよりも優れたパフォーマンスを発揮しましたが、標準の微調整された T5 モデルは、データセットの 100% を使用しても、匹敵するのに苦労しました。

蒸留法

分散蒸留（段階的に蒸留する）の重要な考え方は、情報が豊富で自然言語で記述された予測の理由、つまり入力問題とモデル出力の関係を説明できる中間推論ステップを抽出し、次にこのデータを順番に使用して、より効率的な方法で小さなモデルをトレーニングすることです。

分散蒸留は主に 2 つの段階で構成されます。

1. LLMから根拠を抽出する

研究者らは、数回の思考連鎖（CoT）プロンプトを使用して、LLM から予測中間ステップを抽出しました。

ターゲットタスクが与えられた後、LLM 入力プロンプトにいくつかの例が用意されます。各例は、(入力、原則、出力) を含む 3 つの要素で構成されます。

プロンプトを入力すると、LLM はトリプルデモンストレーションの予測原理を模倣して、他の新しい質問を生成することができます。たとえば、常識的な質問への回答タスクでは、入力質問が与えられます。

「サミーは人がいるところに行きたいと思っています。どこに行くでしょうか？答えの選択肢：(a) 人口密集地域、(b) 競馬場、(c) 砂漠、(d) アパート、(e) 検問所。」

（サミーは人がいるところへ行きたかった。どこへ行くでしょうか？答えの選択肢：（a）人口密集地域、（b）レーストラック、（c）砂漠、（d）アパート、（e）検問所）

段階的な改良を経て、LLM は質問「(a) 人口密集地域」に正しい答えを出し、質問に答える理由「答えは、人がたくさんいる場所でなければなりません。上記の選択肢の中で、人口密集地域だけに人がたくさんいます。」を提供することができます。

コンテキスト学習機能により、プロンプトで CoT の例と根拠をペアにして提供することで、LLM は未知の質問タイプに対応する回答の根拠を生成できるようになります。

2. 小さなモデルのトレーニング

トレーニングプロセスをマルチタスクの問題として捉えることで、予測の根拠が抽出され、トレーニングミニモデルに組み込まれます。

研究者らは、標準的なラベル予測タスクに加えて、新しい理由生成タスクも使用して小規模モデルをトレーニングしました。これにより、モデルは予測のための中間推論ステップを生成することを学習し、結果ラベルをより適切に予測できるようにモデルを誘導できます。

入力プロンプトにタスクプレフィックス「ラベル」と「根拠」を追加することで、ラベル予測タスクと根拠生成タスクを区別します。

実験結果

実験では、研究者らは5400億のパラメータを持つPaLMモデルをLLMベースラインとして選択し、T5モデルをタスク関連の下流の小さなモデルとして使用しました。

次に、自然言語推論用の e-SNLI と ANLI、一般知識の質問応答用の CQA、算数の文章題用の SVAMP という 3 つの異なる NLP タスクで 4 つのベンチマークデータセットに対して実験を行います。

トレーニングデータが少ない

標準的な微調整と比較して、段階的な蒸留方法では、より少ないトレーニングデータを使用してより優れたパフォーマンスを実現します。

e-SNLI データセットでは、データセット全体の 12.5% を使用すると標準の微調整よりも優れたパフォーマンスが実現され、ANLI、CQA、SVAMP ではそれぞれトレーニングデータの 75%、25%、20% のみが必要になります。

分布蒸留は、220M T5 モデルを使用してさまざまなサイズの人間がラベル付けしたデータセットで標準的な微調整を行うのと比較して、すべてのデータセットでより少ないトレーニング例を使用して完全なデータセットでトレーニングされた標準的な微調整よりも優れています。

より小さな展開モデルサイズ

少数ショットの CoT プロンプト LLM と比較すると、分布蒸留ではモデルサイズがはるかに小さくなりますが、パフォーマンスは向上します。

e-SNLI データセットでは、220M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現します。ANLI では、770M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現しますが、モデルサイズはわずか 1/700 です。

モデルが小さくなり、データも少なくなる

モデルサイズとトレーニングデータの両方を削減しながら、few-shot PaLM を超えるパフォーマンスも実現します。

ANLIでは、770M T5モデルは、データセット全体の80%のみを使用して、540B PaLMのパフォーマンスを上回りました。

完全なデータセットの 100% を使用しても、標準的な微調整では PaLM のパフォーマンスに追いつけないことがわかります。これは、段階的な蒸留によってモデルサイズとトレーニングデータの量を同時に削減し、LLM を上回るパフォーマンスを実現できることを示しています。

<<: AIの「不確実な時代」にどう向き合うか

>>:

ブログ

7億7千万パラメータ、5400億PaLMを超えます！ UW Google はトレーニングデータの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

蒸留法

実験結果

エッジ AI がインダストリー 4.0 の成果を推進する方法

人工知能とモノのインターネット – 5つの新たなユースケース

「今日の簡単な歴史」：今後 15 年間でほとんどの人が失業することになるのでしょうか?

人工知能は理想的なサイバー防御手段か？

LLM幻覚問題の徹底レビュー！ HITチームの50ページのレビューが公開された

教育における人工知能の重要性とは何でしょうか?

大規模な伝染病に直面した時、ロボットは何ができるでしょうか?

写真を3Dに変換する品質が急上昇！ GitHub がショートポジションをオープンしたところ、300 人以上がスターを付けました

推薦する

自動運転に関する期限の問題

ビッグモデルの要約は信頼できるでしょうか? GPT-4を使用すると、人間の筆記よりも滑らかで、幻覚も少なくなります

次世代人工知能の開発方向（第1部）

次世代言語モデルパラダイム LAM が登場します! AutoGPTモデルがLLMを席巻、計画、メモリ、ツールの3つの主要コンポーネントの包括的なレビュー

人工知能プロジェクト: 注目すべき 7 つのポイント

Google が TensorFlow-GNN 1.0 のリリースを正式に発表しました。大規模なグラフニューラルネットワークを構築するための動的かつインタラクティブなサンプリング

1 つの記事で 10 個のアルゴリズムをカバーします。基本的なグラフアルゴリズムの視覚的な説明

ジェフリー・ヒントンの最新インタビュー: 5年以内に脳の仕組みを解明できるだろうが、それはバックプロパゲーションによるものではない

人工知能との競争において、カスタマーサービスと宅配業者が勝つ可能性はどれくらいでしょうか?

AIベースの顔認識は工場にとって次の技術的マイルストーンとなる

ElevenLabs、元の話し手の声と感情を維持するAI翻訳吹き替え機能を発表

未成年者の顔情報の処理には保護者の個別の同意が必要です

オフライン認識率が最大99%のオープンソースPython顔認識システム〜

CMU がオープンソースの AI コード生成モデルを作成、C 言語は Codex を上回る