7億7千万パラメータ、5400億PaLMを超えます! UW Google はトレーニング データの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

7億7千万パラメータ、5400億PaLMを超えます! UW Google はトレーニング データの 80% のみを必要とする「ステップ蒸留」を提案 | ACL 2023

大規模言語モデルは優れたパフォーマンスを持ち、ゼロショットまたは少数ショットのプロンプトで新しいタスクを解決できますが、LLM は実際のアプリケーションへの展開には実用的ではなく、メモリ利用効率が低く、多くのコンピューティング リソースを必要とします。

たとえば、1,750 億のパラメータを持つ言語モデル サービスを実行するには、少なくとも 350 GB のビデオ メモリが必要です。また、現在最も高度な言語モデルのほとんどは、5,000 億を超えるパラメータを持っています。多くの研究チームには、それらを実行するための十分なリソースがなく、実際のアプリケーションでは低レイテンシのパフォーマンスを実現できません。

手動で注釈を付けたデータや、LLM によって生成されたラベルを使用した蒸留を使用して、より小さなタスク固有のモデルをトレーニングする研究もありますが、微調整と蒸留では、LLM に匹敵するパフォーマンスを達成するには大量のトレーニング データが必要になります。

大規模モデルのリソース需要問題を解決するために、ワシントン大学とGoogleは共同で新しい蒸留メカニズム「Distilling Step-by-Step」を提案しました。蒸留後のモデルのサイズは元のモデルよりもはるかに小さくなりますが、パフォーマンスは向上し、微調整と蒸留中に必要なトレーニングデータが少なくなります。

論文リンク: https://arxiv.org/abs/2305.02301

分布蒸留メカニズムは、LLM から抽出された予測根拠を、マルチタスク フレームワークで小規模モデルをトレーニングするための追加の監視情報として使用します。

4 つの NLP ベンチマークで実験を行った結果、次のことがわかりました。

1. 微調整や蒸留と比較して、このメカニズムはより少ないトレーニング サンプルでより優れたパフォーマンスを実現します。

2. 少数ショットヒントLLMと比較して、このメカニズムはより小さなモデルサイズを使用してより優れたパフォーマンスを実現します。

3. モデルのサイズとデータ量の両方を削減することで、LLM よりも優れたパフォーマンスを実現することもできます。

実験では、770M の微調整された T5 モデルは、利用可能なデータの 80% のみを使用したベンチマークで、数回のショットでプロンプトされた 540B PaLM モデルよりも優れたパフォーマンスを発揮しましたが、標準の微調整された T5 モデルは、データセットの 100% を使用しても、匹敵するのに苦労しました。

蒸留法

分散蒸留(段階的に蒸留する)の重要な考え方は、情報が豊富で自然言語で記述された予測の理由、つまり入力問題とモデル出力の関係を説明できる中間推論ステップを抽出し、次にこのデータを順番に使用して、より効率的な方法で小さなモデルをトレーニングすることです。

分散蒸留は主に 2 つの段階で構成されます。

1. LLMから根拠を抽出する

研究者らは、数回の思考連鎖(CoT)プロンプトを使用して、LLM から予測中間ステップを抽出しました。

ターゲットタスクが与えられた後、LLM 入力プロンプトにいくつかの例が用意されます。各例は、(入力、原則、出力) を含む 3 つの要素で構成されます。

プロンプトを入力すると、LLM はトリプルデモンストレーションの予測原理を模倣して、他の新しい質問を生成することができます。たとえば、常識的な質問への回答タスクでは、入力質問が与えられます。

「サミーは人がいるところに行きたいと思っています。どこに行くでしょうか? 答えの選択肢:(a) 人口密集地域、(b) 競馬場、(c) 砂漠、(d) アパート、(e) 検問所。」

(サミーは人がいるところへ行きたかった。どこへ行くでしょうか?答えの選択肢:(a)人口密集地域、(b)レーストラック、(c)砂漠、(d)アパート、(e)検問所)

段階的な改良を経て、LLM は質問「(a) 人口密集地域」に正しい答えを出し、質問に答える理由「答えは、人がたくさんいる場所でなければなりません。上記の選択肢の中で、人口密集地域だけに人がたくさんいます。」を提供することができます。

コンテキスト学習機能により、プロンプトで CoT の例と根拠をペアにして提供することで、LLM は未知の質問タイプに対応する回答の根拠を生成できるようになります。

2. 小さなモデルのトレーニング

トレーニング プロセスをマルチタスクの問題として捉えることで、予測の根拠が抽出され、トレーニング ミニモデルに組み込まれます。

研究者らは、標準的なラベル予測タスクに加えて、新しい理由生成タスクも使用して小規模モデルをトレーニングしました。これにより、モデルは予測のための中間推論ステップを生成することを学習し、結果ラベルをより適切に予測できるようにモデルを誘導できます。

入力プロンプトにタスクプレフィックス「ラベル」と「根拠」を追加することで、ラベル予測タスクと根拠生成タスクを区別します。

実験結果

実験では、研究者らは5400億のパラメータを持つPaLMモデルをLLMベースラインとして選択し、T5モデルをタスク関連の下流の小さなモデルとして使用しました。

次に、自然言語推論用の e-SNLI と ANLI、一般知識の質問応答用の CQA、算数の文章題用の SVAMP という 3 つの異なる NLP タスクで 4 つのベンチマーク データセットに対して実験を行います。

トレーニングデータが少ない

標準的な微調整と比較して、段階的な蒸留方法では、より少ないトレーニング データを使用してより優れたパフォーマンスを実現します。

e-SNLI データセットでは、データセット全体の 12.5% を使用すると標準の微調整よりも優れたパフォーマンスが実現され、ANLI、CQA、SVAMP ではそれぞれトレーニング データの 75%、25%、20% のみが必要になります。

分布蒸留は、220M T5 モデルを使用してさまざまなサイズの人間がラベル付けしたデータセットで標準的な微調整を行うのと比較して、すべてのデータセットでより少ないトレーニング例を使用して完全なデータセットでトレーニングされた標準的な微調整よりも優れています。

より小さな展開モデルサイズ

少数ショットの CoT プロンプト LLM と比較すると、分布蒸留ではモデル サイズがはるかに小さくなりますが、パフォーマンスは向上します。

e-SNLI データセットでは、220M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現します。ANLI では、770M の T5 モデルが 540B の PaLM よりも優れたパフォーマンスを実現しますが、モデル サイズはわずか 1/700 です。

モデルが小さくなり、データも少なくなる

モデルサイズとトレーニングデータの両方を削減しながら、few-shot PaLM を超えるパフォーマンスも実現します。

ANLIでは、770M T5モデルは、データセット全体の80%のみを使用して、540B PaLMのパフォーマンスを上回りました。

完全なデータセットの 100% を使用しても、標準的な微調整では PaLM のパフォーマンスに追いつけないことがわかります。これは、段階的な蒸留によってモデル サイズとトレーニング データの量を同時に削減し、LLM を上回るパフォーマンスを実現できることを示しています。

<<:  AIの「不確実な時代」にどう向き合うか

>>: 

ブログ    
ブログ    
ブログ    

推薦する

多くの機械学習戦略が失敗する理由

クラウド コンピューティング サービス プロバイダーの Rackspace Technology が...

...

統計と機械学習の違いは何ですか?

[[263249]]ビッグデータダイジェスト制作出典: medium編纂者:周嘉楽、郭小白、蒋宝尚...

畳み込みニューラルネットワークは「グラフ」構造化データを処理できないのですか?この記事でその答えが分かります

この記事で紹介する論文は、ICML2016でのグラフへのCNNの応用に関する論文です。 ICML は...

SFが現実になる?偉大な劉慈欣がAI企業に入社

[[411067]]サイエンスフィクションと現実がこれほど近づいたことはかつてありませんでした。 「...

1 分以内に GPT アプリケーションを開発しましょう!さまざまな専門家が懸命に取り組んでおり、ネットユーザーは「ChatGPTは新しいiPhoneだ」と言っている

GPT はまだ正式にリリースされていませんが、誰かがすでに「先走って」いるのでしょうか? !ほら、社...

...

...

OpenAI、テキストから動画を生成できる新しい大規模モデル「Sora」を発表

海外メディアの報道によると、OpenAIは2月18日、短いテキストプロンプトを通じて「リアル」かつ「...

30歳以下の人はどこへ行ってしまったのでしょうか? OpenAIは若者を引き付けるために懸命に努力している

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)ビル・ゲイ...

アリババDAMOアカデミーが自動運転の技術的困難を突破:3D物体検出の精度と速度の両方を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

金融や視覚分野に加えて、AIはゲーム開発においても破壊的な技術となっている。

機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。 「ゲーム開発」は...

患者が人工知能から得られる恩恵

今日では、データの分析や解釈、問題解決の支援など、以前は人間が行っていたタスクを実行する高度なマシン...

...

...