ハイブリッドエキスパートの限界を押し上げる: わずか 0.32% のパラメータ更新でモデルを微調整

ご存知のとおり、大規模なモデルのトレーニングにはコストがかかりますが、事前トレーニング済みのモデルを微調整するのにも一定のコストがかかります。幸いなことに、(IA)³ や LORA などのパラメータ効率の高い微調整 (PEFT) 手法はすでにいくつかあります。

最近、AI スタートアップの Cohere はさらに一歩進んで、ハイブリッドエキスパートメソッドと PEFT を組み合わせて、極めてパラメータ効率の高い微調整を実現しました。この新しい方法では、未知のタスクであっても、パラメータの 1% 未満を更新するだけで、完全に微調整された方法に匹敵するパフォーマンスを実現できます。

Cohere は、制約の厳しいコンピューティング環境で MoE の利点を活用できる新しいフレームワークを提案することで、これらの課題を克服するための重要な一歩を踏み出しました。

論文リンク: https://arxiv.org/abs/2309.05444
コードリンク: https://github.com/for-ai/parameter-efficient-moe

従来のトレーニングパラダイムは、モデルの重みを各入力に適用することです。単一の入力ではモデルが最大限の力を発揮できない可能性があるため、このアプローチは非効率的であると考えられる理由があります。

対照的に、Mixture of Experts (MoE) は、さまざまな種類の入力を処理するために特化した複数のサブモジュールコンポーネント (いわゆるエキスパート) に基づいています。条件付き計算を重視することは、一定の推論コストなど、効率性に重要な影響を及ぼします。このため、MoE は重要な研究分野となり、大規模 Transformer の時代に広く採用されてきました。これらのアプリケーションでは、規模の拡大によって展開コストとレイテンシも増加します。

これまでのほとんどの研究は MoE を事前トレーニング戦略として使用することに焦点を当ててきましたが、MoE の内発的動機付けは事前トレーニングに限定されません。実際、MoE には命令の微調整に適した特性がいくつかあります。命令の微調整設定では、データは意図的にさまざまなタスクセットを表すように構築され、マルチタスクの微調整と呼ばれることがよくあります。

この観察に基づいて、AI スタートアップの Cohere は、「MoE を使用して指示を微調整できるのか?」という疑問を提起しました。 MoE パラダイムの主な欠点の 1 つは、導入されるパラメータの数が多いことです。計算は条件付きで実行されますが、MoE アーキテクチャを完全に微調整するには、すべてのパラメータを更新する必要があり、非常に多くの計算が必要になります。ほとんどの実務家にとって、現代の LLM の規模を考えると、この計算コストは法外です。

そのため、Cohere はより現実的な実践的なシナリオ、つまり、はるかに少ない数のパラメータを微調整する (IA)³ や LORA などのパラメータ効率の良い微調整 (PEFT) 手法に MoE を使用することに重点を置いています。これは、すべてのパラメータの小さなサブセットのみを更新することが目標であるだけでなく、より制約のある環境で対処する必要がある MoE 固有の最適化の課題があるため、大きな課題となります。

彼らは、パラメータ効率の高い専門家の混合適応法であるベクトルの混合 (MoV) と LORA の混合 (MoLORA) を導入しました。標準の MoE とは異なり、この新しいフレームワークは軽量であり、パラメータが制限されたシナリオで使用できます。

驚くべきことに、この新しい方法では、未知のタスクでは、完全に微調整されたアプローチと同等のパフォーマンスを達成するために、パラメータの 1% 未満を更新するだけで済みます。また、(IA)³ や LORA などの基本的なパラメータ効率の高いテクノロジーを簡単に上回ります。

研究チームは、7億7000万から11億までのさまざまなサイズのT5モデルを使用して、55のデータセットと12の異なるタスクで実験を行い、かなり一貫した結果を得ました。

この論文の主な貢献は次のとおりです。

1. 極めてパラメータ効率の高い MoE が提案されています。提案されたアーキテクチャは、モジュール式の軽量エキスパートを活用して、より現実的な設定で MoE を使用できるようにします。この新しく提案された MoE を使用して高密度モデルをトレーニングする場合、そのパラメータの 1% 未満のみを更新する必要があります。

2. 命令の微調整のために私たちが提案するアプローチは、さまざまなサイズのモデルに対して高いパラメータ効率を維持しながら、未知のタスクに対して従来のパラメータ効率の高い方法よりも一貫して優れたパフォーマンスを発揮します。 3B および 11B モデルサイズの標準 (IA)³ と比較すると、ハイブリッド (IA)³ ベクトル (MoV) はそれぞれ 14.57% と 8.39% の改善を実現します。この優位性は、さまざまなサイズ、エキスパートの種類、トレーニング可能なパラメータ負荷のモデルにわたって適用されます。

3. 研究では、提案された方法は、少数のモデルパラメータの更新のみで、大規模な完全微調整法と同等のパフォーマンスを達成できることが示されています。研究者らは 8 つの未知のタスクで実験を行い、MoV は 3B モデルと 11B モデルのパラメータをそれぞれ 0.32% と 0.86% しか更新しないにもかかわらず、計算コストを大幅に削減しながら、完全に微調整された方法に匹敵するパフォーマンスを達成できることを示しました。

4. 彼らはまた、複数のモデルサイズ、さまざまなアダプタータイプ、エキスパートの数、ルーティングメカニズム、および特に MoE の感度を考慮したハイパーパラメーターの最適化の重要性を網羅し、さまざまな MoE アーキテクチャと PEFT 戦略のパフォーマンスを体系的に評価するための広範な一連のアブレーション研究を実施しました。

方法

命令の微調整は、次のように正式に述べることができます。タスクセット T があり、これはトレーニングタスクセット T_train と保持された評価セット T_eval に分割されます。

まず、ベースの事前トレーニング済みモデルが T_train で微調整され、次に微調整されたモデルがゼロショットアプローチを使用して T_eval の各タスクで評価されます。標準的な微調整アプローチは、すべてのモデルパラメータを微調整することですが、計算コストとメモリコストが高くなります。新しく提案された方法は、パラメータ効率が高く、パラメータ効率の高いハイブリッドエキスパートフレームワークを使用します。以下では、このフレームワークについて詳しく説明します。

(IA)³とLORAパラメータの効率的な微調整方法

パラメータ効率の良い微調整 (PEFT) メソッドでは、少数のパラメータの重みのみを更新します。新しい方法がさまざまな PEFT 技術に適用できることを示すために、研究者らは (IA)³ と LORA で実験を行いました。これらの方法では、既存の事前トレーニング済みモデルに少数のパラメータを追加します。ここでは (IA)³ と LORA について詳しく説明しません。興味のある方は、元の論文と Synced のレポートを参照してください。「LLaMA のようなモデルをトレーニングするのはそれほど難しくありません。LoRA はモデルの微調整を数時間に短縮します。」

最もパラメータ効率の高いミキシングスペシャリスト

新たに提案された、極めてパラメータ効率の高い MoE フレームワークは、事前トレーニング済みの高密度モデル上で軽量の「アダプター」をエキスパートとして使用します。

具体的には、MoE は、ゲーティングメカニズム (ルーター) によってアクティブ化された複数のエキスパートを通じて条件付き計算を実行できるニューラルネットワークアーキテクチャのファミリです。 MoE レイヤーは、ルータネットワーク R とエキスパートセット E で構成されます。E には n 人のエキスパートが含まれ、各エキスパート E_i はパラメーター化された関数です。ルーターネットワーク R の設計については、チームは論文「スイッチトランスフォーマー: シンプルで効率的なスパース性を備えた兆パラメータモデルへのスケーリング」を参照しました。この論文は通常、密なレイヤーとそれに続くソフトマックス関数で構成されます。密なレイヤーにはトレーニング可能な重み W_g があり、ソフトマックス関数は中間トークン表現 x を入力として受け取り、ゲーティングスコア s_1、...、s_n に基づいて各エキスパートの出力を組み合わせます。

Transformer モデルでは、密なフィードフォワード層が MoE 層に置き換えられ、各エキスパート E_i は独立した密なフィードフォワードネットワークに対応します。各エキスパートの規模とエキスパートの数が増加すると、モデル内のパラメータの総数は指数関数的に増加します。ただし、提案されたパラメータ効率の高い MoE アーキテクチャでは、各エキスパートは軽量の PEFT アダプター ((IA)³ ベクトルや LORA アダプターなど) に置き換えられます。

微調整中は、密な層の事前トレーニング済みの重みは固定されたままですが、エキスパート層とルーター層は最初からトレーニングされます。標準の MoE とは異なり、この新しく提案された軽量エキスパートは、微調整時に事前トレーニング済みの Transformer レイヤーを適応させることを学習できます。その結果、新しい MoE フレームワークでは、大規模なモデル全体を更新するのではなく、少数のパラメータ更新のみが必要になります。

研究者が選択した PEFT アダプタは、パラメータ効率に加えて、ソフトマージを通じてルーティング計算を実装できます。具体的には、(IA)³ ベクトルと LORA アダプターは両方とも線形関数であるため、最初にエキスパートの加重平均を計算し、次に結合されたエキスパート E_mix を使用して PEFT 変換を適用します。

(IA)³ ベクトルまたは LORA アダプターをエキスパートとして使用する方法 (それぞれベクトルの混合 (MoV) および LORA の混合 (MoLORA) と名付けました) は、一貫して PEFT の対応する方法よりも優れたパフォーマンスを発揮します。下の図 2 は、MoV レイヤーのアーキテクチャと対応する疑似コードを示しています。

MoV と MoLORA を使用して少数のパラメータのみを更新すると、トレーニングだけでなく推論にも実用的な利点があります。後者の利点は、MoE アーキテクチャに固有のものです。これらの利点のいくつかを以下に簡単に説明します。

トレーニング効率

この極めてパラメータ効率の高い MoE 形式により、メモリ消費量を大幅に削減できます。トレーニング中にほとんどのパラメータをフリーズすることで、モデルパラメータの勾配を計算する計算オーバーヘッドが削減されるだけでなく、モデルのオプティマイザ状態を保存するためのメモリ要件も削減されます。オプティマイザーの選択によっては、後者は重要になる場合があります。たとえば、AdamW などの Adam オプティマイザーのバリアントでは、オプティマイザーの状態を保存するために、パラメーターごとに 2 倍のメモリ (1 次および 2 次モーメント推定値に基づく) が必要ですが、Adafactor では、2 次パラメーターモーメントの推定値を因数分解することでこのオーバーヘッドを半分にすることができます。

推論効率

MoV および MoLORA メソッドの固有の構造モジュール性により、推論に大きなメモリの利点をもたらすことができます。従来の MoE モデルでは、フォワードパスのみに使用されるブロックの多数のコピー (または特定のアーキテクチャに基づくモデルの完全なコピー) を推論時にメモリに保存する必要があり、コストがかかります。

このアプローチを使用すると、正確なタイプに関係なく、モデルバックボーンのコピー 1 つと、軽量でパラメータ効率の高いエキスパートのみをメモリに保持する必要があります。これにより、推論時のメモリ要件が大幅に削減されます。

実験

パラメータ効率の高い MoE および PEFT 法: 新しい MoE 法は、単一エキスパートの PEFT 法と比べてどうでしょうか?以下の表 1 は、ベースモデルが T5-3B である場合の PEFT 法 ((IA)³ および LORA) と提案されたパラメータ効率の高い MoE 法 (MoV および MoLORA) のゼロショットパフォーマンスを比較したものです。

MoE バリアント (MoV および MoLORA) のパフォーマンスは、標準の (IA)³ ベクターおよび LORA アダプターのパフォーマンスよりも大幅に優れていることがわかります。

たとえば、30 人の専門家を使用する MoV は、集中的な (IA)³ 方式よりも 14.57% 優れたパフォーマンスを発揮し、15 人の専門家を使用する MoLORA では、平均中央値スコアが 5.70% 向上します。

同じパラメータ負荷では、MoV は MoLORA よりも優れています。研究者らは、新たに提案された 2 つの方法も比較しました。3B パラメータを持つ基本モデルを使用した場合、パフォーマンスとパラメータコストのトレードオフの点では、MoV の方が優れたパフォーマンスを発揮しました。

パラメータ効率の高い MoE と完全に微調整されたアプローチの比較。表 1 に示すように、10 人のエキスパートを使用した MoV と MoLORA のパフォーマンスは、完全に微調整された T0-3B のパフォーマンスに匹敵します。 MoV-10 はすべてのモデルパラメータの 0.32% のみを更新するため、これは非常に印象的な結果です。 MoV の専門家の数を 15 に増やし、MoLORA の専門家の数を 30 に増やすと、新しい方法は完全な微調整方法よりもわずかに優れたパフォーマンスを発揮できます。

さらに研究者らは、基本モデルの規模が大きくなるとパラメータ効率の高いMoEのパフォーマンスがどのように変化するか、エキスパートの数が下流のタスクのパフォーマンスにどのような影響を与えるか、最適なルーティング戦略についても実験を通じて調査しました。詳細については、原著論文をご覧ください。

<<: Appleが大規模モデル圧縮技術を革新、大規模モデルを携帯電話に搭載可能に

>>: 大規模モデルの最大のバグは、正解率がほぼゼロであり、GPTからLlamaまで誰も免れないことです。