RoSA: 大規模モデルパラメータを効率的に微調整する新しい方法

言語モデルが前例のない規模にまで拡大し続けるにつれて、下流のタスクのすべてのパラメータを微調整することは非常に高価になり、PEFT メソッドは自然言語処理の研究のホットスポットになりました。 PEFT アプローチでは、微調整を少数のパラメータに制限し、少ない計算コストで自然言語理解タスクにおける最先端のパフォーマンスを実現します。

RoSA は新しい PEFT テクノロジーです。一連のベンチマークの実験では、RoSA は同じパラメータバジェットを使用しながら、以前の Low-Rank Adaptation (LoRA) や純粋なスパース微調整手法よりも優れたパフォーマンスを発揮しました。

この記事では、RoSA の原則、方法、および結果について詳しく説明します。そして、そのパフォーマンスがなぜ有意義な進歩を示すのかを説明します。大規模な言語モデルを効率的に微調整したいと考えている人のために、RoSA は従来のオプションよりも優れた新しいソリューションを提供します。

効率的なパラメータ微調整の必要性

NLP は、大規模なテキストコーパスで事前トレーニングすることで強力な言語表現を学習し、簡単なプロセスを通じて下流の言語タスクに転送する、ますます大規模になる一連のトランスフォーマーベースの言語モデル (GPT-4 など) によって革命を起こしました。

モデルのサイズが数十億から数兆のパラメータに拡大するにつれて、微調整には耐えられない計算負荷がかかります。 GPT-4 の 1.76 兆個のパラメータを微調整するには、数百万ドルの費用がかかる可能性があります。これにより、実際のアプリケーションへの展開はほとんど非現実的になります。

パラメータ効率の良い微調整 (PEFT) 手法は、微調整を各タスクのパラメータの小さなセットに制限することでこの問題に対処します。最近の文献では、効率と精度の間でさまざまなトレードオフを行うさまざまな PEFT 技術が提案されています。

ローラ

代表的な PEFT 手法は Low Rank Adaptation (LoRA) です。 LoRA は、トランスフォーマーがヘッドマトリックスに低ランク構造を示すという観察に基づいて、2021 年に Meta と MIT の研究者によって立ち上げられました。

LoRA は、各トランスフォーマーヘッドの最初の k 個の特異ベクトルペアのみを微調整し、他のすべてのパラメーターは変更しません。これには O(k) 個の追加パラメータの調整のみが必要ですが、n 個のパラメータすべてを包括的に微調整するには O(n) 個の調整が必要になります。

この低ランク構造を活用することで、LoRA は下流のタスクでの一般化に必要な意味のある信号をキャプチャし、これらのトップレベルの特異ベクトルへの微調整を制限して、最適化と推論をより効率的にすることができます。

実験では、LoRA は 100 倍以上少ないパラメータを使用しながら、GLUE ベンチマークで完全に微調整されたバージョンのパフォーマンスに匹敵できることが示されています。ただし、モデルのサイズが大きくなり続けると、LoRA で強力なパフォーマンスを実現するにはランク k を増やす必要があり、完全な微調整に比べて計算の節約が減少します。

RoSA 以前は、LoRA が PEFT 手法の最先端を代表していましたが、さまざまな行列分解や、少数の微調整パラメータの追加などの手法を使用することで、わずかな改善しか行われていませんでした。

ロバスト適応 (RoSA)

Robust Adaptation (RoSA) は、効率的なパラメータの微調整のための新しい方法を導入します。 RoSA は、低ランク構造のみに依存するのではなく、堅牢な主成分分析 (堅牢な PCA) に着想を得ています。

従来の主成分分析では、データ行列 X は X≈L + S に分解されます。ここで、L は主成分を近似する低ランク行列であり、S は残差を捕捉するスパース行列です。ロバスト PCA はさらに一歩進んで、X をクリーンな低ランクの L と「汚染された/破損した」スパースな S に分解します。

RoSA はこれにインスピレーションを得て、言語モデルの微調整を次のように分解します。

タスク関連の主要信号を近似するように微調整されたLoRAのような低ランク適応型（L）行列
L が見逃す残差信号をエンコードする、非常に少数の大きな選択的に微調整されたパラメータを含む、非常にスパースな微調整 (S) マトリックス。

残差スパース成分を明示的にモデル化することで、RoSA は LoRA 単独よりも高い精度を実現できます。

RoSA は、モデルのヘッドマトリックスの低ランク分解を実行して L を構築します。これにより、下流のタスクに役立つ低レベルのセマンティック表現がエンコードされます。次に、RoSA は各レイヤーの上位 m 個の最も重要なパラメータを S に選択的に微調整しますが、他のすべてのパラメータは変更しません。このステップでは、低ランクフィッティングに適さない残差信号をキャプチャします。

微調整パラメータの数 m は、LoRA のみに必要なランク k よりも 1 桁小さくなります。したがって、L の低ランクのヘッドマトリックスと組み合わせると、RoSA は非常に高いパラメーター効率を維持します。

RoSA では、他にもシンプルだが効果的な最適化がいくつか採用されています。

残差スパース接続: S 残差は、レイヤー正規化とフィードフォワードサブレイヤーを通過する前に、各トランスフォーマーブロックの出力に直接追加されます。これにより、L が逃した信号をシミュレートできます。
独立したスパースマスク: 微調整のために S で選択されたメトリックは、各トランスフォーマーレイヤーごとに独立して生成されます。
共有低ランク構造: LoRA と同様に、同じ低ランク基底 U、V 行列が L のすべてのレイヤー間で共有されます。これにより、意味概念が一貫したサブスペースにキャプチャされます。

これらのアーキテクチャの選択により、最適化と推論のパラメータ効率を維持しながら、完全な微調整と同様の柔軟性を RoSA モデリングに提供します。堅牢な低ランク適応と非常にスパースな残差を組み合わせたこの PEFT アプローチを活用することで、RoSA は精度と効率のトレードオフを実現する新しい手法を実現します。

実験と結果

研究者らは、テキスト検出、感情分析、自然言語推論、堅牢性テストなどのタスクをカバーする 12 の NLU データセットの包括的なベンチマークで RoSA を評価しました。彼らは、120億のパラメータモデルを使用して、LLMに基づくAIアシスタントであるRoSAで実験を実施しました。

すべてのタスクにおいて、同じパラメータを使用した場合、RoSA は LoRA よりも大幅に優れたパフォーマンスを発揮します。両方の方法の合計パラメータは、モデル全体の約 0.3% です。これは、LoRA の場合は k = 16、RoSA の場合は m = 5120 を意味し、どちらの場合も約 450 万の微調整されたパラメータがあることを意味します。

RoSA は、純粋にスパースな微調整ベースラインのパフォーマンスと同等か、それを上回ります。

敵対的サンプルに対する堅牢性を評価する ANLI ベンチマークでは、RoSA のスコアは 55.6 で、LoRA のスコアは 52.7 です。これは一般化と調整の改善を示しています。

感情分析タスク SST-2 および IMDB では、RoSA は 91.2% と 96.9% の精度を達成し、LoRA は 90.1% と 95.3% の精度を達成しました。

WIC（難しい語義の曖昧さ解消テスト）では、RoSA は F1 スコア 93.5 を達成し、LoRA は F1 スコア 91.7 を達成しました。

12 個のデータセット全体にわたって、一致したパラメータバジェットでは、RoSA は一般に LoRA よりも優れたパフォーマンスを示します。

驚くべきことに、RoSA はタスク固有の調整や特殊化を必要とせずにこれらの利点を達成できます。これにより、RoSA は汎用的な PEFT ソリューションとして適したものになります。

要約する

言語モデルのサイズが急速に拡大し続けているため、微調整に必要な計算量を削減することが、対処が必要な緊急の課題となっています。 LoRA のようなパラメータ効率の高い適応型トレーニング手法は初期の成功を示していますが、低ランク近似の固有の制限に直面しています。

RoSA は、堅牢な低ランク分解と残差の非常にスパースな微調整を有機的に組み合わせて、説得力のある新しいソリューションを提供します。選択的にスパースな残差を通じて低ランクのフィッティングを逃れる信号を考慮することで、PEFT のパフォーマンスが大幅に向上します。実証的な評価では、さまざまな NLU タスクセットで LoRA および制御されていないスパースベースラインよりも明らかに改善されていることが示されています。

概念的にはシンプルですが高性能な RoSA は、パラメータ効率、適応表現、継続的な学習の交差点での研究をさらに進め、言語インテリジェンスを拡張します。

<<:

>>: