RoSA: 大規模モデルパラメータを効率的に微調整する新しい方法

RoSA: 大規模モデルパラメータを効率的に微調整する新しい方法

言語モデルが前例のない規模にまで拡大し続けるにつれて、下流のタスクのすべてのパラメータを微調整することは非常に高価になり、PEFT メソッドは自然言語処理の研究のホットスポットになりました。 PEFT アプローチでは、微調整を少数のパラメータに制限し、少ない計算コストで自然言語理解タスクにおける最先端のパフォーマンスを実現します。

RoSA は新しい PEFT テクノロジーです。一連のベンチマークの実験では、RoSA は同じパラメータ バジェットを使用しながら、以前の Low-Rank Adaptation (LoRA) や純粋なスパース微調整手法よりも優れたパフォーマンスを発揮しました。

この記事では、RoSA の原則、方法、および結果について詳しく説明します。そして、そのパフォーマンスがなぜ有意義な進歩を示すのかを説明します。大規模な言語モデルを効率的に微調整したいと考えている人のために、RoSA は従来のオプションよりも優れた新しいソリューションを提供します。

効率的なパラメータ微調整の必要性

NLP は、大規模なテキストコーパスで事前トレーニングすることで強力な言語表現を学習し、簡単なプロセスを通じて下流の言語タスクに転送する、ますます大規模になる一連のトランスフォーマーベースの言語モデル (GPT-4 など) によって革命を起こしました。

モデルのサイズが数十億から数兆のパラメータに拡大するにつれて、微調整には耐えられない計算負荷がかかります。 GPT-4 の 1.76 兆個のパラメータを微調整するには、数百万ドルの費用がかかる可能性があります。これにより、実際のアプリケーションへの展開はほとんど非現実的になります。

パラメータ効率の良い微調整 (PEFT) 手法は、微調整を各タスクのパラメータの小さなセットに制限することでこの問題に対処します。最近の文献では、効率と精度の間でさまざまなトレードオフを行うさまざまな PEFT 技術が提案されています。

ローラ

代表的な PEFT 手法は Low Rank Adaptation (LoRA) です。 LoRA は、トランスフォーマーがヘッドマトリックスに低ランク構造を示すという観察に基づいて、2021 年に Meta と MIT の研究者によって立ち上げられました。

LoRA は、各トランスフォーマー ヘッドの最初の k 個の特異ベクトル ペアのみを微調整し、他のすべてのパラメーターは変更しません。これには O(k) 個の追加パラメータの調整のみが必要ですが、n 個のパラメータすべてを包括的に微調整するには O(n) 個の調整が必要になります。

この低ランク構造を活用することで、LoRA は下流のタスクでの一般化に必要な意味のある信号をキャプチャし、これらのトップレベルの特異ベクトルへの微調整を制限して、最適化と推論をより効率的にすることができます。

実験では、LoRA は 100 倍以上少ないパラメータを使用しながら、GLUE ベンチマークで完全に微調整されたバージョンのパフォーマンスに匹敵できることが示されています。ただし、モデルのサイズが大きくなり続けると、LoRA で強力なパフォーマンスを実現するにはランク k を増やす必要があり、完全な微調整に比べて計算の節約が減少します。

RoSA 以前は、LoRA が PEFT 手法の最先端を代表していましたが、さまざまな行列分解や、少数の微調整パラメータの追加などの手法を使用することで、わずかな改善しか行われていませんでした。

ロバスト適応 (RoSA)

Robust Adaptation (RoSA) は、効率的なパラメータの微調整のための新しい方法を導入します。 RoSA は、低ランク構造のみに依存するのではなく、堅牢な主成分分析 (堅牢な PCA) に着想を得ています。

従来の主成分分析では、データ行列 X は X≈L + S に分解されます。ここで、L は主成分を近似する低ランク行列であり、S は残差を捕捉するスパース行列です。ロバスト PCA はさらに一歩進んで、X をクリーンな低ランクの L と「汚染された/破損した」スパースな S に分解します。

RoSA はこれにインスピレーションを得て、言語モデルの微調整を次のように分解します。

  • タスク関連の主要信号を近似するように微調整されたLoRAのような低ランク適応型(L)行列
  • L が見逃す残差信号をエンコードする、非常に少数の大きな選択的に微調整されたパラメータを含む、非常にスパースな微調整 (S) マトリックス。

残差スパース成分を明示的にモデル化することで、RoSA は LoRA 単独よりも高い精度を実現できます。

RoSA は、モデルのヘッド マトリックスの低ランク分解を実行して L を構築します。これにより、下流のタスクに役立つ低レベルのセマンティック表現がエンコードされます。次に、RoSA は各レイヤーの上位 m 個の最も重要なパラメータを S に選択的に微調整しますが、他のすべてのパラメータは変更しません。このステップでは、低ランクフィッティングに適さない残差信号をキャプチャします。

微調整パラメータの数 m は、LoRA のみに必要なランク k よりも 1 桁小さくなります。したがって、L の低ランクのヘッド マトリックスと組み合わせると、RoSA は非常に高いパラメーター効率を維持します。

RoSA では、他にもシンプルだが効果的な最適化がいくつか採用されています。

  • 残差スパース接続: S 残差は、レイヤー正規化とフィードフォワードサブレイヤーを通過する前に、各トランスフォーマーブロックの出力に直接追加されます。これにより、L が逃した信号をシミュレートできます。
  • 独立したスパースマスク: 微調整のために S で選択されたメトリックは、各トランスフォーマー レイヤーごとに独立して生成されます。
  • 共有低ランク構造: LoRA と同様に、同じ低ランク基底 U、V 行列が L のすべてのレイヤー間で共有されます。これにより、意味概念が一貫したサブスペースにキャプチャされます。

これらのアーキテクチャの選択により、最適化と推論のパラメータ効率を維持しながら、完全な微調整と同様の柔軟性を RoSA モデリングに提供します。堅牢な低ランク適応と非常にスパースな残差を組み合わせたこの PEFT アプローチを活用することで、RoSA は精度と効率のトレードオフを実現する新しい手法を実現します。

実験と結果

研究者らは、テキスト検出、感情分析、自然言語推論、堅牢性テストなどのタスクをカバーする 12 の NLU データセットの包括的なベンチマークで RoSA を評価しました。彼らは、120億のパラメータモデルを使用して、LLMに基づくAIアシスタントであるRoSAで実験を実施しました。

すべてのタスクにおいて、同じパラメータを使用した場合、RoSA は LoRA よりも大幅に優れたパフォーマンスを発揮します。両方の方法の合計パラメータは、モデル全体の約 0.3% です。これは、LoRA の場合は k = 16、RoSA の場合は m = 5120 を意味し、どちらの場合も約 450 万の微調整されたパラメータがあることを意味します。

RoSA は、純粋にスパースな微調整ベースラインのパフォーマンスと同等か、それを上回ります。

敵対的サンプルに対する堅牢性を評価する ANLI ベンチマークでは、RoSA のスコアは 55.6 で、LoRA のスコアは 52.7 です。これは一般化と調整の改善を示しています。

感情分析タスク SST-2 および IMDB では、RoSA は 91.2% と 96.9% の精度を達成し、LoRA は 90.1% と 95.3% の精度を達成しました。

WIC(難しい語義の曖昧さ解消テスト)では、RoSA は F1 スコア 93.5 を達成し、LoRA は F1 スコア 91.7 を達成しました。

12 個のデータセット全体にわたって、一致したパラメータ バジェットでは、RoSA は一般に LoRA よりも優れたパフォーマンスを示します。

驚くべきことに、RoSA はタスク固有の調整や特殊化を必要とせずにこれらの利点を達成できます。これにより、RoSA は汎用的な PEFT ソリューションとして適したものになります。

要約する

言語モデルのサイズが急速に拡大し続けているため、微調整に必要な計算量を削減することが、対処が必要な緊急の課題となっています。 LoRA のようなパラメータ効率の高い適応型トレーニング手法は初期の成功を示していますが、低ランク近似の固有の制限に直面しています。

RoSA は、堅牢な低ランク分解と残差の非常にスパースな微調整を有機的に組み合わせて、説得力のある新しいソリューションを提供します。選択的にスパースな残差を通じて低ランクのフィッティングを逃れる信号を考慮することで、PEFT のパフォーマンスが大幅に向上します。実証的な評価では、さまざまな NLU タスク セットで LoRA および制御されていないスパース ベースラインよりも明らかに改善されていることが示されています。

概念的にはシンプルですが高性能な RoSA は、パラメータ効率、適応表現、継続的な学習の交差点での研究をさらに進め、言語インテリジェンスを拡張します。

<<: 

>>: 

ブログ    

推薦する

Salesforce が AI 人材を見つけ、スキルを向上させる方法

[[415289]] AI、機械学習、データサイエンスに関連するスキルの需要は依然として高く、企業は...

2021年に理解すべき5つのAIコンセプト

人間の知能は、生物学を模倣することで模倣されるべきでしょうか? それとも、鳥類の生物学が航空宇宙工学...

自動運転に関する毎年恒例の議論:量産化は3つの要因によって推進され、その本質はデータ軍拡競争である

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

回答者の約40%が顔認識技術の悪用は改善されたと考えている

データ画像。画像/アンスプラッシュ近年、個人情報保護法などの法律や規制の導入・施行により、我が国はデ...

畳み込みニューラルネットワークに関する15の質問:CNNと生物視覚システムの研究と探究

CNN 開発の初期には、脳のニューラル ネットワークから多くのインスピレーションを得ました。現在では...

普通の文書も会話に変えられる:会話補完技術の深い理解

会話型ロボットと聞くと、私と同じように、SiriやAlexaとの会話をすぐに思い浮かべますか?時には...

OpenAIの共同創設者Karpathyがアルパカに恋をする: 赤ちゃんLlama2を実装する純粋なCコード、MacBookが動作可能、1.6kの星を獲得

今週、Meta のオープンソース Llama2 が AI コミュニティ全体で人気を博しました。その結...

人工知能、自動化、新興技術のトレンドが4.6兆ドルの通貨市場に混乱をもたらしている

いくつかのスタートアップ企業は、最新のテクノロジーを活用して、最大かつ最も古いセクターの 1 つであ...

AIを信頼していない経営者は何を考えているのか?

経営幹部は長い間、より高度な意思決定にデータ分析を使用することに抵抗し、AI 支援による意思決定より...

畳み込みニューラル ネットワークの実践 - Keras を使用して猫を識別する

近年、ディープラーニングの分野における畳み込みニューラルネットワーク(CNN または ConvNet...

...

人工知能の発展と未来

人工知能(AI)技術の継続的な発展により、さまざまなAI製品が徐々に私たちの生活に入り込んできました...

人工知能を使ってエッセイを採点するのは信頼できると思いますか?

現在、5Gは世界的な注目を集めていますが、人工知能の開発は依然として力強いままです。各分野における技...

AI が生活に統合されると、能力が高ければ高いほど、管理が難しくなります。

2019 年、OpenAI は、特定の「安全制約」に準拠した AI モデルを開発するためのツール ...

自動運転技術はすでにかなり成熟しているのに、なぜまだ普及していないのでしょうか?この技術を待っている

自動運転技術は人類社会の未来を変える科学技術であり、私たちの生活にどんどん浸透し、すでに多くの自動運...