言語モデルが前例のない規模にまで拡大し続けるにつれて、下流のタスクのすべてのパラメータを微調整することは非常に高価になり、PEFT メソッドは自然言語処理の研究のホットスポットになりました。 PEFT アプローチでは、微調整を少数のパラメータに制限し、少ない計算コストで自然言語理解タスクにおける最先端のパフォーマンスを実現します。 RoSA は新しい PEFT テクノロジーです。一連のベンチマークの実験では、RoSA は同じパラメータ バジェットを使用しながら、以前の Low-Rank Adaptation (LoRA) や純粋なスパース微調整手法よりも優れたパフォーマンスを発揮しました。 この記事では、RoSA の原則、方法、および結果について詳しく説明します。そして、そのパフォーマンスがなぜ有意義な進歩を示すのかを説明します。大規模な言語モデルを効率的に微調整したいと考えている人のために、RoSA は従来のオプションよりも優れた新しいソリューションを提供します。 効率的なパラメータ微調整の必要性NLP は、大規模なテキストコーパスで事前トレーニングすることで強力な言語表現を学習し、簡単なプロセスを通じて下流の言語タスクに転送する、ますます大規模になる一連のトランスフォーマーベースの言語モデル (GPT-4 など) によって革命を起こしました。 モデルのサイズが数十億から数兆のパラメータに拡大するにつれて、微調整には耐えられない計算負荷がかかります。 GPT-4 の 1.76 兆個のパラメータを微調整するには、数百万ドルの費用がかかる可能性があります。これにより、実際のアプリケーションへの展開はほとんど非現実的になります。 パラメータ効率の良い微調整 (PEFT) 手法は、微調整を各タスクのパラメータの小さなセットに制限することでこの問題に対処します。最近の文献では、効率と精度の間でさまざまなトレードオフを行うさまざまな PEFT 技術が提案されています。 ローラ代表的な PEFT 手法は Low Rank Adaptation (LoRA) です。 LoRA は、トランスフォーマーがヘッドマトリックスに低ランク構造を示すという観察に基づいて、2021 年に Meta と MIT の研究者によって立ち上げられました。 LoRA は、各トランスフォーマー ヘッドの最初の k 個の特異ベクトル ペアのみを微調整し、他のすべてのパラメーターは変更しません。これには O(k) 個の追加パラメータの調整のみが必要ですが、n 個のパラメータすべてを包括的に微調整するには O(n) 個の調整が必要になります。 この低ランク構造を活用することで、LoRA は下流のタスクでの一般化に必要な意味のある信号をキャプチャし、これらのトップレベルの特異ベクトルへの微調整を制限して、最適化と推論をより効率的にすることができます。 実験では、LoRA は 100 倍以上少ないパラメータを使用しながら、GLUE ベンチマークで完全に微調整されたバージョンのパフォーマンスに匹敵できることが示されています。ただし、モデルのサイズが大きくなり続けると、LoRA で強力なパフォーマンスを実現するにはランク k を増やす必要があり、完全な微調整に比べて計算の節約が減少します。 RoSA 以前は、LoRA が PEFT 手法の最先端を代表していましたが、さまざまな行列分解や、少数の微調整パラメータの追加などの手法を使用することで、わずかな改善しか行われていませんでした。 ロバスト適応 (RoSA)Robust Adaptation (RoSA) は、効率的なパラメータの微調整のための新しい方法を導入します。 RoSA は、低ランク構造のみに依存するのではなく、堅牢な主成分分析 (堅牢な PCA) に着想を得ています。 従来の主成分分析では、データ行列 X は X≈L + S に分解されます。ここで、L は主成分を近似する低ランク行列であり、S は残差を捕捉するスパース行列です。ロバスト PCA はさらに一歩進んで、X をクリーンな低ランクの L と「汚染された/破損した」スパースな S に分解します。 RoSA はこれにインスピレーションを得て、言語モデルの微調整を次のように分解します。
残差スパース成分を明示的にモデル化することで、RoSA は LoRA 単独よりも高い精度を実現できます。 RoSA は、モデルのヘッド マトリックスの低ランク分解を実行して L を構築します。これにより、下流のタスクに役立つ低レベルのセマンティック表現がエンコードされます。次に、RoSA は各レイヤーの上位 m 個の最も重要なパラメータを S に選択的に微調整しますが、他のすべてのパラメータは変更しません。このステップでは、低ランクフィッティングに適さない残差信号をキャプチャします。 微調整パラメータの数 m は、LoRA のみに必要なランク k よりも 1 桁小さくなります。したがって、L の低ランクのヘッド マトリックスと組み合わせると、RoSA は非常に高いパラメーター効率を維持します。 RoSA では、他にもシンプルだが効果的な最適化がいくつか採用されています。
これらのアーキテクチャの選択により、最適化と推論のパラメータ効率を維持しながら、完全な微調整と同様の柔軟性を RoSA モデリングに提供します。堅牢な低ランク適応と非常にスパースな残差を組み合わせたこの PEFT アプローチを活用することで、RoSA は精度と効率のトレードオフを実現する新しい手法を実現します。 実験と結果研究者らは、テキスト検出、感情分析、自然言語推論、堅牢性テストなどのタスクをカバーする 12 の NLU データセットの包括的なベンチマークで RoSA を評価しました。彼らは、120億のパラメータモデルを使用して、LLMに基づくAIアシスタントであるRoSAで実験を実施しました。 すべてのタスクにおいて、同じパラメータを使用した場合、RoSA は LoRA よりも大幅に優れたパフォーマンスを発揮します。両方の方法の合計パラメータは、モデル全体の約 0.3% です。これは、LoRA の場合は k = 16、RoSA の場合は m = 5120 を意味し、どちらの場合も約 450 万の微調整されたパラメータがあることを意味します。 RoSA は、純粋にスパースな微調整ベースラインのパフォーマンスと同等か、それを上回ります。 敵対的サンプルに対する堅牢性を評価する ANLI ベンチマークでは、RoSA のスコアは 55.6 で、LoRA のスコアは 52.7 です。これは一般化と調整の改善を示しています。 感情分析タスク SST-2 および IMDB では、RoSA は 91.2% と 96.9% の精度を達成し、LoRA は 90.1% と 95.3% の精度を達成しました。 WIC(難しい語義の曖昧さ解消テスト)では、RoSA は F1 スコア 93.5 を達成し、LoRA は F1 スコア 91.7 を達成しました。 12 個のデータセット全体にわたって、一致したパラメータ バジェットでは、RoSA は一般に LoRA よりも優れたパフォーマンスを示します。 驚くべきことに、RoSA はタスク固有の調整や特殊化を必要とせずにこれらの利点を達成できます。これにより、RoSA は汎用的な PEFT ソリューションとして適したものになります。 要約する言語モデルのサイズが急速に拡大し続けているため、微調整に必要な計算量を削減することが、対処が必要な緊急の課題となっています。 LoRA のようなパラメータ効率の高い適応型トレーニング手法は初期の成功を示していますが、低ランク近似の固有の制限に直面しています。 RoSA は、堅牢な低ランク分解と残差の非常にスパースな微調整を有機的に組み合わせて、説得力のある新しいソリューションを提供します。選択的にスパースな残差を通じて低ランクのフィッティングを逃れる信号を考慮することで、PEFT のパフォーマンスが大幅に向上します。実証的な評価では、さまざまな NLU タスク セットで LoRA および制御されていないスパース ベースラインよりも明らかに改善されていることが示されています。 概念的にはシンプルですが高性能な RoSA は、パラメータ効率、適応表現、継続的な学習の交差点での研究をさらに進め、言語インテリジェンスを拡張します。 |
ニュージーランド政府は、政府機関がアルゴリズムを使用する方法のガイドとなることを目的とした一連の標準...
マーク・カネル、イマジネーション・テクノロジーズ、 戦略およびセキュリティ担当副社長[[281448...
1956年にアメリカのダートマス大学で開催された学術会議が、世界的なAI研究の始まりとなりました。 ...
偉大な将軍の名声の裏には、数え切れないほどの兵士たちの援助がある。この声明は自動運転の分野にも当ては...
噂は本当で、Microsoft は大規模な言語モデルのトレーニングに使用できるカスタム AI チップ...
知識の蓄積は規模の拡大をもたらし、規模の拡大は市場の集中につながります。産業が「組立ライン」の形で固...
[[437809]]動的視覚推論、特にオブジェクト間の物理的な関係についての推論は、コンピューター ...
1 件の AI 論文、442 人の著者。著者の貢献のために特別な章も設けられています。 100ペー...
AIが私たちの日常生活の一部になっていることは否定できません。ほぼすべての業界のフォーチュン 100...
今日、多くの地域で、伝統的に顧客独占を享受してきた水道事業者は、規制政策の変更、気候変動の影響、消費...
食品廃棄物は、今日、何百万人もの人々の栄養失調の主な原因の一つです。したがって、政府や農業組織は、I...