Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する

Transformerのランクを下げ、LLMのパフォーマンスを低下させることなく、特定のレイヤーのコンポーネントの90%以上を削除する

大規模モデルの時代において、Transformer は科学研究分野全体を一手にサポートします。 Transformer ベースの LLM はリリース以来、さまざまなタスクで優れたパフォーマンスを発揮しており、その基盤となる Transformer アーキテクチャは自然言語モデリングと推論の最先端技術となり、コンピューター ビジョンや強化学習などの分野で大きな期待が寄せられています。

ただし、現在の Transformer アーキテクチャは非常に大きく、通常、トレーニングと推論に大量のコンピューティング リソースが必要になります。

これは意図的なものであり、より多くのパラメータやデータでトレーニングされた Transformer は明らかに他のモデルよりも優れた能力を発揮します。それにもかかわらず、Transformer ベースのモデルやニューラル ネットワークでは、学習した仮説を維持するためにすべての適合パラメータは必要ないことを示す研究が増えています。

一般的に、モデルをトレーニングするときに、モデルを大幅に過剰にパラメータ化することは役立つと思われますが、これらのモデルは推論前に大幅に削減することができます。研究によると、ニューラル ネットワークでは、パフォーマンスが大幅に低下することなく、重みの 90% 以上を削除できることが多いことがわかっています。この現象により、研究者はモデル推論を容易にする剪定戦略の研究に目を向けるようになりました。

MIT と Microsoft の研究者は、論文「真実はそこにあります: レイヤー選択的ランク削減による言語モデルの推論の改善」の中で、Transformer モデルの特定のレイヤーを慎重に削減すると、特定のタスクにおけるモデルのパフォーマンスが大幅に向上するという驚くべき発見をしました。

  • 論文アドレス: https://arxiv.org/pdf/2312.13558.pdf
  • 論文ホームページ: https://pratyushasharma.github.io/laser/

この研究では、この単純な介入をLASER(LAyer SElective Rank Reduction)と呼んでいます。これは、特異値分解を通じてTransformerモデルの特定の層の学習重み行列の高次成分を選択的に削減し、LLMのパフォーマンスを大幅に向上させるものです。この操作は、モデルのトレーニング後に実行でき、追加のパラメータやデータは必要ありません。

操作中、重みの削減はモデル固有の重みマトリックスとレイヤーで実行され、研究では多くの同様のマトリックスで重みを大幅に削減できることも判明し、通常、コンポーネントの 90% 以上が完全に削除されるまでパフォーマンスの低下は見られません。

この研究では、こうした削減によって精度が大幅に向上することも判明したが、これは自然言語に限らず、強化学習でもパフォーマンスの向上が見られるという。

さらに、この研究では、高次コンポーネントに何が格納されているかを推測し、それらを削除してパフォーマンスを向上できるようにしようとしています。研究では、LASER が質問に正しく答えた後、介入前には、元のモデルは主に高頻度語 (「the」、「of」など) で応答していたことが判明しました。これらの語は、正解と意味タイプが同じではありません。言い換えると、これらのコンポーネントにより、介入なしではモデルは無関係な高頻度語を生成することになります。

ただし、ある程度のランク削減を実行することで、モデルの回答を正しいものに変換できます。

これを理解するために、研究者らは残りのコンポーネントがそれぞれ何をエンコードしているかを調査し、高次特異ベクトルのみを使用して重みマトリックスを近似しました。これらの構成要素は、正解と同じ意味カテゴリ内の異なる応答または共通の高頻度語を説明していることがわかりました。

これらの結果は、ノイズの多い高次コンポーネントが低次コンポーネントと組み合わされると、それらの矛盾する応答によって平均回答が不正確になる可能性があることを示唆しています。図 1 は、Transformer のアーキテクチャと LASER が実行する手順を視覚的に示しています。ここでは、多層パーセプトロン (MLP) の特定の層の重み行列が、その低ランク近似値に置き換えられます。

LASERの概要

研究者らはレーザー介入について詳しく説明しています。シングルステップ LASER 介入は、パラメータ τ、レイヤー数 ℓ、およびランク削減 ρ を含む 3 つの要素 (τ、ℓ、ρ) によって定義されます。これらの値を組み合わせることで、どの行列が低ランク近似に置き換えられるか、また近似がどの程度厳密であるかが説明されます。研究者は、介入するマトリックスのタイプを分類するためにパラメータ タイプに依存します。

研究者らは、MLP 層と注意層の行列で構成される W = {W_q、W_k、W_v、W_o、U_in、U_out} 内の行列に注目しました。層番号は研究者が介入した層を示します (最初の層は 0 からインデックス付けされます)。たとえば、Llama-2 には 32 層あるため、ℓ ∈ {0, 1, 2,…31} となります。

最後に、ρ∈[0, 1)は、低ランク近似を行うときに最大ランクのどの部分を保持する必要があるかを表します。たとえば、とすると、行列の最大階数は d です。研究者たちはそれを⌊ρ・d⌋近似に置き換えた。

下の図 1 は LASER の例です。ここで、τ = U_in および ℓ = L は、L 番目の層の Transformer ブロック内の MLP の最初の層の重み行列を更新することを表しています。別のパラメータは、ランク k 近似における k を制御します。

LASER は、ネットワーク内の特定の情報の流れを制限し、予期せぬ大幅なパフォーマンス上の利点を生み出すことができます。これらの介入は簡単に組み合わせることができ、一連の介入を任意の順序で適用できます

LASER アプローチは、そのような介入を単純に検索し、最大の利益をもたらすように修正したものです。しかし、これらの介入を組み合わせる方法は他にもたくさんあり、それが研究者による今後の研究の方向性となります。

実験結果

実験部分では、研究者らは、27 層と 60 億のパラメータを持つ PILE データセットで事前トレーニングされた GPT-J モデルを使用しました。次に、モデルの動作は CounterFact データセットで評価されます。このデータセットには、(トピック、関係、回答) トリプレットのサンプルが含まれており、質問ごとに 3 つの言い換えプロンプトが提供されます。

まず、CounterFact データセット上の GPT-J モデルの分析です。下の図 2 は、Transformer アーキテクチャ内の各マトリックスに異なる量のランク削減を適用した場合の、データセットの分類損失への影響を示しています。各 Transformer レイヤーは小さな 2 層 MLP で構成され、入力マトリックスと出力マトリックスが個別に表示されます。異なる色は、削除されたコンポーネントの異なる割合を示します。

解釈の精度と堅牢性の向上に関しては、上の図 2 と下の表 1 に示すように、研究者らは、ランク削減を単一レイヤーで実行すると、CounterFact データセット上の GPT-J モデルのファクト精度が 13.1% から 24.0% に向上することを発見しました。これらの改善はランクの削減の結果に過ぎず、モデルのさらなるトレーニングや微調整は行われないことに注意することが重要です。

データセット内のどの事実がランク削減によって回復されるでしょうか?研究者たちは、下の図 3 に示すように、ランク削減によって回復された事実がデータにほとんど現れない可能性が高いことを発見しました。

高階コンポーネントには何が格納されますか?研究者らは、下の図 5 (a) に示すように、高次コンポーネントを使用して最終的な重みマトリックスを近似しました (LASER のように低次コンポーネントを使用する代わりに)。彼らは、下の図5(b)に示すように、異なる数の高次成分を使用して行列を近似した場合の、予測された答えに対する真の答えの平均コサイン類似度を測定しました。

最後に、複数の言語理解タスクにおける 3 つの異なる LLM への調査結果の一般化可能性を評価します。各タスクについて、生成精度、分類精度、損失という 3 つの指標を使用してモデルのパフォーマンスを評価しました。上記の表 1 に示すように、ランクの削減が大きくてもモデルの精度が低下することはなく、モデルのパフォーマンスを向上させることができます。

<<:  大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

>>:  モデル量子化とエッジAIがインタラクションを定義する方法

ブログ    

推薦する

UdeskブランドアップグレードWofeng TechnologyはAIコア技術を深化させ、5つの主要製品ラインでトップ1または2戦略を全面的に推進

6月9日、「新AI、新企業サービス、新旅」Wofeng Technologyブランドアップグレードメ...

...

イーブンテクノロジーは、AIアプリケーションシナリオに沿った新世代のデータウェアハウスを構築します。

[51CTO.com からのオリジナル記事] 今日の情報化社会には、さまざまな情報リソースが溢れて...

...

中国の新世代人工知能レポートが発表:中国はAI論文数で世界一

[[266390]] 5月24日、浦江イノベーションフォーラムで「中国の新世代人工知能発展報告書20...

AIがクラウドコンピューティング管理の改善に役立ついくつかの方法

企業がクラウド管理について考えるとき、主にパフォーマンスの監視、セキュリティの維持、コンプライアンス...

...

...

米国商務省が複数の中国企業をブラックリストに載せた後、MITは中国とのAI協力プロジェクトの検討を開始した。

[[278589]]北京時間10月8日、米国商務省はハイクビジョン、メグビーテクノロジー、センスタ...

...

AIがスマート交通建設を推進し、警察ドローンの高速任務を加速

スマート交通とは、モノのインターネット、空間認識、クラウドコンピューティング、モバイルインターネット...

人工知能とモノのインターネット: インターネット通信の未来

人工知能 (AI) とモノのインターネット (IoT) の登場により、通信およびインターネット技術業...

2020 年のソフトウェア テストの 5 つのトレンド

[[285865]] [51CTO.com クイック翻訳] デジタル技術の広範な応用に伴い、ソフトウ...

二足歩行ロボットは撮影以外にも応用シーンが多すぎて問題になっている

揚子江は東に流れ、その波はすべての英雄たちを押し流す。ジャッキー・チェン、ジェット・リー、ジャン=ク...

AIのデジタルシールド:インフラのサイバーセキュリティ戦略の強化

技術革新の時代において、人工知能 (AI) は変革の力として際立っています。パーソナライズされた推奨...