LoraHubはレゴのように組み立てることができ、LoRAのモジュール特性を探索することができます。

低ランク適応 (LoRA) は、基本的な LLM が特定のタスクに効率的に適応できるようにする、一般的に使用される微調整手法です。

OpenAI GPT、Flan-T5、LLaMA などの大規模な事前トレーニング済み言語モデル (LLM) は、自然言語処理 (NLP) 分野の発展を大きく促進しました。これらのモデルは、多くの NLP タスクで優れた結果を達成しています。しかし、これらのモデルはパラメータ数が多いため、微調整を行う際の計算効率やメモリ使用量などの問題があります。

Low Rank Adaptation (LoRA) は、これらの問題を軽減できる効率的な微調整手法です。メモリ要件と計算コストを削減し、LLM トレーニング速度を向上させることができます。

LoRA のアプローチは、ベースモデル (つまり、LLM) のパラメータを固定し、通常はターゲットタスクで良好なパフォーマンスを発揮する軽量の補助モジュールをトレーニングすることです。

これまでの研究では、効率性を向上させるために LoRA を使用することが検討されてきましたが、LoRA モジュールの固有のモジュール性と構成可能性を検討した研究はほとんどありませんでした。一般的に言えば、これまでの方法では、さまざまなタスクや分野に特化した LoRA モジュールをトレーニングしてきました。しかし、LoRA モジュールの固有のモジュール性は、それ自体が興味深い研究課題を提示します。LoRA モジュールを使用して、LLM を未知のタスクに効率的に一般化できるでしょうか?

この論文では、LoRA のモジュール特性が幅広いタスクに一般化できる可能性を探り、LoRA が単一タスクのトレーニングに限定されなくなることを明らかにしました。LoRA モジュールを慎重に構築することで、未知のタスクでも一定のパフォーマンスを達成できます。最も重要なのは、このアプローチにより、LoRA モジュールの自動組み合わせが可能になり、手動設計や人間の専門家の必要性がなくなることです。これまでに見たことのないタスクの例をいくつか使用するだけで、新しいアプローチでは、人間の介入なしに互換性のある LoRA モジュールを自動的にプログラムできます。研究者らは、特定のタスクについてトレーニングされたどの LoRA モジュールを組み合わせることができるかを事前に設定していませんが、仕様を満たすモジュール (同じ LLM を使用するなど) は柔軟に結合できます。この方法では利用可能なさまざまな LoRA モジュールを使用するため、研究者はこれを LoraHub と名付け、新しい学習方法を LoraHub 学習と名付けました。

論文アドレス: https://arxiv.org/abs/2307.13269

コードアドレス: https://github.com/sail-sg/lorahub

彼らはまた、実験を通じて新しい方法の効率性を検証しました。使用された基本 LLM は Flan-T5 で、評価ベンチマークは広く認知されている BBH ベンチマークでした。結果は、数回の LoraHub 学習により、 LoRA モジュールの組み合わせを未知のタスクに効率的に使用できることを示しています。新しい方法で達成されたスコアが、少数ショットのコンテキスト学習のパフォーマンスに非常に近いことは注目に値します。

さらに、コンテキスト学習と比較して、新しい方法では推論コストが大幅に削減され、LLM での例の入力が不要になります。この学習プロセスは、計算効率という別の重要な利点も示しています。LoRA モジュールの係数を取得するために勾配のない方法を使用し、未知のタスクに対して少数の推論ステップのみを必要とします。たとえば、BBH ベンチマークで評価すると、新しい方法では単一の A100 を使用して 1 分以内に優れたパフォーマンスが達成されます。

図 1: ゼロショット学習、少数ショットのコンテキスト学習、および新しく提案された少数ショットの LoraHub 学習。結合プロセスは例ごとではなくタスクごとに実行されることに注意してください。新しい方法の推論スループットはゼロショット学習と似ており、BIG-Bench Hard (BBH) ベンチマークでのパフォーマンスはコンテキスト学習に近くなります。

LoraHub の学習は CPU のみを搭載したコンピューターでも実行できることを指摘しておくことが重要です。結局のところ、LLM 推論の処理に習熟していればよいのです。このアプローチは、その汎用性と堅牢なパフォーマンスにより、トレーニング済みの LoRA モジュールを簡単に共有、アクセスし、新しいタスクに使用できるプラットフォームにつながる可能性があります。研究者たちは、このようなプラットフォームによって、無数の機能を備えた再利用可能な LoRA モジュールのライブラリが育成される可能性があると考えています。これにより、共同 AI 開発の基盤も整い、コミュニティが動的な LoRA の組み合わせを通じて LLM 機能を共同で強化できるようになります。モジュールを共有および再利用できるこの可能性により、さまざまなタスクでリソースを最適に活用できるようになると期待されます。

方法

図 2 に示すように、研究者はまず、複数の上流タスクで LoRA モジュールをトレーニングしました。具体的には、N 個の異なる上流タスクに対して、N 個の LoRA モジュールが最初に個別にトレーニングされます。次に、新しいタスク (図 2 のブール式など) では、そのタスクの例を使用して LoraHub の学習プロセスをガイドします。

図2: 新しい方法はCOMPOSEとADAPTの2つのフェーズで構成されています

結合段階では、一連の重み係数を使用して、既存の LoRA モジュールを 1 つの統合モジュールに統合します。適応フェーズでは、未知のタスクからの少数の例を使用して、マージされた LoRA モジュールを評価します。次に、勾配フリーアルゴリズムを使用して上記の重みを最適化します。数回の反復を経て、高度に適応した LoRA モジュールが生成され、これを LLM に統合して目標ミッションを実行できるようになります。この方法の詳細な数学的説明は原著論文に記載されています。

評価する

研究者らは、Flan-T5 を LLM として使用して提案された方法を評価しました。

表 1 に実験データを示します。新しい方法の有効性はゼロショット学習に近く、少数ショットのシナリオでのパフォーマンスはコンテキスト学習に近いことがわかります。この観察結果は、5 つの異なる実験の平均結果に基づいています。

表 1: ゼロショット学習 (Zero)、数ショットコンテキスト学習 (ICL)、および新しく提案された数ショット LoraHub 学習のパフォーマンス比較。

実験では、新しい方法を使用するモデルで使用されるトークンの数はゼロショット法と同じであり、コンテキスト学習で使用されるトークンの数よりも大幅に少ないことを指摘することが重要です。パフォーマンスが時々変動するにもかかわらず、新しいアプローチはほとんどの場合ゼロショット学習よりも優れています。この新しい方法の本当に際立った点は、最先端のパフォーマンスがコンテキスト学習を上回りながらも、使用するトークンが少ないことです。 LLM 時代では、推論のコストは入力の長さに比例するため、入力トークンを経済的に活用してほぼ最適なパフォーマンスを実現する LoraHub の能力がますます重要になります。

図 3 に示すように、未知のタスクの例の数が 20 未満の場合、新しい方法は一般に LoRA の微調整よりも優れています。

図 3: さまざまな数のタスク例における従来の微調整 (FFT)、LoRA 微調整 (LoRA)、および新しく提案された LoraHub 学習 (当社) のパフォーマンス比較。

<<: 交通における人工知能: スマートソリューションによる交通革命

>>: OpenAI が GPT-5 の商標登録を申請: すでに開発計画に入っているのか?