LoraHubはレゴのように組み立てることができ、LoRAのモジュール特性を探索することができます。

LoraHubはレゴのように組み立てることができ、LoRAのモジュール特性を探索することができます。

低ランク適応 (LoRA) は、基本的な LLM が特定のタスクに効率的に適応できるようにする、一般的に使用される微調整手法です。

OpenAI GPT、Flan-T5、LLaMA などの大規模な事前トレーニング済み言語モデル (LLM) は、自然言語処理 (NLP) 分野の発展を大きく促進しました。これらのモデルは、多くの NLP タスクで優れた結果を達成しています。しかし、これらのモデルはパラメータ数が多いため、微調整を行う際の計算効率やメモリ使用量などの問題があります。

Low Rank Adaptation (LoRA) は、これらの問題を軽減できる効率的な微調整手法です。メモリ要件と計算コストを削減し、LLM トレーニング速度を向上させることができます。

LoRA のアプローチは、ベースモデル (つまり、LLM) のパラメータを固定し、通常はターゲットタスクで良好なパフォーマンスを発揮する軽量の補助モジュールをトレーニングすることです。

これまでの研究では、効率性を向上させるために LoRA を使用することが検討されてきましたが、LoRA モジュールの固有のモジュール性と構成可能性を検討した研究はほとんどありませんでした。一般的に言えば、これまでの方法では、さまざまなタスクや分野に特化した LoRA モジュールをトレーニングしてきました。しかし、LoRA モジュールの固有のモジュール性は、それ自体が興味深い研究課題を提示します。LoRA モジュールを使用して、LLM を未知のタスクに効率的に一般化できるでしょうか?

この論文では、LoRA のモジュール特性が幅広いタスクに一般化できる可能性を探り、LoRA が単一タスクのトレーニングに限定されなくなることを明らかにしました。LoRA モジュールを慎重に構築することで、未知のタスクでも一定のパフォーマンスを達成できます。最も重要なのは、このアプローチにより、LoRA モジュールの自動組み合わせが可能になり、手動設計や人間の専門家の必要性がなくなることです。これまでに見たことのないタスクの例をいくつか使用するだけで、新しいアプローチでは、人間の介入なしに互換性のある LoRA モジュールを自動的にプログラムできます。研究者らは、特定のタスクについてトレーニングされたどの LoRA モジュールを組み合わせることができるかを事前に設定していませんが、仕様を満たすモジュール (同じ LLM を使用するなど) は柔軟に結合できます。この方法では利用可能なさまざまな LoRA モジュールを使用するため、研究者はこれを LoraHub と名付け、新しい学習方法を LoraHub 学習と名付けました。

論文アドレス: https://arxiv.org/abs/2307.13269

コードアドレス: https://github.com/sail-sg/lorahub

彼らはまた、実験を通じて新しい方法の効率性を検証しました。使用された基本 LLM は Flan-T5 で、評価ベンチマークは広く認知されている BBH ベンチマークでした。結果は、数回の LoraHub 学習により、 LoRA モジュールの組み合わせを未知のタスクに効率的に使用できることを示しています。新しい方法で達成されたスコアが、少数ショットのコンテキスト学習のパフォーマンスに非常に近いことは注目に値します。

さらに、コンテキスト学習と比較して、新しい方法では推論コストが大幅に削減され、LLM での例の入力が不要になります。この学習プロセスは、計算効率という別の重要な利点も示しています。LoRA モジュールの係数を取得するために勾配のない方法を使用し、未知のタスクに対して少数の推論ステップのみを必要とします。たとえば、BBH ベンチマークで評価すると、新しい方法では単一の A100 を使用して 1 分以内に優れたパフォーマンスが達成されます。

図 1: ゼロショット学習、少数ショットのコンテキスト学習、および新しく提案された少数ショットの LoraHub 学習。結合プロセスは例ごとではなくタスクごとに実行されることに注意してください。新しい方法の推論スループットはゼロショット学習と似ており、BIG-Bench Hard (BBH) ベンチマークでのパフォーマンスはコンテキスト学習に近くなります。

LoraHub の学習は CPU のみを搭載したコンピューターでも実行できることを指摘しておくことが重要です。結局のところ、LLM 推論の処理に習熟していればよいのです。このアプローチは、その汎用性と堅牢なパフォーマンスにより、トレーニング済みの LoRA モジュールを簡単に共有、アクセスし、新しいタスクに使用できるプラットフォームにつながる可能性があります。研究者たちは、このようなプラットフォームによって、無数の機能を備えた再利用可能な LoRA モジュールのライブラリが育成される可能性があると考えています。これにより、共同 AI 開発の基盤も整い、コミュニティが動的な LoRA の組み合わせを通じて LLM 機能を共同で強化できるようになります。モジュールを共有および再利用できるこの可能性により、さまざまなタスクでリソースを最適に活用できるようになると期待されます。

方法

図 2 に示すように、研究者はまず、複数の上流タスクで LoRA モジュールをトレーニングしました。具体的には、N 個の異なる上流タスクに対して、N 個の LoRA モジュールが最初に個別にトレーニングされます。次に、新しいタスク (図 2 のブール式など) では、そのタスクの例を使用して LoraHub の学習プロセスをガイドします。

図2: 新しい方法はCOMPOSEとADAPTの2つのフェーズで構成されています

結合段階では、一連の重み係数を使用して、既存の LoRA モジュールを 1 つの統合モジュールに統合します。適応フェーズでは、未知のタスクからの少数の例を使用して、マージされた LoRA モジュールを評価します。次に、勾配フリーアルゴリズムを使用して上記の重みを最適化します。数回の反復を経て、高度に適応した LoRA モジュールが生成され、これを LLM に統合して目標ミッションを実行できるようになります。この方法の詳細な数学的説明は原著論文に記載されています。

評価する

研究者らは、Flan-T5 を LLM として使用して提案された方法を評価しました。

表 1 に実験データを示します。新しい方法の有効性はゼロショット学習に近く、少数ショットのシナリオでのパフォーマンスはコンテキスト学習に近いことがわかります。この観察結果は、5 つの異なる実験の平均結果に基づいています。

表 1: ゼロショット学習 (Zero)、数ショットコンテキスト学習 (ICL)、および新しく提案された数ショット LoraHub 学習のパフォーマンス比較。

実験では、新しい方法を使用するモデルで使用されるトークンの数はゼロショット法と同じであり、コンテキスト学習で使用されるトークンの数よりも大幅に少ないことを指摘することが重要です。パフォーマンスが時々変動するにもかかわらず、新しいアプローチはほとんどの場合ゼロショット学習よりも優れています。この新しい方法の本当に際立った点は、最先端のパフォーマンスがコンテキスト学習を上回りながらも、使用するトークンが少ないことです。 LLM 時代では、推論のコストは入力の長さに比例するため、入力トークンを経済的に活用してほぼ最適なパフォーマンスを実現する LoraHub の能力がますます重要になります。

図 3 に示すように、未知のタスクの例の数が 20 未満の場合、新しい方法は一般に LoRA の微調整よりも優れています。

図 3: さまざまな数のタスク例における従来の微調整 (FFT)、LoRA 微調整 (LoRA)、および新しく提案された LoraHub 学習 (当社) のパフォーマンス比較。

<<:  交通における人工知能: スマートソリューションによる交通革命

>>:  OpenAI が GPT-5 の商標登録を申請: すでに開発計画に入っているのか?

ブログ    

推薦する

...

シャドーAIの潜在的な脅威に対処するための4つのヒント

AI ツールの導入はほとんどの組織がセキュリティを確保できるよりも速いペースで進んでいるため、シャド...

ChatGPTの曖昧な問題への対応力を高める方法についてお話ししましょう

ヒント エンジニアリング技術は、大規模な言語モデルが検索強化型生成システムで代名詞などの複雑なコア参...

人工知能開発における個人情報保護

インターネット空間は、人間が肉体から切り離された「デジタルサバイバル」を実現し、「デジタルパーソナリ...

人工知能の登場により、一人暮らしの高齢者の介護は難しくなくなり、高齢者介護はテクノロジーの時代に入った

[[389635]]私の国では高齢化が進み、高齢者介護は長い間、社会全体で広く関心を集めるテーマとな...

Python は AI のために生まれたわけではありません。Golang は今後 10 年間の人工知能を支配することになるでしょうか?

ここ数年、Python は人工知能とデータサイエンスの分野で最も人気のあるプログラミング言語になりま...

2022年に人工知能が製造業を変える4つの方法

何年もの間、私たちは「来年」が人工知能にとって画期的な年になるだろうという話を聞いたり読んだりしてき...

PythonでAutoMLを実装する方法を教えます

[51CTO.com クイック翻訳] 機械学習は複雑な問題を自動的に解決する方法であることはすでに知...

研究により、ディープラーニングAIは乳がんリスクの予測に優れていることが判明

放射線学誌に掲載された新しい研究によると、ディープラーニングと呼ばれる高度な人工知能は、一般的に使用...

1行のコードで顔認識を実装する方法を教えます

概要: 顔認識を実現するための 1 行のコード、1. まず、システムに認識させたいすべての人の写真が...

AIファイナンスブームの背後にはアリババとスタートアップ企業独自の狙いがある

中国の人工知能分野の二大大手であるMegvii TechnologyとSenseTime Techn...

海雲傑迅は人工知能教育分野で総合的なサービスを提供するAI Goを立ち上げようとしている

[51CTO.com オリジナル記事] 今、業界で人気のテクノロジーは何ですか?それは間違いなく人工...

Nature の最新表紙: 2 つの主要な数学の問題が AI によって解決されました!ディープマインドYYDS

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

百新銀行と百度クラウドAI+銀行金融技術シンクタンク会議が開催、オープンバンキングについて議論

11月19日、北京で「百度銀行&百度クラウドAI+銀行金融技術シンクタンク」が開催されました。カンフ...