LoRAShear: LLM プルーニングと知識回復に関する Microsoft の最新研究

LoRAShear: LLM プルーニングと知識回復に関する Microsoft の最新研究

LoRAShear は、言語モデリング (LLM) を最適化し、知識を保存するために Microsoft が開発した新しいアプローチです。構造的なプルーニングが可能になり、計算要件が削減され、効率が向上します。

LHSPG テクノロジー (Lora Half-Space Projected Gradient) は、漸進的な構造化プルーニングと動的な知識回復をサポートします。依存グラフ分析とスパース最適化を通じて、さまざまな LLM に適用できます。

LoRAPrune は、LoRA と反復的な構造化プルーニングを組み合わせて、効率的なパラメータの微調整を実現します。 LLAMA v1 の実装では、大規模なプルーニングを行っても同等のパフォーマンスが維持されます。

進化する人工知能の分野では、言語モデリング (LLM) は、大量のテキスト データを処理し、関連情報をすばやく取得し、知識へのアクセス性を高めるための重要なツールとなっています。その影響は広範囲に及び、検索エンジンや質問応答システムの強化からデータ分析の実現まで、幅広い分野に及び、研究者、専門家、知識探求者がその恩恵を受けています。

現時点での最大の問題は、情報の動的な性質により、LLM が知識を常に更新する必要があることです。従来、微調整はこれらのモデルに新たな洞察を吹き込む方法として使用されてきました。開発者はドメイン固有のデータを使用して事前トレーニング済みのモデルを微調整し、最新の状態に保っています。絶えず変化する情報環境と LLM を同期させるには、組織や研究者による定期的な更新が不可欠だからです。しかし、微調整にはコストと時間がかかります。

この緊急のニーズに対応するために、Microsoft の研究者は画期的なアプローチである LoRAShear を導入しました。この革新的なアプローチは、LLM を簡素化するだけでなく、構造的知識の回復も促進します。アーキテクチャのプルーニングの中核は、ニューラル ネットワーク アーキテクチャ内の特定のコンポーネントを削除または削減して、効率、コンパクトさ、計算要件を最適化することです。

Microsoft の LoRAShear は、プログレッシブ構造化プルーニングをサポートするために LHSPG テクノロジを導入しています。このアプローチは、LoRA モジュール間で知識をシームレスに転送し、動的な知識回復ステージを統合します。微調整プロセスは事前トレーニングや指示の微調整に似ており、LLM が最新かつ関連性のある状態に保たれることを保証します。

LoRAShear は、特に LoRA モジュールのサポート範囲内で、依存関係グラフ分析を通じて一般的な LLM に拡張できます。採用されたアルゴリズムは、元の LLM および LoRA モジュールの依存関係グラフを作成します。さらに、LoRA モジュール情報を活用して重み更新中の知識の保存を強化する構造化スパース最適化アルゴリズムが導入されています。

この論文には、LoRA と反復構造化プルーニングを組み合わせて効率的なパラメータの微調整と直接的なハードウェア アクセラレーションを実現する、LoRAPrune と呼ばれる統合技術も記載されています。このメモリ節約アプローチは、プルーニング基準として LoRA の重みと勾配に完全に依存します。このプロセスには、追跡グラフの構築、圧縮するノードのグループの決定、トレーニング可能な変数の分割、そして最後にそれらを LLM に返すことが含まれます。

この論文では、オープンソースの LLAMAv1 に LoRAShear を実装することで、その有効性を実証しています。特に、LLAMAv1 を 20% 削減するとパフォーマンスの低下はわずか 1% ですが、モデルを 50% 削減すると評価ベンチマークで 82% のパフォーマンスが維持されます。

LoRAShear は人工知能の分野における大きな進歩を表しています。 LLM の使用方法が簡素化され、効率化されるだけでなく、重要な知識が確実に保持されます。 AI 駆動型アプリケーションは、コンピューティング リソースを最適化しながら、進化する情報環境に対応できるようになります。組織がデータ処理と知識検索に AI をますます活用するようになるにつれ、LoRAShear のようなソリューションが市場で重要な役割を果たし、効率性と知識の回復力を実現します。

論文アドレス: https://arxiv.org/abs/2310.18356

<<:  Amazon Web Services は、5 つのステップで企業の生成 AI の実現を支援します。

>>:  将来に影響を与える戦略的テクノロジートレンドトップ10

ブログ    
ブログ    
ブログ    

推薦する

Google BardとChatGPT、どちらを選ぶべきでしょうか?

こんにちは、ルガです。今日は、人工知能 (AI) エコシステムに関連するテクノロジーについて、Goo...

GoogleとHuawei、AI市場獲得に向け音声アシスタントの導入を急ぐ

Google が携帯電話向けの初の音声人工知能製品を発表してから 5 か月後、同社は Apple の...

機械学習で大規模なデータセットを処理する方法

機械学習で大規模なデータセットを処理する方法ビッグデータではありません…。データセットは、共通のプロ...

...

...

マイクロソフトは、兆パラメータのAIモデルのトレーニングに必要なGPUを4,000から800に削減しました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

13歳の天才少年がAIスピーカーを開発。2010年代以降の世代は単純ではない

現代のティーンエイジャーにとってクールなものは何でしょうか?おそらくそれは AJ シューズを履くこと...

650億のパラメータ、すべてのパラメータを8つのGPUで微調整可能:Qiu Xipengのチームは大規模モデルの閾値を下げました

大規模モデルに向けて、テクノロジー大手はより大規模なモデルをトレーニングしており、学界はそれらを最適...

...

中国をターゲットに!米国はドローンや衛星画像を含むAIソフトウェアの輸出を緊急制限

アメリカは再び中国に対して行動を起こしたが、今回はAIソフトウェアに関してだ。月曜日に発効する新しい...

日本の出生率が過去最低を記録、政府は国民が真実の愛を見つけるのを助けるためにAIの助けを求める

[[379564]]日本政府は国民が真実の愛を見つけるのを助けるために AI を活用しています。 (...

脳コンピューターインターフェースが人間の思考を制御するのではないかと心配ですか?神経科学者:考えすぎ

[[400401]]現在、脳コンピューターインターフェースの急速な発展により、人々はパニックに陥って...

シングルテナント AI ファクトリーは最新のデータセンタートレンドでしょうか?

コロケーション データ センターの標準的な構造は、数十または数百の顧客が同時に異なるアプリケーション...

将来は知能ロボットが農業を担う

果物の収穫から雑草の除去まで、ロボットは精密農業で大きな成果を上げています。農家は常に熱心なデータ収...