大規模モデルで長いテキストを処理する能力を向上させる場合、長さの外挿やコンテキスト ウィンドウの拡張を検討しますか? いいえ、これらはハードウェアを集中的に使用しすぎます。 ここに素晴らしい新しい解決策があります: KV キャッシュを使用する長さ外挿などの方法とは異なり、モデル パラメータを使用して大量のコンテキスト情報を格納します。 具体的な方法は、一時的な Lora モジュールを構築し、長いテキスト生成プロセス中にのみ「ストリーム更新」を行う、つまり、以前に生成されたコンテンツを入力として使用してトレーニング データとして使用し、知識がモデル パラメーターに保存されるようにすることです。 推論が完了すると、モデル パラメータに永続的な影響が及ばないように、推論は破棄されます。 この方法を使用すると、コンテキスト ウィンドウを拡張せずに、必要なだけコンテキスト情報を保存できます。 実験により、この方法は次のような効果があることがわかっています。
生成品質がわずかに向上し(困惑度が 3.8% 減少) 、推論に必要な FLOP が 70.5% 削減され、レイテンシが 51.5% 削減されました。 具体的な状況については論文で見てみましょう。 一時的なLoraモジュールを構築し、使用後に破棄するこの方法はTemp-Loraと呼ばれ、アーキテクチャ図は次のとおりです。 中心となるのは、以前に生成されたテキストに対して一時的な Lora モジュールを自己回帰方式で徐々にトレーニングすることです。 このモジュールは適応性が高く、時間の経過とともに調整できるため、近くと遠くの両方の状況を深く理解できます。 具体的なアルゴリズムは次のとおりです。 生成プロセス中に、トークンはブロックごとに生成されます。ブロックが生成されるたびに、最新の L xトークンが入力 X として使用され、後続のトークンが生成されます。 生成されたトークンの数が事前定義されたブロックサイズ∆に達すると、最新のブロックを使用してTemp-Loraモジュールのトレーニングが開始され、次のブロックの生成が始まります。 実験では、モデルのコンテキストウィンドウサイズを最大限に活用するために、∆+ LxをWに設定しました。 Temp-Lora モジュールのトレーニングでは、条件なしで新しいブロックを生成することを学習することは有効なトレーニング目標を構成せず、深刻な過剰適合につながる可能性があります。 この問題に対処するために、著者らは各ブロックの前のLTトークンをトレーニング プロセスに組み込み、それらを入力として使用し、ブロックを出力として使用します。 最後に、著者らは、より効率的な推論を実現するために、キャッシュ再利用と呼ばれる戦略も提案しました。 一般的に、標準フレームワークで Temp-Loramo モジュールを更新した後、更新されたパラメータを使用して KV 状態を再計算する必要があります。 あるいは、更新されたモデルを後続のテキスト生成に使用しながら、既存のキャッシュされた KV 状態を再利用します。 具体的には、モデルが最大長(コンテキストウィンドウサイズ W)を生成する場合にのみ、最新の Temp-Lora モジュールを使用して KV 状態を再計算します。 このキャッシュ再利用アプローチにより、生成品質に大きな影響を与えることなく、生成を高速化できます。 Temp-Lora メソッドについては以上です。次はテストに焦点を当てましょう。 テキストが長いほど効果は高くなります著者らは、生成と翻訳という 2 種類の長いテキストタスクをカバーした Llama2-7B-4K、Llama2-13B-4K、Llama2-7B-32K、および Yi-Chat-6B モデルで Temp-Lora フレームワークを評価しました。 テスト データセットは、長文言語モデリング ベンチマーク PG19 のサブセットであり、そこから 40 冊の本がランダムに選択されます。 もう 1 つは、WMT 2023 の Guofeng データセットからランダムにサンプリングされたサブデータセットで、専門家によって英語に翻訳された 20 の中国語オンライン小説が含まれています。 まずはPG19の結果を見てみましょう。 以下の表は、PG19 で Temp-Lora モジュールを使用する場合と使用しない場合のさまざまなモデルの PPL (困惑度、特定の入力に対するモデルの不確実性を反映し、低いほど良い)の比較を示しています。各ドキュメントを 0〜100K トークンから 500K トークン以上のセグメントに分割します。 Temp-Lora 後、すべてのモデルの PPL が大幅に低下し、クリップが長くなるにつれて、Temp-Lora の影響がより顕著になっていることがわかります(1-100K では 3.6% のみ減少、500K 以上では 13.2% 減少) 。 したがって、テキストが多いほど、Temp-Lora を使用する必要性が高くなると単純に結論付けることができます。 また、ブロック サイズを 1024 から 2048 および 4096 に調整すると、PPL がわずかに増加することがわかります。 これは驚くべきことではありません。結局のところ、Temp-Lora モジュールは前のブロックのデータに基づいてトレーニングされているからです。 このデータは主に、ブロック サイズの選択が生成品質と計算効率の間の重要なトレードオフであることを示しています(詳細な分析については論文を参照してください) 。 最後に、キャッシュの再利用によってパフォーマンスが低下しないこともわかります。 著者はこう語った。「これは非常に心強いニュースです。」 以下は Guofeng データセットの結果です。 Temp-Lora は長文の文学翻訳タスクにも大きな影響を与えることがわかります。 ベースモデルと比較すると、すべての指標で大幅な改善が見られます。PPL は -29.6% 減少し、BLEU スコア(機械翻訳されたテキストが高品質の参照翻訳とどの程度類似しているか)は +53.2% 向上し、COMET スコア(これも品質指標)は +8.4% 向上しました。 最後に、計算効率と品質の調査があります。 著者は実験を通じて、最も「経済的な」 Temp-Lora 構成(∆=2K、W=4K)を使用すると、PPL を 3.8% 削減しながら、FLOP を 70.5%、レイテンシを 51.5% 節約できることを発見しました。 逆に、計算コストを完全に無視し、最も「贅沢な」構成(∆=1K、W=24K) を使用すると、さらに 17% の FLOP と 19.6% のレイテンシで 5.0% の PPL 削減を達成することもできます。 使用方法の提案上記の結果をまとめると、著者は Temp-Lora の実際の応用について 3 つの提案も行いました。 1. 最高レベルの長いテキスト生成を必要とするアプリケーションの場合、パラメータを変更せずに Temp-Lora を既存のモデルに統合すると、比較的中程度のコストでパフォーマンスを大幅に向上できます。 2. 最小限のレイテンシまたはメモリ使用量が重要なアプリケーションの場合、入力長と Temp-Lora に保存されるコンテキスト情報を減らすことで、計算コストを大幅に削減できます。 この設定では、固定された短いウィンドウ サイズ(2K や 4K など)を使用して、ほぼ無制限の長さ(著者の実験では 500K 以上)のテキストを処理できます。 3. 最後に、事前トレーニングのコンテキストがモデルのウィンドウ サイズよりも小さい場合など、テキストがあまり含まれないシナリオでは、Temp-Lora は役に立たないことに注意してください。 著者は秘密組織出身である著者がこのような単純かつ革新的な方法を発明した根拠となる情報源をあまり残していないことは言及する価値がある。 機関名は「秘密機関」として直接署名されており、3人の著者は姓のみをフルネームで記載しています。 しかし、メール情報から判断すると、香港城市大学や香港中文大学などの学校からのものである可能性があります。 最後に、この方法についてどう思いますか? 論文: https://arxiv.org/abs/2401.11504 |
<<: UCLA Chineseが新しい自動演奏メカニズムを提案しました! LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている
>>: Google は一連の大きな動きを発表しました: Gemini Pro は中国語をサポートし、Bard は描画を学習し、新しいモデルが利用可能になりました
新しいルールが登場します。 今回公布された「オンライン音声・動画情報サービス管理規則」では、ディープ...
近年、自動運転分野で優位に立ち、自動車産業の発展の主導権を握るために、多くの国が自動運転の路上テスト...
[[347377]] Pythonアルゴリズムの一般的なテクニックと組み込みライブラリ近年、Pyth...
近年、人工知能技術は急速に発展し、ますます多くの分野でその急速な発展の勢いと大きな可能性を発揮してい...
人工知能の分野は継続的に進歩しており、自然言語処理、自然言語生成、コンピュータービジョンなどのサブフ...
人工知能、宇宙、そしてあらゆるものを計算的に考えるにはどうすればよいでしょうか?最近、有名なイギリス...
最近の調査によると、より複雑な作業をインテリジェントな自動化に任せることを計画している企業の数は、今...
ほとんどの人がサプライチェーン技術について考えるとき、パッケージングはおそらく最初に思い浮かぶも...