匿名の論文が驚くべきアイデアを提案！大規模なモデルと長いテキストの能力を強化する

大規模モデルで長いテキストを処理する能力を向上させる場合、長さの外挿やコンテキストウィンドウの拡張を検討しますか?

いいえ、これらはハードウェアを集中的に使用しすぎます。

ここに素晴らしい新しい解決策があります:

KV キャッシュを使用する長さ外挿などの方法とは異なり、モデルパラメータを使用して大量のコンテキスト情報を格納します。

具体的な方法は、一時的な Lora モジュールを構築し、長いテキスト生成プロセス中にのみ「ストリーム更新」を行う、つまり、以前に生成されたコンテンツを入力として使用してトレーニングデータとして使用し、知識がモデルパラメーターに保存されるようにすることです。

推論が完了すると、モデルパラメータに永続的な影響が及ばないように、推論は破棄されます。

この方法を使用すると、コンテキストウィンドウを拡張せずに、必要なだけコンテキスト情報を保存できます。

実験により、この方法は次のような効果があることがわかっています。

モデルの長文タスクの品質を大幅に向上させ、困惑度を 29.6% 削減し、長文テキスト翻訳の品質(BLUE スコア)を 53.2% 向上させることができます。
また、ほとんどの既存の長いテキスト生成方法と互換性があり、それらの方法を強化します。
最も重要なのは、コンピューティングコストを大幅に削減できることです。

生成品質がわずかに向上し(困惑度が 3.8% 減少) 、推論に必要な FLOP が 70.5% 削減され、レイテンシが 51.5% 削減されました。

具体的な状況については論文で見てみましょう。

一時的なLoraモジュールを構築し、使用後に破棄する

この方法はTemp-Loraと呼ばれ、アーキテクチャ図は次のとおりです。

中心となるのは、以前に生成されたテキストに対して一時的な Lora モジュールを自己回帰方式で徐々にトレーニングすることです。

このモジュールは適応性が高く、時間の経過とともに調整できるため、近くと遠くの両方の状況を深く理解できます。

具体的なアルゴリズムは次のとおりです。

生成プロセス中に、トークンはブロックごとに生成されます。ブロックが生成されるたびに、最新の L _xトークンが入力 X として使用され、後続のトークンが生成されます。

生成されたトークンの数が事前定義されたブロックサイズ∆に達すると、最新のブロックを使用してTemp-Loraモジュールのトレーニングが開始され、次のブロックの生成が始まります。

実験では、モデルのコンテキストウィンドウサイズを最大限に活用するために、∆+ _LxをWに設定しました。

Temp-Lora モジュールのトレーニングでは、条件なしで新しいブロックを生成することを学習することは有効なトレーニング目標を構成せず、深刻な過剰適合につながる可能性があります。

この問題に対処するために、著者らは各ブロックの前の_LTトークンをトレーニングプロセスに組み込み、それらを入力として使用し、ブロックを出力として使用します。

最後に、著者らは、より効率的な推論を実現するために、キャッシュ再利用と呼ばれる戦略も提案しました。

一般的に、標準フレームワークで Temp-Loramo モジュールを更新した後、更新されたパラメータを使用して KV 状態を再計算する必要があります。

あるいは、更新されたモデルを後続のテキスト生成に使用しながら、既存のキャッシュされた KV 状態を再利用します。

具体的には、モデルが最大長（コンテキストウィンドウサイズ W）を生成する場合にのみ、最新の Temp-Lora モジュールを使用して KV 状態を再計算します。

このキャッシュ再利用アプローチにより、生成品質に大きな影響を与えることなく、生成を高速化できます。

Temp-Lora メソッドについては以上です。次はテストに焦点を当てましょう。

テキストが長いほど効果は高くなります

著者らは、生成と翻訳という 2 種類の長いテキストタスクをカバーした Llama2-7B-4K、Llama2-13B-4K、Llama2-7B-32K、および Yi-Chat-6B モデルで Temp-Lora フレームワークを評価しました。

テストデータセットは、長文言語モデリングベンチマーク PG19 のサブセットであり、そこから 40 冊の本がランダムに選択されます。

もう 1 つは、WMT 2023 の Guofeng データセットからランダムにサンプリングされたサブデータセットで、専門家によって英語に翻訳された 20 の中国語オンライン小説が含まれています。

まずはPG19の結果を見てみましょう。

以下の表は、PG19 で Temp-Lora モジュールを使用する場合と使用しない場合のさまざまなモデルの PPL (困惑度、特定の入力に対するモデルの不確実性を反映し、低いほど良い)の比較を示しています。各ドキュメントを 0〜100K トークンから 500K トークン以上のセグメントに分割します。

Temp-Lora 後、すべてのモデルの PPL が大幅に低下し、クリップが長くなるにつれて、Temp-Lora の影響がより顕著になっていることがわかります(1-100K では 3.6% のみ減少、500K 以上では 13.2% 減少) 。

したがって、テキストが多いほど、Temp-Lora を使用する必要性が高くなると単純に結論付けることができます。

また、ブロックサイズを 1024 から 2048 および 4096 に調整すると、PPL がわずかに増加することがわかります。

これは驚くべきことではありません。結局のところ、Temp-Lora モジュールは前のブロックのデータに基づいてトレーニングされているからです。

このデータは主に、ブロックサイズの選択が生成品質と計算効率の間の重要なトレードオフであることを示しています(詳細な分析については論文を参照してください) 。

最後に、キャッシュの再利用によってパフォーマンスが低下しないこともわかります。

著者はこう語った。「これは非常に心強いニュースです。」

以下は Guofeng データセットの結果です。

Temp-Lora は長文の文学翻訳タスクにも大きな影響を与えることがわかります。

ベースモデルと比較すると、すべての指標で大幅な改善が見られます。PPL は -29.6% 減少し、BLEU スコア(機械翻訳されたテキストが高品質の参照翻訳とどの程度類似しているか)は +53.2% 向上し、COMET スコア(これも品質指標)は +8.4% 向上しました。

最後に、計算効率と品質の調査があります。

著者は実験を通じて、最も「経済的な」 Temp-Lora 構成(∆=2K、W=4K)を使用すると、PPL を 3.8% 削減しながら、FLOP を 70.5%、レイテンシを 51.5% 節約できることを発見しました。

逆に、計算コストを完全に無視し、最も「贅沢な」構成(∆=1K、W=24K) を使用すると、さらに 17% の FLOP と 19.6% のレイテンシで 5.0% の PPL 削減を達成することもできます。

使用方法の提案

上記の結果をまとめると、著者は Temp-Lora の実際の応用について 3 つの提案も行いました。

1. 最高レベルの長いテキスト生成を必要とするアプリケーションの場合、パラメータを変更せずに Temp-Lora を既存のモデルに統合すると、比較的中程度のコストでパフォーマンスを大幅に向上できます。

2. 最小限のレイテンシまたはメモリ使用量が重要なアプリケーションの場合、入力長と Temp-Lora に保存されるコンテキスト情報を減らすことで、計算コストを大幅に削減できます。

この設定では、固定された短いウィンドウサイズ(2K や 4K など)を使用して、ほぼ無制限の長さ(著者の実験では 500K 以上)のテキストを処理できます。

3. 最後に、事前トレーニングのコンテキストがモデルのウィンドウサイズよりも小さい場合など、テキストがあまり含まれないシナリオでは、Temp-Lora は役に立たないことに注意してください。

著者は秘密組織出身である

著者がこのような単純かつ革新的な方法を発明した根拠となる情報源をあまり残していないことは言及する価値がある。

機関名は「秘密機関」として直接署名されており、3人の著者は姓のみをフルネームで記載しています。

しかし、メール情報から判断すると、香港城市大学や香港中文大学などの学校からのものである可能性があります。

最後に、この方法についてどう思いますか?

論文: https://arxiv.org/abs/2401.11504

<<: UCLA Chineseが新しい自動演奏メカニズムを提案しました！ LLMは自己学習し、その効果はGPT-4の専門家の指導よりも優れている

>>: Google は一連の大きな動きを発表しました: Gemini Pro は中国語をサポートし、Bard は描画を学習し、新しいモデルが利用可能になりました

匿名の論文が驚くべきアイデアを提案！大規模なモデルと長いテキストの能力を強化する

一時的なLoraモジュールを構築し、使用後に破棄する

テキストが長いほど効果は高くなります

使用方法の提案

著者は秘密組織出身である

人工知能が中国の医療サービスに力を与える

人工知能とビッグデータ: ビジネス価値に関するデータの洞察を発見

主流の自動運転ソリューションの詳細な分析: 商用車と乗用車の基本的なニーズの類似点と相違点は何でしょうか?

アンサンブル法からニューラルネットワークまで：自動運転技術で使用される機械学習アルゴリズムとは？

Googleの視覚言語モデルPaLI-3がリリースされました。パラメータはわずか50億で、より小さく、より高速で、より強力です。

健康コードがないと旅行するのは難しいですか?顔認識により健康コードのバリアフリー利用が可能に

石油探査のための AI: 石油産業のデジタル変革に向けた新しい考え方

推薦する

人工知能とセキュリティ：繋がる双子

インストールする必要があります! Windows 7は来月SHA-2暗号化アルゴリズムのパッチをリリースする予定

2021年に機械学習を学ぶには？この詳細なガイドがあなたをカバーします!

ロボットプログラムは人間のプログラマーのようにバグを修正する

エッジコンピューティング時代の到来は AI にどのような影響を与えるのでしょうか?

自動運転の3D視覚認識アルゴリズムを理解するための1万語

GPT-4が化学者になる！ USTC などが初の「科学リスク」ベンチマークと SciGuard ビッグモデルを発表

人工知能に対して、人間がかけがえのない存在となるような利点は何でしょうか?

データマイニング分野のトップ10の古典的なアルゴリズムの1つであるC4.5アルゴリズム（超詳細なコード付き）