大規模なモデルでプロンプト内のより多くの例を学習させたい場合は、この方法を使用すると、より多くの文字を入力できます。

GPT や LLaMA などの大規模な言語モデルを使用する場合、入力プロンプトに文字数制限があることがわかっています。たとえば、ChatGPT の現在の入力文字数制限は 4096 文字です。これにより、文脈学習や思考連鎖などの技術の範囲が制限されます。結局のところ、ユーザーは限られた数の例しか提供できないからです。最近、Nous Research、EleutherAI、ジュネーブ大学の研究チームがコンテキストウィンドウを拡張するソリューションYaRNを提案し、実験では他のすべての方法よりも優れた結果を達成しました。また、YaRNを使用して微調整された、コンテキストウィンドウが64kと128kのLLaMA 2 7B/13Bモデルもリリースしました。

トランスフォーマーベースの大規模言語モデル (LLM) は、コンテキスト学習 (ICL) を実行する強力な能力を実証しており、多くの自然言語処理 (NLP) タスクのほぼ唯一の選択肢となっています。 Transformer の自己注意メカニズムにより、高度に並列化されたトレーニングが可能になり、長いシーケンスを分散方式で処理できるようになります。 LLM がトレーニングされるシーケンスの長さは、コンテキストウィンドウと呼ばれます。

Transformer のコンテキストウィンドウは、例を提供できるスペースの量を直接決定するため、ICL 機能が制限されます。

モデルのコンテキストウィンドウが制限されている場合、ICL を実行するために必要な堅牢な例をモデルに提供する余地が少なくなります。さらに、モデルのコンテキストウィンドウが特に短い場合、要約などの他のタスクは大幅に妨げられます。

言語自体の性質上、トークンの位置は効果的なモデリングに不可欠ですが、自己注意は並列性のため位置情報を直接エンコードしません。 Transformer アーキテクチャでは、この問題を解決するために位置エンコーディングを導入しています。

オリジナルの Transformer アーキテクチャでは絶対正弦位置エンコーディングが使用されていましたが、後に学習可能な絶対位置エンコーディングに改良されました。それ以来、相対位置エンコーディング方式により、Transformer のパフォーマンスがさらに向上しました。現在、最も人気のある相対位置エンコーディングは、T5 Relative Bias、RoPE、XPos、および ALiBi です。

位置エンコーディングには、トレーニング中に確認されたコンテキストウィンドウを超えて一般化できないという、繰り返し発生する制限があります。 ALiBi などの一部の方法では、ある程度の限定的な一般化を達成できますが、事前トレーニングの長さよりも大幅に長いシーケンスに一般化できる方法はありません。

これらの制限を克服しようとする研究努力がいくつか行われてきました。たとえば、いくつかの研究では、位置補間 (PI) を通じて RoPE をわずかに変更し、少量のデータで微調整してコンテキストの長さを拡張することが提案されています。

2 か月前、Nous Research の Bowen Peng 氏が Reddit でソリューションを共有しました。これは、高周波損失を組み込むことで「NTK を考慮した補間」を実現するというものです。ここでの NTK は Neural Tangent Kernel を指します。

NTK 対応の拡張 RoPE は、微調整なしで、また、パープレキシティへの影響を最小限に抑えながら、LLaMA モデルのコンテキストウィンドウを大幅に拡張できる (8k 以上) と主張しています。

最近、彼と他の3人の共同研究者による関連論文が出版されました。

論文: https://arxiv.org/abs/2309.00071
モデル: https://github.com/jquesnelle/yarn

この論文では、NTK 対応の補間に 2 つの改良を加えており、それぞれ異なる側面に焦点を当てています。

動的 NTK 補間法は、微調整なしで事前トレーニング済みモデルで使用できます。
部分的な NTK 補間では、より長いコンテキストを持つ少量のデータを使用して微調整すると、モデルは最高のパフォーマンスを実現します。

研究者らは、この論文が発表される前に、一部の研究者がすでにいくつかのオープンソースモデルにNTK対応補間と動的NTK補間を使用していたと述べた。たとえば、Code Llama (NTK 対応の補間を使用) や Qwen 7B (動的 NTK 補間を使用) などです。

本論文では、NTKを考慮した補間、動的NTK補間、部分的NTK補間に関するこれまでの研究成果に基づいて、LLaMA、GPT-NeoX、PaLMシリーズのモデルに使用できるRotary Position Embeddings（RoPE）を使用したモデルのコンテキストウィンドウを効率的に拡張できる手法であるYaRN（Yet another RoPE extensioN method）を提案しました。調査の結果、YaRN は、元のモデルの事前トレーニングデータサイズの約 0.1% の代表的なサンプルのみを使用して微調整することで、現在の最高のコンテキストウィンドウ拡張パフォーマンスを達成できることがわかりました。

方法

回転位置埋め込み (RoPE) は、論文「RoFormer: 回転位置埋め込みによる拡張トランスフォーマー」で初めて導入され、YaRN の基礎にもなっています。

簡単に言えば、RoPE は次のように記述できます。

固定コンテキスト長で事前トレーニングされた LLM の場合、位置補間 (PI) を使用してコンテキスト長を拡張すると、次のように表現できます。

PI はすべての RoPE 寸法に対して均等に拡張することがわかります。 PI 論文に記載されている理論的な補間境界は、RoPE と LLM 内部埋め込み間の複雑なダイナミクスを予測するには不十分であることがわかりました。以下では、研究者が発見して解決した PI の主な問題について説明します。これにより、読者は YaRN のさまざまな新しい方法の背景、原因、解決策を理解できます。

高周波情報損失 - NTKを考慮した補間

RoPE を情報エンコーディングの観点からのみ見ると、ニューラルタンジェントカーネル (NTK) 理論によれば、入力次元が低く、対応する埋め込みに高周波成分が欠けている場合、ディープニューラルネットワークが高周波情報を学習することは困難です。

RoPE 埋め込みを補間する際に高周波情報が失われる問題に対処するために、Bowen Peng は上記の Reddit の投稿で NTK 対応の補間を提案しました。このアプローチは、RoPE の各次元を均等に拡張するのではなく、高周波数を少なく拡張し、低周波数を大きく拡張することで、補間圧力を複数の次元に分散します。

テストでは、研究者らは、このアプローチが、微調整されていないモデルのコンテキストサイズを拡張する点で PI よりも優れていることを発見しました。ただし、このアプローチには大きな欠点があります。単なる補間方式ではないため、一部の次元が「範囲外」の値に外挿され、NTK 対応の補間を使用した微調整は PI ほど効果的ではありません。

さらに、「範囲外」の値が存在するため、理論上の拡張係数では実際のコンテキスト拡張の度合いを正確に表すことができません。実際には、特定のコンテキスト長拡張の場合、拡張値 s は、目的の拡張値よりもわずかに高く設定する必要があります。

相対的なローカル距離の損失 - 部分的な NTK 補間

RoPE 埋め込みに関して興味深い観察結果があります。コンテキストサイズ L が与えられた場合、波長 λ が事前トレーニング中に観測された最大コンテキスト長 (λ > L) よりも長い次元 d が存在し、これは、いくつかの次元の埋め込みが回転ドメイン内で均一に分布していない可能性があることを示唆しています。

PI および NTK を考慮した補間では、すべての RoPE 潜在次元が平等に扱われます (ネットワークに同じ効果があるかのように)。しかし研究者たちは実験を通じて、ネットワークがいくつかの次元を他の次元とは異なる方法で扱っていることを発見した。前述のように、コンテキストの長さ L が与えられると、ある次元の波長 λ は L 以上になります。隠れた次元の波長が L 以上の場合、すべての位置ペアは特定の距離をエンコードするため、研究者は絶対位置情報が保存され、波長が短い場合、ネットワークは相対位置情報しか取得できないという仮説を立てました。

拡張率 s または基底変更値 b' のいずれかを使用してすべての RoPE 次元が引き伸ばされると、より小さな量だけ回転された 2 つのベクトルのドット積が大きくなるため、すべてのトークンが互いに近くなります。このような拡張は、LLM の内部埋め込み間の小さなローカル関係を理解する能力を著しく損なうことになります。研究者らは、この圧縮により、モデルが近くのトークンの位置順序について混乱し、モデルの機能が低下する可能性があると推測しています。

この問題に対処するため、研究者たちは観察結果に基づいて、高周波次元をまったく補間しないことを選択しました。

彼らはまた、すべての次元 d について、次元 r < α は拡張 s に従って線形補間され (PI のように、外挿を避けるため)、次元 r > β はまったく補間されず (常に外挿される) と提案しました。

このセクションで説明した手法を使用して、部分 NTK 補間と呼ばれる方法が開発されました。この改良された方法は、以前の PI および NTK を考慮した補間方法よりも優れており、微調整されていないモデルと微調整されたモデルの両方に適用できます。この方法では、回転領域内で不均一に分布している次元を外挿することを回避するため、従来の方法の微調整の問題をすべて回避できます。

ダイナミックスケーリング - ダイナミックNTK補間

RoPE 補間法を使用して微調整せずにコンテキストサイズを拡張すると、拡張が目的の値を超えたときにコンテキストサイズ全体でモデルが完全に劣化するのではなく、コンテキストサイズが長くなるにつれてモデルがゆっくりと劣化することが予想されます。

動的 NTK 方式では、拡張子 s は動的に計算されます。

推論中にコンテキストサイズを超えると、スケーリング s が動的に変更されるため、トレーニングされたコンテキスト制限 L に達したときにすべてのモデルが突然崩壊するのではなく、ゆっくりと劣化します。

長距離の平均最小コサイン類似度を上げる - YaRN

上記の局所距離の問題が解決されたとしても、外挿を避けるために、しきい値 α でより大きな距離を補間する必要があります。直感的には、グローバル距離は高い精度を必要とせずにトークンの位置を区別できるため、これは問題にはならないはずです (つまり、ネットワークはトークンがシーケンスの先頭、中間、または末尾にあるかどうかを大まかに知るだけで済みます)。

しかし、研究者らは、トークンの数が増えるにつれて平均最小距離が近くなるため、注意ソフトマックス分布がより尖る（つまり、注意ソフトマックスの平均エントロピーが減少する）ことを発見しました。言い換えれば、長期的な減衰の影響が補間によって緩和されるにつれて、ネットワークはより多くのトークンに「より多くの注意を払う」ことになります。この分布の変化は、LLM 出力の品質の低下につながる可能性があります。これは、前の問題とは関係のない別の問題です。

RoPE 埋め込みをより長いコンテキストサイズに補間すると、注目ソフトマックス分布のエントロピーが減少するため、このエントロピーの減少を逆転させること (つまり、注目ロジットの「温度」を上げること) が私たちの目標です。これは、ソフトマックスを適用する前に、中間注意行列に温度 t > 1 を掛けることによって実行できますが、RoPE 埋め込みは回転行列としてエンコードされるため、RoPE 埋め込みの長さを定数係数 √t で単純にスケーリングできます。この「長さ拡張」技術により、研究者は注意コードの変更を回避でき、既存のトレーニングおよび推論プロセスとの統合が大幅に簡素化され、時間の複雑さはわずか O(1) になります。

この RoPE 補間方式では RoPE 寸法が均一に補間されないため、延長 s に対する必要な温度比 t の解析解を計算することは困難です。幸いなことに、研究者たちは実験を通じて、困惑を最小限に抑えることで、すべての LLaMA モデルがほぼ同じフィッティング曲線に従うことを発見しました。

研究者たちはこの式を LLaMA 7B、13B、33B、65B で発見しました。彼らは、この式が LLaMA 2 モデル (7B、13B、および 70B) でもわずかな違いはあるもののうまく機能することを発見しました。これは、このエントロピー増加特性が共通であり、さまざまなモデルやトレーニングデータに一般化可能であることを示唆しています。

この最終的な変更により、YaRN メソッドが誕生しました。新しい方法は、微調整されたシナリオと微調整されていないシナリオの両方で以前のすべての方法よりも優れており、推論コードを変更する必要がありません。最初に RoPE 埋め込みを生成するために使用されるアルゴリズムのみを変更する必要があります。 YaRN はシンプルなため、Flash Attention 2 との互換性を含め、すべての推論およびトレーニングライブラリに簡単に実装できます。

実験

実験により、YaRN は LLM のコンテキストウィンドウを正常に拡張できることが示されました。さらに、彼らはわずか 400 回のトレーニングステップでこの結果を達成しました。これは、モデルの元のトレーニング前コーパスの約 0.1% であり、以前の研究結果と比較すると大幅な減少です。これは、新しい方法が非常に計算効率が高く、追加の推論コストがかからないことを示しています。

結果として得られたモデルを評価するために、研究者らは長い文書の難解さを計算し、既存のベンチマークでスコアを付け、新しいアプローチが他のすべてのコンテキストウィンドウ拡張方法よりも優れていることを発見しました。

まず、研究者らはコンテキストウィンドウが増加したときのモデルのパフォーマンスを評価しました。表1に実験結果をまとめます。

表 2 は、切り捨てられていない GovReport ドキュメント 50 件 (長さが 16,000 トークン以上) の最終的なパープレキシティを示しています。

コンテキスト拡張を使用した場合のモデルパフォーマンスの低下をテストするために、研究者は Hugging Face Open LLM Leaderboard スイートを使用してモデルを評価し、LLaMA 2 ベースラインモデルおよび公開されている PI および NTK 対応モデルの既存のスコアと比較しました。表3に実験結果をまとめます。

<<: 世界初の3nmチップ、Appleが再び神に！誰もが壮大なCチェンジのために島へ行き、コンソールゲームはiPhoneに搭載され、表面上の最高の画像はVision Proのすぐそばにあります

>>: