1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキスト ウィンドウを処理する LLM (大規模言語モデル) の能力も重要な評価指標になりました。

たとえば、OpenAI の gpt-3.5-turbo は 16k トークンのコンテキスト ウィンドウ オプションを提供し、AnthropicAI は Claude のトークン処理能力を 100k に増加しました。大規模モデル処理コンテキスト ウィンドウの概念とは何でしょうか? GPT-4 を例に挙げてみましょう。32k トークンをサポートしており、これは 50 ページのテキストに相当します。つまり、会話やテキスト生成を行う際に、GPT-4 は最大約 50 ページのコンテンツを記憶できます。

一般的に、大規模な言語モデルがコンテキスト ウィンドウのサイズを処理する能力は事前に決定されています。たとえば、Meta AI がリリースした LLaMA モデルでは、入力トークンのサイズが 2048 未満である必要があります。

ただし、長時間の会話、長い文書の要約、長期計画の実行などのアプリケーションでは、事前に設定されたコンテキスト ウィンドウの制限を超えることが多いため、より長いコンテキスト ウィンドウを処理できる LLM の方が人気があります。

しかし、これによって新たな問題が発生します。より長いコンテキスト ウィンドウを持つ LLM を最初からトレーニングするには、多大な投資が必要になります。当然、次のような疑問が生じます。既存の事前トレーニング済み LLM のコンテキスト ウィンドウを拡張できるでしょうか?

最も簡単な方法は、既存の事前トレーニング済み Transformer を微調整して、より長いコンテキスト ウィンドウを取得することです。しかし、経験的な結果によれば、このようにトレーニングされたモデルは長いコンテキスト ウィンドウに非常にゆっくりと適応することがわかります。 10,000 バッチのトレーニング後も、有効なコンテキスト ウィンドウの増加は依然として非常に小さく、2048 から 2560 にしか増加していません (実験セクションの表 4 を参照)。これは、このアプローチがより長いコンテキスト ウィンドウにスケーリングするには非効率的であることを示しています。

この論文では、Meta の研究者が位置補間 (PI)を導入し、いくつかの既存の事前トレーニング済み LLM (LLaMA を含む) のコンテキスト ウィンドウを拡張しました。結果は、1000 ステップ未満の微調整で LLaMA コンテキスト ウィンドウを 2k から 32k に拡張できることを示しています。

写真

論文アドレス: https://arxiv.org/pdf/2306.15595.pdf

この研究の重要なアイデアは、外挿を実行するのではなく、事前トレーニング段階で最大位置インデックスがコンテキストウィンドウの制限と一致するように位置インデックスを直接縮小することです。言い換えれば、より多くの入力トークンに対応するために、位置エンコーディングを隣接する整数位置にわたって補間します。位置エンコーディングは非整数位置に適用できるという事実を活用しますが、トレーニング済みの位置を超えて外挿すると、悲惨な値につながる可能性があります。

PI アプローチは、最小限の微調整 (1000 ステップ以内) で RoPE ベースの事前トレーニング済み LLM (LLaMA など) のコンテキスト ウィンドウ サイズを最大 32768 まで拡張し、検索、言語モデル化、LLaMA 7B から 65B までの長いドキュメントの要約など、長いコンテキストを必要とするさまざまなタスクで優れたパフォーマンスを発揮します。一方、PI によって拡張されたモデルは、元のコンテキスト ウィンドウ内で比較的良好な品質を維持します。

方法

RoPE は、LLaMA、ChatGLM-6B、PaLM など、私たちがよく知っている大規模な言語モデルに存在します。この方法は、Zhuiyi Technology の Su Jianlin らによって提案されました。RoPE は、絶対エンコーディングを通じて相対位置エンコーディングを実現します。

RoPE の注目スコアは相対的な位置にのみ依存しますが、その外挿パフォーマンスは良くありません。特に、より大きなコンテキスト ウィンドウに直接拡張すると、困惑度は非常に高い数値 (つまり、10^3 超) にまで急上昇する可能性があります。

本論文では位置補間法を採用しており、以下のように外挿法と比較する。基底関数 ϕ_j の滑らかさにより、補間はより安定し、外れ値が発生することはありません。

写真

この研究では、RoPE fをf′に置き換えて次の式を得ました。

写真

この研究では、位置エンコーディングの変換を位置補間と呼んでいます。このステップでは、RoPEを計算する前に、位置インデックスを[0, L′)から[0, L)に減らして、元のインデックス範囲と一致させます。したがって、RoPEの入力として、任意の2つのトークン間の最大相対距離はL′からLに短縮されました。拡大前後の位置インデックスと相対距離の範囲を揃えることで、コンテキストウィンドウの拡大による注目度スコアの計算への影響が軽減され、モデルの適応が容易になります。

再スケーリング位置インデックス法では追加の重みが導入されず、モデル アーキテクチャがまったく変更されないことに注意してください。

実験

この研究では、位置補間によってコンテキスト ウィンドウを効果的に元のサイズの 32 倍に拡張できることが示されており、この拡張はわずか数百のトレーニング ステップで実現できます。

表 1 と表 2 は、PG-19 と Arxiv Math Proof-pile データセットにおける PI モデルとベースライン モデルの困惑度を報告しています。結果は、PI メソッドで拡張されたモデルにより、コンテキスト ウィンドウ サイズが長い場合の困惑度が大幅に改善されることを示しています。

表 3 は、PG19 データセットで PI メソッドを使用して LLaMA 7B モデルをコンテキスト ウィンドウ サイズ 8192 および 16384 にスケーリングするための、パープレキシティと微調整ステップ数の関係を示しています。

結果は、微調整なし(ステップ数が 0)で、コンテキスト ウィンドウが 8192 に拡張されたときにパープレキシティが 20 未満になるなど、モデルが特定の言語モデリング機能を発揮できることを示しています(対照的に、直接外挿法のパープレキシティは 10^3 を超えます)。 200 ステップでは、モデルのパープレキシティがコンテキスト ウィンドウ サイズ 2048 での元のモデルのパープレキシティを超えており、モデルが事前トレーニング設定よりも長いシーケンスを言語モデリングに効果的に利用できることを示しています。 1000 ステップでは、モデルが着実に改善され、より優れた困惑度を達成していることがわかります。

写真

以下の表は、PI によってスケーリングされたモデルがすべて、有効なコンテキスト ウィンドウ サイズに関してスケーリング目標を正常に達成していることを示しています。つまり、有効なコンテキスト ウィンドウ サイズは、わずか 200 ステップの微調整後に最大値に達し、7B および 33B のモデル サイズと最大 32768 のコンテキスト ウィンドウまで一貫しています。対照的に、直接微調整によって拡張された LLaMA モデルの有効なコンテキスト ウィンドウ サイズは 2048 から 2560 にしか増加せず、10,000 ステップを超える微調整を行った後でもウィンドウ サイズの増加が加速する明確な兆候は見られません。

写真

表 5 は、8192 にスケールされたモデルが、より小さなコンテキスト ウィンドウ用に設計された元のベンチマーク タスクで同等の結果を生成し、7B および 33B のモデル サイズのベンチマーク タスクで最大 2% の劣化が生じることを示しています。

写真

表 6 は、16384 のコンテキスト ウィンドウを持つ PI モデルが長いテキストの要約タスクを効果的に処理できることを示しています。

写真

<<:  Nvidia H100 は GPT-3 を 11 分でトレーニングしました。PyTorch の創設者: 時間だけを見るのはやめましょう

>>:  インテリジェント運転システムの欠陥解決策の詳細な分析

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

キッシンジャー:今やAIは人間が世界を理解するための第3の方法となっている

2023年、ChatGPTは人工知能に対する世界的な注目を集めました。科学界、知識人界、産業界は、A...

...

データサイエンスがソーシャルメディアマーケティング戦略をどう変えるか

人工知能の広範な応用は今日よく知られていますが、人工知能は具体的にどのように企業のソーシャル メディ...

12 の主要な AI ホットテクノロジーの方向性を網羅する、AISummit グローバル人工知能テクノロジーカンファレンス 2022 が開催されます。

人工知能は、60年以上にわたる発展の中で、数々の浮き沈みを経験してきました。近年、モバイルインターネ...

...

ByteDanceは、従来の4倍の速度を誇る高性能トレーニングおよび推論エンジンLightSeqを発表した。

Transformer モデルは、Google チームが 2017 年に発表した論文「Attent...

...

...

...

95歳のハーバード大学出身者が、機械学習をゼロから始めるための必読書を執筆しました。本のリソースは現在公開されています。

機械学習を始める最も簡単な方法は何ですか?今年ハーバード大学で統計学の学位を取得したばかりのダニー・...

GitHub スター 6000 以上! Pythonで機械学習のバイブルPRMLを実践

ビショップの PRML は機械学習のバイブルと言っても過言ではありません。この本では、パターン認識と...

生成 AI は企業の知識管理をどのように改善できるのでしょうか?

生成 AI を使用すると、ナレッジ管理チームは知識の取得と維持のプロセスを自動化できます。この記事で...

TransformerはCNNを超え、計算複雑性の問題を解決します

[[390500]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

[文字列処理アルゴリズム] 入力文字列の各単語の順序を逆にするアルゴリズム設計とCコード実装

1. 要件の説明文字列を入力し、文字列内の単語を逆順に組み立てて出力するプログラムを作成します。たと...

MITは、大規模な問題を解決するにはアルゴリズムがハードウェアよりも有用であることを証明した。

[[425167]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...