マイクロソフトの新たな注目論文：Transformer が 10 億トークンに拡大

誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキストウィンドウを処理する LLM (大規模言語モデル) の能力も重要な評価指標になりました。

たとえば、セレブリティモデル GPT-4 は 32,000 トークンをサポートしていますが、これは 50 ページのテキストに相当します。元 OpenAI メンバーによって設立された Anthropic は、Claude のトークン処理能力を 100,000 トークン、つまり約 75,000 語にまで高めました。これは、ハリー・ポッターの最初の本をワンクリックで要約するのにほぼ相当します。

Microsoft の最新の調査では、Transformer を 10 億トークンに直接拡張しました。これにより、コーパス全体やインターネット全体を単一のシーケンスとして扱うなど、非常に長いシーケンスをモデル化する新しい可能性が開かれます。

比較すると、平均的な人は約 5 時間で 100,000 トークンを読むことができますが、情報を消化、記憶、分析するにはさらに長い時間が必要になる場合があります。クロードはこれを1分以内に行うことができます。これをマイクロソフトの調査に換算すると、驚異的な数字となるでしょう。

写真

論文アドレス: https://arxiv.org/pdf/2307.02486.pdf
プロジェクトアドレス: https://github.com/microsoft/unilm/tree/master

具体的には、この研究では、短いシーケンスのパフォーマンスを犠牲にすることなく、シーケンスの長さを 10 億トークン以上に拡張できる Transformer のバリアントである LONGNET を提案しています。この論文では、モデルの認識範囲を飛躍的に拡大できる拡張注意も提案しています。

LONGNET には次の利点があります。

1) 計算の複雑さは線形です。

2) より長いシーケンスの分散トレーナーとして使用できます。

3) Dilated attention は標準の attention をシームレスに置き換えることができ、既存の Transformer ベースの最適化方法とシームレスに統合できます。

実験結果によると、LONGNET は長いシーケンスのモデリングと一般的な言語タスクの両方で優れたパフォーマンスを発揮します。

研究動機としては、近年、ニューラルネットワークの拡張がトレンドとなっており、優れた性能を示すネットワークが数多く研究されていると論文では述べています。ここで、ニューラルネットワークの一部としてのシーケンスの長さは、理想的には無限である必要があります。しかし、現実はその逆であることが多いため、シーケンスの長さの制限を破ると大きな利点がもたらされます。

まず、モデルに大きなメモリと受容野を提供し、人間や世界と効果的に対話できるようにします。
第二に、より長いコンテキストには、モデルがトレーニングデータで活用できるより複雑な因果関係と推論パスが含まれます。逆に、依存関係が短いと、偽の相関関係が多くなり、モデルの一般化に役立ちません。
3 番目に、シーケンスの長さが長いほど、モデルはより長いコンテキストを探索できるようになります。また、コンテキストが極端に長いと、モデルは壊滅的な忘却の問題を軽減できるようになります。

ただし、シーケンスの長さを拡張する際の主な課題は、計算の複雑さとモデルの表現力の間の適切なバランスを見つけることです。

たとえば、RNN スタイルのモデルは主にシーケンスの長さを増やすために使用されます。ただし、その順次的な性質により、長いシーケンスをモデル化する上で重要なトレーニング中の並列化が制限されます。

最近、状態空間モデルはシーケンスモデリングにとって非常に魅力的になってきており、トレーニング中に CNN として実行し、テスト時に効率的な RNN に変換することができます。ただし、これらのモデルは、通常の長さでは Transformer ほど優れたパフォーマンスを発揮しません。

シーケンスの長さを拡張する別の方法は、Transformer の複雑さ、つまり自己注意の 2 次複雑さを減らすことです。現在、低ランクアテンション、カーネルベースの方法、ダウンサンプリング方法、検索ベースの方法など、いくつかの効率的なトランスフォーマーベースのバリアントが提案されています。ただし、これらのアプローチでは、Transformer を 10 億トークンに拡張することはまだできません (図 1 を参照)。

写真

次の表は、さまざまな計算方法の計算の複雑さを比較したものです。 N はシーケンスの長さ、d は隠れた次元です。

写真

方法

この研究のソリューションである LONGNET は、シーケンスの長さを 10 億トークンまで拡張することに成功しました。具体的には、この研究では、拡張注意と呼ばれる新しいコンポーネントを提案し、Vanilla Transformer の注意メカニズムを拡張注意に置き換えました。一般的な設計原則は、トークン間の距離が増加するにつれて、注意の割り当てが指数関数的に減少することです。この研究では、この設計アプローチにより、トークン間の線形計算複雑性と対数依存性が実現されることが示されています。これにより、限られた注意リソースと各トークンへのアクセスの間の矛盾が解決されます。

写真

実装中に、LONGNET を高密度 Transformer に変換して、Transformer の既存の最適化方法 (カーネル融合、量子化、分散トレーニングなど) をシームレスにサポートできます。 LONGNET は線形複雑性を活用して、ノード間で並列トレーニングを実行し、分散アルゴリズムを使用してコンピューティングとメモリの制約を打ち破ることができます。

最終的に、この研究ではシーケンスの長さが 10 億トークンまで効果的に拡張され、実行時間は下の図に示すようにほぼ一定になりました。対照的に、Vanilla Transformer の実行時間は二次の複雑さに悩まされます。

この研究ではさらに、多頭拡張注意メカニズムが導入されました。下の図 3 に示すように、この研究では、クエリ、キー、値のペアのさまざまな部分をスパース化することで、さまざまなヘッド間で異なる計算を実行します。

写真

分散トレーニング

Dilated Attention の計算量はまで大幅に削減されましたが、計算とメモリの制限により、単一の GPU デバイス上でシーケンスの長さを数百万に拡張することは現実的ではありません。大規模モデルトレーニングには、モデル並列処理 [SPP+19]、シーケンス並列処理 [LXLY21、KCL+22]、パイプライン並列処理 [HCB+19] などの分散トレーニングアルゴリズムがいくつかありますが、これらの方法は、特にシーケンス次元が非常に大きい場合は、LONGNETには不十分です。

この研究では、LONGNET の線形計算複雑性を利用して、シーケンス次元で分散トレーニングを実行します。下の図 4 は 2 つの GPU 上の分散アルゴリズムを示しています。これは任意の数のデバイスにさらに拡張できます。

実験

この研究では、LONGNET を通常の Transformer およびスパース Transformer と比較しました。アーキテクチャ間の違いは注意層にあり、他の層は同じままです。研究者らは、バッチサイズを縮小してバッチあたりのトークン数を一定に保ちながら、これらのモデルのシーケンス長を 2K から 32K に拡張しました。

表 2 は、Stack データセットにおけるこれらのモデルの結果をまとめたものです。この研究では複雑さを評価基準として使用しました。モデルは、2k から 32k までのさまざまなシーケンス長でテストされます。入力長がモデルでサポートされている最大長を超える場合、言語モデル推論のための最先端の外挿法であるブロックワイズ因果的注意（BCA）[SDP+22]を実装します。

さらに、この研究では絶対位置のエンコードが削除されました。まず、結果は、トレーニング中にシーケンスの長さを増やすと、一般的に言語モデルが改善されることを示しています。第二に、シーケンスの長さがモデルのサポートよりもはるかに大きい場合、推論におけるシーケンスの長さの外挿はうまく機能しません。最後に、LONGNET はベースラインモデルを一貫して上回り、言語モデリングにおける有効性を実証しています。

配列長拡張曲線

図 6 は、バニラトランスフォーマーと LONGNET のシーケンス長拡張曲線を示しています。この研究では、行列乗算の合計フロップを計算することで計算量を推定しました。結果は、バニラトランスフォーマーと LONGNET の両方が、トレーニングからのより大きなコンテキスト長から恩恵を受けることができることを示しています。ただし、LONGNET はコンテキストの長さをより効果的に拡張し、より少ない計算でテスト損失を低減できます。これは、外挿よりも長いトレーニング入力の利点を示しています。実験により、LONGNET は言語モデルのコンテキスト長を拡張するより効果的な方法であることが示されました。これは、LONGNET がより長い依存関係をより効果的に学習できるためです。

モデルのスケーリング

大規模言語モデルの重要な特性は、損失が計算量に応じてべき乗的に増加することです。 LONGNET が現在も同様の拡張ルールに従っているかどうかを確認するために、この研究では、さまざまなモデルサイズ (1 億 2,500 万から 27 億のパラメーター) を持つ一連のモデルをトレーニングしました。 27 億のモデルは 3000 億のトークンでトレーニングされ、残りのモデルは約 4000 億のトークンを使用しました。図7(a)は計算に対するLONGNETのスケーリング曲線を示しています。この研究では、同じテストセットの複雑さを計算しました。これは、LONGNET が依然としてべき乗則に従うことができることを証明しています。つまり、dense Transformer は言語モデルのスケーリングの前提条件ではありません。さらに、LONGNET によってスケーラビリティと効率性の両方が実現されます。

長いコンテキストプロンプト

プロンプトは、言語モデルをガイドし、追加情報を提供する重要な方法です。この研究では、LONGNET がより長いコンテキストキューウィンドウからメリットを得られるかどうかを実験的に検証します。

この研究では、一連の接頭辞をプロンプトとして保持し、その接尾辞の困惑度をテストしました。さらに、研究の過程で、プロンプトは 2K から 32K に徐々に拡張されました。公平な比較を行うために、接尾辞の長さは一定に保たれ、接頭辞の長さはモデルの最大長まで増加されます。図7（b）はテストセットの結果を示しています。コンテキストウィンドウが増加するにつれて、LONGNET のテスト損失が徐々に減少することがわかります。これは、長いコンテキストを最大限に活用して言語モデルを改善する LONGNET の優位性を実証しています。

<<: ビッグニュース！ ChatGPTの2つの主要イベント

>>: MozillaのAIヘルプツールがついに正式に無効化：生成された技術情報は真実と虚偽が混在