Transformer には新しいバリアント ∞-former があります: 無限の長期メモリ、任意の長さのコンテキスト

[[422086]]

過去数年間で、Transformer は NLP 分野全体をほぼ支配し、コンピュータービジョンなどの他の分野にも進出しました。しかし、コンテキストの長さに応じて計算の複雑さが増し、長期記憶を効果的にモデル化することが困難になるため、長いコンテキストの処理が苦手であるなどの弱点もあります。この問題を緩和するために、さまざまな Transformer バリアントが提案されていますが、メモリ容量が限られているため、以前の情報を破棄する必要があります。

DeepMind などの研究機関の研究者らは論文の中で、∞-former と呼ばれるモデルを提案しました。これは、任意の長さのコンテキストを処理できる無限の長期記憶 (LTM) を備えた Transformer モデルです。

論文リンク: https://arxiv.org/pdf/2109.00301.pdf

長期記憶を処理するために継続的な空間注意メカニズムを活用することで、∞-former の注意の複雑さをコンテキストの長さから独立させることができます。したがって、任意の長さのコンテキストをモデル化し、固定の計算コストで「スティッキーメモリ」を維持することができます。

包括的なランキングタスクに関する実験では、∞-former が長いシーケンスからの情報を保持できることが実証されています。さらに、研究者らは、モデルをゼロからトレーニングしたり、事前トレーニング済みの言語モデルを微調整したりするなど、言語モデリングの実験を行い、無制限の長期記憶の利点を示しました。

しかし、他の多くの Transformer バリアント論文と同様に、この論文のタイトルもいくつかの苦情を引き起こしています。

∞-former: 無限の記憶を持つトランスフォーマー

モデルが長距離コンテキストを処理できるようにするために、研究者は、入力埋め込みと前のステップの隠れ状態を保存する連続 LTM を使用して元のトランスフォーマーを拡張することを提案しました。彼らはまた、トランスフォーマーXLのメモリと同様に、LTMとSTM（短期記憶）という2種類のメモリを持つ可能性も検討しました。 ∞-former の全体的なアーキテクチャを以下の図 1 に示します。

新しいモデルが無制限の LTM を実現できるようにするために、研究者は連続空間注意フレームワーク (「スパースおよび連続注意メカニズム」を参照) を使用しました。これは、メモリに適した情報単位の数 (基底関数) とこれらの単位の表現の粒度との間でトレードオフを実現します。このフレームワークでは、入力シーケンスは、ラジアル基底関数の線形結合として表現される連続信号として特徴付けられます。この表現には、2 つの大きな利点があります。1) コンテキストを N 個の基底関数で表現できます。ここで、N はコンテキスト内のトークンの数よりも小さいため、注意の複雑さが軽減されます。2) N を固定できるため、解像度は低下しますが、注意の複雑さは増加せずに、メモリ内で無限長のコンテキストを表現できます (図 2 を参照)。O(L^2 + L × N)。ここで、L はトランスフォーマーシーケンスの長さに対応します。

以前のメモリ解像度が失われる問題を軽減します。研究者らは「スティッキーメモリ」という概念を導入し、新しい LTM 信号内のより大きなスペースを以前のメモリ信号の関連領域に帰属させました。これは、重要な情報を LTM に強制的に保持するプロセスであり、脳の長期増強やシナプス可塑性と同様に、モデルが関連情報を失うことなく長いコンテキストをより適切にキャプチャできるようにします。

実験結果

∞-former が長いコンテキストをモデル化できるかどうかをテストするために、研究者はまず、長いシーケンス内でトークンを頻度順に並べ替える包括的なタスクに関する実験を実施しました。結果は次のとおりです。

図からわかるように、シーケンス長が 4000 の場合、transformerXL の精度は、圧縮トランスフォーマーや∞-former よりもわずかに高くなります。これは、transformerXL がほぼ完全なシーケンス全体をメモリ内に保持できるためです。ただし、シーケンスの長さが長くなると、transformerXL の精度は急激に低下しますが、圧縮トランスフォーマーと ∞-former の変化は少なくなります。これは、∞-former が長いシーケンスのモデリングに適していることを示唆しています。

次に、研究者たちは、1) ゼロからのモデルのトレーニング、2) 事前トレーニング済みの言語モデルの微調整など、言語モデリングの実験を実施しました。

最初の言語モデリング実験の結果を以下の表1に示します。長期記憶を使用してモデルを拡張すると、確かに困惑度の結果が改善され、スティッキーメモリを使用すると、ある程度まで困惑度を軽減できることがわかります。

2回目の言語モデリング実験の結果を以下の表2に示します。この結果は、GPT-2 に長期記憶を追加して微調整するだけで、Wikitext-103 と PG19 の両方でモデルの困惑が軽減されることを示しています。これは、∞-former が複数の用途を持つことを示しています。つまり、モデルを最初からトレーニングしたり、事前トレーニング済みのモデルを改善したりするために使用できます。

<<: 最大速度アップは20億倍！ AIが物理シミュレーションエンジンに革命を起こす

>>: セキュリティ分野におけるドローン技術応用の現状