過去数年間で、Transformer は NLP 分野全体をほぼ支配し、コンピューター ビジョンなどの他の分野にも進出しました。しかし、コンテキストの長さに応じて計算の複雑さが増し、長期記憶を効果的にモデル化することが困難になるため、長いコンテキストの処理が苦手であるなどの弱点もあります。この問題を緩和するために、さまざまな Transformer バリアントが提案されていますが、メモリ容量が限られているため、以前の情報を破棄する必要があります。 DeepMind などの研究機関の研究者らは論文の中で、∞-former と呼ばれるモデルを提案しました。これは、任意の長さのコンテキストを処理できる無限の長期記憶 (LTM) を備えた Transformer モデルです。 論文リンク: https://arxiv.org/pdf/2109.00301.pdf 長期記憶を処理するために継続的な空間注意メカニズムを活用することで、∞-former の注意の複雑さをコンテキストの長さから独立させることができます。したがって、任意の長さのコンテキストをモデル化し、固定の計算コストで「スティッキーメモリ」を維持することができます。 包括的なランキングタスクに関する実験では、∞-former が長いシーケンスからの情報を保持できることが実証されています。さらに、研究者らは、モデルをゼロからトレーニングしたり、事前トレーニング済みの言語モデルを微調整したりするなど、言語モデリングの実験を行い、無制限の長期記憶の利点を示しました。 しかし、他の多くの Transformer バリアント論文と同様に、この論文のタイトルもいくつかの苦情を引き起こしています。 ∞-former: 無限の記憶を持つトランスフォーマーモデルが長距離コンテキストを処理できるようにするために、研究者は、入力埋め込みと前のステップの隠れ状態を保存する連続 LTM を使用して元のトランスフォーマーを拡張することを提案しました。彼らはまた、トランスフォーマーXLのメモリと同様に、LTMとSTM(短期記憶)という2種類のメモリを持つ可能性も検討しました。 ∞-former の全体的なアーキテクチャを以下の図 1 に示します。 新しいモデルが無制限の LTM を実現できるようにするために、研究者は連続空間注意フレームワーク (「スパースおよび連続注意メカニズム」を参照) を使用しました。これは、メモリに適した情報単位の数 (基底関数) とこれらの単位の表現の粒度との間でトレードオフを実現します。このフレームワークでは、入力シーケンスは、ラジアル基底関数の線形結合として表現される連続信号として特徴付けられます。この表現には、2 つの大きな利点があります。1) コンテキストを N 個の基底関数で表現できます。ここで、N はコンテキスト内のトークンの数よりも小さいため、注意の複雑さが軽減されます。2) N を固定できるため、解像度は低下しますが、注意の複雑さは増加せずに、メモリ内で無限長のコンテキストを表現できます (図 2 を参照)。O(L^2 + L × N)。ここで、L はトランスフォーマー シーケンスの長さに対応します。 以前のメモリ解像度が失われる問題を軽減します。研究者らは「スティッキーメモリ」という概念を導入し、新しい LTM 信号内のより大きなスペースを以前のメモリ信号の関連領域に帰属させました。これは、重要な情報を LTM に強制的に保持するプロセスであり、脳の長期増強やシナプス可塑性と同様に、モデルが関連情報を失うことなく長いコンテキストをより適切にキャプチャできるようにします。 実験結果∞-former が長いコンテキストをモデル化できるかどうかをテストするために、研究者はまず、長いシーケンス内でトークンを頻度順に並べ替える包括的なタスクに関する実験を実施しました。結果は次のとおりです。 図からわかるように、シーケンス長が 4000 の場合、transformerXL の精度は、圧縮トランスフォーマーや∞-former よりもわずかに高くなります。これは、transformerXL がほぼ完全なシーケンス全体をメモリ内に保持できるためです。ただし、シーケンスの長さが長くなると、transformerXL の精度は急激に低下しますが、圧縮トランスフォーマーと ∞-former の変化は少なくなります。これは、∞-former が長いシーケンスのモデリングに適していることを示唆しています。 次に、研究者たちは、1) ゼロからのモデルのトレーニング、2) 事前トレーニング済みの言語モデルの微調整など、言語モデリングの実験を実施しました。 最初の言語モデリング実験の結果を以下の表1に示します。長期記憶を使用してモデルを拡張すると、確かに困惑度の結果が改善され、スティッキー メモリを使用すると、ある程度まで困惑度を軽減できることがわかります。 2回目の言語モデリング実験の結果を以下の表2に示します。この結果は、GPT-2 に長期記憶を追加して微調整するだけで、Wikitext-103 と PG19 の両方でモデルの困惑が軽減されることを示しています。これは、∞-former が複数の用途を持つことを示しています。つまり、モデルを最初からトレーニングしたり、事前トレーニング済みのモデルを改善したりするために使用できます。 |
<<: 最大速度アップは20億倍! AIが物理シミュレーションエンジンに革命を起こす
人工知能はさまざまな課題に直面しており、IEEE の専門家は対応する解決策を提案しています。合成現実...
3月12日の朝、Googleが検索リクエストを完了するのにかかった時間は1秒未満でしたが、平均往復距...
国家発展改革委員会から最近明らかになったところによると、インターネット、ビッグデータ、人工知能と実体...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO.com オリジナル記事] DataPipeline の AI 責任者である Wang...
[[375015]]世界的な流行により、ほぼすべての大学が授業をオンライン学習プラットフォームに移行...
水曜日、英国、米国、中国(および欧州連合)を含む約30カ国がAI安全サミットで初の世界的なAI安全合...
サーセイ・ラニスターの策略やサー・ジョラー・モーモントの父親のような保護をもってしても、攻撃者が H...
最近、マイクロソフトは最新の Azure ニューラル ネットワーク音声合成技術 Uni-TTSv3 ...
最近発表された論文で、チューリング賞受賞者のヨシュア・ベンジオ氏らは、チームの現在の研究の焦点である...
Amazon Transcribe は、開発者がアプリケーションに音声テキスト変換機能を簡単に追加で...