LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

近年、大規模言語モデル (LLM) とその基盤となるトランスフォーマーアーキテクチャは会話型 AI の基礎となり、幅広い消費者向けおよび企業向けアプリケーションを生み出しています。大きな進歩があったにもかかわらず、LLM で使用される固定長のコンテキストウィンドウは、長い会話や長いドキュメントについての推論への適用性を大幅に制限します。最も広く使用されているオープンソース LLM でさえ、最大入力長が制限されており、数十のメッセージ返信や短いドキュメントの推論しかサポートできません。

同時に、トランスフォーマーアーキテクチャの自己注意メカニズムの制限により、トランスフォーマーのコンテキスト長を単純に拡張すると、計算時間とメモリコストが指数関数的に増加するため、新しいロングコンテキストアーキテクチャは緊急の研究課題となっています。

しかし、コンテキストスケーリングの計算上の課題を克服できたとしても、最近の研究では、長いコンテキストのモデルでは追加のコンテキストを効果的に活用することが難しいことが示されています。

これをどうやって解決すればいいでしょうか? SOTA LLM をトレーニングするために必要な大量のリソースと、コンテキストスケーリングの明らかな収益減少を考慮すると、長いコンテキストをサポートする代替技術が緊急に必要とされています。カリフォルニア大学バークレー校の研究者たちは、この点に関して新たな進歩を遂げた。

この論文では、研究者らは、固定コンテキストモデルを引き続き使用しながら、無限のコンテキストの錯覚をどのように提供するかを検討しています。彼らのアプローチは仮想メモリページングのアイデアを借用しており、アプリケーションが利用可能なメモリをはるかに超えるデータセットを処理できるようにします。

このアイデアに基づいて、研究者は LLM エージェントの関数呼び出し機能の最新の進歩を活用し、仮想コンテキスト管理用の OS にヒントを得た LLM システムである MemGPT を設計しました。

論文ホームページ: https://memgpt.ai/

arXivアドレス: https://arxiv.org/pdf/2310.08560.pdf

このプロジェクトはオープンソース化されており、GitHub で 1.7k 個のスターを獲得しています。

GitHub アドレス: https://github.com/cpacker/MemGPT

方法の概要

この研究は、コンテキストウィンドウ (オペレーティングシステムの「メインメモリ」に類似) と外部ストレージ間で情報を効果的に「ページング」する従来のオペレーティングシステムの階層型メモリ管理からヒントを得ています。 MemGPT は、メモリ、LLM 処理モジュール、およびユーザー間の制御フローを管理する役割を担います。この設計により、単一のタスク中にコンテキストを繰り返し変更できるため、エージェントは限られたコンテキストウィンドウをより効果的に活用できます。

MemGPT はコンテキストウィンドウを制約されたメモリリソースと見なし、従来のオペレーティングシステムの階層型メモリに似た LLM の階層構造を設計します (Patterson ら、1988)。より長いコンテキスト長を提供するために、この研究では、LLM が「LLM OS」である MemGPT を介してコンテキストウィンドウに配置されたコンテンツを管理できるようにしています。 MemGPT により、LLM はオペレーティングシステムのページフォールトと同様に、コンテキスト内で失われた関連する履歴データを取得できるようになります。さらに、プロセスが仮想メモリに繰り返しアクセスするのと同様に、エージェントは単一のタスクコンテキストウィンドウの内容を繰り返し変更できます。

MemGPT により、LLM は制限されたコンテキストウィンドウを持つ無制限のコンテキストを処理できるようになります。MemGPT のコンポーネントを下の図 1 に示します。

MemGPT は、関数呼び出しを通じてメインコンテキスト (コンテキストウィンドウ内のコンテンツ) と外部コンテキスト間のデータの移動を調整し、現在のコンテキストに基づいてデータを自律的に更新および取得します。

下の図 3 に示すように、コンテキストウィンドウでは、制限を示すために警告トークンを使用する必要があることに注意してください。

実験と結果

実験部分では、研究者らは会話エージェントと文書処理という 2 つの長期コンテキスト領域で MemGPT を評価しました。会話エージェントについては、既存のマルチセッションチャットデータセット（Xu et al. (2021)）を拡張し、長い会話で知識を保持するエージェントの能力を評価するための2つの新しい会話タスクを導入しました。文書分析については、Liu et al. (2023a) が提案したタスク（長い文書での質問回答やキー値検索など）で MemGPT をベンチマークしました。

会話エージェント向け MemGPT

ユーザーと会話を行う場合、エージェントは次の 2 つの重要な基準を満たす必要があります。

1 つ目は一貫性です。つまり、エージェントは会話の一貫性を維持し、提供される新しい事実、参照、イベントは、ユーザーとエージェントの以前の発言と一致している必要があります。
2 つ目はエンゲージメントです。つまり、エージェントはユーザーの長期的な知識を活用して応答をパーソナライズする必要があります。以前の会話を参照することで、会話がより自然で魅力的なものになります。

したがって、研究者は次の 2 つの基準に基づいて MemGPT を評価しました。

MemGPT はメモリを使用して会話の一貫性を向上させることができますか?継続性を保つために、過去のやり取りから関連する事実、引用、出来事を覚えていますか?
MemGPT はメモリを使用して、より魅力的な会話を生成できますか?メッセージをパーソナライズするために、リモートユーザー情報が自発的に組み込まれていますか?

使用されたデータセットに関して、研究者らは、Xuら（2021）が提案したマルチセッションチャット（MSC）上のMemGPTと固定コンテキストベースラインモデルを評価および比較しました。

まず、一貫性を評価しましょう。研究者らは、会話エージェントの一貫性をテストするために、MSC データセットに基づく深層記憶検索 (DMR) タスクを導入しました。 DMR では、ユーザーは会話エージェントに以前の会話を明示的に参照する質問をしますが、期待される回答の範囲は非常に狭くなります。詳細については、下の図 5 の例を参照してください。

MemGPT はメモリを使用して一貫性を維持します。以下の表 2 は、MemGPT と、GPT-3.5 および GPT-4 を含む固定メモリベースラインモデルのパフォーマンス比較を示しています。

MemGPTは、LLM判定精度とROUGE-Lスコアの点でGPT-3.5とGPT-4を大幅に上回っていることがわかります。 MemGPT は、コンテキストを拡張するために再帰的な要約に頼るのではなく、Recall Memory を活用して過去の会話履歴を照会し、DMR の質問に答えることができます。

次に、「会話のきっかけ」タスクでは、研究者らは、エージェントが以前の会話から蓄積された知識から魅力的なメッセージを抽出し、ユーザーに届ける能力を評価しました。

研究者らは、MemGPT 冒頭陳述の CSIM スコアを以下の表 3 に示しています。結果は、MemGPT が、人間が手書きした冒頭文と同等かそれ以上の魅力的な冒頭文を作成できることを示しています。また、MemGPT は、人間のベースラインよりも長く、より多くの文字情報をカバーする冒頭行を生成する傾向があることも観察されています。下の図6が例です。

文書分析のためのMemGPT

MemGPTの文書分析能力を評価するために、Liu et al. (2023a)のリトリーバー・リーダー文書QAタスクで固定コンテキストベースラインモデルに対してMemGPTをベンチマークしました。

結果は、MemGPT がアーカイブストアを照会することでリトリーバーへの複数の呼び出しを効率的に実行し、より有効なコンテキスト長に拡張できることを示しています。 MemGPT はアーカイブストアからドキュメントをアクティブに取得し、結果を繰り返しページングできるため、利用可能なドキュメントの総数は、LLM プロセッサコンテキストウィンドウに収まるドキュメントの数によって制限されなくなります。

埋め込みベースの類似性検索には制限があるため、ドキュメント QA タスクはすべての方法にとって大きな課題となります。研究者たちは、リトリーバーデータベースが枯渇する前に、MemGPT がリトリーバーの結果のページングを停止することを観察しました。

また、MemGPT のより複雑な操作によって作成された取得ドキュメントの容量にもトレードオフがあり、下の図 7 に示すように、平均精度は GPT-4 よりも低くなりますが (GPT-3.5 よりも高い)、より大きなドキュメントに簡単に拡張できます。

研究者らはまた、合成キー値検索に基づく新しいタスク、つまりネストされたキー値検索を導入し、MemGPT が複数のデータソースからの情報を整理する方法を実証しました。

結果から、GPT-3.5 と GPT-4 は元のキー値タスクでは良好なパフォーマンスを示しましたが、ネストされたキー値検索タスクではパフォーマンスが低かったことがわかりました。一方、MemGPT はネストレベルの数の影響を受けず、関数クエリを通じてメインメモリに格納されているキーと値のペアに繰り返しアクセスすることで、ネストされた検索を実行できます。

ネストされたキー値取得タスクにおける MemGPT のパフォーマンスは、複数のクエリを組み合わせて複数の検索を実行する能力を示しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<: AIエージェント、起動！復旦 NLP チームが 86 ページのレビューを発表: インテリジェント社会はすぐそこ

>>: 正解率が7.8%アップしました！最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました