LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

近年、大規模言語モデル (LLM) とその基盤となるトランスフォーマー アーキテクチャは会話型 AI の基礎となり、幅広い消費者向けおよび企業向けアプリケーションを生み出しています。大きな進歩があったにもかかわらず、LLM で使用される固定長のコンテキスト ウィンドウは、長い会話や長いドキュメントについての推論への適用性を大幅に制限します。最も広く使用されているオープンソース LLM でさえ、最大入力長が制限されており、数十のメッセージ返信や短いドキュメントの推論しかサポートできません。

同時に、トランスフォーマー アーキテクチャの自己注意メカニズムの制限により、トランスフォーマーのコンテキスト長を単純に拡張すると、計算時間とメモリ コストが指数関数的に増加するため、新しいロング コンテキスト アーキテクチャは緊急の研究課題となっています。

しかし、コンテキストスケーリングの計算上の課題を克服できたとしても、最近の研究では、長いコンテキストのモデルでは追加のコンテキストを効果的に活用することが難しいことが示されています。

これをどうやって解決すればいいでしょうか? SOTA LLM をトレーニングするために必要な大量のリソースと、コンテキスト スケーリングの明らかな収益減少を考慮すると、長いコンテキストをサポートする代替技術が緊急に必要とされています。カリフォルニア大学バークレー校の研究者たちは、この点に関して新たな進歩を遂げた。

この論文では、研究者らは、固定コンテキスト モデルを引き続き使用しながら、無限のコンテキストの錯覚をどのように提供するかを検討しています。彼らのアプローチは仮想メモリ ページングのアイデアを借用しており、アプリケーションが利用可能なメモリをはるかに超えるデータ セットを処理できるようにします。

このアイデアに基づいて、研究者は LLM エージェントの関数呼び出し機能の最新の進歩を活用し、仮想コンテキスト管理用の OS にヒントを得た LLM システムである MemGPT を設計しました。

論文ホームページ: https://memgpt.ai/

arXivアドレス: https://arxiv.org/pdf/2310.08560.pdf

このプロジェクトはオープンソース化されており、GitHub で 1.7k 個のスターを獲得しています。

GitHub アドレス: https://github.com/cpacker/MemGPT

方法の概要

この研究は、コンテキスト ウィンドウ (オペレーティング システムの「メイン メモリ」に類似) と外部ストレージ間で情報を効果的に「ページング」する従来のオペレーティング システムの階層型メモリ管理からヒントを得ています。 MemGPT は、メモリ、LLM 処理モジュール、およびユーザー間の制御フローを管理する役割を担います。この設計により、単一のタスク中にコンテキストを繰り返し変更できるため、エージェントは限られたコンテキスト ウィンドウをより効果的に活用できます。

MemGPT はコンテキスト ウィンドウを制約されたメモリ リソースと見なし、従来のオペレーティング システムの階層型メモリに似た LLM の階層構造を設計します (Patterson ら、1988)。より長いコンテキスト長を提供するために、この研究では、LLM が「LLM OS」である MemGPT を介してコンテキスト ウィンドウに配置されたコンテンツを管理できるようにしています。 MemGPT により、LLM はオペレーティング システムのページ フォールトと同様に、コンテキスト内で失われた関連する履歴データを取得できるようになります。さらに、プロセスが仮想メモリに繰り返しアクセスするのと同様に、エージェントは単一のタスク コンテキスト ウィンドウの内容を繰り返し変更できます。

MemGPT により、LLM は制限されたコンテキスト ウィンドウを持つ無制限のコンテキストを処理できるようになります。MemGPT のコンポーネントを下の図 1 に示します。

MemGPT は、関数呼び出しを通じてメイン コンテキスト (コンテキスト ウィンドウ内のコンテンツ) と外部コンテキスト間のデータの移動を調整し、現在のコンテキストに基づいてデータを自律的に更新および取得します。

下の図 3 に示すように、コンテキスト ウィンドウでは、制限を示すために警告トークンを使用する必要があることに注意してください。

実験と結果

実験部分では、研究者らは会話エージェントと文書処理という 2 つの長期コンテキスト領域で MemGPT を評価しました。会話エージェントについては、既存のマルチセッションチャットデータセット(Xu et al. (2021))を拡張し、長い会話で知識を保持するエージェントの能力を評価するための2つの新しい会話タスクを導入しました。文書分析については、Liu et al. (2023a) が提案したタスク(長い文書での質問回答やキー値検索など)で MemGPT をベンチマークしました。

会話エージェント向け MemGPT

ユーザーと会話を行う場合、エージェントは次の 2 つの重要な基準を満たす必要があります。

  • 1 つ目は一貫性です。つまり、エージェントは会話の一貫性を維持し、提供される新しい事実、参照、イベントは、ユーザーとエージェントの以前の発言と一致している必要があります。
  • 2 つ目はエンゲージメントです。つまり、エージェントはユーザーの長期的な知識を活用して応答をパーソナライズする必要があります。以前の会話を参照することで、会話がより自然で魅力的なものになります。

したがって、研究者は次の 2 つの基準に基づいて MemGPT を評価しました。

  • MemGPT はメモリを使用して会話の一貫性を向上させることができますか?継続性を保つために、過去のやり取りから関連する事実、引用、出来事を覚えていますか?
  • MemGPT はメモリを使用して、より魅力的な会話を生成できますか?メッセージをパーソナライズするために、リモート ユーザー情報が自発的に組み込まれていますか?

使用されたデータセットに関して、研究者らは、Xuら(2021)が提案したマルチセッションチャット(MSC)上のMemGPTと固定コンテキストベースラインモデルを評価および比較しました。

まず、一貫性を評価しましょう。研究者らは、会話エージェントの一貫性をテストするために、MSC データセットに基づく深層記憶検索 (DMR) タスクを導入しました。 DMR では、ユーザーは会話エージェントに以前の会話を明示的に参照する質問をしますが、期待される回答の範囲は非常に狭くなります。詳細については、下の図 5 の例を参照してください。

MemGPT はメモリを使用して一貫性を維持します。以下の表 2 は、MemGPT と、GPT-3.5 および GPT-4 を含む固定メモリ ベースライン モデルのパフォーマンス比較を示しています。

MemGPTは、LLM判定精度とROUGE-Lスコアの点でGPT-3.5とGPT-4を大幅に上回っていることがわかります。 MemGPT は、コンテキストを拡張するために再帰的な要約に頼るのではなく、Recall Memory を活用して過去の会話履歴を照会し、DMR の質問に答えることができます。

次に、「会話のきっかけ」タスクでは、研究者らは、エージェントが以前の会話から蓄積された知識から魅力的なメッセージを抽出し、ユーザーに届ける能力を評価しました。

研究者らは、MemGPT 冒頭陳述の CSIM スコアを以下の表 3 に示しています。結果は、MemGPT が、人間が手書きした冒頭文と同等かそれ以上の魅力的な冒頭文を作成できることを示しています。また、MemGPT は、人間のベースラインよりも長く、より多くの文字情報をカバーする冒頭行を生成する傾向があることも観察されています。下の図6が例です。

文書分析のためのMemGPT

MemGPTの文書分析能力を評価するために、Liu et al. (2023a)のリトリーバー・リーダー文書QAタスクで固定コンテキストベースラインモデルに対してMemGPTをベンチマークしました。

結果は、MemGPT がアーカイブ ストアを照会することでリトリーバーへの複数の呼び出しを効率的に実行し、より有効なコンテキスト長に拡張できることを示しています。 MemGPT はアーカイブ ストアからドキュメントをアクティブに取得し、結果を繰り返しページングできるため、利用可能なドキュメントの総数は、LLM プロセッサ コンテキスト ウィンドウに収まるドキュメントの数によって制限されなくなります。

埋め込みベースの類似性検索には制限があるため、ドキュメント QA タスクはすべての方法にとって大きな課題となります。研究者たちは、リトリーバー データベースが枯渇する前に、MemGPT がリトリーバーの結果のページングを停止することを観察しました。

また、MemGPT のより複雑な操作によって作成された取得ドキュメントの容量にもトレードオフがあり、下の図 7 に示すように、平均精度は GPT-4 よりも低くなりますが (GPT-3.5 よりも高い)、より大きなドキュメントに簡単に拡張できます。

研究者らはまた、合成キー値検索に基づく新しいタスク、つまりネストされたキー値検索を導入し、MemGPT が複数のデータ ソースからの情報を整理する方法を実証しました。

結果から、GPT-3.5 と GPT-4 は元のキー値タスクでは良好なパフォーマンスを示しましたが、ネストされたキー値検索タスクではパフォーマンスが低かったことがわかりました。一方、MemGPT はネスト レベルの数の影響を受けず、関数クエリを通じてメイン メモリに格納されているキーと値のペアに繰り返しアクセスすることで、ネストされた検索を実行できます。

ネストされたキー値取得タスクにおける MemGPT のパフォーマンスは、複数のクエリを組み合わせて複数の検索を実行する能力を示しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<:  AIエージェント、起動!復旦 NLP チームが 86 ページのレビューを発表: インテリジェント社会はすぐそこ

>>:  正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

ブログ    
ブログ    
ブログ    

推薦する

...

...

...

AIは教育業界にどのような影響を与えるのでしょうか?これら6つの側面について学ぶ

人工知能は、SFの世界のものから、私たちの日常生活に影響を与える重要な技術へと変化しました。現在、多...

技術革新により、AI人材が全国各地で活躍できるようになった

人力の60倍の速さで作業する送電線検査画像「認識者」、ベテラン並みの監視ビデオ「品質検査員」、さまざ...

マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

マイクロソフトリサーチアジアは、「中国の大学における人工知能人材の国際トレーニングプログラム」に関す...

...

...

テクノロジーの専門家が若者と対談、第1回JD全国大学生アルゴリズム設計・プログラミングエリート競技会セミナーが開催されました

最近、「2021 JD全国大学生アルゴリズム設計・プログラミングエリートコンテスト-コードの無限の想...

...

銀行における会話型 AI – 企業が犯しがちな 3 つの間違い

金融サービス業界は、特定の金融プロセスに不可欠なレガシー機器やシステムを使用しているため、他の業界に...

機械学習で不均衡なデータをどのように処理しますか?

上司から、利用可能なさまざまな測定値に基づいて製品に欠陥があるかどうかを予測するモデルを作成するよう...

クラウドネイティブの運用とメンテナンスを簡素化する方法

クラウド コンピューティングは、集中性、効率性、弾力性、ビジネスの俊敏性をもたらしましたが、クラウド...

...

AI 請求書認識を実現する PaddleOCR ベースの Asp.net Core アプリケーション

簡単な紹介ユーザーは、認識する必要のある写真を一括でアップロードします。アップロードが成功すると、シ...