LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

LLM をオペレーティングシステムとして考えてみましょう。無制限の「仮想」コンテキストがあり、バークレーの新しい研究には 1.7k の星があります。

近年、大規模言語モデル (LLM) とその基盤となるトランスフォーマー アーキテクチャは会話型 AI の基礎となり、幅広い消費者向けおよび企業向けアプリケーションを生み出しています。大きな進歩があったにもかかわらず、LLM で使用される固定長のコンテキスト ウィンドウは、長い会話や長いドキュメントについての推論への適用性を大幅に制限します。最も広く使用されているオープンソース LLM でさえ、最大入力長が制限されており、数十のメッセージ返信や短いドキュメントの推論しかサポートできません。

同時に、トランスフォーマー アーキテクチャの自己注意メカニズムの制限により、トランスフォーマーのコンテキスト長を単純に拡張すると、計算時間とメモリ コストが指数関数的に増加するため、新しいロング コンテキスト アーキテクチャは緊急の研究課題となっています。

しかし、コンテキストスケーリングの計算上の課題を克服できたとしても、最近の研究では、長いコンテキストのモデルでは追加のコンテキストを効果的に活用することが難しいことが示されています。

これをどうやって解決すればいいでしょうか? SOTA LLM をトレーニングするために必要な大量のリソースと、コンテキスト スケーリングの明らかな収益減少を考慮すると、長いコンテキストをサポートする代替技術が緊急に必要とされています。カリフォルニア大学バークレー校の研究者たちは、この点に関して新たな進歩を遂げた。

この論文では、研究者らは、固定コンテキスト モデルを引き続き使用しながら、無限のコンテキストの錯覚をどのように提供するかを検討しています。彼らのアプローチは仮想メモリ ページングのアイデアを借用しており、アプリケーションが利用可能なメモリをはるかに超えるデータ セットを処理できるようにします。

このアイデアに基づいて、研究者は LLM エージェントの関数呼び出し機能の最新の進歩を活用し、仮想コンテキスト管理用の OS にヒントを得た LLM システムである MemGPT を設計しました。

論文ホームページ: https://memgpt.ai/

arXivアドレス: https://arxiv.org/pdf/2310.08560.pdf

このプロジェクトはオープンソース化されており、GitHub で 1.7k 個のスターを獲得しています。

GitHub アドレス: https://github.com/cpacker/MemGPT

方法の概要

この研究は、コンテキスト ウィンドウ (オペレーティング システムの「メイン メモリ」に類似) と外部ストレージ間で情報を効果的に「ページング」する従来のオペレーティング システムの階層型メモリ管理からヒントを得ています。 MemGPT は、メモリ、LLM 処理モジュール、およびユーザー間の制御フローを管理する役割を担います。この設計により、単一のタスク中にコンテキストを繰り返し変更できるため、エージェントは限られたコンテキスト ウィンドウをより効果的に活用できます。

MemGPT はコンテキスト ウィンドウを制約されたメモリ リソースと見なし、従来のオペレーティング システムの階層型メモリに似た LLM の階層構造を設計します (Patterson ら、1988)。より長いコンテキスト長を提供するために、この研究では、LLM が「LLM OS」である MemGPT を介してコンテキスト ウィンドウに配置されたコンテンツを管理できるようにしています。 MemGPT により、LLM はオペレーティング システムのページ フォールトと同様に、コンテキスト内で失われた関連する履歴データを取得できるようになります。さらに、プロセスが仮想メモリに繰り返しアクセスするのと同様に、エージェントは単一のタスク コンテキスト ウィンドウの内容を繰り返し変更できます。

MemGPT により、LLM は制限されたコンテキスト ウィンドウを持つ無制限のコンテキストを処理できるようになります。MemGPT のコンポーネントを下の図 1 に示します。

MemGPT は、関数呼び出しを通じてメイン コンテキスト (コンテキスト ウィンドウ内のコンテンツ) と外部コンテキスト間のデータの移動を調整し、現在のコンテキストに基づいてデータを自律的に更新および取得します。

下の図 3 に示すように、コンテキスト ウィンドウでは、制限を示すために警告トークンを使用する必要があることに注意してください。

実験と結果

実験部分では、研究者らは会話エージェントと文書処理という 2 つの長期コンテキスト領域で MemGPT を評価しました。会話エージェントについては、既存のマルチセッションチャットデータセット(Xu et al. (2021))を拡張し、長い会話で知識を保持するエージェントの能力を評価するための2つの新しい会話タスクを導入しました。文書分析については、Liu et al. (2023a) が提案したタスク(長い文書での質問回答やキー値検索など)で MemGPT をベンチマークしました。

会話エージェント向け MemGPT

ユーザーと会話を行う場合、エージェントは次の 2 つの重要な基準を満たす必要があります。

  • 1 つ目は一貫性です。つまり、エージェントは会話の一貫性を維持し、提供される新しい事実、参照、イベントは、ユーザーとエージェントの以前の発言と一致している必要があります。
  • 2 つ目はエンゲージメントです。つまり、エージェントはユーザーの長期的な知識を活用して応答をパーソナライズする必要があります。以前の会話を参照することで、会話がより自然で魅力的なものになります。

したがって、研究者は次の 2 つの基準に基づいて MemGPT を評価しました。

  • MemGPT はメモリを使用して会話の一貫性を向上させることができますか?継続性を保つために、過去のやり取りから関連する事実、引用、出来事を覚えていますか?
  • MemGPT はメモリを使用して、より魅力的な会話を生成できますか?メッセージをパーソナライズするために、リモート ユーザー情報が自発的に組み込まれていますか?

使用されたデータセットに関して、研究者らは、Xuら(2021)が提案したマルチセッションチャット(MSC)上のMemGPTと固定コンテキストベースラインモデルを評価および比較しました。

まず、一貫性を評価しましょう。研究者らは、会話エージェントの一貫性をテストするために、MSC データセットに基づく深層記憶検索 (DMR) タスクを導入しました。 DMR では、ユーザーは会話エージェントに以前の会話を明示的に参照する質問をしますが、期待される回答の範囲は非常に狭くなります。詳細については、下の図 5 の例を参照してください。

MemGPT はメモリを使用して一貫性を維持します。以下の表 2 は、MemGPT と、GPT-3.5 および GPT-4 を含む固定メモリ ベースライン モデルのパフォーマンス比較を示しています。

MemGPTは、LLM判定精度とROUGE-Lスコアの点でGPT-3.5とGPT-4を大幅に上回っていることがわかります。 MemGPT は、コンテキストを拡張するために再帰的な要約に頼るのではなく、Recall Memory を活用して過去の会話履歴を照会し、DMR の質問に答えることができます。

次に、「会話のきっかけ」タスクでは、研究者らは、エージェントが以前の会話から蓄積された知識から魅力的なメッセージを抽出し、ユーザーに届ける能力を評価しました。

研究者らは、MemGPT 冒頭陳述の CSIM スコアを以下の表 3 に示しています。結果は、MemGPT が、人間が手書きした冒頭文と同等かそれ以上の魅力的な冒頭文を作成できることを示しています。また、MemGPT は、人間のベースラインよりも長く、より多くの文字情報をカバーする冒頭行を生成する傾向があることも観察されています。下の図6が例です。

文書分析のためのMemGPT

MemGPTの文書分析能力を評価するために、Liu et al. (2023a)のリトリーバー・リーダー文書QAタスクで固定コンテキストベースラインモデルに対してMemGPTをベンチマークしました。

結果は、MemGPT がアーカイブ ストアを照会することでリトリーバーへの複数の呼び出しを効率的に実行し、より有効なコンテキスト長に拡張できることを示しています。 MemGPT はアーカイブ ストアからドキュメントをアクティブに取得し、結果を繰り返しページングできるため、利用可能なドキュメントの総数は、LLM プロセッサ コンテキスト ウィンドウに収まるドキュメントの数によって制限されなくなります。

埋め込みベースの類似性検索には制限があるため、ドキュメント QA タスクはすべての方法にとって大きな課題となります。研究者たちは、リトリーバー データベースが枯渇する前に、MemGPT がリトリーバーの結果のページングを停止することを観察しました。

また、MemGPT のより複雑な操作によって作成された取得ドキュメントの容量にもトレードオフがあり、下の図 7 に示すように、平均精度は GPT-4 よりも低くなりますが (GPT-3.5 よりも高い)、より大きなドキュメントに簡単に拡張できます。

研究者らはまた、合成キー値検索に基づく新しいタスク、つまりネストされたキー値検索を導入し、MemGPT が複数のデータ ソースからの情報を整理する方法を実証しました。

結果から、GPT-3.5 と GPT-4 は元のキー値タスクでは良好なパフォーマンスを示しましたが、ネストされたキー値検索タスクではパフォーマンスが低かったことがわかりました。一方、MemGPT はネスト レベルの数の影響を受けず、関数クエリを通じてメイン メモリに格納されているキーと値のペアに繰り返しアクセスすることで、ネストされた検索を実行できます。

ネストされたキー値取得タスクにおける MemGPT のパフォーマンスは、複数のクエリを組み合わせて複数の検索を実行する能力を示しています。

より詳しい技術的な詳細と実験結果については、原著論文を参照してください。

<<:  AIエージェント、起動!復旦 NLP チームが 86 ページのレビューを発表: インテリジェント社会はすぐそこ

>>:  正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

ブログ    
ブログ    
ブログ    

推薦する

医療画像のインテリジェント認識:医療とAIを組み合わせた成功事例

医療画像のインテリジェント認識:医療とAIを組み合わせた成功事例医療画像認識はAIがすぐに導入できる...

...

この病院のAI看護師は、人間の看護師の作業負荷を30%削減するためにオンライン化されました

[[270607]]看護師は医療現場を問わず需要が高いです。米国労働統計局の報告によると、看護師の求...

EUのAI法案は企業に厳しい規則と巨額の罰金をもたらす

EUが長らく議論されてきたEU AI法案を前進させ、AIの使用に関するガードレールを導入しようと最近...

...

人工知能と宝くじの出会いは実は詐欺から始まった?

現時点で最もホットなコンセプトは何かと聞かれれば、それは人工知能であるに違いないと私は思います。 A...

Baidu がモバイル検索ランキングアルゴリズムを調整し、アプリのランキング結果を改善

百度の関係者は、現在、携帯電話でPCのウェブサイトにアクセスした場合、最高の閲覧体験を得ることは難し...

人工知能人材の需要は倍増し、アルゴリズム人材の不足は170万人に達した

デジタル経済と実体経済の融合と発展が加速する中、デジタル経済の重要な技術モジュールとしての人工知能の...

GPT-4を粉砕せよ! Google DeepMind CEOが明かす:次世代の大規模モデルはAlphaGoと統合される

Googleは本当に全力を尽くしています。 AlphaGoとGPT-4に似た大規模モデルを組み合わせ...

人工知能の博士による記事では、分類と回帰評価指標について詳しく説明しています。機械学習の必読書です。

この記事では、機械学習における回帰と分類のさまざまな指標について説明します。私たちは常に、優れた機械...

NIOにおける時系列予測アルゴリズムの応用の検討

1. 事業背景1. NIOの紹介2014 年 11 月に設立された NIO は、ハイエンドのスマート...

...

世界最大の公開顔データセット | 清華大学と信義科技が共同リリース

[[387945]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...