現実世界の複雑な課題を解決するための LLM+模倣学習: AI2 が SwiftSage を提案

GPT-4 などの大規模言語モデル (LLM) は多くの推論タスクで優れたパフォーマンスを発揮しますが、既存の研究のほとんどは、質問に答えたり数学の問題を解いたりするなど、静的な設定でのタスクにのみ焦点を当てています。では、LLM は現実世界で複雑なインタラクティブなタスクを完了できるのでしょうか?たとえば、物体が電気を伝導するかどうかをテストするなど、物理世界でいくつかの実験を実行するエージェントを作成したい場合、LLM を使用できますか?このような複雑なインタラクティブなタスクは、LLM が動的に変化する現実世界のシナリオを理解するだけでなく、長期計画、タスク構成、記憶、常識的推論、例外処理などの高度な認知能力と推論能力も必要とするため、非常に困難です。

このような状況に直面して、コンピューティングコストを削減しながら、LLM の計画および推論機能を最大限に活用するにはどうすればよいでしょうか。有名な認知心理学の本「ファスト＆スロー」で紹介されている二重過程理論は、多くのインスピレーションをもたらします。この理論によれば、人間の認知プロセスには 2 つの分離不可能なシステムが必要であり、システム 1 は高速な直感的思考を担い、システム 2 は低速な分析的思考を担うとされています。

論文リンク: https://arxiv.org/abs/2305.17390
プロジェクトウェブサイト: https://yuchenlin.xyz/swiftsage/

これに基づいて、AI2 (Allen Institute for AI) の研究者は SwiftSage エージェントフレームワークを提案しました。彼らは模倣学習を通じて小さなモデルを取得し、それを LLM と融合しました。これにより、大量のデータを使用して小さなモデルを微調整し、環境とタスクに関する知識を与え、必要な場合にのみ大規模なモデルを高レベルの推論に呼び出すことができます。 30 のタスクの評価では、SwiftSage は SayCan、ReAct、Relfexion などの従来の方法よりも 2 倍近く優れたパフォーマンスを発揮し、LLM 部分の計算コストを大幅に削減しました。

背景

これまでの研究では、複雑な対話型推論タスクを解決するために主に3つの方法が検討されてきた。従来のエージェントトレーニング方法には次のようなものがある。

1) 強化学習

対話型推論タスクは、部分的に観測可能なマルコフ決定プロセス (POMDP) としてモデル化され、エージェントは繰り返しの試行を通じて最適なアクション戦略を学習します。一般的な方法には、DRRN、KG-A2C、CALM などがあります。

2) 模倣学習

対話型推論タスクは、過去のアクションと現在の環境の観察を入力として、現在のアクションを出力として受け取るシーケンスツーシーケンス (Seq2Seq) タスクとしてモデル化され、エージェントは人間または専門家の行動を模倣するようにトレーニングされます。 Text Decision Transformer は、この方向におけるベースラインメソッドです。

3) 大規模言語モデル（LLM）プロンプトの使用

LLM の急速な発展、特に GPT-4 の出現により、LLM を複雑なインタラクティブな推論タスクに適用することで、顕著な成果が得られました。従来の方法を使用して、過去の行動と現在の環境の観察に基づいて LLM に直接行動を生成させるだけでなく、いくつかの研究では LLM を直接呼び出して行動候補プールを生成し、それを環境の並べ替えと組み合わせました (SayCan)。また、いくつかの研究では、より効率的な行動を達成するためにサブ目標を生成する仮想の「考える」行動を導入しました (ReAct)。タスクが失敗した後、LLM を使用して理由を要約し、反省を生成して、次の試行での成功確率を高めます (Reflection)。

従来の方法は比較的単純なタスクでは優れていますが、より複雑で困難なタスクでは一般化能力が限られています。強化学習ベースの方法と行動クローニングはどちらも、大きな目標を複数のサブタスクに分解し、長期記憶を実現し、環境内の未知の異常（導電性テストで使用可能な電球が見つからないなど）を処理するという多くの課題に直面しています。

対照的に、プロンプトに LLM を使用するアプローチは、複雑なタスクで合理的な計画を生成し、人間のフィードバックに基づいて調整する能力を実証していますが、いくつかの問題と制限もあります。主な課題の 1 つは、予測されたアクションごとに LLM を呼び出す必要があるため、全体的な推論の効率が低下し、コストが高くなることです。さらに、ReAct と Reflection の両方の方法で、未知のタスクタイプごとにサブ目標を適切に手動で注釈付けする必要があります。そうしないと、実際の状況に一般化することが困難になる可能性があります。 LLMで作成した計画を現実に変える方法

SwiftSage: 模倣学習と大規模モデル計画を組み合わせた新しいフレームワーク

研究者らは、人間の脳の思考の二重過程理論に着想を得て、模倣学習と言語モデル（LLM）手法を組み合わせたSwiftSageという新しいフレームワークを提案した。このフレームワークは、複雑な現実世界のタスクに画期的なソリューションをもたらします。

認知心理学の分野では、人間の脳の思考の二重システムモデルが、人間の思考と意思決定の 2 つの独特な方法を説明するために使用されます。この理論によれば、人間の認知プロセスは、直観的思考システム (システム 1) と反省的思考システム (システム 2) という、相互に関連していながらも独立して動作する 2 つのシステムに分けられます。

直感的思考（システム 1）は、個人の経験、感情、直感に大きく依存する、高速で直感的かつ自動的な思考方法です。このアプローチは、単純な問題を解決したり、日常的な意思決定を行うには非常に効率的ですが、複雑な問題や大きな意思決定に直面したときには、逸脱やエラーにつながる可能性があります。

対照的に、反省的思考（システム 2）は、意図的、意識的、かつ合理的な思考方法です。このアプローチは、論理的推論、ルール、分析を適用することで、意思決定と問題解決に、より正確で合理的な結果をもたらします。ただし、この考え方には、より多くの認知リソースと時間が必要です。

二重システムモデル理論の中心的な考え方は、人間の思考と意思決定のプロセスは単一のシステムによって駆動されるのではなく、2つのシステム間の相互作用、補完性、競争の結果であるというものです。多くの場合、直感的な思考システムは意思決定において主導的な役割を果たしますが、深い思考と合理的な判断が求められる状況では、反省的な思考システムの役割がより重要になります。

AI2チームが提案するSwiftSageフレームワークは、人間の脳の思考の二重システムモデル理論に基づいており、模倣学習とLLM手法の利点を組み合わせて現実世界の複雑なデジタルタスクを解決し、大きな可能性と展望を示しています。

デュアルモジュール推論システム: 迅速な意思決定のための Swift + 慎重な検討のための Sage

SwiftSage は、Swift モジュールと Sage モジュールという 2 つの主要モジュールで構成されるフレームワークです。

Swift モジュールは、以前のアクション、現在の観察、訪問した場所、現在の環境状態などの短期記憶をエンコードし、次のアクションをデコードする、小さなエンコーダー/デコーダーベースの言語モデルです。このモジュールは、システム 1 の高速で直感的な思考特性をシミュレートします。その利点は、大量のオフラインデータから生まれます。模倣学習で動作クローン化方式を採用することで、Swift モジュールはターゲット環境の設定を完全に理解し、タスクの定義をより適切に把握できます。

Sage モジュールは、システム 2 の慎重な思考プロセスを表し、LLM (GPT-4 など) を活用してより適切な計画を立てます。 Sage モジュールは、計画とグラウンディングと呼ばれる 2 つの LLM プロンプトステージで構成されています。

計画フェーズの主な目標は、LLM が必要な項目を見つけられるようにガイドし、サブ目標を計画および追跡し、潜在的な異常やエラーを検出して修正することです。この目標は 5 つの主要な質問を通じて達成され、エージェントはゲーム中に異常をより鋭敏に検出し、自身の動作を修正する可能性が高くなります。

融合フェーズの主な目標は、計画フェーズの 5 つの質問に対する回答と詳細なアクションテンプレートを使用して、計画フェーズからの計画出力を、アクションバッファーと呼ばれる一連の実際的な実行可能なアクションに変換することです。これまでのアプローチとは異なり、Sage は次の即時のアクションだけでなく、長期的なアクション計画も生成します。 LLM は、サブゴール (計画フェーズで生成) とサポートされているアクションタイプを含むプロンプトを受信し、現在のサブゴールの達成を目的とした一連のアクションを生成できます (以前のアプローチのように一度に 1 つのアクションではなく)。このようにして、SwiftSage はアクション予測のコストをさらに削減します。

Swift モジュールと Sage モジュールを調整するために、研究者は、Sage モジュールをいつアクティブ化または非アクティブ化するか、また出力をアクションキャッシュメカニズムと効果的に組み合わせる方法を決定するためのヒューリスティックアルゴリズムを提案しました。エージェントは通常、デフォルトで Swift モジュールを使用します。 Swift モジュールが問題に遭遇した場合 (たとえば、下の図に示す 4 つの状況)、エージェントは代わりに Sage モジュールによって生成されたアクションキャッシュを実行します。

実験結果: 効率、性能、コストのあらゆる面で優れたパフォーマンス

ScienceWorld で 30 種類のタスクを包括的に評価した結果、SwiftSage は他の方法を大幅に上回り、平均スコア 84.7 というトップクラスを達成しました。比較すると、SayCan のスコアはわずか 33.8 で、ReAct は 36.4、Reflexion は 45.3 でした。

SwiftSage は独自のデュアルシステム設計により、LLM 推論の各アクションに必要なトークンの数を大幅に削減するため、単にプロンプト LLM 方式に依存する場合よりもコスト効率と効率の点で優れたパフォーマンスを発揮します。平均すると、アクションを生成するには、Saycan と ReAct では約 2,000 トークン、Reflexion では約 3,000 トークン、SwiftSage では約 750 トークンしか必要ありません。

さらに、SwiftSage は対話型タスクでもより効率的です。下の図に示すように、SwiftSage はより少ないアクションで同じスコアを達成することができました。

研究者たちは、優れたパフォーマンスを実証した後、人間の認知の二重プロセス理論からインスピレーションを得た SwiftSage の研究成果は、パフォーマンス、効率、コストの面で革新的で先進的であると考えています。この独自のフレームワークは、小規模言語モデルと模倣学習を組み合わせ、LLM (大規模言語モデル) の計画機能を補完するもので、複雑なインタラクティブな推論タスクを解決し、汎用人工知能を構築するための重要なステップとなります。 SwiftSage による画期的な進歩により、LLM の潜在能力を最大限に引き出し、複雑な現実世界の問題をより効果的に解決することに一歩近づきました。

結論

AI2 が提案した SwiftSage の結果は、小規模 LM (言語モデル) と LLM (大規模言語モデル) の共同フレームワークの大きな可能性を改めて実証しました。より小さな LM を活用してタスクおよび環境固有のパターンを認識することで、効率的な分布内一般化を実現します。同時に、LLM のゼロショット一般化能力と深い思考は大きな利点を示していますが、その出力を現実のシナリオに適用することは依然として困難です。研究者たちは、デュアルプロセスエージェントを採用し、両方の方法の利点を活用することが、複雑なインタラクティブな推論タスクを解決し、一般的なクロスドメインエージェントを構築する上で非常に重要であると考えています。さらに、SwiftSage などのモデルは、LLM をコントローラーまたはプランナーとして使用して複雑なタスクを分解し、API を呼び出すツールとして見ることもできます。

主要著者の紹介

Bill Yuchen Lin Bill Yuchen Lin (AI2) は現在、Allen Institute for AI (AI2) の研究者です。彼は上海交通大学のIEEEパイロットクラスで学士号（2018年）を取得し、南カリフォルニア大学で博士号（2022年）を取得しました。彼は、WWW 2020 Best Paper Runner-Up と TrustNLP Best Paper Award を受賞しました。彼はNLPとMLの分野でトップクラスのカンファレンスのレビュアーを何度も務め、エリアチェア（ACL2023）も務め、ワークショップやチュートリアルの企画にも何度も参加しています。彼の現在の研究対象は、大規模言語モデルの分析と強化、そして常識的な知識を活用して汎用的なインテリジェントエージェントを構築する方法にあります。

Yejin Choi (UW & AI2) はワシントン大学の教授であり、AI2 の Mosaic グループも率いています。彼女は、ACLフェロー、マッカーサーフェロー、2022年のNAACL最優秀論文賞、2022年のICML優秀論文賞、2021年のACL Test of Time賞、2021年のCVPR Longuet-Higgins賞（test of time賞）、2021年のNeurIPS優秀論文賞、2020年のAAAI優秀論文賞などの栄誉を受賞しています。

Xiang Ren (USC) は南カリフォルニア大学の准教授であり、INK リサーチラボを率いています。彼は、Forbes の Asia 30 Under 30、NAACL Outstanding Paper Award 2022、Google Research Scholar 2022、Facebook Sponsored Research Award 2021、NSF CAREER Award 2021 などの賞を受賞しています。

<<: IBMは信頼性の低い量子コンピューティングの問題を克服し、エラー軽減を使用して有用な計算を実現し、Natureの表紙を飾った。

>>: ルカンの弟子の超詳細なメモが公開され、メタワールドモデルが初公開！最初の「ヒューマノイド」モデルはどのようにして生まれたのでしょうか?