GPT-4/Gemini は惨敗、旅行ガイド作成の成功率は ≈ 0% です!復旦大学OSUと他の中国チーム：エージェントは複雑なタスクを計画できない

AI エージェントは現在、学界で注目の話題であり、多くの専門家によって大規模モデルの開発における次の方向性であると考えられています。

しかし、復旦大学、オハイオ州立大学、ペンシルベニア州立大学、Meta AI の研究者らは最近、AI エージェントの現実世界での計画能力がまだ不十分であることを発見しました。

彼らは、GPT-4 Turbo、Gemini Pro、Mixtral 8x7B などの包括的な評価を実施し、これらすべての大規模モデルエージェントが失敗したことを発見しました。最も優秀な成績を収めた人でも成功率はわずか 0.6% でした。

大規模モデルの計画機能とインテリジェントエージェントに関心のある研究者向けに、将来参加できる新しいリストが追加される予定です。（手動犬頭）

プロジェクトのホームページ: https://osu-nlp-group.github.io/TravelPlanner/

インテリジェントエージェントが現実世界で複雑な計画タスクを完了できる日はまだ遠いようです。

LLM エージェントは旅行を計画できますか?

計画は人間の知性の特徴と考えられており、次のようなさまざまな能力に基づいて構築された進化の成果です。

- さまざまなツールを繰り返し使用して情報を収集し、意思決定を行います。

- さらなる検討のために中間計画を作業メモリまたは物理デバイスに記録する。

- 世界モデルに依存して、シミュレーション実行を通じてさまざまな計画シナリオを検討します。

- 試行錯誤学習、事例に基づく推論、バックトラッキングなど、他の多くの能力も備えています。

研究者たちは長い間、AI エージェントに人間の計画能力を模倣させる研究を続けてきましたが、こうした試みは主に制約のある環境に限られていました。

これは、AI が人間レベルの計画を実現するために必要な認知基盤の多くをまだ備えていないためです。

人間が暮らすほぼ無制限の環境において、AI エージェントを安定して動作させることは、依然として達成不可能な目標です。

LLM エージェントの出現により、状況は変わり始めました。

これらの LLM 搭載言語エージェントは 2023 年に話題となり、2024 年には現実世界で広く使用されるようになると予測する人も多くいます。

なぜ？これは、初期の AI エージェントに欠けていた認知基盤が、LLM エージェントによって補完される可能性が高いためです。

彼らは、思考とコミュニケーションのツールとして言語を使用するという点で独特であり、ツールの使用や複数の形式の推論を含むさまざまな能力を発揮します。

これは人々に自信を与えずにはいられません。これまではインテリジェントエージェントが達成するのが困難だった複雑な計画タスクを、人々は完了できるのでしょうか?

この目的のために、研究者らは、私たちが日常生活で頻繁に遭遇するシナリオ、つまり旅行の計画に特に焦点を当てた、TravelPlanner と呼ばれる新しい計画ベンチマークを開発しました。

人間にとっても、この作業は困難で時間がかかります。しかし、適切なツールと十分な時間があれば、ほとんどのことは成功することができます。

クエリ要求を受信すると、言語エージェントのタスクは、さまざまな検索ツールを使用して必要な情報を収集することです。収集された情報に基づいて、これらのエージェントは計画を立てる必要があります。このソリューションは、クエリ内のユーザーのニーズを正確に満たすだけでなく、常識にも準拠し、つまり自明の基本原則と制約に従う必要があります。

優れた旅行プランを作成するのは簡単ではありません。プロの注釈者であっても、プランの注釈付けを完了するには平均 12 分かかります。

しかし、AI が作成した計画が適切かどうかを判断するのは私たちにとって依然として簡単です。

AI エージェントがこれを実現できれば、それが本当に価値のあるツールであることが証明されるでしょう。

賢いのに残念。

TravelPlanner は、約 400 万件のインターネットクロールデータを含む豊富なサンドボックス環境を提供し、6 つのツールを通じてアクセスできます。

さらに、研究者たちは、それぞれ異なる制約を持つ 1,225 個の異なるユーザークエリを慎重に準備しました。

では、現在の語学エージェントは旅行を計画できるのでしょうか?

結果は残念なものでした。まだです。

研究者らは、現在最も先進的な大規模言語モデル（GPT-4、Gemini、Mixtralなど）と計画戦略（ReAct、Reflexionなど）を総合的に評価しましたが、最高の成功率はわずか0.6％（1,000回の試行でわずか6回の成功）でした。

LLM エージェントは、タスクの焦点を維持したり、適切なツールを使用して情報を収集したり、複数の制約を同時に処理したりすることが困難です。

しかし、LLM エージェントがこのような複雑な問題の解決を試みることができるという事実自体が、大きな前進です。

TravelPlanner は、将来の LLM エージェントが複雑な環境で人間に近いレベルの計画機能を実現するのに役立つ、非常に有意義なテストプラットフォームになることも期待されています。

エージェントを計画するには？

LLM に質問する「2023 年 11 月 6 日から 10 日までシアトルからカリフォルニアに行きたいです。予算は 6,000 ドルです。宿泊施設はペット同伴可能で、家全体が必要です。」

LLM: さまざまな効果的なツールを通じて、困難を分析し、情報を収集するお手伝いをいたします。

LLM は要件を 2 つの側面に分類します。満たす必要のある特定のユーザー要件は次のとおりです。

1. シアトルから

2. 目的地はカリフォルニア

3. 予算: 6,000ドル

4.住宅要件：家全体

5. ペットに優しい家であること

常識的な要件には以下が含まれます。

1. リーズナブルな市内ルート

2. 豊富なレストラン

3. 豊富なランドスケープオプション

4. 衝突のないトラフィック

5. 滞在日数をできるだけ少なくする

まず、LLM は情報を入手するために必要なツールをいくつか使用しました。サンフランシスコ行きの適切なフライトがなかったのです。

その後、LLM は南カリフォルニアのロサンゼルス行きのフライトを探し、適切なものを選びました。

次に宿泊施設を見てください。一番安いところはペットを受け入れていませんが、それより少し高いところはペットに適しています。

途中でレストランや観光スポットを選んだ後、合計費用は 6,025 ドルでした。

予算をオーバーしていたため、より安くて早い便を選択しましたが、私の要件を完全に満たしていました。

TravelPlanner データセット

TravelPlanner は、LLM エージェントがツールを使用して複数の制約下で複雑な計画を実行する能力を評価するためにカスタマイズされたベンチマークです。

このベンチマークは、旅行計画の実際のシナリオに基づいており、ユーザーのニーズや環境の常識などのさまざまな制約をカバーしています。

TravelPlanner の目標は、さまざまなツールを使用して情報を収集し、これらの制約を満たしながら意思決定を行うことで、言語エージェントが合理的な旅行計画を立てられるかどうかをテストすることです。

研究者たちは、それぞれの質問に対して、言語エージェントが交通手段、毎日の食事、観光スポット、宿泊施設などを含む詳細なプランを計画できることを期待しています。

研究者は、実際のアプリケーションの状況を考慮して、環境制約、常識制約、ハード制約の 3 種類の制約を設計しました。

合計で 1,225 の異なるクエリがあり、さまざまな日数と厳しい制約を設定することで、複雑な計画の幅と深さの両方でエージェントのパフォーマンスをテストします。

ベンチマークは、トレーニングセット、検証セット、テストセットの 3 つの部分に分かれています。

- トレーニングセットには、5 つのクエリとそれに対応する手動で注釈が付けられたプラン (合計 45 個のクエリプランペア) が含まれています。

- 検証セットはグループごとに 20 個のクエリで構成され、合計 180 個のクエリになります。

- テストセットは、ランダムに分散された 1,000 個のクエリで構成されます。

制約

エージェントがさまざまな制約を識別、理解、満たして実行可能な計画を策定できるかどうかを判断するために、研究者は TravelPlanner に 3 種類の制約を設定しました。

- 環境の制約: 現実世界は常に変化するため、エージェントは高度な適応性を備えている必要があります。

目的地によっては、特定の時間にフライトが見つからない場合があります (たとえば、下の写真のシアトルからサンフランシスコへのフライトは予約できません)。これは、チケットが売り切れていることが原因である場合がよくあります。

このような状況に直面した場合、エージェントは別の目的地を選択したり、移動手段を変更したりするなど、柔軟に対応できる必要があります。

- 常識的制約: 人間の生活に密接に関係するエージェントは、計画を設計する際に常識を考慮する必要があります。

たとえば、同じ観光スポットを複数回訪れることは通常現実的ではありません。

この制約は、エージェントが計画時に常識を適切に使用できるかどうかをテストするために導入されます。

- ハード制約: インテリジェントエージェントがユーザーの個別のニーズに基づいて計画を立てられるかどうかは、その重要な機能の 1 つです。

そのため、TravelPlanner には、ハード制約とも言える予算制約などのさまざまなユーザー要件が組み込まれています。

ハード制約を通じて、さまざまなユーザーのニーズを満たすエージェントの適応性を評価できます。

TravelPlanner を構築する手順には、1) 評価環境の設定、2) 多様な旅行クエリの設計、3) 参照プランの注釈付け、4) 品質チェックの実施が含まれます。

多様なクエリを生成するために、研究者は出発地、目的地、特定の日付範囲などの要素をランダムに選択して組み合わせ、各クエリの基本的なフレームワークを形成しました。

次に、旅行の期間を調整し、さまざまな数のハード条件を設定することで、クエリの複雑さを高めます。

旅行期間は 3 日間、5 日間、または 7 日間で、プランに含まれる都市の数に直接影響します。

たとえば、3 日間の旅程では 1 つの都市の探索に重点が置かれますが、5 日間と 7 日間の旅程では、ランダムに選択された州にある 2 つの都市と 3 つの都市をそれぞれ訪問します。

日数が増えるにつれて、言語エージェントはツールをより頻繁に使用する必要があり、計画の難しさが増すだけでなく、エージェントは長期計画の複雑さに対処する必要もあります。

目的地が不確かな場合、エージェントは都市間の交通接続などの要素を考慮しながら、複数の都市の訪問計画を決定する必要があります。

さらに、研究者らは、クエリの複雑さと信頼性をさらに高めるために、さまざまなユーザー要件を厳しい条件として導入しました。難易度は 3 つのカテゴリに分かれています。

- シンプル:このレベルのクエリは主に 1 人の予算制約を考慮し、各クエリの開始予算は慎重に設計された一連のヒューリスティックルールに従って決定されます。

- 中:中難易度のクエリでは、予算制約に加えて、料理の好み、部屋タイプの選択、宿泊規則など、制約プールからランダムに選択された追加の厳しい条件が追加されます。

また、参加者数が 2 人から 8 人に増えると、交通費や宿泊費の計算もそれに応じて変わります。

- 困難:中程度の難易度レベルのすべての条件に加えて、困難レベルのクエリでは、新しい制約としてトラフィックの優先順位も追加されます。

各ハードクエリには、制約プールからランダムに選択された 3 つのハード条件が含まれます。

このアプローチにより、クエリの多様性と複雑さが保証されます。小さな変更でも、旅行計画に大きな違いをもたらす可能性があります。

最後に、研究者はこれらの要素に基づいて、GPT-4 を使用して自然言語でクエリを生成しました。

結果分析

ツールの誤った使用

表 3 に示すように、GPT-4-Turbo テクノロジに依存するインテリジェントエージェントであっても、情報収集のプロセスでミスを犯し、成功する計画を立てることができません。

この問題は、Gemini Pro と Mixtral では特に深刻です。

その理由は何でしょうか?

研究者はすべてのエラーの種類を図 2 に分類しました。次のことがわかります。

1. エージェントはツールを使用する際にミスを犯します。

GPT-4-Turbo を除いて、他の LLM ベースのエージェントはすべて、パラメータの使用に関してさまざまな程度のエラーを起こしました。

これは、単にツールを使用するだけでも、インテリジェントエージェントにとって大きな課題であることを示しています。

2. エージェントが無効なループに陥っています。

GPT-4-Turbo でも、無効な操作と繰り返し操作のループが、それぞれ全体のエラーの 37.3% と 6.0% を占めました。

エージェントは、自分の行動が効果的でない、または何の結果も生み出していないというフィードバックを受け取っても、その行動を繰り返し続けます。

これは、エージェントが環境からのフィードバックに基づいて計画を動的に調整できないことを示唆しています。

計画エラー

研究者らは、表 4 でさまざまな制約の合格率を詳細に分析し、いくつかの興味深い現象を発見しました。エージェントのパフォーマンスは、ハード制約の数によって大きく左右されるということです。

タスクの難易度に関係なく、エージェントの合格率は通常 10% を超えず、制約が増加するとパフォーマンスはさらに低下します。

これは、現在のエージェントが複数の制約のあるタスクの処理に課題を抱えていることを示しており、これが TravelPlanner の中心的な難しさです。

効果的な計画を立てるには、包括的な情報収集が不可欠です。

段階的計画モードと比較して、単一段階計画モードではエージェントのパフォーマンスが向上します。

表 5 のデータは、段階的モデルでは、エージェントがツールを基準計画よりも大幅に効率よく使用していないことを示しています。

これは、エージェントが包括的な情報収集を完了できないことが多いことを意味します。エージェントは情報を捏造したり、重要な詳細を省略したりすることがあり、「サンドボックス環境でのテスト」と「情報の完全性」という 2 つの制約の下で合格率が低くなります。

さらに、このギャップは移動時間が長くなるにつれて顕著になり、エージェントが長期計画タスクを処理する能力を向上させる緊急性が浮き彫りになります。

インテリジェントエージェントは、全体的な戦略を考慮する必要がある計画タスクの処理において、特に「最短滞在」や「予算」などのグローバル制約がタスクに関係する場合、大きな課題に直面します。

これらの制約により、エージェントは現在の選択を慎重に検討するだけでなく、これらの選択が将来に及ぼす可能性のある影響を予測できることも必要になります。

しかし、現在の LLM は自己回帰的な性質のため、複数の将来のシナリオを同時に検討することが難しく、計画能力が大きく制限されています。

したがって、バックトラッキング技術を使用してすでに行われた決定を調整したり、より先を見据えた計画を立てるためにヒューリスティックな方法を採用してインテリジェントエージェントのパフォーマンスを向上させるなど、新しい戦略を開発することが急務となっています。

ケーススタディ

図 3 のいくつかの失敗事例を分析すると、現在のインテリジェントエージェントのいくつかの重要な問題がわかります。

まず、エージェントは永続的なエラーを修正できないため、計画を立てる際に失敗することがよくあります。

特にツールの使用シナリオでは、前の手順が計画どおりに正しく実行されたとしても、日付の入力ミスなどの小さなミスにより、エージェントが計画を正常に完了できないことがよくありました。

これは、図 3 の左側に明確に示されています。操作が正しい場合でも、エージェントは間違った日付を繰り返し使用するため、2022 年のデータに基づく TravelPlanner サンドボックスは空の結果を返すことになり、最終的にエージェントは計画を断念することになります。

これにより、重要な制限が明らかになります。つまり、現在のエージェントは、当初の誤った仮定を自己修正することができません。

第二に、エージェントは情報を処理する際に混乱する傾向があり、非現実的な応答を返すことになります。

詳細な分析により、エージェントが個別の計画モードで十分な情報を持っている場合でも、異なる情報を混同することがわかります。

図 3 の中央部分は、エージェントが誤って往復便に同じ便名を割り当てたことを示しています。このエラーにより、プラン内の情報がサンドボックスデータと一致しなくなり、いわゆる「幻覚」が発生しました。

これは、インテリジェントエージェントが大量の情報に直面すると、「途中で迷子になる」可能性があることを示唆しています。

最後に、エージェントは自分の行動を自分の推論ロジックと一致させることが困難です。

Reflexion の事例を研究すると、エージェントはコスト削減の必要性を認識しながらも、より高価なオプションを含むアイテムをランダムに選択する傾向があることがわかります。

図 3 の右側の部分は、エージェントの思考と行動の不一致を明確に示しています。この不一致は、エージェントが分析的推論と実際の行動を同期させることが困難であり、タスク完了率に重大な影響を与えていることを示しています。

GPT-4 ターボ+リアクト

この場合、計画された旅行は閉じたループを形成せず、3日目にツーソンで終了しました。

さらに、旅程にはツーソンへの立ち寄りが含まれていたにもかかわらず、代理店は当日の夕食や宿泊の手配をしていませんでした。

以下のケースでは、言語エージェントが日付について間違いを繰り返し、飛行機での旅行についてあまりにも独断的だったため、効果的な情報検索を放棄してしまいました。

さらに、架空のフライト番号「F1234567」などの詳細も捏造した。これは、エージェントが正確なデータにアクセスできない場合に虚偽の情報を捏造する傾向があることを示唆しています。

GPT-4-Turbo + ダイレクトプランニング

以下のケースでは、言語エージェントは 1 日目の昼食と 2 日目の朝食に同じレストランを選択しますが、これは直感に反する選択のように思えます。

この場合、エージェントは完全に成功しました。

著者について

ジアン・シェ

共同筆頭著者のJian Xie氏は復旦大学のコンピューターサイエンスの修士課程の学生です。メンターは復旦大学ナレッジファクトリー研究所の Xiao Yanghua 教授とオハイオ州立大学の Su Yu 教授です。

彼の研究は自然言語処理の分野に焦点を当てており、特に現在は検索拡張生成 (RAG) と言語エージェントに焦点を当てています。最近の研究では、RAG シナリオにおける LLM の知識バイアスと、言語エージェントのツール強化計画機能が調査されています。

張凱

共同筆頭著者のKai Zhang氏はオハイオ州立大学の博士課程の学生であり、指導教官はSu Yu教授です。彼は Google DeepMind のパートタイムの学生研究員でもあります。

彼は自然言語処理とその現実世界での応用に興味を持っています。最近、私は知識とマルチモダリティの観点から LLM を探求することに重点を置いています。

最近特に興味深い研究プロジェクトは、「大規模言語モデルにおける知識の競合」です。これは、特にこの情報がパラメータメモリと競合する場合に、LLM が外部情報 (Bing の新しいバージョンやインターネット対応の ChatGPT など) を効果的に活用できるかどうかを調べるものです。

<<:

>>:

マイクロソフト、NvidiaとIntelに対抗する2つのカスタムAIチップをリリース

GPT-4/Gemini は惨敗、旅行ガイド作成の成功率は ≈ 0% です!復旦大学OSUと他の中国チーム：エージェントは複雑なタスクを計画できない

LLM エージェントは旅行を計画できますか?

賢いのに残念。

エージェントを計画するには？

TravelPlanner データセット

制約

結果分析

ツールの誤った使用

その理由は何でしょうか?

計画エラー

ケーススタディ

GPT-4 ターボ+リアクト

GPT-4-Turbo + ダイレクトプランニング

著者について

ジアン・シェ

張凱

マイクロソフト、NvidiaとIntelに対抗する2つのカスタムAIチップをリリース

AWS でディープラーニングを使用するための 10 個の Linux コマンド

ネイチャー、サイエンス、セルが参加し、80の学術機関がCOVID-19研究を無料で提供する

合成データのみでリアルな顔解析が可能！マイクロソフトの新しい研究は、手動ラベル付けに別れを告げる

小売業界におけるRPA活用事例11選

GTA6のトレーラーは1億回以上再生されており、3人のAI巨人も数秒でGTAギャングに変身できる

可視性プラットフォームがセキュリティオペレーションセンター (SOC) にとって重要な理由は何ですか?

推薦する

「インターネット情報サービスアルゴリズム推奨管理規則」が公布され、3月1日に発効される。

市場規模は100億を超え、マシンビジョンはブルーオーシャンの傾向を示す

GPU の在庫は 600,000 に達します!ザッカーバーグ氏、新たな目標を確認：汎用人工知能の創出

スマートコックピット、進行中のインタラクティブ革命

人工知能が物流業界に革命を起こす5つの方法

人工知能によるサイバーセキュリティ防御の強化

百度CEOロビン・リー：AI時代のオープン性が技術の進歩を推進

人工知能の分野でデータの機密性をどのように保護するか?

無料の Python 機械学習コース 1: 線形回帰アルゴリズム

脳も学習を強化しています！「価値判断」は脳によって効率的にコード化され、ニューロンに公開される

AIは私たちが何を見て、何を考えるかを静かにコントロールしている