オープンソース版「ChatGPT Plus」が登場。データ分析、プラグイン通話、自動インターネットアクセス、現実世界のインテリジェントエージェントの実装が可能

OpenAI ChatGPT Plus サブスクリプション支払いには強力な機能があり、高度な「データ分析」、「プラグイン呼び出し」、「自動 Web ブラウジング」(Bing でブラウズ) を実現でき、日常生活における重要な生産性ツールとして機能します。しかし、商業上の理由から、これはクローズドソースであり、研究者や開発者はこれを使用することしかできず、研究や改良を行うことはできません。

これを基に、香港大学、XLang Lab、Sea AI Lab、Salesforce の研究者が共同で、実世界の生産性向上ツール向けのオープンソースインテリジェントエージェントフレームワークである OpenAgents を作成し、研究者から開発者、ユーザーまで、あらゆる人々のニーズを満たすフルスタックコード (完全なフロントエンドとバックエンド、研究コード) をオープンソース化しました。

OpenAgents は、「大規模言語モデル」(LLM) とフルスタックエンジニアリングコードに基づくテクノロジーを使用して、ChatGPT Plus の機能を再現しようとします。インテリジェントエージェントは、Python/SQLコードの実行、ツールの巧みな呼び出し、地図の検索、インターネットへの投稿など、コードの調査からバックエンド、フロントエンドまですべてに対応しており、誰でも使用できるランディングレベルのアプリケーションとなっています。 OpenAgents は、使用したテクノロジーと遭遇した困難を完全に開示し、科学的研究からロジックコード、フロントエンドコードに至るまで、すべてのコードを完全にオープンソース化しました。コードは完全で拡張が容易であり、ワンクリックでローカルに展開できます。また、研究者や開発者がモデルに基づいて独自のインテリジェントエージェントやアプリケーションを構築できるように、豊富なユースケースを含むドキュメントも提供されます。

ユーザー向けの Web インターフェイス、開発者向けのローカル展開、研究者向けの言語エージェントを備えた OpenAgents の概要。

コードリンク: https://github.com/xlang-ai/OpenAgents
論文リンク: https://arxiv.org/abs/2310.10634
デモリンク: https://chat.xlang.ai/
ドキュメントリンク: https://docs.xlang.ai/

ChatGPT Plusとの類似点と相違点

左側は OpenAgents の実装、右側は ChatGPT Plus です。

まずは「データ分析」機能を見てみましょう。株価を分析するという同じタスクの場合、OpenAgents と ChatGPT はどちらも、株価と取引に関するユーザーの分析要件を満たすことができます。ただし、OpenAgents は Kaggle データセットを自動的に検索してダウンロードできますが、ChatGPT ではユーザーがローカルにアップロードする必要があります。

OpenAI が初めて導入した「プラグイン」機能を試してみましょう。ユーザーは八面体を描きたいと考え、両方とも Wolfram プラグインを呼び出してさまざまな八面体の図を描画することに成功しました。

最後に、「Webブラウジング」について見てみましょう。ユーザーは、10月20日の香港発ニューヨーク行きのフライトを調べたいとします。OpenAgentsはユーザーの意図を認識すると、直接Skycannerにジャンプし、ユーザーは「実際の人」のように考えながらWebサイトで情報を入力し、最後にチャットページに戻って情報をまとめます。ChatGPTはセキュリティ上の理由から制御性を確保しています。プラグインを呼び出すのと同様に、クラウドでWebを閲覧し、最後に検索した情報を返します。

OpenAgents はオープンソースコードを提供するため、開発者や研究者は数行のコードでカスタマイズして、必要なモデルを適応させたり、必要な機能を改善および作成したり、新しいエージェントを作成したりすることもできます。これは、この方向へのさらなる発展と研究にとって非常に重要です。

単純なことのように思えますが、「生産的な」インテリジェントエージェントがこれほど多くの罠に陥るのはなぜでしょうか?

インテリジェントエージェント用のオープンソースフレームワークは数多く存在し、大規模なモデルに基づくミドルウェアが次々と登場しています。本当に便利で使いやすいインテリジェントエージェントを構築するのはなぜ容易ではないのでしょうか。OpenAgents は論文の中で、他のインテリジェントエージェントフレームワークと比較しています。

OpenAgents を他のフレームワークと比較します。

表からわかるように、「インターフェース」と「環境」は OpenAgents をユニークにする 2 つの要素です。 LangChain、AutoGPT、BabyAGI などの既存のオープンソースフレームワークは、開発者に初期の概念実証実装とコンソールインターフェイスを提供するように設計されていますが、実際の使用には十分な堅牢性がなく、より広いユーザー層、特にプログラミングやコンソールに慣れていない一般ユーザーへのアクセスが制限されます。クローズドソースシステムでは、OpenAI は ChatGPT Plus に、特に高度なデータ分析 (旧コードインタープリター)、プラグイン、Bing ブラウジングなどの適切に設計された製品を展開し、さらにトレーニングされたモデル、ビジネスロジックコード、培われたソフトウェアコミュニティ (プラグインストアなど) を活用しました。しかし、クローズドソースであるため、開発および研究プラットフォームとして使用することが難しく、コミュニティは巨人の肩の上に立って調査、評価、改善を行うことができません。 OpenAgents は、これらの側面に焦点を当てた後、実際のシナリオ向けのオープンソースエージェントフレームワークとして、コミュニティに ChatGPT Plus と競合するプラットフォームを提供します。

「インターフェース」の点では、OpenAgents はオンライン Web デモ (およびサポートするオープンソースコード) を提供しているため、プログラミングの経験がない一般ユーザーでも簡単にインテリジェントエージェントと対話できます。以前の作品では通常、この機能が提供されていなかったり、「コンソールコマンドインターフェース」(CLI) の形式で対話が提供されていたりしたため、インテリジェントエージェントを使用するハードルが大幅に高くなっていました。「サポート環境」の面では、OpenAgents は現実世界の環境と制御可能な環境をサポートし、200 を超える日常的なツールの呼び出しをサポートし、Web ページの自動閲覧をサポートします。

これらの機能の焦点と構成により、OpenAgents は一般ユーザーにとって最もアクセスしやすい選択肢となり、研究者や開発者などにも可能な限り最高のユーザー直接の機会を提供します。

生産性の未来への第一歩となるエージェント:「ユーザー」「開発者」「研究者」が利用できるエージェントプラットフォーム

上記の問題に対処するために、OpenAgents は、エージェントの使用と展開のためのオープンソースプラットフォームを提供するというアイデアに基づいており、現在、次の 3 つの主要エージェントが含まれています。

Python および SQL 用のデータエージェント。
200 を超えるツールで使用されるプラグインエージェント。
自動 Web ブラウジング用の Web エージェント。

OpenAgents は、大規模言語モデルがその潜在能力を最大限に発揮するには、純粋に理論的な、または開発者向けのツールから、幅広いユーザーベースが利用できる動的でインタラクティブなシステムへと移行する必要があると考えています。一般ユーザーは、コーディングの専門知識を必要とせずに、オンライン Web UI を通じてエージェントの機能を簡単に調べることができます。さらに、OpenAgents は「開発者」に完全なビジネスロジックと研究コードを提供し、ローカル展開を容易にし、「研究者」はさらに言語エージェントを構築できます。最後に、OpenAgents は現実的で包括的な人間対話型エージェント評価プラットフォームを目指しています。実際のユーザーはエージェントと対話して実際のニーズに応じてタスクを完了し、ユーザーとエージェントの対話プロセス全体とユーザーからのフィードバックが記録されて、さらに評価されます。既存のベンチマークやプラットフォームと比較して、OpenAgents はエージェントがさまざまな実際のユーザーのニーズを満たすことができる現実的な環境を提供します。

直面した課題と克服

課題1: プロンプトに基づいて現実世界の言語モデルを構築することの欠点

実際のユーザー向けにプロンプトベースのアプリケーションを構築する場合は、プロンプトの指示に従って特定の要件を設定します。これらの命令にはさまざまな目的があります。大規模言語モデルの出力がバックエンドロジック処理の特定の形式に準拠していることを保証するもの（特定のキーを持つ辞書の形式で出力）や、出力の美しさを向上させるもの（項目を可能な限り個別にリストする）や、潜在的な攻撃を防ぐために使用されるもの（ユーザーが悪意を持って作成した無限ループプログラムを拒否して実行する）などがあります。

言語モデルに対するこれらの制約により、開発者や研究者は、使用可能な命令を繰り返しデバッグする必要があります。これらの命令は通常、数百の「トークン」または数千のトークンにまで増加します。これらの命令はプレフィックスとしてモデルに繰り返し入力されるため、グラフィックカードリソースが大量に消費されます。一方、トークンの数が増えるほど、優れたパフォーマンスを得るために LLM への依存度が高まります。したがって、この技術的な方法では、大規模な言語モデルの命令追跡機能とサポートされるコンテキストの長さに一定の要件が課せられます。

現在のオープンソースモデルはこれらの面で大幅な改善が図られていますが、実験での実用化にはまだ不十分であり、この方向の研究は継続される可能性があります。さらに、インテリジェントエージェントモデルの基礎的な開発と研究、および特定のドメインと要件専用のインテリジェントエージェントモデルのトレーニングにも、より多くの注意を払う必要があります。このアプローチは、一般的で強力だが固定されたモデルへの手がかりだけに頼るよりも、より効率的で制御可能である可能性があります。

課題2: 制御できない現実

現実世界の言語インテリジェンスを実現するには、ユーザーの行動、インターネットインフラストラクチャ、ビジネスロジックなど、これまでの研究では十分にモデル化されていない多くの制御不能な現実世界の要因に対処する必要があります。これには、過去の研究で使用された多くの仮定や方法を再評価し、さらには覆すことが必要になります。考慮しなければならないのは、API が呼び出されるサーバーがクラッシュする可能性があることです。この状況では、過去のツール使用研究で想定されていたよりも、ユーザーコマンドの監視と安定した完了が必要になります。応答を生成するプロセス中にユーザーが不満を抱く可能性があり、その結果、生成プロセス中に言語モデルが中断される可能性があります。

さらに、CAPTCHA ポップアップや Web ページを変更する広告などの予測不可能なイベントにより、Web ページの比較的安定した構造に、自動化された Web ブラウジングに関するこれまでの研究では考慮されていなかった程度のランダム性が生じる可能性があります。エージェントが反応して考える時間（今では数秒かかることが多い）内に環境が変化するなど、このような問題は他にもたくさんあります。

課題3: 現実世界のシナリオからの追加指標

特定の研究では、通常、パフォーマンス指標が過度に強調され、現実世界のシナリオにおける基本的なニーズが無視されます。たとえば、ストリーミング (つまり、生成された各単語をできるだけ早くユーザーに表示する) を使用すると、ユーザーは長いテキストが生成されるまで待たずにシステムのフィードバックをすぐに認識でき、すべてを一度で確認できます。特別に設計されたプロンプトにより、エージェントの応答形式がより美しくなり、ユーザーエクスペリエンスに大きな影響を与えます。しかし、既存の方法ではこれらの影響が十分に考慮されていません。その結果、精度の面では優れたパフォーマンス指標であるにもかかわらず、実際のアプリケーションでは、応答時間が長くなったり、テキストの読みにくさなどの問題が発生し、ユーザーエクスペリエンスが低下する可能性があります。その後の研究では、パフォーマンスとユーザーエクスペリエンスのトレードオフをさらに考慮する必要があります。

課題4: システム上の問題による評価の複雑さ

アプリケーションを直接対象とするエージェントを構築すると、より多くのユーザーのニーズに対応できると同時に、より多くの評価の課題も明らかになります。ただし、LLM に基づいてアプリケーションを構築すると複雑さが増し、障害の原因が LLM アプリケーションの制限によるものか、ロジックコードの欠陥によるものかを判断することが難しくなります。たとえば、ユーザーがインターフェイスからファイルを直接ドラッグアンドドロップできず、目的の操作が完了しないという理由でエージェントが無能であると判断するのは不合理です。したがって、エージェントの設計と操作ロジックのシステムを改善し、エージェントのプロセスとユーザーの使用ロジックを簡素化するか、より完全な設計と実装ロジックを構築することが有望であり、必要です。

今後の展望

OpenAgents は、さらなる研究開発を通じてコミュニティにどのように貢献できるでしょうか?彼らの構想には少なくとも以下の点があります。

今後の課題1: よりインテリジェントなアプリケーションを構築する

OpenAgents は、完全なアプリケーションレベルの言語エージェント開発プロセスと必要なテクノロジを提供し、コードを公開します。これにより、他の革新的なアプリケーションやエンドユーザーの可能性が広がります。開発者は、これに基づいて、マルチモーダル会話、音声会話、ライブラリレベルのコードアシスタントなど、必要な新しいアプリケーションを開発できます。

今後の課題 2: ツールとコンポーネントの統合

OpenAgents は、実用的なレベルのインテリジェントエージェントアプリケーションを構築するための基本的なニーズを調査して解決することに専念しており、他のコンポーネントを統合することでコミュニティが簡単に水平方向に拡張できる強力な基盤を提供します。同時に、最近の大規模マルチモーダルモデルなど、より基本的なモデルを拡張し、新しい UI デザインに適応させることもできます。

今後の課題3：人間とコンピュータのインタラクション分野の研究

開発者や研究者は、OpenAgents プラットフォームに基づく大規模な言語モデルに基づいて、新しいインテリジェントエージェントアプリケーションを簡単に構築できます。したがって、OpenAgents は、ヒューマンコンピュータインタラクション (HCI) 研究者がより直感的でユーザーフレンドリーなインターフェイスの設計を深く探求するためのアプリケーションデモの構築に役立ちます。これにより、ユーザーのエンゲージメントと満足度が向上します。

今後の課題4: 適応型ユーザーインターフェース生成

ユーザーインターフェイスの自動作成は、興味深く、かつ挑戦的な分野です。これらのインターフェースは、ユーザーのデバイス、設定、コンテキストなどの特定の基準に基づいて調整またはカスタマイズできます。研究者は、OpenAgents に基づく適応型 UI に大規模な言語モデルを適用する方法と、それがユーザーエクスペリエンスに与える影響をさらに研究できます。

今後の課題5: 実用的アプリケーションシナリオにおける大規模言語モデルの評価

大規模言語モデルの機能とパフォーマンスを公平に評価するには、大規模言語モデルに対する公平かつ堅牢な評価方法を確立することが重要です。現在、エージェントは事前に収集されたデータと制御された環境を使用してベンチマークされています。これらの評価は重要ですが、現実世界の動的な課題を完全に反映していないことがよくあります。コミュニティには、これらの評価指標とプラットフォームを拡張または改善することが奨励されており、これによりこの分野は大きく進歩し、大規模言語モデルの実際のパフォーマンスと機能に関するより正確な評価と洞察が提供されます。

<<: Apple の「マトリョーシカ」拡散モデルはトレーニングステップ数を 70% 削減します。

>>: ベンジオ、ヒントン、張亜琴らAI界の巨人たちが新たな共同書簡を発表！ AIは危険すぎるので、再配置する必要がある