オープンソースの小規模モデルに基づく、GPT-4 を上回る 3 つのエージェント

オープンソースの小規模モデルに基づく、GPT-4 を上回る 3 つのエージェント

本当の「三人の靴屋は一人の諸葛亮より優れている」 -

オープンソースの小規模モデルに基づく 3 つのエージェントの連携は、GPT-4 のツール呼び出し効果に匹敵します。

では早速、2つのシステムの実行記録を見てみましょう。

ユーザーは、さまざまな音楽ジャンルやミュージシャンを探求したい音楽愛好家であると述べました。したがって、指定されたモデルは、Deezer および Shazam API を使用して、いくつかの音楽トラックと対応するアーティスト情報を検索します。

その後、3つの異なる役割を「演じる」エージェントが作業を分担し、協力して2ステップ以内にタスクを完了しました

より難しいオプションは、ツールを指定せずに、最も人気のある風景画のチュートリアルビデオと、ビデオがアップロードされたチャンネルの詳細をモデルに見つけてもらうことです。

この場合、モデルでは通常、ツールが棚から削除されたり、ツールに必要なパラメータの定義が変更されたりするなど、ツールのステータスの変更が発生します。

ただし、上記の方法を使用すると、モデルはステップ 0 で video_for_simple_youtube_search を使用してビデオの詳細を取得しようとしましたが、この API が壊れていて呼び出すことができないことがわかりました。

そこで、プランナー役のエージェントは考え方を変えて、発信者役のエージェントに別の API を試す必要があることを伝えます。最終的に、新しい API を試すことで詳細な情報を発見し、ユーザーのタスクを解決します。

これは、中山大学とアリババ同義研究所が共同で提案したオープンソースの小規模モデルに基づくマルチモデル協調エージェントフレームワークであるα-UMiです。

α-UMiは、複数のオープンソースの小さなモデルを微調整することで協調操作を実現し、ツール呼び出しなどのデータセットにおけるパフォーマンスはGPT-4に匹敵します。

一般的に、他のクローズドソース API フレームワークと比較して、α-UMi には次のような利点があります。

  • α-UMi マルチモデル共同フレームワークに基づいて、プランナー、呼び出し元、サマライザーの 3 つの小さなモデルが使用されます。これらはそれぞれ、パス計画、ツール呼び出し、サマリー応答を担当し、小さなモデルの作業負荷を軽減します。
  • 単一モデルのエージェントと比較して、より柔軟なプロンプト設計をサポートします。 ToolBench や ToolAlpaca コーパスなどの複数のベンチマークで単一モデルのエージェント フレームワークを上回り、GPT-4 に匹敵するパフォーマンスを実現します。
  • 「グローバル - ローカル」マルチステージ微調整パラダイム(GLPFT)が提案され、オープンソースの小さなモデルでマルチモデル共同フレームワークを正常にトレーニングしました。実験結果から、この 2 段階パラダイムが、現在検討されているマルチモデル共同エージェントのトレーニング パラダイムの中で最善であり、幅広く使用できることが示されました。

マルチモデルコラボレーションフレームワークα-UMiとはどのようなものですか?

現在、OpenAI コードインタープリター、AutoGPT などのプロジェクトなど、API、関数、コードインタープリターを呼び出す大規模モデルに基づくツール学習エージェントが、産業界と学界の両方で広く注目を集めています。

外部ツールのサポートにより、ビッグモデルはWebブラウジング、データ分析、アドレスナビゲーションなどのより複雑なタスクを独立して完了できます。そのため、AIエージェントはビッグモデルの実装の重要な方向性としても歓迎されています。

ただし、上記の主流プロジェクトの一部は、主にクローズドソースの ChatGPT および GPT-4 大規模モデルに基づいており、これらのモデルは推論、ステップ計画、通話要求の生成、要約返信機能においてすでに十分に強力です。

対照的に、モデル容量と事前トレーニング機能の制限により、単一のオープンソースの小さなモデルでは、推論と計画、ツールの呼び出し、応答の生成などのタスクにおいて、大規模なモデルに匹敵するパフォーマンスを同時に達成することはできません。

この問題を解決するために、研究者らはα-UMiを提案した。

α-UMi には、プランナー、呼び出し元、要約者の 3 つの小さなモデルが含まれています

プランナー モデルはシステムの中核となる頭脳であり、特定のエージェント実行ステップ内で発信者または要約者をアクティブ化し、対応する推論ガイダンスを提供する役割を担います。

呼び出し側と要約側は、プランナーからの指示を受けて、このステップの後続の作業を完了する責任があります。呼び出し側はツールの対話に関する指示を生成する責任があり、要約側は最終的な応答を要約してユーザーにフィードバックする責任があります。

これら 3 つのモデルは、オープンソースの小さなモデルに基づいてさまざまな種類のデータを微調整することによって実装されます。

さらに、研究者らは、グローバル・ローカル多段階微調整パラダイムである GLPFT を提案しました。

オープンソースの小さなモデルに基づくマルチモデルコラボレーションフレームワークを実装するのは簡単ではありません。相反する効果をもたらす 2 つの要因があります。

まず、根拠、アクション、最終回答を生成する 3 つのタスクは、トレーニング中に相互に促進し、同時にエージェント タスクに対するモデルの全体的な理解を強化できます。したがって、現在のほとんどの研究では、単一のモデルをトレーニングして、根拠、アクション、最終的な回答を同時に生成します。

第二に、モデル容量とさまざまなタスクのデータ比率も制限となり、1 つのモデルをトレーニングして同時に 3 つのタスクで最高のパフォーマンスを達成することが困難になります。

下図では、単一のモデルエージェントが各指標のピークに到達するのに必要なデータ量が異なります。すべての指標のピークに到達するデータ量とモデルチェックポイントを見つけるのは困難です。

この問題は、マルチモデルのコラボレーションによって解決できます。

研究者らは、上記の2点を考慮して、「グローバル-ローカル」多段階トレーニング法を提案しました。これは、トレーニングにおいて、論理的思考、行動、最終回答の利点を​​最大限に活用して相互を促進し、より優れた単一モデルの初期化を実現し、その後、マルチモデルの微調整を実行してサブタスクのパフォーマンスの向上に重点を置くことを目的としています。

上の図は、この多段階の微調整のプロセスを示しています。最初の段階では、事前トレーニング済みの LLM を使用してツール呼び出しエージェント タスクを微調整し、単一モデルのエージェント LLM 初期化を取得します。

次に、第 2 段階では、研究者らはツール呼び出しエージェント タスクのトレーニング データを再構築し、根拠の生成、ツール インタラクション アクションの生成、最終応答の生成という 3 つのサブタスクに分割しました。また、第 1 段階でトレーニングされたシングル LLM エージェント ベースを 3 回コピーし、さまざまなサブタスクでさらに微調整しました。

GPT-4に匹敵するパフォーマンス

静的評価

静的評価では、すべてのベースラインの出力をラベル付き出力と比較すると、次のことがわかります。

  • α-UMi システムのパフォーマンスは、ChatGPT やツール呼び出しオープンソースモデル ToolLLaMA を大幅に上回り、GPT-4 と同等のパフォーマンスでした。

注目すべきは、ToolLLaMA では満足のいく結果を得るために出力長 8192 が必要であるのに対し、 α-UMi ではマルチモデル フレームワークによってもたらされるより柔軟なプロンプト設計のおかげで、入力長 4096 しか必要としないことです

  • マルチモデル協調フレームワークモデルの微調整方式を比較すると、3 つのモデルを直接微調整したり、単一のモデルをマルチタスクで微調整したりしても、マルチモデル協調フレームワークを効果的にすることはできません。多段階の微調整 GLPFT を使用することによってのみ、最高のパフォーマンスを達成でき、その後のマルチモデル協調トレーニングのアイデアが生まれます。

実際のAPI呼び出しの評価

著者は、ToolBench データセットでの実際の API 呼び出し評価方法も紹介しました。実験結果は次のとおりです。

実際のAPI呼び出し実験の結果、α-UMiはChatGPTとToolLLaMAに勝ち、GPT-4に匹敵する成功率を達成しました。

モデルオーバーヘッド

これを見ると、マルチモデルのコラボレーションによってコストがさらに増加するのではないか、と疑問に思う人もいるかもしれません。著者は、トレーニング、推論、およびストレージの各段階におけるマルチモデルコラボレーションフレームワークのオーバーヘッドの比較も調査しました。

一般に、マルチモデル コラボレーション フレームワークでは、トレーニングとモデル パラメータの保存に高いオーバーヘッドが発生しますが、推論速度は単一モデル フレームワークと同等です。

もちろん、7B ベースを使用したマルチモデル協調エージェント フレームワークのパフォーマンスが 13B 単一モデル エージェントのパフォーマンスをはるかに上回ることを考慮すると、全体的なオーバーヘッドも少なくなります。つまり、小規模なモデルをベースとするマルチモデル協調エージェント フレームワークを選択してオーバーヘッドを削減し、大規模モデルを持つ単一モデル エージェント フレームワークを上回ることができます。

最後に、研究者らは、マルチエージェントコラボレーションがインテリジェントエージェント開発の将来のトレンドであり、オープンソースの小さなモデルのマルチエージェントコラボレーション機能をどのようにトレーニングして改善するかが、実際の実装における重要なリンクであると結論付けました。この記事は、オープンソースの小さなモデルに基づくマルチエージェントコラボレーションの新しいアイデアを切り開き、単一モデルエージェントのベースラインを超え、複数のツール呼び出しベンチマークでGPT-4に匹敵するツール呼び出し結果を達成しました。

今後は、プランナーの汎用化を強化して、より幅広いエージェントタスクのシナリオで使用できるようにし、呼び出し元モデルをローカルでプライベート化してローカルツール呼び出しタスクに集中できるようにするほか、大規模なクラウドモデルと小規模なローカルモデルを組み合わせた「ビッグスモール」モデル連携フレームワークも構築します。

<<:  Metaはギターロックとエレクトロニックミュージック向けの新しいオーディオ生成モデルMAGNeTをオープンソース化しました。これは自己回帰モデルよりも7倍高速です。

>>:  エンコーダー・デコーダーアーキテクチャを放棄し、エッジ検出に拡散モデルを使用する方が効果的です。国立国防科学技術大学はDiffusionEdgeを提案しました。

ブログ    
ブログ    
ブログ    

推薦する

企業がより持続可能な推論を通じてより環境に優しい AIGC を実現する方法

モデルとは何か一般人にとって、AIとそのプログラミングの基盤となるアルゴリズムが、これほど広範囲にわ...

世界で最も賢い人たちは AI についてどう考えているのでしょうか?彼らは13の主要な発展傾向を予測している

[[219763]]著者:ROSIEBROWN編纂者:彭祥偉、江宝尚、小玉ウォール・ストリート・ジャ...

人工直感は人工知能の次の発展方向となるだろう

AI はこれまでに開発された最も強力なテクノロジーの 1 つですが、すでに 4 回の進化を経ています...

トイレ掃除から純資産435億ドルへ!黄仁訓の成功の秘訣:時計を着けないこと

若者に向けて、Lao Huang 氏から 3 つの提案を紹介します。学ぶことをやめず、できる限り最善...

AIによるパスワードの盗難を防ぐ方法

翻訳者 | 陳俊レビュー | Chonglou現在、人工知能 (AI) アプリケーションの人気と急速...

AI+CRMの啓示:人工知能は、アプリケーションシナリオに実装された場合にのみ、大きな可能性を発揮できます。

[51CTO.comより] 両会期中の政府活動報告に人工知能が盛り込まれた。万鋼科学技術部長は、中...

AI人工知能の今後の発展方向と展望

人工知能 (AI) は、人間の知能をシミュレートし、学習、推論、認知、適応を通じて自律的にタスクを実...

...

人工知能とビッグデータが心理学の分野に参入

人工知能とビッグデータの時代の到来により、心理学の研究に新たな扉が開かれました。人工知能は心理学実験...

MITの科学者が数時間でロボットヒトデを作る新システムを設計

水中の海洋生物を研究する場合、動物たちにとって不自然に見えて怖がらせないような装置を使うと役に立つで...

ディープラーニングをすぐに始められる、やりがいのあるプロジェクト18選

AlphaGoとイ・セドルの戦いの後、ディープラーニング技術は国内で非常に人気が高まった。多くの技術...

AI 株神: 機械学習を使って株価を予測するには?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

MITが脳制御ロボットを開発:脳波を使ってロボットのエラーを修正できる

ロボットが人間のように行動するためには、人間を理解する必要があります。多くの場合、それは妥協しなけれ...

百度が銀川市で初のインテリジェントネットワーク試験ライセンスを獲得し、自動運転車が銀川市の公道でデビューした。

2020年銀川国際スマートシティ博覧会において、銀川市政府は百度に、同市初のインテリジェントコネク...

...