大規模モデルは16,000以上の実世界のAPIを習得しており、清華大学などのToolLLMのツール使用能力はChatGPTに劣らない。

大規模モデルは16,000以上の実世界のAPIを習得しており、清華大学などのToolLLMのツール使用能力はChatGPTに劣らない。

ご存知のとおり、オープンソースの大規模言語モデル (LLM) とその派生モデル (LLaMA や Vicuna など) は、さまざまなタスクで大きな進歩を遂げてきました。

しかし、LLM は強力であるにもかかわらず、人間の指示に従って LLM に外部ツール (API) を使用させるなど、より高度なタスクを実行するには依然として限界があり、これは多くのオープンソース LLM では困難です。

その理由は、現在の LLM 命令チューニング技術は主に基本的な言語タスクに焦点を当てており、ツールの使用法の調査が不足しているためです。これは、優れたツール機能を実証している ChatGPT などの最先端のクローズドソース モデルとはまったく対照的です。

オープンソースLLMが外部ツールをより有効に活用できるようにするために、清華大学、人民大学、エール大学、テンセント、知乎などの研究機関の研究者が共同で論文を執筆し、データ構築、モデルトレーニング、評価などの複数の機能を備えた汎用ツール利用フレームワークToolLLMを紹介しました。

この調査では、RapidAPI Hub から 49 のカテゴリにわたる 16,464 個の実際の RESTful API が収集されたことは特筆に値します。

この研究では、ToolBench(命令チューニングデータセット)上でLLaMAを微調整してToolLLaMAを取得しました。 ToolEval (自動評価ツール) による評価では、ToolLLaMA は複雑な命令を実行し、未知の API に一般化する優れた能力を発揮し、ツールの使用に関しては ChatGPT と同等のパフォーマンスを発揮することが示されています。

  • 論文アドレス: https://arxiv.org/pdf/2307.16789.pdf
  • プロジェクトアドレス: https://github.com/OpenBMB/ToolBench

方法の紹介

この論文ではまず、ChatGPT によって自動的に作成される、ツールの使用に関する命令チューニング データセットである ToolBench を紹介します。具体的には、研究チームは RapidAPI Hub から 49 のカテゴリをカバーする 16,464 個の実際の RESTful API を収集し、ChatGPT にこれらの API に関する多様な人間の指示を生成させ、単一ツールと複数ツールの両方のシナリオをカバーしました。最後に、ChatGPT を使用して、各命令の有効なソリューション パス (API 呼び出しのシーケンス) を検索しました。検索プロセスをより効率的にするために、研究者らは、LLM が複数の推論経路を評価して検索空間を拡張できるようにする、新しい深さ優先検索ベースの決定木 (DFSDT) を開発しました。

データセットに関して。図 1 に示すように、研究者はまず、ToolBench でいくつかの高品質な命令チューニング データセットを収集しました。このデータセットは、最新の ChatGPT (gpt-3.5-turbo-16k) を使用して自動的に構築されます。

具体的には、ToolBench の構築には、API 収集、命令生成、ソリューション パス注釈の 3 つの段階が含まれます。

API コレクション

研究チームは、RapidAPI から 16,464 個の REST (表現状態転送) API を収集しました。これらの API は、ソーシャル メディア、電子商取引、天気など 49 の異なるカテゴリをカバーしています。研究チームは、各 API について、機能の説明、必要なパラメータ、API 呼び出しのコード スニペットなどを含む詳細な API ドキュメントを RapidAPI からクロールしました。彼らは、LLM がこれらのドキュメントを理解することで API の使い方を学習し、トレーニング中に見られなかった API にモデルを一般化できるようになることを期待しています。

注: RapidAPI は、開発者を何千もの実際の API に結び付ける主要な API マーケットプレイスです。このプラットフォームでは、開発者は RapidAPI キーを登録するだけで、さまざまな API を検出、テスト、接続できます。

RapidAPI の階層構造 (左) と命令生成プロセス (右) を下図に示します。研究者は、ツールごとに、ツールの名前と説明、ホストの URL、ツールに属する利用可能なすべての API などの情報をクロールしました。また、API ごとに、名前、説明、HTTP メソッド、必須パラメータ、オプション パラメータ、実行可能な API 呼び出しコード スニペットなどを記録しました。

このプロセスでは、API フィルタリングも必要です。当初、調査では RapidAPI から 10,853 個のツール (53,190 個の API) を収集しました。ただし、これらの API の品質と信頼性は大きく異なる可能性があります。この目的のために、彼らは厳格な審査プロセスを経て、ToolBench の最終的なツール セットが信頼性が高く機能的であることを確認しました。最終的に、3451 個の高品質ツール (16464 個の API) のみが保持されました。

命令生成

研究チームはまず、プログラムセット全体から API サンプルを抽出し、次に ChatGPT にこれらの API のさまざまな命令を生成させました。現実的なシナリオをカバーするために、単一ツールと複数ツールの両方のシナリオを含む指示をキュレートしました。これにより、モデルは個々のツールを操作する方法だけでなく、それらを組み合わせて複雑なタスクを完了する方法も学習できるようになりました。

高品質の指示を生成するには、多様性と複数のツールの使用という 2 つの重要な特性が必要です。これにより、LLM は幅広い API 使用シナリオに対応でき、複数のツールが相互にやり取りする必要がある実際の状況を反映できるようになり、LLM の実際の適用性と柔軟性が向上します。この目的のために、研究チームは、API の収集から始めて、それらの API に関連するさまざまな命令を慎重に作成するという、ボトムアップの命令生成アプローチを採用しました。

すべての API とその組み合わせに対する命令生成プロセスは次のとおりです。具体的なプロセスについては原文を参照してください。

ソリューションパス注釈

研究チームは、これらの指示に対する質の高い応答に注釈を付けます。各応答は、最終的な回答に到達するために、複数回のモデル推論とリアルタイム API 呼び出しで構成される場合があります。ツールの学習自体が難しいため、最も複雑な LLM (GPT-4 など) でも複雑な命令の合格率が低く、データ収集が非効率的になります。この目的のために、研究チームは、LLM の計画および推論機能を強化するために、新しい深さ優先探索ベースの決定木 (DFSDT) を開発しました。従来の Chain of Thought (CoT) や ReACT と比較して、DFSDT を使用すると、LLM は複数の推論パスを評価し、手順を撤回するか、有望なパスに沿って前進するかを慎重に決定できます。実験では、DFSDT は注釈の効率を大幅に向上させ、CoT や ReACT では回答できない複雑な指示を正常に完了します。

下の図は、モデル推論中の DFSDT と従来の CoT または ReACT の比較を示しています (左)。

次の表は、ToolBench と他の調査を比較したものです。

実験と結果

本論文では、実験を通じてToolLLaMaの性能を研究し、ToolLLaMaの評価指標、APIリトリーバーとDFSDTの有効性、および実験と分析の結果を報告します。

API の時間的変動性を考慮すると、各テスト命令に対して固定された真のソリューション パスを注釈付けすることは現実的ではありません。さらに、評価中に異なるモデルが同じバージョンの API を使用するようにすることが重要です。手動評価には時間がかかる可能性があることを考慮して、本研究では、AlpacaEvalをモデルにした効率的な機械評価ツールToolEvalを開発しました。これはChatGPTのサポートに依存しており、2つの主要な評価指標(1)限られた予算内で命令を正常に実行する能力を測定するために使用される合格率、および(2)2つのソリューションパスの品質と有用性を比較するために使用される勝率)が含まれています。この論文では、ToolEval が人間の評価と高い相関関係にあり、ツール学習のための堅牢でスケーラブルかつ信頼性の高い評価アプローチを提供することを示しています。

表 2 に示すように、さまざまな種類の命令にわたって、当社の API リトリーバーは一貫して BM25 および Ada 埋め込みよりも優れたパフォーマンスを発揮します。 NDCG スコアが高いほど、API 取得の有効性を示します。さらに、I1 の NDCG スコアは I2 や I3 よりもはるかに高く、API 取得の点では単一ツール命令の方が複数ツール命令よりも比較的簡単であることを意味します。

表 3 からわかるように、DFSDT のパフォーマンスはすべてのケースで他の 2 つのベースライン メソッドよりも大幅に優れており、DFSDT がより効果的なメソッドであり、ソリューション パスの注釈付けのコストを節約できることがわかります。また、より難しい命令 (I2 および I3) に対する DFSDT のパフォーマンス向上は、より簡単な命令 (I1) に対するパフォーマンス向上よりも明らかです。これは、DFSDT がその効率性に加えて、通常の ReACT が何度実行しても答えられない困難で複雑な命令も解決できることを示しています。このような「難しい例」をデータセットに含めることで、複雑な状況でもツールが機能する能力を最大限に発揮できるようになります。

表4から次のことがわかります。

  • ToolLLaMA は、合格率と勝率の両方において従来のツール使用法である ChatGPT-ReACT を大幅に上回り、優れた一般化能力を発揮します。さらに、ToolLLaMA を DFSDT と組み合わせると、Text-Dainci-003 よりも優れたパフォーマンスを発揮します。
  • 研究チームはプロンプトエンジニアリングに関する広範な研究を実施しましたが、Vicuna と Alpaca はどちらも指示を渡すことができませんでした。これは、その指示に従う能力がツールの使用シナリオにまで及ばないことを意味します。これは、主に言語スキルの向上に焦点を当てた現在の指導調整アプローチの不十分さを浮き彫りにしています。

全体的に、ToolLLaMA はすべてのシナリオで競争力を発揮しますが、合格率は ChatGPT+DFSDT よりもわずかに低くなります。勝率の点では、ToolLLaMA は ChatGPT+DFSDT とほぼ同等であり、I2-Cat 設定では後者を上回ります。

要約すると、これらの結果は、ToolBench が LLM のツール使用機能を完全に刺激し、さまざまな命令の未知の API を習得できるようにすることを示しています。

実験では、研究チームはLLaMAのすべてのパラメータを微調整し、ToolLLaMAを取得しました。パラメータ効率を改善するために、代表的なパラメータ効率調整方法である LoRA をさらに適用し、パフォーマンスへの影響を研究しました。以下の表 5 の結果は、パラメータ効率の向上がパフォーマンスのトレードオフを犠牲にして達成されたことを示しています。彼らは、パフォーマンスを犠牲にすることなくパラメータ効率を達成する方法を考案する将来の試みに期待しています。

詳細は原文をご参照ください。

<<:  OpenAI が GPT-5 の商標登録を申請: すでに開発計画に入っているのか?

>>:  ライブ放送室で見る高解像度1080Pは720Pほど良くないかもしれない

ブログ    

推薦する

最大65万ドル! 2021年の米国大手企業のプログラマーの収入をみる

アメリカのテクノロジー大手は、この流行に対して全力で対応し、その力は衰えるどこ​​ろか増した。これら...

この「ペア」は悪くないですね! AIとのペアプログラミング

翻訳者 |陳俊レビュー | Chonglou 「ペアプログラミング」という概念を聞いたことがあります...

Googleに買収された後、大規模なモデル競争がOpenAIに遅れをとる理由がようやく分かった

2018年3月、テクノロジー教育のスタートアップであるSocraticがGoogleに買収されました...

どのような状況で Redis のメモリ オーバーフローが発生しますか?解決策は何ですか?

Redis のメモリ オーバーフローの問題は、通常、次のような状況によって発生します。データが多す...

自動化とエンタープライズAIは2021年に大きく成長する

最近のガートナーの調査によると、労働力の自動化とエンタープライズ人工知能が 2021 年の主要なトレ...

ビッグデータと人工知能の関係、総合的な分析

ビッグデータはクラウドコンピューティングを採用PaaS レイヤーの複雑な汎用アプリケーションは、ビッ...

人工知能の「最初の一滴」がエンタープライズIT自動化に属する理由

企業の情報技術の意思決定者として、上級管理職や部門長に AI のビジネス価値を示す必要がある場合、I...

...

新しいAIシステムが地震を正確に予測できるようになりました

科学者たちは地震を正確に予測できる人工知能(AI)システムを開発した。これは自然災害に備え、人命を救...

EU、生成AIツールの規制について暫定合意に達する:これまでで最も包括的な規則

12月9日、ワシントンポスト紙やエンガジェットなどの海外メディアの報道によると、世界各国がAIの急速...

畳み込みニューラルネットワークが分かりませんか?怖がらないでください、このかわいい写真を​​見ればわかりますよ!

この記事では、畳み込みニューラル ネットワーク (CNN) の基本原理を、関連する数学理論を省き、最...

...

OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

IT Homeは1月10日、ChatGPTの開発元であるOpenAIが最近、ChatGPTのようなA...

Zhihu の Bridge Platform は、ビジネス機能を強化するコンテンツ運用プラットフォームをどのように構築するのでしょうか?

1. キーワードZhihu、Bridge、コンテンツ プール、コンテンツ管理プラットフォーム、コン...

調査によると、AIツールは企業の従業員が年間約400時間を節約するのに役立つことがわかった

7月10日、人材分析・計画会社Visierは、英国、米国、カナダ、ドイツの250社以上の企業の従業員...