小型モデルの意見も参考になります! GPT-4+AutoGPTオンライン意思決定:物を買うときにもう心配はいりません

小型モデルの意見も参考になります! GPT-4+AutoGPTオンライン意思決定:物を買うときにもう心配はいりません

この論文では、現実世界の意思決定タスクにおける Auto-GPT エージェントの包括的なベンチマーク調査を実施することにより、意思決定タスクにおける大規模言語モデル (LLM) の使用について検討します。

論文リンク: https://arxiv.org/pdf/2306.02224.pdf

著者らは、Auto-GPT 意思決定タスクにおける複数の一般的な LLM (GPT-4、GPT-3.5、Claude、Vicuna を含む) のパフォーマンスを比較し、Auto-GPT スキームに小さなエキスパート モデルを組み込むことができる「Extra Opinions」と呼ばれる新しいアルゴリズムを導入して、タスクのパフォーマンスを向上させました。

著者の意見

この研究で最も興味深い発見は、大規模言語モデル、特に GPT4 には、さまざまな意見から有用な情報を抽出し、考え、批判し、独自の結果を改善するという人間のような能力があるということです。

そこで疑問なのは、GPT はさまざまな意見からどのような利益を得るのかということです。

人間心理学では、人間は権威ある意見を重視し、まれな個人の意見を無視する傾向があり、自分の意見を重視しすぎ、通常は 3 ~ 6 個の意見で十分であるなど、人間が異なる意見から利益を得る方法やパターンのいくつかが研究されてきました。

この方向性は、多くのフォローアップ研究に値します。たとえば、現在、私たちはさまざまな意見を提供するために小さな専門家モデルを使用しています。大きなモデル同士が議論したらどうなるでしょうか?

主な貢献

1. Auto-GPT が現実世界のシナリオに非常によく似たオンライン意思決定タスクに簡単に適応できることを初めて実証しました。

2. 一般的な LLM (GPT-4、GPT-3.5、Claude、Vicuna を含む) 間の包括的なベンチマーク比較が提供されます。これらのモデルの自律エージェントへの適用可能性に関する調査結果を紹介します。

3. 小規模なエキスパートモデルから得られるセカンドオピニオンによって、タスクのパフォーマンスが大幅に向上することを示します。これは、モデルを微調整せずに Auto-GPT に監視信号を導入する新しい方法です。

実験のセットアップ

ヒントデザイン

大規模なチューニングを行わずに、タスクの要件や問題を Auto-GPT の目標として直接使用し、さまざまなタスクを実行するように Auto-GPT を適応させます。

たとえば、「取り付けが簡単で、合成皮革製で、寸法が 60 x 40 x 40 cm の折りたたみ式収納ボックスを購入したい」のような文章を入力します。

Auto-GPT が利用可能なアクションを理解できるように、各アクションをツールとして表現します。

例なしでツールの説明だけを使用すると、効果が低くなることに注意してください。ただし、例が少数であれば、パフォーマンスは大幅に向上します。したがって、LLM のコンテキスト学習機能を活用するために、ツールのデモンストレーションに 1 ~ 3 個の少数ショットの例を含めます。

追加の意見を考慮する

外部の専門家モデルからの追加の意見を考慮するために、Auto-GPT ワークフローをさらに改善しました。

具体的には、Auto-GPT の決定段階で、エキスパート モデルから上位 k 件の意見をサンプリングし、これらの意見をプロンプトのコンテキスト部分に配置し、大規模言語モデルによる参照に使用します。

この研究では、各タスク用に準備された IL モデルを外部の専門家として使用しました。

LLM への追加コメントを求めるプロンプトは、次のテンプレートに従います: 「コマンドに関する 1 つ (またはいくつか) の提案があります。この提案を参考にして、独自の判断を下してください。」

ウェブショップ実験設定:

Webshop は、Amazon.com から 118 万点以上の製品をクロールするシミュレートされたオンライン ショッピング環境です。

この環境では、検索、クリック、ナビゲーション、購入などの実際のアクション空間が提供されます。

評価プロセスでは、説明されている製品が正常に購入されたかどうかに重点が置かれており、そのためには製品、属性、オプション、価格がすべて一致している必要があります。

ベースライン モデルは、アクション ポリシー コンポーネントが微調整された模倣学習 (IL) モデルです。このベースライン モデルは、Auto-GPT 方式で実行される大規模な言語モデルと比較されます。

ALFWorld 実験セットアップ

ALFWorld は、複雑なタスク指向と言語理解を組み合わせた研究環境です。この環境には、キッチン、リビングルーム、寝室などの実際の環境をカバーする、25,000 を超える独自の手順生成ミッションが含まれています。

これらのタスクには、複雑な問題解決スキルと、言語と環境に対する深い理解が必要です。初期評価は、模倣学習 (IL) を備えた DAgger エージェントを使用して実行され、その後、Auto-GPT スタイルの生成言語モデルと比較されます。

実験結果

結果の直接比較


この研究では、Webshop と ALFWorld という 2 つの実験を実行して、AutoGPT 構成におけるさまざまな大規模言語モデル (LLM) と模倣学習 (IL) モデルのパフォーマンスを主に比較します。

まず、Webshop 実験では、GPT4 は他の IL モデルよりも優れたパフォーマンスを発揮しました。画像入力のない元の IL モデルは中程度の成功しか達成しませんでしたが、画像入力のある IL モデルはより良いパフォーマンスを発揮しました。

ただし、GPT3.5 または Claude のみを使用する Auto-GPT エージェントのパフォーマンスは元の IL モデルよりも劣りますが、GPT4 自体はすべての IL モデルよりも優れています。

2 番目に、ALFWorld 実験では、IL モデルと Beam Search の組み合わせが、Beam Search なしのバージョンよりも大幅に優れたパフォーマンスを発揮しました。 AutoGPT 設定で実行された Claude と GPT3.5 は IL モデルよりも優れたパフォーマンスを発揮しませんでしたが、Beam Search の有無にかかわらず、GPT4 は IL モデルよりも明らかに優れたパフォーマンスを発揮しました。

さらに、大規模言語モデル (LLM) とエキスパートモデルを組み合わせた新しい研究パラダイムを提案します。

まず、エキスパート モデルから上位 k 件の追加意見がサンプリングされ、これらの意見が LLM に提示されて検討され、最終決定が下されます。このアプローチは GPT4 で特に優れたパフォーマンスを発揮し、複数の弱く学習されたモデルの視点を考慮すると GPT4 のパフォーマンスを向上できることを示唆しています。

全体的に、GPT4 はすべてのモデルの中で最高のパフォーマンスを示し、専門家モデルの推奨事項を効果的に活用して意思決定能力を向上させることができます。

他のモデルの見解を考慮すると、GPT4 の決定パフォーマンスが大幅に向上するため、GPT4 を使用することをお勧めします。最後に、アバルション研究は、これらの追加の意見には何らかの価値があるはずであり、ランダムな意見は役に立たないことを証明しました。AutoGPT(GPT3.5)+ランダムを参照してください。

追加の意見比率を使用する

私たちの実験では、GPT-4 モデルは追加の意見を処理する際に非常に高い識別能力を発揮することがわかりました。情報ノイズの中でも、GPT-4 は役立つ提案と無関係な提案を区別できます。

GPT-3.5 モデルは、混乱を引き起こす可能性のある入力に直面した場合、明らかな欠点を示します。一般的に、LLM と追加意見の一致または不一致は、LLM の理解力と追加意見の質に大きく依存します。


<<:  無料ですか?寄生? ChatGPTに夢中です!

>>:  ヤン・ルカンのチームの新しい研究結果:自己教師あり学習のリバースエンジニアリング、クラスタリングはこのようにして達成されることが判明

ブログ    
ブログ    
ブログ    

推薦する

Googleが新しい検索方法を正式に発表:円を描く

ChatGPTが登場して以来、長い間息をひそめていたGoogleも、モバイル検索に力を入れ始めていま...

マイクロソフトは、劣化が著しい古い写真を復元できる新しいアルゴリズムを開発した。

海外メディアの報道によると、マイクロソフト研究チームのZiyu Wan氏、Zhang Bo氏らは、デ...

Google Gemini の大きな転換? Stanford Meta Chinese は推論性能が GPT-3.5 よりも優れていることを証明

Gemini の推論能力は本当に GPT-4 よりも弱いのでしょうか?以前、Google の大ヒット...

企業はデータセンターで人工知能を広く利用する準備ができているでしょうか?

今日、ますます多くのサーバーベンダーが、人工知能を活用したサーバー自動化テクノロジーの開発に取り組ん...

73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

最近開催された第43回国際情報検索会議(ACM SIGIR2020)で、Geoffrey Hinto...

清華大学の博士が「チップレット・アクチュアリー」サミットを提案!ムーアの法則に近づくほど、マルチチップ統合のコスト効率は向上する。

Chiplet は、製品の歩留まり、パッケージの歩留まり、さまざまなコストなどを考慮しながら、大規...

人工知能と遠隔監視:宇宙でのマッチング

データ センターが地球外の人々の長期的なコンピューティング ニーズを満たすことは避けられないと思われ...

最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

[[176522]]ほとんどの科学研究では、大量の実験データの統計分析は、通常、コンピューティングと...

2021 年に注目すべき 9 つの IoT トレンド

[[373805]]画像ソース: https://pixabay.com/images/id-577...

テンセントのロボット犬が本物の犬の仕事を奪う!彼は楽しくゲームをしたり、歩き回ったりすることができます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...