数は力なり!テンセントが明らかに:エージェントの数が増えるほど、大規模言語モデルはより良くなる

数は力なり!テンセントが明らかに:エージェントの数が増えるほど、大規模言語モデルはより良くなる

Tencent の研究者は、エージェントのスケーリング特性に関する研究を行いました。単純なサンプリングと投票により、インスタンス化されたエージェントの数が増えるにつれて、大規模言語モデル (LLM) のパフォーマンスが向上することがわかりました。初めて、幅広いシナリオにおけるこの現象の普遍性、他の複雑な方法との直交性を検証し、その背後にある理由を研究し、スケーリングの力をさらに促進する方法を提案します。


  • 論文タイトル: エージェントを増やすだけで十分
  • 論文アドレス: https://arxiv.org/abs/2402.05120
  • コードアドレス: https://github.com/MoreAgentsIsAllYouNeed/More-Agents-Is-All-You-Need

この論文では、テンセントの研究者らが、単純なサンプリングと投票の方法により、複雑なマルチ LLM エージェント コラボレーション フレームワークや迅速なエンジニアリング手法を必要とせずに、大規模言語モデルのパフォーマンスがインスタンス化されたエージェントの数に応じて向上し、スケーリング特性を示すことを発見しました。さらに、この方法は既存の複雑な方法と直交しており、組み合わせることで LLM をさらに強化することができ、強化の程度はタスクの難易度に関係します。この論文は、Raw エージェント (複雑なプロンプト エンジニアリングとコラボレーション フレームワークに依存しない LLM エージェント) のスケーリング特性に関する最初の研究です。この研究は、さまざまな LLM ベンチマークで包括的な実験を行い、この発見の一般性を検証し、その発生を促進できる戦略を研究します。コードは現在オープンソースです。

複数の小さなモデルが大きなモデルを上回る

この論文では、LLM の自己統合、異種 LLM 統合、複数の LLM エージェントのコラボレーション フレームワークに関する研究など、LLM 統合に関する多くの関連研究について説明し、提案された方法と比較しています。この論文では、より包括的な研究と分析が行われていることがわかります。

インスタンス化されたエージェントの数が増えるにつれて、大規模言語モデルのパフォーマンスがどのように向上するかを研究します。この論文では、単純なサンプリングと投票の方法を採用しています (著者は「単純 (st)」という用語を使用しており、この方法が最も単純な方法の 1 つであると考えていることを示しています)。この方法は、既存の複雑な方法と直交的に組み合わせることができることに注目すべきです。それは 2 つの段階に分けられます:

  • タスク クエリを単一の LLM または複数の LLM エージェントのコラボレーション フレームワークに入力して、複数の出力を生成します。
  • 最終結果は多数決で決定される

この論文では、Llama2 および GPT シリーズからさまざまなサイズの言語モデルを選択して評価しており、タスク データセットは推論や生成などの複数の分野をカバーしています。実験結果によると、すべてのタスクとさまざまなタイプおよびサイズの LLM において、インスタンス化されたエージェントの数に応じて LLM のパフォーマンスが向上されることがわかっています。

たとえば、GSM8K タスクのパフォーマンスは 12% ~ 24% 向上し、MATH では 6% ~ 10% 向上します。興味深いことに、複数の小さな LLM を統合すると、より大きな LLM のパフォーマンスに到達したり、それを超えたりすることがあります。たとえば、複数の Llama2-13B を統合すると、GSM8K で 59% の精度が達成され、単一の Llama2-70B の 54% の精度を上回ります。

さらに、著者らは他の方法との互換性についても調査しました。これらの方法は実装方法が異なりますが、組み合わせて使用​​するとパフォーマンスをさらに向上させることができ、インスタンス化されるエージェントの数が増えるほどパフォーマンスの向上が大きくなるという現象とも一致しています。実験結果では 1% から 27% の範囲でゲインが示されており、この単純なアプローチを他の方法と直交的に使用することで LLM のパフォーマンスをさらに向上できることを示しています。

LLama13Bに基づく

LLama70B に基づく

GPT-3.5-Turbo ベース

さらに、この論文では、パフォーマンスの向上と問題の難易度の関係も分析しています。

  • 本質的な難易度: タスクの本質的な難易度が増加すると、パフォーマンスの向上 (つまり、相対的なパフォーマンスの向上) も増加しますが、難易度が一定のレベルに達すると、向上は徐々に減少します。これは、タスクが複雑すぎると、モデルの推論能力が追いつかなくなり、パフォーマンス向上の限界効果が減少する可能性があることを示唆しています。
  • ステップ数: タスクを解決するために必要なステップ数が増えると、パフォーマンスの向上も増加します。これは、複数ステップのタスクでは、エージェントの数を増やすとモデルが各ステップをより適切に処理できるようになり、全体的なタスク解決パフォーマンスが向上することを示しています。
  • 事前確率: 正解の事前確率が高いほど、パフォーマンスの向上が大きくなります。つまり、正解の可能性が高い状況では、エージェントの数を増やすとパフォーマンスが大幅に向上する可能性が高くなります。

ノード: ステップ、破線: 可能な代替ステップ。ノードの深さ: ステップ数、色の強度: 固有の難易度のレベル。この図は、タスクの複雑さがこれらの次元にわたってどのように測定されるかを読者が理解するのに役立ちます。

これに基づいて、この論文では、この方法の有効性をさらに向上させるための 2 つの最適化戦略を提案しています。

  • 段階的なサンプリングと投票: このアプローチでは、タスクを複数のステップに分割し、各ステップでサンプリングと投票を適用して累積エラーを減らし、全体的なパフォーマンスを向上させます。
  • 階層的サンプリングおよび投票: この方法では、低確率のタスクを複数の高確率のサブタスクに分解し、階層的に解決します。異なるモデルを使用して、異なる確率のサブタスクを処理し、コストを削減できます。

最後に、コストを削減するためにサンプリングフェーズを最適化することや、LLM 幻覚の潜在的な悪影響を軽減するメカニズムの開発を継続することなど、今後の作業の方向性が提案され、これらの強力なモデルの展開が責任を持って有益であることを保証します。

<<:  CPU、TPU、GPU、DPU、QPUについて学ぶ

>>: 

ブログ    

推薦する

SMIC、AIoT時代の最も価値ある製造業である14nmプロセスチップを量産

SMICは最近、研究開発への投資を増やすことで14nmプロセスチップを量産し、2021年に正式に出荷...

機械学習により暗号通貨は追跡可能になるか?

[[349063]] [51CTO.com 速訳] 機械学習技術を使って仮想通貨を追跡できるのか?...

ザッカーバーグがマスクの家を盗んだ! MetaはTwitterの混乱を利用して競合製品を急いで発売し、明後日発売される予定だ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2大音声アシスタントであるAlexaとCortanaの融合の目的は何でしょうか?

[[201743]] BI中国語ウェブサイトが8月31日に報じた。水曜日、アマゾンとマイクロソフト...

7 つの重要な要素: 優れた機械学習アルゴリズムを選択するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

ディープラーニングにおける多体問題の解決方法

「多体問題」(N 体問題とも呼ばれる)は単純に見えますが、実際には今日の数学で解決するのが非常に難し...

7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

グラフ ニューラル ネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが...

機械学習から学習する機械まで、データ分析アルゴリズムにも優れた管理者が必要だ

[[177274]]写真は、IBM Big Data and Analytics のグローバル研究開...

GPT-4 に追いつく!李開復のYi-34Bの新しい結果が発表されました:勝率94.08%はLLaMA2などの主流の大型モデルを超えています

GPT-4に次ぐ、李開復のYi-34B-Chatの最新成果が発表されました——アルパカ認定モデル部門...

他社がまだ「大型モデル」衛星を打ち上げている一方で、マイクロソフトはすでに開発者にその使い方を教えている。

春から夏へと移り変わる季節は、世界のトップテクノロジー企業が毎年恒例のイベントを開催する季節です。 ...

...

脳コンピューターインターフェースでケーキを食べる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI開発に最適なプログラミング言語トップ5

昨年、アルファ碁が世界中のチェスプレイヤー全員に勝利して以来、人工知能は注目を集めています。先日終了...

...

アルゴリズムは難しい、プログラミングは簡単ではない、プログラマーの苦労を誰が理解できるだろうか?

[[199239]]今日は、プログラマーにとっての困難がどこにあるのかについて議論しましょう。アル...