最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合できる LLM-Blender という興味深いフレームワークを見つけました。 公式の紹介は次のとおりです。LLM-Blender は、複数のオープンソースの大規模言語モデル (LLM) のさまざまな長所を活用して、一貫して優れたパフォーマンスを実現できる統合フレームワークです。 LLM統合アンサンブル学習は、予測モデルのパフォーマンスと堅牢性を向上させることを目的とした機械学習手法であることは誰もが知っています。複数の異なる学習器 (決定木、ニューラル ネットワークなど) を 1 つに組み合わせて、単一の学習器よりも優れた予測結果を実現します。たとえば、この方法は最も一般的な Kaggle コンペティションで広く使用されています。 では、大規模な言語モデルを統合する必要があるのでしょうか? この論文では次のような見解が示されている。 データ、アーキテクチャ、ハイパーパラメータの多様性により、LLM はそれぞれ異なる長所と短所を示し、相互に補完し合います。そして、現在のところ、すべての例を支配する単一のオープンソース LLM は存在しません。 LLM の出力 (入力、タスク、ドメインに基づく) を統合することで、さまざまな例にわたって一貫して優れたパフォーマンスを提供できます。それぞれのユニークな貢献を組み合わせることで、個々の LLM のバイアス、エラー、不確実性を軽減し、出力を人間の好みと一致させることができます。 LLM-ブレンダーそこでこの論文ではLLM-Blenderのフレームワークを提示する。 LLM-Blender には、PairRanker と GenFuser という 2 つのモジュールがあります。 PairRanker は複数のモデルの出力を比較し、最も高いランクの出力を出力します。 GenFuser は、ランク付けされた上位数個の出力を結合して、最終出力を生成します。 1. PairRanker はどのように機能しますか?PairRanker モジュールは、候補モデル出力間の微妙な違いを効果的に識別し、品質に応じてランク付けするために使用されます。 N 個のモデルの出力が収集され、合計 N(N-1)/2 通り (合計 N 個の項目から 2 つの項目を選択する組み合わせの数) でペアリングされます。次に、入力プロンプトに基づいて、どの候補の出力が優れているかに基づいて結果が評価されます。 推論中に、ペア比較の結果を表すロジットを含む行列が計算されます。この行列に基づいて、GenFuser モジュールの上位 k 個の出力を決定して選択します。 2. GenFuser はどのように機能しますか?GenFuser モジュールは、PairRanker モジュールの上位ランクの出力を使用して、エンド ユーザー向けに改善された可能性のある出力を生成します。このモジュールは、上位 N 件の結果のうち上位 K 件を融合し、それぞれの長所を活かして弱点を軽減した改善された出力を生成します。 ベンチマークこの論文では、命令追跡タスクにおける LLM のアンサンブル モデルのベンチマークを行うための、MixDirective と呼ばれる新しいデータセットを紹介しています。このデータセットには、Alpaca-GPT4、Dolly-15K、GPT4-ALL-LAION、ShareGPT からの大規模な命令例セットが含まれています。トレーニング用の例が 100,000 件、検証用の例が 50,000 件、テスト用の例が 50,000 件あります。 テストには、N = 11 の一般的なオープン ソース LLM が使用されます。候補出力は、すべての候補ペアに対して ChatGPT を使用して評価されます。各ペアについて、ChatGPT はどちらが優れているかを判断するように求められます。 各LLMにはそれぞれ異なる長所と短所があることがわかります。トップレベルの LLM 取得者が必ずしもテストで最高の成績を収めるとは限りません。 PairRanker は他の LLM よりも優れています。 LLM と Blender の組み合わせは、他のどの単一モデルよりも優れています。 制限重要なのは効率です。PairRanker で上位 K 個の出力をソートするプロセスでは、最適なパフォーマンスを実現するためにモデルを O(n²) 回呼び出す必要があるためです。この問題に対処する 1 つの方法は、バブル ソートを複数回実行して、必要な推論の数を減らすことです。時間効率を向上させるもう 1 つの方法は、PairRanker の推論を独立して並列に実行すること、つまり複数のモデルを同時に推論することです。 現在の論文では、ChatGPT の助けを借りて自動評価を使用しています。自動評価は良い選択肢ではありますが、人間による評価の方が信頼性が高く包括的な評価結果を提供できます。 |
<<: AIは仕事を楽にする?これらの人々は反対します。「仕事量が倍増しました!」
>>: 人工知能とモノのインターネットの動的統合の探究(I)
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
海外メディアのウォール・ストリート・ジャーナルによると、MetaはGPT-4と完全に同等の機能を持つ...
8月10日、サイバーセキュリティ企業SlashNextが発見した一連の証拠から、違法目的で開発された...
[[181446]] 1. 自然言語処理入門自然言語処理 (NLP) とは、言語を処理または「理解」...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[51CTO.comよりオリジナル記事] 6月21日午前9時、2日間にわたるWOT2019グローバル...
少し前、匿名の人物が、Google 社内の研究者による研究メモを Discord プラットフォームに...
年齢を重ねるにつれて、私たちの体はさまざまな病気や障害に悩まされるようになります。それはまるで逆方向...
数日前、OpenAIのCEOサム・アルトマン氏は世界ツアーのスピーチで、OpenAIの最近の開発ルー...
最近、一部メディアは、アント・ファイナンシャルの元副社長兼主任データサイエンティストである斉元氏が復...
人工知能は現代世界で最も注目され、最も議論されているトピックであり、20年後には人々の世界観を変える...
近年、プラスチックのリサイクルは改善されてきましたが、埋め立て地に廃棄されるプラスチック廃棄物は大き...
ロボティック プロセス オートメーション (RPA) は、ルールベースのプロセスを使用して、人間より...
[[226531]]人工知能の発展において、人材の確保は間違いなく重要な鍵となります。人工知能は、...