LLM-Blender: 大規模な言語モデルも学習に統合可能

LLM-Blender: 大規模な言語モデルも学習に統合可能

最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合できる LLM-Blender という興味深いフレームワークを見つけました。

公式の紹介は次のとおりです。LLM-Blender は、複数のオープンソースの大規模言語モデル (LLM) のさまざまな長所を活用して、一貫して優れたパフォーマンスを実現できる統合フレームワークです。

LLM統合

アンサンブル学習は、予測モデルのパフォーマンスと堅牢性を向上させることを目的とした機械学習手法であることは誰もが知っています。複数の異なる学習器 (決定木、ニューラル ネットワークなど) を 1 つに組み合わせて、単一の学習器よりも優れた予測結果を実現します。たとえば、この方法は最も一般的な Kaggle コンペティションで広く使用されています。

では、大規模な言語モデルを統合する必要があるのでしょうか?

この論文では次のような見解が示されている。

データ、アーキテクチャ、ハイパーパラメータの多様性により、LLM はそれぞれ異なる長所と短所を示し、相互に補完し合います。そして、現在のところ、すべての例を支配する単一のオープンソース LLM は存在しません。 LLM の出力 (入力、タスク、ドメインに基づく) を統合することで、さまざまな例にわたって一貫して優れたパフォーマンスを提供できます。それぞれのユニークな貢献を組み合わせることで、個々の LLM のバイアス、エラー、不確実性を軽減し、出力を人間の好みと一致させることができます。

LLM-ブレンダー

そこでこの論文ではLLM-Blenderのフレームワークを提示する。

LLM-Blender には、PairRanker と GenFuser という 2 つのモジュールがあります。 PairRanker は複数のモデルの出力を比較し、最も高いランクの出力を出力します。 GenFuser は、ランク付けされた上位数個の出力を結合して、最終出力を生成します。

1. PairRanker はどのように機能しますか?

PairRanker モジュールは、候補モデル出力間の微妙な違いを効果的に識別し、品質に応じてランク付けするために使用されます。 N 個のモデルの出力が収集され、合計 N(N-1)/2 通り (合計 N 個の項目から 2 つの項目を選択する組み合わせの数) でペアリングされます。次に、入力プロンプトに基づいて、どの候補の出力が優れているかに基づいて結果が評価されます。

推論中に、ペア比較の結果を表すロジットを含む行列が計算されます。この行列に基づいて、GenFuser モジュールの上位 k 個の出力を決定して選択します。

2. GenFuser はどのように機能しますか?

GenFuser モジュールは、PairRanker モジュールの上位ランクの出力を使用して、エンド ユーザー向けに改善された可能性のある出力を生成します。このモジュールは、上位 N 件の結果のうち上位 K 件を融合し、それぞれの長所を活かして弱点を軽減した改善された出力を生成します。

ベンチマーク

この論文では、命令追跡タスクにおける LLM のアンサンブル モデルのベンチマークを行うための、MixDirective と呼ばれる新しいデータセットを紹介しています。このデータセットには、Alpaca-GPT4、Dolly-15K、GPT4-ALL-LAION、ShareGPT からの大規模な命令例セットが含まれています。トレーニング用の例が 100,000 件、検証用の例が 50,000 件、テスト用の例が 50,000 件あります。

テストには、N = 11 の一般的なオープン ソース LLM が使用されます。候補出力は、すべての候補ペアに対して ChatGPT を使用して評価されます。各ペアについて、ChatGPT はどちらが優れているかを判断するように求められます。

各LLMにはそれぞれ異なる長所と短所があることがわかります。トップレベルの LLM 取得者が必ずしもテストで最高の成績を収めるとは限りません。 PairRanker は他の LLM よりも優れています。 LLM と Blender の組み合わせは、他のどの単一モデルよりも優れています。

制限

重要なのは効率です。PairRanker で上位 K 個の出力をソートするプロセスでは、最適なパフォーマンスを実現するためにモデルを O(n²) 回呼び出す必要があるためです。この問題に対処する 1 つの方法は、バブル ソートを複数回実行して、必要な推論の数を減らすことです。時間効率を向上させるもう 1 つの方法は、PairRanker の推論を独立して並列に実行すること、つまり複数のモデルを同時に推論することです。

現在の論文では、ChatGPT の助けを借りて自動評価を使用しています。自動評価は良い選択肢ではありますが、人間による評価の方が信頼性が高く包括的な評価結果を提供できます。

<<:  AIは仕事を楽にする?これらの人々は反対します。「仕事量が倍増しました!」

>>:  人工知能とモノのインターネットの動的統合の探究(I)

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ディープラーニングと従来の機械学習のメリットとデメリット!

過去数年間、ディープラーニングは、従来の機械学習を凌駕し、ほとんどの AI 型の問題に対する頼りにな...

グラフニューラルネットワークが深くなるほど、パフォーマンスは向上しますか?

数十または数百の層を持つニューラル ネットワークの応用は、ディープラーニングの重要な機能の 1 つで...

...

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキ...

鍵となるのは人工知能コンピューティングセンターを構築し、それを活用することだ

デジタル経済の発展に伴い、全国の各省市がコンピューティングインフラの構築を競って推進し、人工知能コン...

RNN の効率は Transformer に匹敵し、Google は 2 つの新しいアーキテクチャをリリース: 同じ規模では Mamba よりも強力

今回、Google DeepMindは基本モデルに新たな動きを見せた。リカレント ニューラル ネット...

インタビュアー: アルゴリズムの時間計算量と空間計算量についてどう思いますか?計算方法は?

[[424483]] 1. はじめにアルゴリズムとは、データを操作し、プログラムの問題を解決するた...

2021 年に注目すべき 8 つのロボティック プロセス オートメーションのトレンド

【51CTO.com クイック翻訳】今日、ロボティック・プロセス・オートメーション(RPA)は、企業...

ユーザー投票に基づくランキングアルゴリズム: Delicious と Hacker News

インターネットの出現は「情報爆発」を意味します。ユーザーが心配するのは、もはや情報量が少なすぎること...

284日間の急成長の後、ChatGPTを「模倣」したスタートアップ企業が倒産する可能性

最近、ウォール・ストリート・ジャーナルの記事によると、一部のベンチャーキャピタリストは、生成型人工知...

...

機械学習における3つの重要なデータ課題

機械学習にとってデータがどれほど重要であるかは誰もが知っています。データ アクセス パターンを理解す...

MetaGPTが人気に! 2ドルでボスになれる、GitHubには11.2万個のスターがつき、AIエージェント「オールラウンダー」が誕生

インテリジェントエージェントは未来です!最近、別の AI エージェント プロジェクト MetaGPT...

AI+医療がさらに一歩前進:免疫療法と精密医療の推進

免疫療法はがんの診断と治療に革命をもたらしていますが、まだ少数の患者(20%~30%)にしか効果があ...

自動運転における説明可能なAIのレビューと今後の研究の方向性

2021 年 12 月 21 日に arXiv にアップロードされた自動運転のための説明可能な AI...