Alpaca、Vicuna、Baize、Koala などの多くの大規模言語モデルの出現により、研究者は、Vicuna などの一部のモデルは全体的な平均パフォーマンスが最も優れているものの、個々の入力に対する最適なモデルの分布は実際には非常に分散していることを発見しました。たとえば、最適な Vicuna は、タスクの 20% のみで他のモデルよりも優れています。 アンサンブル学習を通じて多くのオープンソースの「弱い」LLM の機能を組み合わせて、全体として「強い」LLM にすることは可能ですか? そこで、AI2、USC、浙江大学の研究者らは、ソートと融合を通じて各LLMの出力を統合し、比較的安定した改善を実現する統合学習フレームワーク、LLM-Blenderを提案しました。 論文リンク: https://arxiv.org/abs/2306.02561 コードリンク: https://github.com/yuchenlin/LLM-Blender LLM-Blender フレームワークは、異なる LLM からの同じ指示に対する回答に対して、より高品質の回答を効果的に選択し、これらの回答の融合に基づいてより高品質の新しい回答を生成することができます。 LLM コミュニティにおけるアンサンブル学習の発展を促進し、LLM-Blender の機能をテストするために、論文の著者らは新しい指示データセット MixInstrcut を構築しました。 データは、Aplapa-GPT-4、Laion、ShareGPT などの一般的な命令データセットからサンプリングされています。 MixInstruct には、各命令に対して、Vicuna、Baize、Open Assistant などの現在人気のあるオープンソースの大規模言語モデルからの 11 個の応答も含まれています。 この論文では、MixInstruct データセット上のさまざまな LLM 間の違いを評価するための一連の実験を実施し、複数の LLM からの回答を統合する LLM-Blender の能力をテストしました。 実験により、LLM-Blender 統合によって得られた回答は、すべての LLM 回答の中で平均ランキング 3.01 となり、そのうち 68.59% がトップ 3 にランクインしていることが証明されました。これは、平均ランキングが最高だった単一モデルの Open Assistant 3.90 や、Vicuna (回答のわずか 52.88% がトップ 3 にランクイン) よりもはるかに高い数値です。 主な貢献1. 大規模言語モデル用の新しいアンサンブル学習フレームワークである LLM-Blender が提案され、複数の LLM の回答をランク付けして融合します。 LLM-Blender は、PairRanker と GenFuser という 2 つのシンプルで効果的なモジュールで構成されています。 2. 新しい命令データセット MixInstruct。これらの各手順には、統合学習フレームワーク LLM-Blender のトレーニングと評価に使用される、Vicuna などの現在人気の高い数十のオープン ソース LLM からの回答が含まれています。 3. LLMコミュニティにおけるアンサンブル学習の大きな効果と応用価値が初めて実証されました。 4. LLM コミュニティの研究者による使用とさらなる研究を促進するオープンソースの LLM-Blender ツールキット。 大規模言語モデルのアンサンブル学習LLM-Blender: ソート + ブレンディングLLM-Blender は主に PairRanker と GenFuser の 2 つのモジュールで構成されており、これらはフレームワーク操作の 2 つの段階、ソート (Rank) と融合 (Fuse) に対応しています。 ランキング段階では、まず PairRanker を通じて異なる LLM 回答をペアで比較し、これらの回答のランキングを取得します。 融合段階では、ランキングの上位 k 個 (たとえば k=3) の回答を選択し、それらを元の指示とともにパッケージ化して GenFuser モジュールに入力として送信し、融合された回答を再生成します。 最初のモジュールである PairRanker については、候補の回答が類似している場合、双方向の注意に基づくペア比較が非常に重要であると論文では主張しています。 これまでのランキング モデルはすべて、ソース テキストと単一の候補シーケンスを連結してエンコードし、導出中に候補シーケンスをランキングするための基準として絶対スコアを直接出力します。 LLM-Blender の最初のモジュールである PairRanker は、ソース テキストと (2 つの) 候補シーケンスのセットを同時にエンコードし、双方向の注意を使用してソート モデルのパフォーマンスを向上させます。著者は、この方法により、異なる候補の回答間の微妙な違いをより適切に捉えることができ、比較の精度が向上すると考えています。 さらに、トレーニング中にペアワイズ比較損失関数のみを使用する従来のペアワイズランキング手法とは異なり、PairRanker は導出中にもペアワイズ比較を使用します。 この論文では、比較マトリックスから単一の候補シーケンススコアまでの計算を完了するための 3 つの単純な集約方法、MaxLogits、MaxWins、およびバブルソートを提案しています。これら 3 つの方法は、その後の実験で効果的であることが証明されています。その中でも、MaxLogits が最も効果的です。 既存の部分テキスト融合方法とは異なり、GenFuser はすべての候補シーケンス (つまり、数十の LLM に対する回答) をこのモジュールに直接送信するのではなく、PairRanker のランキング結果から上位 k 個の最良のシーケンスを選択し、融合用のソース テキストとともに GenFuser に送信します。 これは、一部のスクリーニングされていない低品質の候補配列が GenFuser モジュールの融合品質に影響を与える可能性があると論文で考えられているためです。 MixInstruct: LLM のアンサンブル学習の新しいベンチマークLLM-Blender の機能をより適切に評価するために、この論文では MixInstruct データセットを構築しました。指示ソースには、Alpaca-GPT4 などの 4 つの一般的な大規模指示データセットが含まれており、標準的な回答は GPT-4、ChatGPT、および人間の注釈から得られます。 これらの各指示には、Vicuna など現在人気のある数十の大規模言語モデルからの回答が含まれています。 この論文では、ChatGPT を使用して、テスト セット (5K) 内のこれらの回答をペアで比較し、比較で各回答が勝利した回数をカウントし、勝利回数で 1 位にランクされたさまざまな LLM の割合を図にまとめています。異なる LLM によって提供される回答の質は異なっており、誰もそれを支配的な方法で提供していないことがはっきりとわかります。 この結果は、さまざまな LLM 間の機能の多様性を示しており、これが統合学習フレームワーク LLM-Blender が成功している理由の 1 つです。 実験実験のセットアップこの論文の実験では、LLM-Blenderの2つのモジュール、PairRankerとGenFuserが、それぞれDeberta-v3-Large(400m)とFlan-T5-XL(3b)をスケルトンモデルとして使用しています。どちらのモデルも、サイズ 100k の MixInstruct トレーニング セットでトレーニングされています (詳細については論文を参照してください)。 MixInstruct 上のさまざまな生成モデルの機能をより適切に評価するために、この論文では、従来の自動メトリック BERTScore、BLEURT、BARTScore を使用するだけでなく、比較での勝利数に応じて ChatGPT の比較結果を全体的なランキング値 (GPT-Rank) にマージします。 LLM コミュニティにおける Vicuna と Open Assistant のパフォーマンスが顕著であったため、この論文では、すべてのモデルの結果をこれら 2 つのモデルと具体的に比較し、対応する勝率を示しました。さらに、この実験では、他のすべてのモデルと比較したときに、上位 3 位 (Top-3) にランクされたさまざまなモデルの割合もカウントしました。 LLM: それぞれにメリットがあるこれらのモデルの中で、Open Assistant、Vicuna、Alpaca がパフォーマンスの上位 3 つのモデルであり、Baize、Moss、ChatGLM がそれに続き、MixInstruction でも優れたパフォーマンスを発揮します。 しかし、Mosaic MPT、StableLM、Flan-T5 は評価において比較的低い順位にランクされました。それにもかかわらず、彼らの GPT ランクは最低ランク (11) に近い数字ではなく、ここでも各 LLM の回答には独自の利点があることがわかります。 さらに、Open Assistant と Vicuna は全体的に最高のパフォーマンスを発揮しましたが、他のモデルと比較すると、これら 2 つのモデルよりも優れていると見なされる応答が一定の割合で存在したことも注目に値します。 ランク付け: PairRankerには明らかな利点がある多くのランキング モデルの比較において、ペア比較ランキング モデルとしての PairRanker は、SummaReranker や SimCLS などの非ペア比較モデルよりも大幅に優れたパフォーマンスを発揮します。 特に、GPT-Rank、BARTScore、BLEURT、Top-3 の割合に関しては、PairRanker はすべてのランキング モデルの中で最高の結果を達成し、どの LLM よりも優れています。 この論文では、ランキング モデルによって得られたトップ 1 選択を分析するだけでなく、ピアソン相関係数、スピアマン相関係数、および Searman の Footrule 距離を使用して、ランキング モデルの全体的なランキング品質も評価します。 表に示すように、すべての自動メトリックランキングの中で、BartScore のランキング結果は GPT-Rank と最も相関性が高くなっています。 PairRanker のランキング結果は、すべてのランキング モデルの中で最も高い相関関係を持ち、BARTScore を上回ります。 GenFuser が PairRanker のパフォーマンスをさらに向上この論文は、LLM-Blender フレームワーク全体によって生成された回答の品質を比較して結論付けています。 LLM-Blender は、PairRanker によってソートされた最初の 3 つの回答を GenFuser に送信して融合を生成します。 最後に、融合によって生成された回答は、BARTScore などの 3 つの自動メトリックで大幅な改善を達成しただけでなく、GPT-Rank と Top-3 比率でも最高の結果を達成したことがわかりました。LLM-Blender は、実験評価で予想どおりの優れたパフォーマンスを示しました。 結論LLM-Blender は、あらゆる LLM およびタスクに適用できるシンプルなアンサンブル学習フレームワークです。ペア比較を通じて各回答の品質をランク付けすることを学習し、融合生成を通じて最終出力を決定します。最良の結果は MixInstruct テスト セットで達成されました。 著者について江東風氏は浙江大学[1]のコンピュータサイエンス学部を卒業し、学士号を取得しました。南カリフォルニア大学のINKリサーチラボで研究インターンを務めました。カナダのウォータールー大学でコンピュータサイエンスの博士号を取得する予定です。彼は学部在学中に国家奨学金などの栄誉を獲得した。 Xiang Ren (USC) は南カリフォルニア大学の准教授であり、INK リサーチ ラボを率いています。彼は、Forbes の Asia 30 Under 30、NAACL Outstanding Paper Award 2022、Google Research Scholar 2022、Facebook Sponsored Research Award 2021、NSF CAREER Award 2021 などの賞を受賞しています。 Yuchen Lin Yuchen Lin (AI2) は現在、Allen Institute for AI (AI2) の研究者です。彼は上海交通大学のIEEEパイロットクラスで学士号(2018年)を取得し、南カリフォルニア大学で博士号(2022年)を取得しました。彼は、WWW 2020 Best Paper Runner-Up と TrustNLP Best Paper Award を受賞しました。彼は、NLP および ML の分野でトップクラスのカンファレンスのレビュアーを何度も務め、エリア チェア (ACL2023、EMNLP 2023) も務め、ワークショップやチュートリアルの企画にも何度も参加しています。彼の現在の研究対象は、大規模言語モデルの分析と強化、そして常識的な知識を活用して汎用的なインテリジェントエージェントを構築する方法にあります。 |
<<: Midjourney 5.2 がリリースされました!オリジナルの絵画から3Dシーンを生成し、無限の宇宙を無限に拡大します
>>: PromptAppGPT メジャーアップデート! AIアシスタントの開発と運用のハードルはゼロ:AutoGPTはわずか数十行のコードで実装可能
教育機関向けオファー Github AI スマートコーディングアシスタント コパイロットAIプログラ...
[[279134]]機械学習の旅で次の大きな一歩を踏み出す準備はできていますか? 実験的なデータセッ...
UAVとは無人航空機の略称で、無線遠隔操縦装置と独自のプログラム制御装置によって操縦される無人航空機...
[51CTO.com からのオリジナル記事] インターネットビジネスの発展に伴い、大量のデータが生...
[[380229]] 1. 顔認識の背景紹介簡単に言えば、顔認識の問題は、2 つの顔が与えられたとき...
Google は、「Semantic Experiences」という新しい Web サイトを立ち上げ...
海外メディアTech Xploreによると、MITの研究者らは最近、新しいタンパク質分子の構造を事前...
ハッカーや詐欺師が新しいテクノロジーを入手したり、古い脆弱性を悪用する新しい方法を考え出したりするに...
前回の記事では、KMPアルゴリズムを紹介しました。ただし、これは最も効率的なアルゴリズムではなく、実...
人工知能は 2010 年代の技術であり、時が経つにつれて、ますます多くの AI 技術が登場しています...