小紅書探索チームが新たな枠組みを提案：大規模モデル蒸留のためのネガティブサンプルの価値を検証

大規模言語モデル (LLM) はさまざまな推論タスクで優れたパフォーマンスを発揮しますが、ブラックボックス特性と多数のパラメータが、実際の広範な適用を妨げています。特に複雑な数学の問題を扱う場合、LLM は誤った推論の連鎖を生み出すことがあります。従来の研究方法では、肯定的なサンプルからの知識のみが伝達され、間違った答えを持つ合成データは無視されます。

AAAI 2024で、 Xiaohongshu検索アルゴリズムチームは、大規模モデルの推論機能を抽出するプロセスで負のサンプル知識を最大限に活用するための革新的なフレームワークを提案しました。ネガティブサンプル、つまり推論プロセス中に正しい答えを生成できなかったデータは役に立たないものとみなされることが多いですが、実際には貴重な情報が含まれています。

本論文では、大規模モデル蒸留プロセスにおけるネガティブサンプルの価値を提案し検証し、モデル特化フレームワークを構築します。つまり、ポジティブサンプルの使用に加えて、ネガティブサンプルを最大限に活用して、LLM の知識を洗練させます。このフレームワークは、ネガティブアシストトレーニング (NAT) 、ネガティブキャリブレーションエンハンスメント (NCE) 、動的自己一貫性 (ASC)の 3 つの連続したステップで構成され、トレーニングから推論までのプロセス全体をカバーします。一連の大規模な実験を通じて、LLM における知識の蒸留における負のデータの重要な役割を実証します。

1. 背景

現在、大規模言語モデル (LLM) は、Chain of Thought (CoT) キューの助けを借りて強力な推論機能を発揮します。しかし、思考連鎖は、数千億のパラメータを持つモデルだけが持つ新たな能力であることが証明されています。これらのモデルは計算要件が厳しく、推論コストも高いため、リソースが限られたシナリオでは適用が困難です。したがって、私たちの研究の目標は、小さなモデルで複雑な算術推論を実行できるようにし、実際のアプリケーションに大規模に展開できるようにすることです。

知識蒸留は、LLM の特定の機能をより小さなモデルに転送する効果的な方法を提供します。このプロセスはモデルの特殊化とも呼ばれ、小さなモデルを特定の機能に集中させるようになります。これまでの研究では、LLM のコンテキスト間学習 (ICL) を使用して数学の問題に対する推論パスを生成し、それをトレーニングデータとして使用して、小規模モデルが複雑な推論機能を獲得できるようにしてきました。しかし、これらの研究では、正解（つまり、正のサンプル）で生成された推論パスのみをトレーニングサンプルとして使用し、不正解（つまり、負のサンプル）の推論ステップの貴重な知識を無視していました。

図に示すように、表 1 は興味深い現象を示しています。正のサンプルデータと負のサンプルデータでトレーニングされたモデルでは、MATH テストセットの正確な回答の重複がほとんどありません。ネガティブサンプルでトレーニングされたモデルは精度が低くなりますが、ポジティブサンプルモデルでは正しく答えられない質問をいくつか解決できるため、ネガティブサンプルには貴重な知識が含まれていることが確認できます。さらに、ネガティブサンプル内の間違ったリンクは、モデルが同様の間違いを犯さないようにするのに役立ちます。ネガティブサンプルを活用すべきもう一つの理由は、OpenAI のトークンベースの価格設定戦略です。 GPT-4 でも MATH データセットでの精度は 50% 未満です。つまり、正のサンプル知識のみを利用すると、大量のトークンが無駄になります。したがって、ネガティブなサンプルを直接破棄するのではなく、そこから貴重な知識を抽出して活用し、小さなモデルの特殊化を強化する方がよいアプローチであると提案します。

モデルの特殊化プロセスは、一般的に次の 3 つのステップに要約できます。

1) 思考連鎖の蒸留: LLM によって生成された推論連鎖を使用して、小さなモデルをトレーニングします。

2) 自己強化: モデルをさらに最適化するための自己蒸留またはデータの自己拡張。

3) 自己一貫性は、推論タスクにおけるモデルのパフォーマンスを向上させる効果的なデコード戦略として広く使用されています。

本研究では、負のサンプルを最大限に活用し、LLM から複雑な推論機能の抽出を容易にする新しいモデル特殊化フレームワークを提案します。

私たちはまず、ポジティブな側面とネガティブな側面の両方から知識を獲得するためにデュアル LoRA 構造を設計したネガティブ支援トレーニング (NAT)方式を設計しました。補助モジュールとして、ネガティブ LoRA の知識は、修正された注意メカニズムを通じてポジティブな LoRA のトレーニングプロセスに動的に統合できます。
自己拡張のために、負の出力をベースラインとして取り、主要な前方推論リンクの抽出を強化する負のキャリブレーション強化 (NCE)を設計します。
トレーニング段階に加えて、推論中に否定的な情報も利用します。従来の自己一貫性手法では、すべての候補出力に等しい重みまたは確率ベースの重みが割り当てられ、信頼性の低い回答に投票することになります。この問題を緩和するために、投票前にランキングを実行する動的自己一貫性 (ASC)方式が提案されており、ランキングモデルは正のサンプルと負のサンプルでトレーニングされます。

2. 方法

私たちが提案したフレームワークは LLaMA モデルに基づいており、図に示すように 3 つの部分で構成されています。

ステップ 1: ユニットをマージして、陽性サンプルの推論知識を学習できるように、陰性の LoRA をトレーニングします。
ステップ 2: 負の LoRA をベースラインとして使用して、自己強化プロセスを調整します。
ステップ 3: 正のサンプルと負のサンプルでランキングモデルをトレーニングし、推論中のスコアに応じて候補推論リンクに適応的に重み付けします。

写真

2.1 ネガティブアシストトレーニング（NAT）

私たちは、ネガティブな知識の吸収と動的統合ユニットの2つの部分から構成される2段階のネガティブ支援トレーニング（NAT）パラダイムを提案します。

2.1.1 否定的な知識の吸収

2.1.2 動的統合ユニット

2.2 ネガティブキャリブレーションエンハンスメント（NCE）

モデルの推論能力をさらに強化するために、ネガティブな知識を使用して自己強化プロセスを支援するネガティブキャリブレーション強化 (NCE) を提案します。まず、NAT を使用して各質問のペアを拡張サンプルとして生成し、それをトレーニングデータセットに追加します。自己蒸留部分については、一部のサンプルには、モデルの推論能力を向上させるために不可欠な、より重要な推論ステップが含まれている可能性があることに気付きました。私たちの主な目標は、これらの重要な推論ステップを特定し、自己蒸留中にそれらの学習を強化することです。

β 値が大きいほど、2 つの差が大きくなり、サンプルに重要な知識がより多く含まれていることを意味します。異なるサンプルの損失重みを調整するために β を導入することで、NCE は NAT に埋め込まれた知識を選択的に学習し、強化できるようになります。

2.3 動的自己一貫性（ASC）

自己一貫性 (SC) は、複雑な推論におけるモデルのパフォーマンスをさらに向上させるのに効果的です。ただし、現在の方法では、各候補に等しい重みを割り当てるか、または単純に生成確率に基づいて重みを割り当てます。これらの戦略では、投票フェーズ中に (rˆ, yˆ) の品質に応じて候補の重みを調整できないため、正しい候補が選択される可能性が低くなる可能性があります。この目的のために、我々は、正のデータと負のデータを活用してランキングモデルをトレーニングし、候補推論リンクを適応的に再重み付けできる動的自己一貫性法 (ASC) を提案します。

2.3.1 ソートモデルのトレーニング

理想的には、ランキングモデルで、正しい答えにつながる推論リンクに高い重みを割り当て、その逆も行うことが望まれます。したがって、トレーニングサンプルは次のように構築します。

写真

MSE 損失を使用してソートモデルをトレーニングします。

写真

2.3.2 加重戦略

候補推論リンクを適応的に再重み付けするという目標を達成するために、投票戦略を次の式に変更します。

写真

次の図は、ASC 戦略のプロセスを示しています。

写真

知識移転の観点から、ASC は LLM からの知識 (肯定的および否定的) をさらに活用して、小規模モデルのパフォーマンスを向上させるのに役立ちます。

3. 実験

この研究は、7つの異なる科目を網羅した合計12,500問の質問を含む、難しい数学的推論データセットMATHに焦点を当てています。さらに、提案されたフレームワークの分布外 (OOD) データに対する一般化能力を評価するために、GSM8K、ASDiv、MultiArith、SVAMP の 4 つのデータセットを紹介します。

教師モデルでは、Open AI の gpt-3.5-turbo と gpt-4 API を使用して推論チェーンを生成します。学生モデルには、LLaMA-7b を選択します。

私たちの研究には主に 2 種類のベースラインがあります。1 つは大規模言語モデル (LLM) に基づいており、もう 1 つは LLaMA-7b に基づいています。 LLM については、GPT3 と PaLM という 2 つの一般的なモデルと比較します。 LLaMA-7b については、まず、Few-shot、Fine-tune (元のトレーニングサンプル)、CoT KD (Chain of Thought Distillation) の 3 つの設定で当社の方法を比較します。ネガティブな観点からの学習に関しては、MIX (ポジティブデータとネガティブデータの混合で LLaMA を直接トレーニング)、CL (対照学習)、NT (ネガティブトレーニング)、UL (非尤度損失) の 4 つのベースライン手法も含まれます。

3.1 NAT実験結果

すべての手法は貪欲探索（つまり、温度 = 0）を使用しました。NAT の実験結果が図に示されており、提案された NAT 手法により、すべてのベースラインでタスクの精度が向上することがわかります。

GPT3 と PaLM の低い値からわかるように、MATH は非常に難しい数学データセットですが、NAT は依然として非常に少ないパラメータで良好なパフォーマンスを発揮できます。元のデータの微調整と比較すると、NAT は 2 つの異なる CoT ソースで約 75.75% の改善を達成します。陽性サンプルの CoT KD と比較して、NAT は精度も大幅に向上し、陰性サンプルの価値を実証しています。

負の情報を利用するベースラインの場合、MIX のパフォーマンスが低いことは、負のサンプルで直接トレーニングするとモデルのパフォーマンスが低下することを示しています。他の方法も NAT より劣る場合が多く、これは負の方向の負のサンプルのみを使用するのは複雑な推論タスクでは不十分であることを示しています。

写真

3.2 NCE実験結果

図に示すように、NCE は知識蒸留 (KD) と比較して平均 10% (0.66) の改善を達成しており、ネガティブサンプルによって提供されるキャリブレーション情報を活用することによる蒸留の有効性を実証しています。 NAT と比較すると、NCE はいくつかのパラメータを削減しますが、それでも 6.5% の改善があり、モデルを圧縮してパフォーマンスを向上させるという目的を達成しています。

写真

3.3 ASC実験結果

ASC を評価するために、ベース SC および加重 (WS) SC と比較し、サンプリング温度 T = 1 を使用して 16 個のサンプルを生成します。図に示すように、結果は、異なるサンプルからの回答を集約する ASC がより有望な戦略であることを示しています。

写真

3.4 一般化実験結果

MATHデータセットに加えて、他の数学的推論タスクにおけるフレームワークの一般化能力を評価しました。実験結果は次のとおりです。

写真

IV. 結論

この研究では、ネガティブサンプルを使用して大規模な言語モデルから複雑な推論機能を抽出し、それを特殊な小規模モデルに転送することの有効性を検討します。 Xiaohongshu 検索アルゴリズムチームは、 3 つの連続したステップで構成されるまったく新しいフレームワークを提案し、モデルの特殊化プロセス全体を通じて負の情報を最大限に活用しました。ネガティブアシストトレーニング（NAT）は、 2つの視点からネガティブ情報をより包括的に活用する方法を提供します。ネガティブキャリブレーションエンハンスメント (NCE)により、自己蒸留プロセスのキャリブレーションが可能になり、重要な知識をより的確に取得できるようになります。 2 つのビューに基づいてトレーニングされたランキングモデルは、回答の集約により適切な重みを割り当てて、動的自己一貫性 (ASC)を実現できます。広範囲にわたる実験により、私たちのフレームワークは生成されたネガティブサンプルを通じて推論能力を改良する有効性を改善できることが実証されています。

論文アドレス: https://arxiv.org/abs/2312.12832

5. 著者について

李一偉：
彼は現在、北京理工大学の博士課程に在籍し、Xiaohongshu Community Search でインターンとして働いています。AAAI 、ACL、EMNLP、NAACL、NeurIPS、KBS など、機械学習と自然言語処理の分野でトップクラスの会議/ジャーナルに論文を多数発表しています。彼の主な研究分野は、大規模言語モデルの蒸留と推論、オープンドメインの対話生成などです。

袁培文：
現在、北京理工大学の博士課程に在籍し、Xiaohongshu Community Searchでインターンとして働いています。NeurIPS、AAAIなどで多数の第一著者論文を発表し、DSTC11 Track 4で2位を獲得しました。主な研究方向は、大規模言語モデルの推論と評価です。

馮紹雄：
Xiaohongshu コミュニティ内の検索ベクトルのリコールを担当します。彼は、AAAI、EMNLP、ACL、NAACL、KBS など、機械学習と自然言語処理の分野におけるトップクラスの会議/ジャーナルで数多くの論文を発表しています。

道軒（パン・ボーユアン）：
Xiaohongshuの取引検索責任者。彼は、NeurIPS、ICML、ACL など、機械学習と自然言語処理のトップカンファレンスで第一著者として数々の論文を発表しています。スタンフォード機械読解コンペティション SQuAD で 2 位、スタンフォード自然言語推論ランキングで 1 位を獲得しました。

曾書（ゼンシュシュ）：
Xiaohongshu コミュニティにおける検索意味理解およびリコールの責任者。彼は清華大学電子工学科で修士号を取得し、インターネット分野で自然言語処理、推奨、検索などの関連分野のアルゴリズムに取り組んできました。

<<: Google AIがチューリングテストに合格、ビッグモデルドクターが登場か？ GPT-4は17人の医師を困惑させた奇妙な病気を診断した

>>: GPT-4 より 10 倍高速!この売れ筋の AI エージェント製品がビッグモデルを揺るがします!