小紅書探索チームが新たな枠組みを提案:大規模モデル蒸留のためのネガティブサンプルの価値を検証

小紅書探索チームが新たな枠組みを提案:大規模モデル蒸留のためのネガティブサンプルの価値を検証

大規模言語モデル (LLM) はさまざまな推論タスクで優れたパフォーマンスを発揮しますが、ブラックボックス特性と多数のパラメータが、実際の広範な適用を妨げています。特に複雑な数学の問題を扱う場合、LLM は誤った推論の連鎖を生み出すことがあります。従来の研究方法では、肯定的なサンプルからの知識のみが伝達され、間違った答えを持つ合成データは無視されます。

AAAI 2024で、 Xiaohongshu検索アルゴリズムチームは、大規模モデルの推論機能を抽出するプロセスで負のサンプル知識を最大限に活用するための革新的なフレームワークを提案しました。ネガティブサンプル、つまり推論プロセス中に正しい答えを生成できなかったデータは役に立たないものとみなされることが多いですが、実際には貴重な情報が含まれています。

本論文では、大規模モデル蒸留プロセスにおけるネガティブサンプルの価値を提案し検証し、モデル特化フレームワークを構築します。つまり、ポジティブサンプルの使用に加えて、ネガティブサンプルを最大限に活用して、LLM の知識を洗練させます。このフレームワークは、ネガティブアシストトレーニング (NAT)ネガティブキャリブレーションエンハンスメント (NCE)動的自己一貫性 (ASC)の 3 つの連続したステップで構成され、トレーニングから推論までのプロセス全体をカバーします。一連の大規模な実験を通じて、LLM における知識の蒸留における負のデータの重要な役割を実証します。

1. 背景

現在、大規模言語モデル (LLM) は、Chain of Thought (CoT) キューの助けを借りて強力な推論機能を発揮します。しかし、思考連鎖は、数千億のパラメータを持つモデルだけが持つ新たな能力であることが証明されています。これらのモデルは計算要件が厳しく、推論コストも高いため、リソースが限られたシナリオでは適用が困難です。したがって、私たちの研究の目標は、小さなモデルで複雑な算術推論を実行できるようにし、実際のアプリケーションに大規模に展開できるようにすることです。

知識蒸留は、LLM の特定の機能をより小さなモデルに転送する効果的な方法を提供します。このプロセスはモデルの特殊化とも呼ばれ、小さなモデルを特定の機能に集中させるようになります。これまでの研究では、LLM のコンテキスト間学習 (ICL) を使用して数学の問題に対する推論パスを生成し、それをトレーニング データとして使用して、小規模モデルが複雑な推論機能を獲得できるようにしてきました。しかし、これらの研究では、正解(つまり、正のサンプル)で生成された推論パスのみをトレーニング サンプルとして使用し、不正解(つまり、負のサンプル)の推論ステップの貴重な知識を無視していました。

図に示すように、表 1 は興味深い現象を示しています。正のサンプル データと負のサンプル データでトレーニングされたモデルでは、MATH テスト セットの正確な回答の重複がほとんどありません。ネガティブサンプルでトレーニングされたモデルは精度が低くなりますが、ポジティブサンプルモデルでは正しく答えられない質問をいくつか解決できるため、ネガティブサンプルには貴重な知識が含まれていることが確認できます。さらに、ネガティブサンプル内の間違ったリンクは、モデルが同様の間違いを犯さないようにするのに役立ちます。ネガティブサンプルを活用すべきもう一つの理由は、OpenAI のトークンベースの価格設定戦略です。 GPT-4 でも MATH データセットでの精度は 50% 未満です。つまり、正のサンプル知識のみを利用すると、大量のトークンが無駄になります。したがって、ネガティブなサンプルを直接破棄するのではなく、そこから貴重な知識を抽出して活用し、小さなモデルの特殊化を強化する方がよいアプローチであると提案します。

モデルの特殊化プロセスは、一般的に次の 3 つのステップに要約できます。

1) 思考連鎖の蒸留: LLM によって生成された推論連鎖を使用して、小さなモデルをトレーニングします。

2) 自己強化: モデルをさらに最適化するための自己蒸留またはデータの自己拡張。

3) 自己一貫性は、推論タスクにおけるモデルのパフォーマンスを向上させる効果的なデコード戦略として広く使用されています。

本研究では、負のサンプルを最大限に活用し、LLM から複雑な推論機能の抽出を容易にする新しいモデル特殊化フレームワークを提案します。

  • 私たちはまず、ポジティブな側面とネガティブな側面の両方から知識を獲得するためにデュアル LoRA 構造を設計したネガティブ支援トレーニング (NAT)方式を設計しました。補助モジュールとして、ネガティブ LoRA の知識は、修正された注意メカニズムを通じてポジティブな LoRA のトレーニング プロセスに動的に統合できます。
  • 自己拡張のために、負の出力をベースラインとして取り、主要な前方推論リンクの抽出を強化する負のキャリブレーション強化 (NCE)を設計します。
  • トレーニング段階に加えて、推論中に否定的な情報も利用します。従来の自己一貫性手法では、すべての候補出力に等しい重みまたは確率ベースの重みが割り当てられ、信頼性の低い回答に投票することになります。この問題を緩和するために、投票前にランキングを実行する動的自己一貫性 (ASC)方式が提案されており、ランキング モデルは正のサンプルと負のサンプルでトレーニングされます。

2. 方法

私たちが提案したフレームワークは LLaMA モデルに基づいており、図に示すように 3 つの部分で構成されています。

  • ステップ 1: ユニットをマージして、陽性サンプルの推論知識を学習できるように、陰性の LoRA をトレーニングします。
  • ステップ 2: 負の LoRA をベースラインとして使用して、自己強化プロセスを調整します。
  • ステップ 3: 正のサンプルと負のサンプルでランキング モデルをトレーニングし、推論中のスコアに応じて候補推論リンクに適応的に重み付けします。

写真

2.1 ネガティブアシストトレーニング(NAT)

私たちは、ネガティブな知識の吸収動的統合ユニットの2つの部分から構成される2段階のネガティブ支援トレーニング(NAT)パラダイムを提案します。

2.1.1 否定的な知識の吸収

2.1.2 動的統合ユニット

2.2 ネガティブキャリブレーションエンハンスメント(NCE)

モデルの推論能力をさらに強化するために、ネガティブな知識を使用して自己強化プロセスを支援するネガティブキャリブレーション強化 (NCE) を提案します。まず、NAT を使用して各質問のペアを拡張サンプルとして生成し、それをトレーニング データセットに追加します。自己蒸留部分については、一部のサンプルには、モデルの推論能力を向上させるために不可欠な、より重要な推論ステップが含まれている可能性があることに気付きました。私たちの主な目標は、これらの重要な推論ステップを特定し、自己蒸留中にそれらの学習を強化することです。

β 値が大きいほど、2 つの差が大きくなり、サンプルに重要な知識がより多く含まれていることを意味します。異なるサンプルの損失重みを調整するために β を導入することで、NCE は NAT に埋め込まれた知識を選択的に学習し、強化できるようになります。

2.3 動的自己一貫性(ASC)

自己一貫性 (SC) は、複雑な推論におけるモデルのパフォーマンスをさらに向上させるのに効果的です。ただし、現在の方法では、各候補に等しい重みを割り当てるか、または単純に生成確率に基づいて重みを割り当てます。これらの戦略では、投票フェーズ中に (rˆ, yˆ) の品質に応じて候補の重みを調整できないため、正しい候補が選択される可能性が低くなる可能性があります。この目的のために、我々は、正のデータと負のデータを活用してランキング モデルをトレーニングし、候補推論リンクを適応的に再重み付けできる動的自己一貫性法 (ASC) を提案します。

2.3.1 ソートモデルのトレーニング

理想的には、ランキング モデルで、正しい答えにつながる推論リンクに高い重みを割り当て、その逆も行うことが望まれます。したがって、トレーニング サンプルは次のように構築します。

写真

MSE 損失を使用してソート モデルをトレーニングします。

写真

2.3.2 加重戦略

候補推論リンクを適応的に再重み付けするという目標を達成するために、投票戦略を次の式に変更します。

写真

次の図は、ASC 戦略のプロセスを示しています。

写真

知識移転の観点から、ASC は LLM からの知識 (肯定的および否定的) をさらに活用して、小規模モデルのパフォーマンスを向上させるのに役立ちます。

3. 実験

この研究は、7つの異なる科目を網羅した合計12,500問の質問を含む、難しい数学的推論データセットMATHに焦点を当てています。さらに、提案されたフレームワークの分布外 (OOD) データに対する一般化能力を評価するために、GSM8K、ASDiv、MultiArith、SVAMP の 4 つのデータセットを紹介します。

教師モデルでは、Open AI の gpt-3.5-turbo と gpt-4 API を使用して推論チェーンを生成します。学生モデルには、LLaMA-7b を選択します。

私たちの研究には主に 2 種類のベースラインがあります。1 つは大規模言語モデル (LLM) に基づいており、もう 1 つは LLaMA-7b に基づいています。 LLM については、GPT3 と PaLM という 2 つの一般的なモデルと比較します。 LLaMA-7b については、まず、Few-shot、Fine-tune (元のトレーニング サンプル)、CoT KD (Chain of Thought Distillation) の 3 つの設定で当社の方法を比較します。ネガティブな観点からの学習に関しては、MIX (ポジティブデータとネガティブデータの混合で LLaMA を直接トレーニング)、CL (対照学習)、NT (ネガティブトレーニング)、UL (非尤度損失) の 4 つのベースライン手法も含まれます。

3.1 NAT実験結果

すべての手法は貪欲探索(つまり、温度 = 0)を使用しました。NAT の実験結果が図に示されており、提案された NAT 手法により、すべてのベースラインでタスクの精度が向上することがわかります。

GPT3 と PaLM の低い値からわかるように、MATH は非常に難しい数学データセットですが、NAT は依然として非常に少ないパラメータで良好なパフォーマンスを発揮できます。元のデータの微調整と比較すると、NAT は 2 つの異なる CoT ソースで約 75.75% の改善を達成します。陽性サンプルの CoT KD と比較して、NAT は精度も大幅に向上し、陰性サンプルの価値を実証しています。

負の情報を利用するベースラインの場合、MIX のパフォーマンスが低いことは、負のサンプルで直接トレーニングするとモデルのパフォーマンスが低下することを示しています。他の方法も NAT より劣る場合が多く、これは負の方向の負のサンプルのみを使用するのは複雑な推論タスクでは不十分であることを示しています。

写真

3.2 NCE実験結果

図に示すように、NCE は知識蒸留 (KD) と比較して平均 10% (0.66) の改善を達成しており、ネガティブ サンプルによって提供されるキャリブレーション情報を活用することによる蒸留の有効性を実証しています。 NAT と比較すると、NCE はいくつかのパラメータを削減しますが、それでも 6.5% の改善があり、モデルを圧縮してパフォーマンスを向上させるという目的を達成しています。

写真

3.3 ASC実験結果

ASC を評価するために、ベース SC および加重 (WS) SC と比較し、サンプリング温度 T = 1 を使用して 16 個のサンプルを生成します。図に示すように、結果は、異なるサンプルからの回答を集約する ASC がより有望な戦略であることを示しています。

写真

3.4 一般化実験結果

MATHデータセットに加えて、他の数学的推論タスクにおけるフレームワークの一般化能力を評価しました。実験結果は次のとおりです。

写真

IV. 結論

この研究では、ネガティブサンプルを使用して大規模な言語モデルから複雑な推論機能を抽出し、それを特殊な小規模モデルに転送することの有効性を検討します。 Xiaohongshu 検索アルゴリズム チームは、 3 つの連続したステップで構成されるまったく新しいフレームワークを提案し、モデルの特殊化プロセス全体を通じて負の情報を最大限に活用しました。ネガティブアシストトレーニング(NAT)は、 2つの視点からネガティブ情報をより包括的に活用する方法を提供します。ネガティブ キャリブレーション エンハンスメント (NCE)により、自己蒸留プロセスのキャリブレーションが可能になり、重要な知識をより的確に取得できるようになります。 2 つのビューに基づいてトレーニングされたランキング モデルは、回答の集約により適切な重みを割り当てて、動的自己一貫性 (ASC)を実現できます。広範囲にわたる実験により、私たちのフレームワークは生成されたネガティブサンプルを通じて推論能力を改良する有効性を改善できることが実証されています。

論文アドレス: https://arxiv.org/abs/2312.12832

5. 著者について

李一偉:
彼は現在、北京理工大学の博士課程に在籍し、Xiaohongshu Community Search でインターンとして働いています。AAAI 、ACL、EMNLP、NAACL、NeurIPS、KBS など、機械学習と自然言語処理の分野でトップクラスの会議/ジャーナルに論文を多数発表しています。彼の主な研究分野は、大規模言語モデルの蒸留と推論、オープンドメインの対話生成などです。

袁培文:
現在、北京理工大学の博士課程に在籍し、Xiaohongshu Community Searchでインターンとして働いています。NeurIPS、AAAIなどで多数の第一著者論文を発表し、DSTC11 Track 4で2位を獲得しました。主な研究方向は、大規模言語モデルの推論と評価です。

馮紹雄:
Xiaohongshu コミュニティ内の検索ベクトルのリコールを担当します。彼は、AAAI、EMNLP、ACL、NAACL、KBS など、機械学習と自然言語処理の分野におけるトップクラスの会議/ジャーナルで数多くの論文を発表しています。

道軒(パン・ボーユアン):
Xiaohongshuの取引検索責任者。彼は、NeurIPS、ICML、ACL など、機械学習と自然言語処理のトップカンファレンスで第一著者として数々の論文を発表しています。スタンフォード機械読解コンペティション SQuAD で 2 位、スタンフォード自然言語推論ランキングで 1 位を獲得しました。

曾書(ゼンシュシュ):
Xiaohongshu コミュニティにおける検索意味理解およびリコールの責任者。彼は清華大学電子工学科で修士号を取得し、インターネット分野で自然言語処理、推奨、検索などの関連分野のアルゴリズムに取り組んできました。

<<:  Google AIがチューリングテストに合格、ビッグモデルドクターが登場か? GPT-4は17人の医師を困惑させた奇妙な病気を診断した

>>:  GPT-4 より 10 倍高速!この売れ筋の AI エージェント製品がビッグモデルを揺るがします!

ブログ    
ブログ    
ブログ    

推薦する

中国で初めて申請を通過し、オンラインで入手可能になったAI大規模モデル製品8つ

8月31日、中国科学院傘下の百度、バイトダンス、センスタイム、紫東台中、百川知能、知普華章など8つの...

人工知能の未来は人間・機械・環境のシステム知能である

軍事情報は戦争と同様、不確実性の多い霧です。予測不可能で、予測不可能です。現在の人工知能の発展傾向か...

GenAIの有効性に影響を与える主な問題

企業は GenAI をビジネスに適用しようとすると、多くの抵抗と予想外の変更管理の問題に直面します。...

...

なぜ私はLangChainを諦めたのでしょうか?

過去数か月間の AI の爆発的な成長を追ってきた方なら、おそらく LangChain について聞いた...

クラウド アーキテクチャに生成 AI を追加するためのヒント

デビッド・リンシカム企画 | ヤン・ジェンデータの可用性とセキュリティからモデルの選択と監視まで、生...

アメリカの科学者は、AIも人間と同じように「睡眠」が必要であることを発見した。

コンピュータや機械は睡眠なしでも動作できますが、科学者たちは最近、人間と同様に一部の AI も「睡眠...

テンセント・フンユアン・ビッグモデル・アップグレード:「文勝図」を追加し、コード能力を大幅に向上

テンセントは10月26日、テンセント渾源モデルが新たなアップグレードを経て、「文勝図」機能を正式に公...

電子商取引の製品推奨におけるディープラーニングの応用

[[201999]] 1. 共通アルゴリズムルーチン電子商取引業界では、ユーザーへの商品推奨は常に非...

Baidu Smart Cloud Qianfan AppBuilder を解体し、次世代の大規模モデル アプリケーションを予測する

ゲスト|百度インテリジェントクラウド技術委員会委員長 孫克氏執筆者 | Yun Zhao 2023年...

ブロックチェーン、自動運転、人工知能の戦いが始まった。次にホットスポットになるのはどれか?

近年、ブロックチェーン、自動運転、人工知能といった概念がテクノロジーの世界で頻繁に話題になっています...

...

報酬のランダム化により、マルチエージェントゲームにおける多様な戦略的行動が発見され、研究者は新しいアルゴリズムを提案する

本論文では、研究者らは報酬空間を探索するための新しいアルゴリズム RPG (報酬ランダム化ポリシー勾...

...