34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

数学的推論は言語モデルが避けることのできない問題点です。さまざまなブラックテクノロジーのサポートがあっても、オープンソースモデルの推論パフォーマンスはまだ十分ではありません。

最近、ウォータールー大学、オハイオ州立大学、香港科技大学、エディンバラ大学の研究者らが共同で、「一般的な数学の問題」向けにカスタマイズされた大規模モデル MAmmoTH と、命令調整データセット MathInstruct をリリースしました。

論文リンク: https://arxiv.org/pdf/2309.05653.pdf

プロジェクトリンク: https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct は、13 の中級原理の数学データセットからコンパイルされており、そのうち 6 つは新しいもので、Chains of Thought (CoT) と Procedures of Thought (PoT) を組み合わせて、幅広い数学の領域をカバーしています。

CoT と PoT のハイブリッドは、ツール使用の可能性を解き放つだけでなく、モデルがさまざまな数学的問題に対してさまざまな思考プロセスを経ることも可能にします。

その結果、MAmmoTH ファミリーは、あらゆる規模の 9 つの数学的推論データセットにおいて既存のオープンソースモデルを大幅に上回り、平均精度が 12% ～ 29% 向上しました。

その中で、MAmmoTH-7BモデルはMATH（競技レベルのデータセット）で35％の精度を達成し、オープンソースの7Bモデル（WizardMath）の最高値を25％上回りました。MAmmoTH-34BモデルはMATHで46％の精度を達成し、GPT-4のCoT結果も上回りました。

数学的推論の新たな王者：MAmmoTH

数学的推論タスクでは、オープンソースとクローズドソースの大規模言語モデル (LLM) の間には大きなパフォーマンスの差があります。現在、ベンチマークデータセットの sota は、GPT-4、PaLM-2、Claude などのクローズドソースモデルのままであり、Llama、Falcon、OPT などの他のオープンソースモデルは、まだ大きく遅れをとっています。

パフォーマンスのギャップを埋めるために、主に 2 つの研究アプローチがあります。

1. GalacticaやMINERVAなどのモデルは、数学的ネットワークデータを引き続き使用して言語モデルをトレーニングし、モデルの一般的な科学的推論能力を向上させることができますが、計算コストは高くなります。

2. たとえば、Rejection Sampling Fine-tuning (RFT) と WizardMath は、ドメイン固有のデータセットを使用してモデルを微調整します。これにより、ドメイン内のパフォーマンスは向上しますが、より広範囲の数学的推論タスクには適用できません。

数学の問題を解く場合、既存の方法では通常、Chain of Thought (CoT) メソッドを使用して言語モデルをガイドし、自然言語の記述を使用して数学の問題を段階的に解決します。

一般的にほとんどの数学的なトピックでは優れたパフォーマンスを発揮しますが、正確または複雑な数学的計算やアルゴリズムによる推論を必要とする問題 (二次方程式の根を解く、行列の固有値を計算するなど) ではパフォーマンスが低下します。

対照的に、Program-of-Thought (PoT) アプローチと PAL は、外部ツール (Python インタープリターなど) を活用して、計算プロセスを外部 Python インタープリターにオフロードし、複雑な数学的およびアルゴリズム的推論プロセス (例: sympy で二次方程式を解く、numpy で行列の固有値を計算する) を解決することで、数学的解決プロセスを大幅に簡素化します。

しかし、PoT は、特に組み込み API がない場合、より抽象的な推論シナリオを処理するのに欠けており、常識的な推論、形式論理、抽象代数ではさらに不十分です。

方法の概要

研究者の目標は、数学の指導を調整するための高品質で多様なデータセットのリストをまとめることだった。

1. さまざまな数学の分野と複雑さをカバーする

より包括的なデータセットにより、モデルをさまざまな数学的知識にさらすことができ、モデルの汎用性を高めることができます。

研究者らは、GSM8K、math、AQuA、Camel、TheoremQA など、広く採用されている高品質のデータセットに選択範囲を絞り込みました。

また、既存のデータセットには抽象代数や形式論理などの大学レベルの数学知識が欠けていることにも留意してください。そのため、研究者は、インターネット上で見つかったいくつかのシード例を使用して、自己指導を通じて質問とCoTのデータペアを作成し、GPT-4を使用してTheoremQAの問題における思考の連鎖（CoT）原理を合成することを選択しました。

2. ハイブリッド CoT と PoT

既存の研究方法のほとんどは CoT のみに焦点を当てており、データセットには限られた問題解決のアイデアしか含まれていないため、CoT と PoT の間でデータ量が非常に不均衡になっています。

この問題を解決するために、研究者らは GPT-4 を使用して、選択したデータセットの PoT 問題解決のアイデアを補完し、合成プログラムの実行結果と手動で注釈が付けられた回答を比較してフィルタリングし、生成されたデータの高品質を確保しました。

上記の方法に従って、最終的に26万の指示と応答のデータペアを取得しました。算術、代数、確率、微積分、幾何学など、幅広いコア数学分野をカバーし、CoTとPoTの基本原理を混合し、複数の言語と複数の難易度のデータを提供しており、データセットの高品質と独自性を証明するのに十分です。

トレーニング手順

研究者らは、MathInstruct のすべてのサブセットを統合し、命令データセットの構造を Alpaca モデルの形式に標準化しました。これにより、モデルは元のデータセットの形式を考慮する必要がなくなり、微調整段階でデータを均一に処理できるようになります。

研究者らはオープンソースモデルのLlama-2とCode Llamaをベースモデルとして選択し、7B、13B、34B、70Bサイズのモデルで微調整しました。

実験セクション

評価データセット

研究者たちは、モデルの一般的な数学的推論能力を評価するために、さまざまな数学分野からサンプルを選択しました。

ドメイン内のデータセットには、GSM8K、MATH、AQuA-RAT、NumGLUE が含まれ、ドメイン外のデータセットには、SVAMP、Mathematics、SimulEq、SAT-Math、SimulEq が含まれ、小学校、高校、大学レベルの数学の問題をカバーしています。一部のデータセットには、形式論理や常識推論も含まれています。

質問の種類には、自由回答形式の質問と複数選択形式の質問があります。自由回答形式の質問 (GSM8K や数学など) は、ほとんどの質問がプログラムで解決できるため、PoT を使用してデコードされます。複数選択形式の質問 (AQuA や MMLU など) は、CoT を使用してデコードされます。

CoT デコードにはトリガーワードは必要ありませんが、PoT には「問題を解決するプログラムを作成しましょう」というトリガーフレーズが必要です。

実験結果

一般的に、MAmmoTH と MAmmoTH-Coder はさまざまなモデルサイズで SoTA モデルよりも優れており、ドメイン外 (OOD) データセットのゲインはドメイン内 (IND) データセットのゲインよりも大幅に優れているため、数学的ジェネラリストモデルとしてのモデルの潜在能力が実証されています。いくつかのデータセットでは、MAmmoTH-Coder-34B と MAmmoTH-70B はクローズドソースモデルを上回っています。

ドメイン内データの評価では、MAmmoTH モデルの主な競合相手は WizardMath と Platypus です。WizardMath のトレーニング深度は GSM8K および MATH データセットに依存し、Platypus はより広範囲のテキストおよび数学的推論データセットで LLM を微調整します。

対照的に、MAmmoTH は全体的な改善を達成し、複雑な数学の問題を解くのに優れており、WizardMath と比較して最大 25% の向上が見られます (MATH データの sota)

領域外データの評価では、主な競合モデルは依然として Platypus ですが、MAmmoTH は領域内データよりも高いパフォーマンスを達成でき、未知の数学的問題に対する一般的な能力を実証しています。

特に、MAmmoTH-7B は、トレーニングデータセットでカバーされていない多数のトピックを含む MMLU-Math における WizardMath-7B の CoT パフォーマンスを 9% 大幅に向上させます。

異なるベースモデルの比較

Code-Llama をベースモデルとして使用すると、特にドメイン外のデータセットでは、常に Llama-2 よりも優れていることがわかります。両者のパフォーマンスの差は 5% にも達します。ドメイン外のデータセットでの MAmmoTH-Coder (34B) の平均パフォーマンスは、実際には MAmmoTH (70B) よりも高くなっています。

研究者たちは、MAmmoTH-Coder は Code-Llama の継続的なコードトレーニングから大きな恩恵を受けており、PoT 機能が強化されただけでなく、Llama の一般的な推論スキルも向上したと考えています。

<<: AI革命はネットゼロデータセンターを終わらせるか？

>>: 人工知能によりデータセンターの設計が再考される