34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

数学的推論は言語モデルが避けることのできない問題点です。さまざまなブラックテクノロジーのサポートがあっても、オープンソースモデルの推論パフォーマンスはまだ十分ではありません。

最近、ウォータールー大学、オハイオ州立大学、香港科技大学、エディンバラ大学の研究者らが共同で、「一般的な数学の問題」向けにカスタマイズされた大規模モデル MAmmoTH と、命令調整データセット MathInstruct をリリースしました。

論文リンク: https://arxiv.org/pdf/2309.05653.pdf

プロジェクトリンク: https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct は、13 の中級原理の数学データセットからコンパイルされており、そのうち 6 つは新しいもので、Chains of Thought (CoT) と Procedures of Thought (PoT) を組み合わせて、幅広い数学の領域をカバーしています。

CoT と PoT のハイブリッドは、ツール使用の可能性を解き放つだけでなく、モデルがさまざまな数学的問題に対してさまざまな思考プロセスを経ることも可能にします。

その結果、MAmmoTH ファミリーは、あらゆる規模の 9 つの数学的推論データセットにおいて既存のオープンソース モデルを大幅に上回り、平均精度が 12% ~ 29% 向上しました。

その中で、MAmmoTH-7BモデルはMATH(競技レベルのデータセット)で35%の精度を達成し、オープンソースの7Bモデル(WizardMath)の最高値を25%上回りました。MAmmoTH-34BモデルはMATHで46%の精度を達成し、GPT-4のCoT結果も上回りました。

数学的推論の新たな王者:MAmmoTH

数学的推論タスクでは、オープンソースとクローズドソースの大規模言語モデル (LLM) の間には大きなパフォーマンスの差があります。現在、ベンチマーク データセットの sota は、GPT-4、PaLM-2、Claude などのクローズドソース モデルのままであり、Llama、Falcon、OPT などの他のオープンソース モデルは、まだ大きく遅れをとっています。

パフォーマンスのギャップを埋めるために、主に 2 つの研究アプローチがあります。

1. GalacticaやMINERVAなどのモデルは、数学的ネットワークデータを引き続き使用して言語モデルをトレーニングし、モデルの一般的な科学的推論能力を向上させることができますが、計算コストは​​高くなります。

2. たとえば、Rejection Sampling Fine-tuning (RFT) と WizardMath は、ドメイン固有のデータセットを使用してモデルを微調整します。これにより、ドメイン内のパフォーマンスは向上しますが、より広範囲の数学的推論タスクには適用できません。

数学の問題を解く場合、既存の方法では通常、Chain of Thought (CoT) メソッドを使用して言語モデルをガイドし、自然言語の記述を使用して数学の問題を段階的に解決します。

一般的にほとんどの数学的なトピックでは優れたパフォーマンスを発揮しますが、正確または複雑な数学的計算やアルゴリズムによる推論を必要とする問題 (二次方程式の根を解く、行列の固有値を計算するなど) ではパフォーマンスが低下します。

対照的に、Program-of-Thought (PoT) アプローチと PAL は、外部ツール (Python インタープリターなど) を活用して、計算プロセスを外部 Python インタープリターにオフロードし、複雑な数学的およびアルゴリズム的推論プロセス (例: sympy で二次方程式を解く、numpy で行列の固有値を計算する) を解決することで、数学的解決プロセスを大幅に簡素化します。

しかし、PoT は、特に組み込み API がない場合、より抽象的な推論シナリオを処理するのに欠けており、常識的な推論、形式論理、抽象代数ではさらに不十分です。

方法の概要

研究者の目標は、数学の指導を調整するための高品質で多様なデータセットのリストをまとめることだった。

1. さまざまな数学の分野と複雑さをカバーする

より包括的なデータ セットにより、モデルをさまざまな数学的知識にさらすことができ、モデルの汎用性を高めることができます。

研究者らは、GSM8K、math、AQuA、Camel、TheoremQA など、広く採用されている高品質のデータセットに選択範囲を絞り込みました。

また、既存のデータセットには抽象代数や形式論理などの大学レベルの数学知識が欠けていることにも留意してください。そのため、研究者は、インターネット上で見つかったいくつかのシード例を使用して、自己指導を通じて質問とCoTのデータペアを作成し、GPT-4を使用してTheoremQAの問題における思考の連鎖(CoT)原理を合成することを選択しました。

2. ハイブリッド CoT と PoT

既存の研究方法のほとんどは CoT のみに焦点を当てており、データセットには限られた問題解決のアイデアしか含まれていないため、CoT と PoT の間でデータ量が非常に不均衡になっています。

この問題を解決するために、研究者らは GPT-4 を使用して、選択したデータセットの PoT 問題解決のアイデアを補完し、合成プログラムの実行結果と手動で注釈が付けられた回答を比較してフィルタリングし、生成されたデータの高品質を確保しました。

上記の方法に従って、最終的に26万の指示と応答のデータペアを取得しました。算術、代数、確率、微積分、幾何学など、幅広いコア数学分野をカバーし、CoTとPoTの基本原理を混合し、複数の言語と複数の難易度のデータを提供しており、データセットの高品質と独自性を証明するのに十分です。

トレーニング手順

研究者らは、MathInstruct のすべてのサブセットを統合し、命令データセットの構造を Alpaca モデルの形式に標準化しました。これにより、モデルは元のデータセットの形式を考慮する必要がなくなり、微調整段階でデータを均一に処理できるようになります。

研究者らはオープンソースモデルのLlama-2とCode Llamaをベースモデルとして選択し、7B、13B、34B、70Bサイズのモデルで微調整しました。

実験セクション

評価データセット

研究者たちは、モデルの一般的な数学的推論能力を評価するために、さまざまな数学分野からサンプルを選択しました。

ドメイン内のデータセットには、GSM8K、MATH、AQuA-RAT、NumGLUE が含まれ、ドメイン外のデータセットには、SVAMP、Mathematics、SimulEq、SAT-Math、SimulEq が含まれ、小学校、高校、大学レベルの数学の問題をカバーしています。一部のデータセットには、形式論理や常識推論も含まれています。

質問の種類には、自由回答形式の質問と複数選択形式の質問があります。自由回答形式の質問 (GSM8K や数学など) は、ほとんどの質問がプログラムで解決できるため、PoT を使用してデコードされます。複数選択形式の質問 (AQuA や MMLU など) は、CoT を使用してデコードされます。

CoT デコードにはトリガーワードは必要ありませんが、PoT には「問題を解決するプログラムを作成しましょう」というトリガーフレーズが必要です。

実験結果

一般的に、MAmmoTH と MAmmoTH-Coder はさまざまなモデル サイズで SoTA モデルよりも優れており、ドメイン外 (OOD) データセットのゲインはドメイン内 (IND) データセットのゲインよりも大幅に優れているため、数学的ジェネラリスト モデルとしてのモデルの潜在能力が実証されています。いくつかのデータセットでは、MAmmoTH-Coder-34B と MAmmoTH-70B はクローズド ソース モデルを上回っています。

ドメイン内データの評価では、MAmmoTH モデルの主な競合相手は WizardMath と Platypus です。WizardMath のトレーニング深度は GSM8K および MATH データセットに依存し、Platypus はより広範囲のテキストおよび数学的推論データセットで LLM を微調整します。

対照的に、MAmmoTH は全体的な改善を達成し、複雑な数学の問題を解くのに優れており、WizardMath と比較して最大 25% の向上が見られます (MATH データの sota)

領域外データの評価では、主な競合モデルは依然として Platypus ですが、MAmmoTH は領域内データよりも高いパフォーマンスを達成でき、未知の数学的問題に対する一般的な能力を実証しています。

特に、MAmmoTH-7B は、トレーニング データセットでカバーされていない多数のトピックを含む MMLU-Math における WizardMath-7B の CoT パフォーマンスを 9% 大幅に向上させます。

異なるベースモデルの比較

Code-Llama をベースモデルとして使用すると、特にドメイン外のデータセットでは、常に Llama-2 よりも優れていることがわかります。両者のパフォーマンスの差は 5% にも達します。ドメイン外のデータセットでの MAmmoTH-Coder (34B) の平均パフォーマンスは、実際には MAmmoTH (70B) よりも高くなっています。

研究者たちは、MAmmoTH-Coder は Code-Llama の継続的なコード トレーニングから大きな恩恵を受けており、PoT 機能が強化されただけでなく、Llama の一般的な推論スキルも向上したと考えています。

<<:  AI革命はネットゼロデータセンターを終わらせるか?

>>:  人工知能によりデータセンターの設計が再考される

ブログ    
ブログ    

推薦する

データが増えるほど、AIの意思決定モデルは脆弱になる

データは、人工知能システムを構築するために必要な重要なインフラストラクチャです。データは、AI シス...

人工知能は職場のつながりとコラボレーションを変革できる

世界の人工知能(AI)市場は2027年までに2,670億ドルに達すると予想されています。しかし、テク...

CVとNLPにおける対照学習の研究の進展

[[423166]]対照学習(CV)比較学習は何をするのでしょうか?教師ありトレーニングの典型的な問...

...

馬化騰氏は「人工知能の4つの主要な発展傾向が今後10年間で世界を変えるだろう」と述べた。

今後10年間で世界を変える人工知能の4つの主要な発展トレンドの分析61歳のビル・ゲイツ氏は大学卒業生...

サム・アルトマンが2023年の年末総括を発表、17の大格言がネット全体に響き渡る!

2023年も終わりに近づいています。過去1年を振り返ると、ChatGPTの登場が世界的なAIブーム...

...

AI と Wi-Fi 6: 家庭内 Wi-Fi の革命を推進

固定ネットワークが F5G (第 5 世代) 時代に入るにつれ、家庭用 Wi-Fi テクノロジも、新...

機械学習のための特徴選択の5つの方法!

使用される特徴の数が増えるにつれて、モデルのパフォーマンスが向上することが分かっています。ただし、ピ...

COVID-19 最新情報: COVID-19 との戦いに役立つトップ 10 のイノベーション

[[320870]]迅速な感染検査から3Dプリントソリューションまで、世界中のテクノロジー企業が協力...

最も人気のある 12 の AI ツール、ライブラリ、プラットフォーム

[[205783]]近年 AI の利用が増えているため、利用可能な AI ツール、ライブラリ、プラッ...

流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

全国的な「オンライン授業」が始まって1か月、湖北省以外の省では新型コロナウイルスの新規感染者もそれほ...

中国語と英語で最大のAIモデルの世界記録が樹立され、大規模モデル競争の新たなステージが到来

[[429193]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

AI軍拡競争により、将来のAIハードウェアアーキテクチャの開発に3つの主要な方向性が生まれました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...