34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

34B パラメータが GPT-4 を上回ります! 「数学的普遍モデル」MAmmoTH オープンソース: 平均精度が最大 29% 向上

数学的推論は言語モデルが避けることのできない問題点です。さまざまなブラックテクノロジーのサポートがあっても、オープンソースモデルの推論パフォーマンスはまだ十分ではありません。

最近、ウォータールー大学、オハイオ州立大学、香港科技大学、エディンバラ大学の研究者らが共同で、「一般的な数学の問題」向けにカスタマイズされた大規模モデル MAmmoTH と、命令調整データセット MathInstruct をリリースしました。

論文リンク: https://arxiv.org/pdf/2309.05653.pdf

プロジェクトリンク: https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct は、13 の中級原理の数学データセットからコンパイルされており、そのうち 6 つは新しいもので、Chains of Thought (CoT) と Procedures of Thought (PoT) を組み合わせて、幅広い数学の領域をカバーしています。

CoT と PoT のハイブリッドは、ツール使用の可能性を解き放つだけでなく、モデルがさまざまな数学的問題に対してさまざまな思考プロセスを経ることも可能にします。

その結果、MAmmoTH ファミリーは、あらゆる規模の 9 つの数学的推論データセットにおいて既存のオープンソース モデルを大幅に上回り、平均精度が 12% ~ 29% 向上しました。

その中で、MAmmoTH-7BモデルはMATH(競技レベルのデータセット)で35%の精度を達成し、オープンソースの7Bモデル(WizardMath)の最高値を25%上回りました。MAmmoTH-34BモデルはMATHで46%の精度を達成し、GPT-4のCoT結果も上回りました。

数学的推論の新たな王者:MAmmoTH

数学的推論タスクでは、オープンソースとクローズドソースの大規模言語モデル (LLM) の間には大きなパフォーマンスの差があります。現在、ベンチマーク データセットの sota は、GPT-4、PaLM-2、Claude などのクローズドソース モデルのままであり、Llama、Falcon、OPT などの他のオープンソース モデルは、まだ大きく遅れをとっています。

パフォーマンスのギャップを埋めるために、主に 2 つの研究アプローチがあります。

1. GalacticaやMINERVAなどのモデルは、数学的ネットワークデータを引き続き使用して言語モデルをトレーニングし、モデルの一般的な科学的推論能力を向上させることができますが、計算コストは​​高くなります。

2. たとえば、Rejection Sampling Fine-tuning (RFT) と WizardMath は、ドメイン固有のデータセットを使用してモデルを微調整します。これにより、ドメイン内のパフォーマンスは向上しますが、より広範囲の数学的推論タスクには適用できません。

数学の問題を解く場合、既存の方法では通常、Chain of Thought (CoT) メソッドを使用して言語モデルをガイドし、自然言語の記述を使用して数学の問題を段階的に解決します。

一般的にほとんどの数学的なトピックでは優れたパフォーマンスを発揮しますが、正確または複雑な数学的計算やアルゴリズムによる推論を必要とする問題 (二次方程式の根を解く、行列の固有値を計算するなど) ではパフォーマンスが低下します。

対照的に、Program-of-Thought (PoT) アプローチと PAL は、外部ツール (Python インタープリターなど) を活用して、計算プロセスを外部 Python インタープリターにオフロードし、複雑な数学的およびアルゴリズム的推論プロセス (例: sympy で二次方程式を解く、numpy で行列の固有値を計算する) を解決することで、数学的解決プロセスを大幅に簡素化します。

しかし、PoT は、特に組み込み API がない場合、より抽象的な推論シナリオを処理するのに欠けており、常識的な推論、形式論理、抽象代数ではさらに不十分です。

方法の概要

研究者の目標は、数学の指導を調整するための高品質で多様なデータセットのリストをまとめることだった。

1. さまざまな数学の分野と複雑さをカバーする

より包括的なデータ セットにより、モデルをさまざまな数学的知識にさらすことができ、モデルの汎用性を高めることができます。

研究者らは、GSM8K、math、AQuA、Camel、TheoremQA など、広く採用されている高品質のデータセットに選択範囲を絞り込みました。

また、既存のデータセットには抽象代数や形式論理などの大学レベルの数学知識が欠けていることにも留意してください。そのため、研究者は、インターネット上で見つかったいくつかのシード例を使用して、自己指導を通じて質問とCoTのデータペアを作成し、GPT-4を使用してTheoremQAの問題における思考の連鎖(CoT)原理を合成することを選択しました。

2. ハイブリッド CoT と PoT

既存の研究方法のほとんどは CoT のみに焦点を当てており、データセットには限られた問題解決のアイデアしか含まれていないため、CoT と PoT の間でデータ量が非常に不均衡になっています。

この問題を解決するために、研究者らは GPT-4 を使用して、選択したデータセットの PoT 問題解決のアイデアを補完し、合成プログラムの実行結果と手動で注釈が付けられた回答を比較してフィルタリングし、生成されたデータの高品質を確保しました。

上記の方法に従って、最終的に26万の指示と応答のデータペアを取得しました。算術、代数、確率、微積分、幾何学など、幅広いコア数学分野をカバーし、CoTとPoTの基本原理を混合し、複数の言語と複数の難易度のデータを提供しており、データセットの高品質と独自性を証明するのに十分です。

トレーニング手順

研究者らは、MathInstruct のすべてのサブセットを統合し、命令データセットの構造を Alpaca モデルの形式に標準化しました。これにより、モデルは元のデータセットの形式を考慮する必要がなくなり、微調整段階でデータを均一に処理できるようになります。

研究者らはオープンソースモデルのLlama-2とCode Llamaをベースモデルとして選択し、7B、13B、34B、70Bサイズのモデルで微調整しました。

実験セクション

評価データセット

研究者たちは、モデルの一般的な数学的推論能力を評価するために、さまざまな数学分野からサンプルを選択しました。

ドメイン内のデータセットには、GSM8K、MATH、AQuA-RAT、NumGLUE が含まれ、ドメイン外のデータセットには、SVAMP、Mathematics、SimulEq、SAT-Math、SimulEq が含まれ、小学校、高校、大学レベルの数学の問題をカバーしています。一部のデータセットには、形式論理や常識推論も含まれています。

質問の種類には、自由回答形式の質問と複数選択形式の質問があります。自由回答形式の質問 (GSM8K や数学など) は、ほとんどの質問がプログラムで解決できるため、PoT を使用してデコードされます。複数選択形式の質問 (AQuA や MMLU など) は、CoT を使用してデコードされます。

CoT デコードにはトリガーワードは必要ありませんが、PoT には「問題を解決するプログラムを作成しましょう」というトリガーフレーズが必要です。

実験結果

一般的に、MAmmoTH と MAmmoTH-Coder はさまざまなモデル サイズで SoTA モデルよりも優れており、ドメイン外 (OOD) データセットのゲインはドメイン内 (IND) データセットのゲインよりも大幅に優れているため、数学的ジェネラリスト モデルとしてのモデルの潜在能力が実証されています。いくつかのデータセットでは、MAmmoTH-Coder-34B と MAmmoTH-70B はクローズド ソース モデルを上回っています。

ドメイン内データの評価では、MAmmoTH モデルの主な競合相手は WizardMath と Platypus です。WizardMath のトレーニング深度は GSM8K および MATH データセットに依存し、Platypus はより広範囲のテキストおよび数学的推論データセットで LLM を微調整します。

対照的に、MAmmoTH は全体的な改善を達成し、複雑な数学の問題を解くのに優れており、WizardMath と比較して最大 25% の向上が見られます (MATH データの sota)

領域外データの評価では、主な競合モデルは依然として Platypus ですが、MAmmoTH は領域内データよりも高いパフォーマンスを達成でき、未知の数学的問題に対する一般的な能力を実証しています。

特に、MAmmoTH-7B は、トレーニング データセットでカバーされていない多数のトピックを含む MMLU-Math における WizardMath-7B の CoT パフォーマンスを 9% 大幅に向上させます。

異なるベースモデルの比較

Code-Llama をベースモデルとして使用すると、特にドメイン外のデータセットでは、常に Llama-2 よりも優れていることがわかります。両者のパフォーマンスの差は 5% にも達します。ドメイン外のデータセットでの MAmmoTH-Coder (34B) の平均パフォーマンスは、実際には MAmmoTH (70B) よりも高くなっています。

研究者たちは、MAmmoTH-Coder は Code-Llama の継続的なコード トレーニングから大きな恩恵を受けており、PoT 機能が強化されただけでなく、Llama の一般的な推論スキルも向上したと考えています。

<<:  AI革命はネットゼロデータセンターを終わらせるか?

>>:  人工知能によりデータセンターの設計が再考される

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

人工知能の将来の展望と動向は何でしょうか?

AlphaGo の人間と機械の戦いから、自動運転車のロードトリップ、AI 合成アンカーの採用まで、...

2020 Forrester Wave レポート: Dynatrace が AI を活用した IT 運用 (AIOps) のリーダーに選出

「Forrester Wave™: IT 運用のための人工知能、2020 年第 4 四半期」レポート...

...

AIはこれらの企業の製品イテレーションの最終決定権を持っている

▲センサー・ウェアラブルデバイス市場におけるAIスタートアップの分布図人工知能は、企業が新たなビジ...

金融業界における人工知能の革新的な応用トップ 10

[[438117]]人工知能は、よりスマートで、より便利で、より安全な方法でお金を投資、アクセス、...

2019年自然言語処理フロンティアフォーラム: 機械による「読む、書く、話す、翻訳する」に焦点を当て、自然言語処理の未来を探る

人工知能の本質は、機械が人間のように世界を認識し理解できるようにすることです。言語と知識を研究する自...

お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

機械学習システムを分類する 1 つの方法は、一般化の程度によって分類することです。ほとんどの機械学習...

遅い二次アルゴリズムと高速なハッシュマップについての簡単な説明

みなさん、こんにちは!昨日、プログラミング面接の準備をしていて、アルゴリズムの基礎を学ぼうとしている...

AIは胸部X線写真からCOVID-19を検出できる

先週、ノースウェスタン大学の研究者らは、胸部X線写真からCOVID-19感染の兆候を検出できる新たな...

2019 年の Web 開発のトレンド トップ 10

[[279047]] [51CTO.com クイック翻訳] 今日、さまざまな新しいトレンドの出現に...

米国保健福祉省がAIとブロックチェーンを活用してサービスを改善する方法

今日、ますます多くの国や地域が、業務効率の向上、国民へのより良いサービスの提供、そして任務遂行能力の...

最新のMLPerfランキング:アリババのAIコンピューティングパワーが多くの分野で1位を獲得

4月7日、権威あるAIベンチマーク評価組織MLPerfが最新の推論パフォーマンスリストを公開した。 ...

生成型AIの誇大宣伝の中、CIOは慎重に進めることを選択しているが、まだ完全にコミットしていない

ほとんどの CIO は、最新の情報を把握するために生成 AI の調査を開始していますが、市場に出回っ...