MetaMath: 逆思考で大規模モデルをトレーニングする新しい数学的推論言語モデル

MetaMath: 逆思考で大規模モデルをトレーニングする新しい数学的推論言語モデル

複雑な数学的推論は、大規模言語モデルの推論能力を評価するための重要な指標です。現在、一般的に使用されている数学的推論データセットはサンプルサイズが限られており、問題の多様性が不十分であるため、大規模言語モデルでは「逆転の呪い」という現象が発生します。つまり、「AはB」でトレーニングされた言語モデルは、「BはA」に一般化できません[1]。数学的推論タスクにおけるこの現象の具体的な形態は、数学的問題が与えられた場合、言語モデルは前向き推論を使用して問題を解決するのが得意であるが、逆向き推論を使用して問題を解決する能力が欠けているという点です。次の 2 つの例に示すように、逆推論は数学の問題では非常に一般的です。

1. 典型的な問題 - 鶏とウサギを同じケージに入れる

  • 前向き推論: ケージの中に 23 羽の鶏と 12 匹のウサギがいます。ケージの中に頭と足はいくつありますか?
  • 逆の推論: ケージの中に数羽の鶏とウサギがいます。上から数えると頭の数は 35 個、下から数えると足の数は 94 個です。ケージの中には鶏とウサギが何匹いますか?

2. GSM8Kの問題

  • 前向き推論: ジェームズは 4 ポンドの牛肉を 5 パック購入しました。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか?
  • 逆の推論: ジェームズは 4 ポンドの牛肉を x パック購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか? 上記の質問の答えが 110 であることがわかっている場合、未知の変数 x の値はいくらですか?

モデルの順方向および逆方向の推論機能を改善するために、ケンブリッジ大学、香港科技大学、ファーウェイの研究者は、一般的に使用されている 2 つの数学データセット (GSM8K と MATH) に基づいて、広範囲に及ぶ高品質の数学推論データセットである MetaMathQA データセットを提案しました。 MetaMathQA は、大規模な言語モデルによって生成された 395,000 個の順方向-逆方向の数学の質問と回答のペアで構成されています。彼らは、MetaMathQA データセット上で LLaMA-2 を微調整して、数学的推論 (順方向および逆方向) に焦点を当てた大規模言語モデル MetaMath を取得し、数学的推論データセットで SOTA を達成しました。 MetaMathQA データセットとさまざまなサイズの MetaMath モデルが、研究者が使用できるようにオープンソース化されています。

  • プロジェクトアドレス: https://meta-math.github.io/
  • 論文アドレス: https://arxiv.org/abs/2309.12284
  • データアドレス: https://huggingface.co/datasets/meta-math/MetaMathQA
  • モデルアドレス: https://huggingface.co/meta-math
  • コードアドレス: https://github.com/meta-math/MetaMath

本論文では、逆推論データセット GSM8K-Backward を構築します。実験結果によると、現在の方法 (SFT、RFT、WizardMath など) は、逆推論問題では前向き推論よりもはるかにパフォーマンスが悪いことがわかりました。比較すると、MetaMath モデルは、前向き推論と後ろ向き推論の両方で優れたパフォーマンスを実現します。

方法

MetaMathQA には 4 つのデータ拡張方法が含まれています。

1. 回答の拡張:質問が与えられると、正しい答えにつながる思考の連鎖が、大規模な言語モデルを通じてデータ拡張として生成されます。

  • 質問: ジェームズは 4 ポンドの牛肉を 5 パック購入しました。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか?
  • 答え: ジェームズは 4 ポンドの牛肉を 5 パック購入したので、合計 5 * 4 = 20 ポンドの牛肉を購入しました。牛肉の価格は 1 ポンドあたり 5.50 ドルなので、20 * 5.50 ドル = 110 ドルを支払います。答えは 110 です。

2. 質問の言い換え:メタ質問を与えられたら、大規模な言語モデルを通じて質問を書き直し、データ拡張として正しい答えにつながる一連の思考を生成します。

  • 質問: ジェームズが 1 ポンドあたり 5.50 ドルの価格で、それぞれ 4 ポンドの牛肉 5 パックを購入したとき支払った合計金額はいくらですか。
  • 答え: 牛肉 1 パックの重さは 4 ポンドなので、5 パックの重さは合計で 4 * 5 = 20 ポンドになります。牛肉 1 ポンドあたりの価格は 5.50 ドルなので、20 ポンドの合計コストは 20 * 5.50 ドル = 110 ドルです。したがって、ジェームズは合計 110 ドルを支払いました。答えは 110 です。

3. FOBAR 質問 (FOBAR 拡張逆質問):メタ質問が与えられた場合、条件内の数値を x にマスクし、元の回答が与えられて x を推論することで逆質問を生成し、逆質問に基づいて正しい思考プロセスの連鎖を生成してデータ拡張を実行します (逆の例:「上記の質問の回答が 110 であることがわかっている場合、未知の変数 x の値は何ですか?」)。

  • 質問: ジェームズは 4 ポンドの牛肉を x パック購入しました。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼はいくら支払いましたか? 上記の質問の答えが 110 であることがわかっている場合、未知の変数 x の値はいくらですか?
  • 答え: ジェームズは 4 ポンドの牛肉を x パック購入します。つまり、合計 4x ポンドの牛肉を購入したことになります。牛肉の価格は 1 ポンドあたり 5.50 ドルなので、牛肉の合計コストは 5.50 * 4x = 22x です。合計コストは 110 ドルなので、22x = 110 と書きます。両辺を 22 で割ると、x = 5 になります。x の値は 5 です。

4. 自己検証質問(自己検証逆質問の強化): FOBAR に基づいて、逆質問部分を大規模言語モデルを通じて文として書き換え、データ拡張を実行します(書き換え例:「彼はいくら支払いましたか?」(答えは 110)は「彼は 110 を支払いました」と書き換えられます)。

  • 質問: ジェームズは 4 ポンドの牛肉を x パック購入します。牛肉の価格は 1 ポンドあたり 5.50 ドルです。彼は 110 ドルを支払いました。未知の変数 x の値はいくらですか?
  • 回答: この問題を解くには、ジェームズが購入した牛肉パックの数を表す x の値を決定する必要があります。牛肉 1 パックの重量は 4 ポンドで、1 ポンドあたりの価格は 5.50 ドルです。ジェームズが支払った合計金額は 110 ドルです。方程式は次のように設定できます。牛肉パックの数 * パックあたりの重量 * 1 ポンドあたりの価格 = 支払った合計金額。x * 4 * 5.50 ドル = 110 ドル。単純化して x について解きます。4x * 5.50 ドル = 110 ドル。22x = 110 ドル。x を分離するには、方程式の両辺を 22 で割ります。22x / 22 = 110 ドル / 22。x = 5 ドル。x の値は 5 です。

実験結果

2 つの一般的な数学的推論データセット (GSM8K と MATH) に関する実験結果によると、外部ツール (コード インタープリターなど) の助けを借りなくても、MetaMath は既存のオープン ソース LLM モデルよりも大幅に優れていることが示されています。その中で、当社の MetaMath-7B モデルは、GSM8K で 66.5%、MATH で 19.8% の精度を達成し、同じ規模の最先端モデルをそれぞれ 11.6% と 9.1% 上回っています。特に、MetaMath-70B は GSM8K で 82.3% の精度を達成し、GPT-3.5-Turbo を上回ります。

表面的アライメント仮説[2]によれば、大規模言語モデルの機能は事前トレーニングから得られ、下流タスクからのデータは事前​​トレーニング中に学習された言語モデルの固有の機能を活性化します。このことから、2 つの重要な疑問が生じます。(i) どのような種類のデータが潜在的知識を最も効果的に活性化できるか、(ii) なぜそのような活性化において 1 つのデータセットが他のデータセットよりも優れているのか、ということです。

MetaMathQA が便利なのはなぜですか?思考連鎖データ(Perplexity)の品質を向上

上の図に示すように、研究者は、回答のみのデータ、GSM8K CoT、およびMetaMathQAデータのさまざまな部分に対して、LLaMA-2-7Bモデルの困惑度を計算しました。 MetaMathQA の各部分の困惑度は他の 2 つのデータセットよりも大幅に低く、これはその固有の学習可能性を強調しており、モデルの潜在的な知識を引き出すのにさらに役立つ可能性があります。

MetaMathQA が便利なのはなぜですか?思考連鎖データの多様性の向上

データの多様性ゲインとモデルの精度ゲインを比較すると、Rephrasing、FOBAR、SV は明らかな多様性ゲインをもたらし、同じ量の拡張データを追加することでモデルの精度を大幅に向上させることがわかりました。対照的に、回答の拡張を単純に使用すると、精度が大幅に飽和します。精度が飽和した後は、AnsAug データを追加してもパフォーマンスの向上は限定的になります。

<<:  清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。

>>: 

ブログ    
ブログ    
ブログ    

推薦する

自動運転の未来 - 4Dミリ波レーダー

現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...

スマートシティ:都市生活にテクノロジーを統合する

この魅力的な旅をさらに深く探究する中で、モノのインターネット (IoT)、スマート交通システム、エネ...

マイクロソフトとIDCの最新レポート:AIへの1ドル投資で3.5ドルの利益が生まれる

Microsoft と IDC は共同で、企業における AI の応用と商業的価値を詳細に調査した調査...

このスタートアップは、アイドル状態のGPUを分散ネットワークに接続することで、AIモデルのトレーニングコストを90%削減できると主張している。

モンスターAPIは、採掘機器などのGPUコンピューティングパワーを使用してAIモデルをトレーニングし...

...

...

銀行における機械学習の応用シナリオは何ですか?

1. 機械学習プラットフォームとビッグデータプラットフォームの関係の明確化[[346643]]機械...

人工知能はビッグデータの保存と管理の効率をどのように向上させるのでしょうか?

ビッグデータのソースが多数存在し、企業が利用できるデータの量も増加しているため、ストレージ管理者にと...

...

AIの次の目的地はどこでしょうか?

[[318187]]私たちはインテリジェント変革の時代に生きており、人工知能技術はあらゆる分野の人...

「量子超越性」の後、GoogleはTensorFlowの量子バージョンを強力にオープンソース化

Googleは2019年10月に「量子超越性」の検証に関する論文をNatureに掲載した後、3月9日...

人工知能を理解していないかもしれませんが、次の3つのポイントを知っておく必要があります

人工知能は人間の弱点を補うものであり、人間に代わるものではない多くの人が「人工知能が人間に取って代わ...

2022年の政府活動報告を聞いた後、人工知能業界が注目するべき点は以下のとおりです。

2022年全国人民代表大会と中国人民政治協商会議が開幕した。3月5日には2022年政府活動報告が発...

ハッカーがAIとMLを駆使して企業を狙う方法

サイバーセキュリティは AI と ML の進歩の恩恵を受けています。今日のセキュリティ チームは、疑...