複雑な数学的推論は、大規模言語モデルの推論能力を評価するための重要な指標です。現在、一般的に使用されている数学的推論データセットはサンプルサイズが限られており、問題の多様性が不十分であるため、大規模言語モデルでは「逆転の呪い」という現象が発生します。つまり、「AはB」でトレーニングされた言語モデルは、「BはA」に一般化できません[1]。数学的推論タスクにおけるこの現象の具体的な形態は、数学的問題が与えられた場合、言語モデルは前向き推論を使用して問題を解決するのが得意であるが、逆向き推論を使用して問題を解決する能力が欠けているという点です。次の 2 つの例に示すように、逆推論は数学の問題では非常に一般的です。 1. 典型的な問題 - 鶏とウサギを同じケージに入れる
2. GSM8Kの問題
モデルの順方向および逆方向の推論機能を改善するために、ケンブリッジ大学、香港科技大学、ファーウェイの研究者は、一般的に使用されている 2 つの数学データセット (GSM8K と MATH) に基づいて、広範囲に及ぶ高品質の数学推論データセットである MetaMathQA データセットを提案しました。 MetaMathQA は、大規模な言語モデルによって生成された 395,000 個の順方向-逆方向の数学の質問と回答のペアで構成されています。彼らは、MetaMathQA データセット上で LLaMA-2 を微調整して、数学的推論 (順方向および逆方向) に焦点を当てた大規模言語モデル MetaMath を取得し、数学的推論データセットで SOTA を達成しました。 MetaMathQA データセットとさまざまなサイズの MetaMath モデルが、研究者が使用できるようにオープンソース化されています。
本論文では、逆推論データセット GSM8K-Backward を構築します。実験結果によると、現在の方法 (SFT、RFT、WizardMath など) は、逆推論問題では前向き推論よりもはるかにパフォーマンスが悪いことがわかりました。比較すると、MetaMath モデルは、前向き推論と後ろ向き推論の両方で優れたパフォーマンスを実現します。 方法MetaMathQA には 4 つのデータ拡張方法が含まれています。 1. 回答の拡張:質問が与えられると、正しい答えにつながる思考の連鎖が、大規模な言語モデルを通じてデータ拡張として生成されます。
2. 質問の言い換え:メタ質問を与えられたら、大規模な言語モデルを通じて質問を書き直し、データ拡張として正しい答えにつながる一連の思考を生成します。
3. FOBAR 質問 (FOBAR 拡張逆質問):メタ質問が与えられた場合、条件内の数値を x にマスクし、元の回答が与えられて x を推論することで逆質問を生成し、逆質問に基づいて正しい思考プロセスの連鎖を生成してデータ拡張を実行します (逆の例:「上記の質問の回答が 110 であることがわかっている場合、未知の変数 x の値は何ですか?」)。
4. 自己検証質問(自己検証逆質問の強化): FOBAR に基づいて、逆質問部分を大規模言語モデルを通じて文として書き換え、データ拡張を実行します(書き換え例:「彼はいくら支払いましたか?」(答えは 110)は「彼は 110 を支払いました」と書き換えられます)。
実験結果2 つの一般的な数学的推論データセット (GSM8K と MATH) に関する実験結果によると、外部ツール (コード インタープリターなど) の助けを借りなくても、MetaMath は既存のオープン ソース LLM モデルよりも大幅に優れていることが示されています。その中で、当社の MetaMath-7B モデルは、GSM8K で 66.5%、MATH で 19.8% の精度を達成し、同じ規模の最先端モデルをそれぞれ 11.6% と 9.1% 上回っています。特に、MetaMath-70B は GSM8K で 82.3% の精度を達成し、GPT-3.5-Turbo を上回ります。 表面的アライメント仮説[2]によれば、大規模言語モデルの機能は事前トレーニングから得られ、下流タスクからのデータは事前トレーニング中に学習された言語モデルの固有の機能を活性化します。このことから、2 つの重要な疑問が生じます。(i) どのような種類のデータが潜在的知識を最も効果的に活性化できるか、(ii) なぜそのような活性化において 1 つのデータセットが他のデータセットよりも優れているのか、ということです。 MetaMathQA が便利なのはなぜですか?思考連鎖データ(Perplexity)の品質を向上 上の図に示すように、研究者は、回答のみのデータ、GSM8K CoT、およびMetaMathQAデータのさまざまな部分に対して、LLaMA-2-7Bモデルの困惑度を計算しました。 MetaMathQA の各部分の困惑度は他の 2 つのデータセットよりも大幅に低く、これはその固有の学習可能性を強調しており、モデルの潜在的な知識を引き出すのにさらに役立つ可能性があります。 MetaMathQA が便利なのはなぜですか?思考連鎖データの多様性の向上 データの多様性ゲインとモデルの精度ゲインを比較すると、Rephrasing、FOBAR、SV は明らかな多様性ゲインをもたらし、同じ量の拡張データを追加することでモデルの精度を大幅に向上させることがわかりました。対照的に、回答の拡張を単純に使用すると、精度が大幅に飽和します。精度が飽和した後は、AnsAug データを追加してもパフォーマンスの向上は限定的になります。 |
<<: 清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。
現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...
この魅力的な旅をさらに深く探究する中で、モノのインターネット (IoT)、スマート交通システム、エネ...
Microsoft と IDC は共同で、企業における AI の応用と商業的価値を詳細に調査した調査...
モンスターAPIは、採掘機器などのGPUコンピューティングパワーを使用してAIモデルをトレーニングし...
1. 機械学習プラットフォームとビッグデータプラットフォームの関係の明確化[[346643]]機械...
ビッグデータのソースが多数存在し、企業が利用できるデータの量も増加しているため、ストレージ管理者にと...
[[318187]]私たちはインテリジェント変革の時代に生きており、人工知能技術はあらゆる分野の人...
ChatGPT は学校で使用できますか? どのように使用すればよいですか?この問題に関して、教育界...
Googleは2019年10月に「量子超越性」の検証に関する論文をNatureに掲載した後、3月9日...
人工知能は人間の弱点を補うものであり、人間に代わるものではない多くの人が「人工知能が人間に取って代わ...
2022年全国人民代表大会と中国人民政治協商会議が開幕した。3月5日には2022年政府活動報告が発...
サイバーセキュリティは AI と ML の進歩の恩恵を受けています。今日のセキュリティ チームは、疑...