機械学習モデルの数学解答能力を測定するために、カリフォルニア大学バークレー校とシカゴ大学の研究者らは、12,500個の数学競技問題を含む新しいデータセット「MATH」と、モデルが数学の基礎を学習できるようにするための事前トレーニングデータセット「AMPS」を提案した。研究では、大きなパラメータを持つTransformerモデルでも精度が低いことが判明しました。 多くの学術研究では数学の問題の解決を探求していますが、これはコンピューターの能力を超えています。では、機械学習モデルには数学の問題を解決する能力があるのでしょうか? カリフォルニア大学バークレー校とシカゴ大学の研究者らは、この目的のために新しいデータセット「MATH」を作成しました。このデータセットには 12,500 個の数学競技問題が含まれており、それぞれの問題にはステップバイステップの完全な解決プロセスが含まれており、機械学習モデルに回答と説明を生成するように教えるために使用できます。将来の研究を促進し、MATH データセットでのモデルの精度を向上させるために、研究者らは、モデルに数学の基礎を教えることができる別の大規模な補助的な事前トレーニング データセットも作成しました。 これらの方法により MATH データセット上のモデルの精度は向上しましたが、実験結果では、Transformer モデルの場合でも精度が依然として非常に低いことが示されています。研究者らはまた、予算とモデルパラメータの数を単純に増やすだけでは、強力な数学的推論能力を達成できないことも発見した。 Transformer を拡張すると、ほとんどのテキスト タスクを自動的に解決できますが、それでも MATH の問題は解決できません。 この研究の筆頭著者であるダン・ヘンドリックス氏はツイートした。 国際数学オリンピック(IMO)の3つの金メダリストは90%の精度率を達成できますが、GPT-3の精度率は5%程度にしか達しません。 この傾向が続くと、機械学習モデルが数学的推論能力を獲得するまでには長い時間がかかるでしょう。 データセットこのセクションでは、2 つの新しいデータセットを紹介します。1 つは、数学的な問題を解決するモデルの能力をテストするために使用される MATH データセットであり、もう 1 つは事前トレーニングを支援するために使用される AMPS データセットです。 MATHデータセットMATH データセットには、AMC 10、AMC 12、AIME などの数学コンテストから収集された 12,500 個の数学問題 (うち 7,500 個はトレーニング セット、5,000 個はテスト セット) が含まれています (これらの数学コンテストは数十年にわたって開催されており、米国の優秀な若い数学者の数学問題解決能力を評価することを目的としています)。これまでのほとんどの研究とは異なり、MATH データセットの問題のほとんどは、標準的な K-12 数学ツールを直接適用するだけでは解決できません。人間は通常、問題解決のテクニックと「ヒューリスティック」な方法を使用して、このような問題を解決します。 これらの数学的な問題に基づいて、モデルはさまざまな有用な問題解決ヒューリスティックを学習することができ、各問題には段階的な解決プロセスと最終的な答えがあります。段階的な解決プロセスを伴う問題の例を、以下の図 1 に示します。 このデータセットの作成には、次の重要な手順が含まれます。 質問の分類: このデータセットの質問は難易度が異なり、算術、代数、数論、計数と確率、幾何学、中級代数、微積分学の基礎など、さまざまなトピックをカバーしています。研究者たちは、質問の難易度を、人間にとって簡単なものから難しいものまで、1から5の5段階でランク付けした。 フォーマット: LATEX および Asymptote ベクトル グラフィック言語を使用して、数学の問題とその解を統一的にフォーマットします。 生成された回答を自動的に評価: MATH データセットの独自の設計により、モデルの出力空間が非常に大きい場合でも、研究者はモデルによって生成された回答を自動的に評価できます。 人間のパフォーマンス: 人間のパフォーマンスを推定するために、研究者は数学テストセットから 20 問をランダムに抽出し、大学生に回答してもらいました。数学が嫌いな参加者1人は8問正解(正解率40%)、数学が好きな参加者2人はそれぞれ14問と15問正解、AMC 10数学コンテストで満点を獲得し、USAMOコンテストにも何度も参加した参加者は18問正解、IMO金メダリスト3人も18問正解(正解率90%)でした。これは、MATH データセット内の数学の問題も人間にとって難しいことを示しています。 AMPS データセット (Khan Academy + Mathematica)事前トレーニング データはパフォーマンスに大きな影響を与える可能性があり、数学はオンライン テキストの小さな部分であるため、この研究では大規模で多様な数学の事前トレーニング コーパスを作成しました。事前トレーニング データセット「Auxiliary Mathematics Problems and Solutions (AMPS)」には、LATEX 形式の多くの問題とステップバイステップのソリューションが含まれています。 AMPS データセットには、Khan Academy から収集された 100,000 個の数学の問題と、手動で設計された Mathematica スクリプトによって生成された約 500 万個の問題が含まれています。この研究では、Mathematica コンピュータ代数システムを使用して、分数、超越数、解析関数を簡単に操作できる数学の問題を生成しました。 これらの質問は、代数、微積分、計数と統計、幾何学、線形代数、数論など、さまざまなトピックをカバーしています (下の表 1 を参照)。 実験モデルのパフォーマンス研究者らはMATHデータセット上でモデルのパフォーマンスを実験的に調査し、最良のモデルでさえ精度が低いことを発見した。さらに、ほとんどのテキストベースのデータセットとは異なり、このデータセットの精度はモデルのサイズが大きくなるにつれてゆっくりと向上します。この傾向が続く場合、MATH データセットで大きな進歩を遂げるには、モデルの拡張だけでなくアルゴリズムの改善も必要になります。 下の表 2 は、MATH データセットの複数のトピックにおける最小モデル GPT-2 (1 億パラメータ、ベースライン モデル) の平均精度が 5.4% であるのに対し、GPT-2 (15 億パラメータ、ベースライン モデルのパラメータ数の 15 倍) の平均精度は 6.9% であり、ベースラインより 28% 向上していることを示しています。これは、他のほとんどのテキストベースのタスクとは異なり、モデル パラメータを増やすと MATH データセットでは役立つものの、モデルの絶対精度はまだ低く、ゆっくりと増加することを示しています。 さらに、研究者らはAMPSによる事前トレーニングの効果をテストしました。 AMPS事前トレーニングなしの場合、MATHデータセットにおけるGPT-2(1.5B)モデルの精度は5.5%でした。AMPS事前トレーニング後、MATHデータセットにおけるGPT-2(1.5B)モデルの精度は6.9%(表2を参照)となり、25%の増加となりました。つまり、AMPS 事前トレーニングによって達成される精度の向上は、パラメータ数の 15 倍の増加に相当し、AMPS 事前トレーニング データセットが価値があることを示しています。 ステップバイステップの解決策研究者たちは段階的な解決プロセスを実験し、モデルが答えに到達する前に段階的な解決プロセスを生成すると、精度が低下することを発見しました。研究者らは評価にGPT-2(1.5B)を使用し、モデルのパフォーマンスが6.9%から5.3%に低下したことを発見した。 研究者らは、生成されたステップバイステップの解決策の定性的な評価も実施し、多くのステップが問題に関連しているように見えても、実際には論理的な問題があることを発見しました。例については、以下の図 3 と 4 を参照してください。 図 3: 問題、GPT-2 (1.5B) モデルによって生成されたステップバイステップのソリューション、および真のソリューション。 図 4: 問題、生成された解決策、および実際の解決策の例。 しかし、研究者たちは、段階的な解決策にはまだいくつかの利点があることを発見しました。部分的な真実の段階的な解決策を提供することでパフォーマンスが向上し、トレーニング中にモデルに段階的な解決策を提供することで精度が向上する可能性があります。下の図 6 は、ソリューション プロセスのさまざまな部分を使用した GPT-2 (0.7B) モデルの精度の変化を示しています。 |
<<: 顔認識カメラはあなたの顔を盗みますが、なぜ「精密マーケティング」に使われるのでしょうか?
>>: 私の国における人工知能の発展に対する最大の圧力は、基礎理論と独自のアルゴリズムです。
旅の途中のV6、緊急RLHF中。オンライン化へのカウントダウンが始まりました!今朝、Midjourn...
Insilico Medicine は、人工知能を使用して特発性肺線維症治療薬の新しいメカニズムを世...
今日はスカイネットが来ます!ロボットたちはジュネーブで初めての記者会見を開催したばかりだ。 9 台の...
米国国防高等研究計画局(DARPA)はかつて、第3波AIの概念を提唱しました。その議論では、第3波A...
[[255293]]明らかに、自動運転と5Gはチップビジネスそのものよりもはるかに魅力的です。 AI...
Github を使用しているときに、次のプロンプトを見たことがありますか? $ gitクローンhtt...
こんにちは、みんな。短い動画を見ているときに、こんな動画を見たことはありませんか?動画の中で、人物の...
多くの従業員にとって、仕事と生活のバランスを取ることは課題です。私たちは睡眠とほぼ同じくらいの時間を...
新しいプロジェクトを始めるたびに、私はディープラーニング マシンを何度も何度も作成していることに気づ...
[[216201]]人工知能は2017年に一連の画期的な成果を達成しました。 2018年、人工知能は...
[[433624]] 1. バブルソートバブル ソートは、C 言語のシンプルな初級レベルのソート ア...
サプライ チェーンは、生産におけるあらゆるリンクの源です。原材料から製造、流通まで、各ステップで最も...