MIT、「上級数学」ソルバーの強化版をリリース：7つのコースの正解率は81%

AIは小学校の算数の文章題を解くだけでなく、高度な数学にも取り組み始めています。

最近、MIT の研究者たちは、OpenAI Codex の事前トレーニング済みモデルに基づく少量学習を通じて、学部レベルの数学の問題で 81% の正解率を達成することに成功したと発表しました。

論文リンク: https://arxiv.org/abs/2112.15594
コードリンク: https://github.com/idrori/mathq

まずは、単変数関数のグラフを軸を中心に回転させて生成される体積を計算する、ローレンツアトラクターと投影を計算する、特異値分解 (SVD) の幾何学的形状を計算して描画するなど、いくつかの小さな質問に対する答えを見てみましょう。正しく答えられるだけでなく、対応する説明もできます。

本当にすごいですね。昔は上級数学の試験でも楽々合格できましたが、今はAIが一気に81点取れるんです。AIが人間を超えたと一方的に宣言します。

さらに驚くべきは、通常の機械学習モデルでは解決が難しい問題を解決できることに加え、この研究は、この技術を大規模に推進して、授業や類似の授業の問題を解決できることも示していることです。

単一の機械学習モデルでこのような大規模な数学的問題を解決できるのは歴史上初めてであり、問題の解決プロセスを説明・描画し、さらには新しい問題を生成することさえ可能です。

実はこの論文は今年初めに出版されました。半年間の改訂を経て、長さは114ページから181ページに増加しました。より多くの数学の問題を解くことができ、付録の番号はAZから直接増加しました。

この記事の著者は、マサチューセッツ工科大学、コロンビア大学、ハーバード大学、ウォータールー大学という 4 つの主要機関の出身です。

第一著者のイド・ドロリ氏は、MIT電気工学・コンピュータサイエンス学部のAI部門の講師であり、コロンビア大学工学応用科学学部の非常勤准教授です。 CCAI NeurIPS 2021で最優秀論文賞を受賞しました。

彼の主な研究分野は、大学レベルの数学や STEM コースを機械で解決、解釈、生成できるようにする教育用機械学習、数千年分のデータに基づいて極端な気候変動を予測し気候を監視し、長年にわたる大西洋の海洋生物地球化学の変化を予測するために学際的な研究を統合する気候科学における機械学習、自動運転のための機械学習アルゴリズムなどです。

彼はまた、ケンブリッジ大学出版局から出版された『The Science of Deep Learning』の著者でもあります。

高等教育のマイルストーン

この論文が出る前は、ほとんどの研究者は、ニューラルネットワークは高度な数学の問題を処理できず、単純な数学の問題しか解けないと考えていました。

Transformer モデルはさまざまな NLP タスクで人間のパフォーマンスを上回っていますが、数学的な問題を解決することはまだできません。主な理由は、GPT-3 などのさまざまな大規模モデルがテキストデータでのみ事前トレーニングされているためです。

その後、研究者たちは、段階的な分析方法（思考の連鎖）によって言語モデルを導き、いくつかの簡単な数学の問題を推論して答えることができるが、高度な数学の問題を解くのはそれほど簡単ではないことを発見しました。

高度な数学の問題を解決することが目標である場合、最初に行うべきことは、トレーニングデータの波を収集することです。

著者らは、以下の MIT コース 7 つから 25 の質問をランダムに選択しました。

18.01 一変数微積分
18.02 多変数微積分
18.03 微分方程式
18.05 確率と統計入門
18.06 線形代数
6.042 コンピュータサイエンスのための数学
コロンビア大学のCOMS3251計算線形代数

MATH データセットの場合、研究者はデータセット内の 6 つのトピック (代数、計数と確率、中級代数、数論、初等代数、および初等修士) から 15 の問題をランダムに選択しました。

モデルによって生成された結果がトレーニングデータに過剰適合していないことを確認するために、研究者はインターネット上で公開されていない COMS3251 コースを選択し、生成された結果を検証しました。

ワークフロー

このモデルは、コースの質問を入力として受け取り、コンテキストによる自動拡張と合成プログラムを実行し、最後に回答と生成された説明を出力します。

出力は問題によって異なる場合があります。たとえば、18.01 の答えは方程式、18.02 の答えはブール値、18.03 と 18.06 の答えはグラフまたはベクトル、18.05 の答えは数値です。

質問が与えられた場合、最初のステップは、モデルに質問の関連するコンテキストを見つけさせることです。研究者は主に Codex によって生成された Python プログラムに興味があったため、質問の前に「プログラムを書きなさい」という単語を追加し、その単語を 3 つの引用符で囲んで Python プログラムを囲み、それがプログラム内の docstring であるかのように見せかけました。

プログラムを生成した後、インポートするライブラリを指定するための Codex プロンプトが必要です。作成者は、問題を解決するために合成されたプログラムがこのパッケージを使用する必要があることを指定するコンテキストとして、質問の前に「use sympy」文字列を追加することを選択しました。

各コースで使用される Python プログラミングパッケージを数えると、すべてのコースで NumPy と Sympy が使用されていることがわかります。 Matplotlib は、プロットを必要とする問題のあるコースでのみ使用されます。コースの約半分では、数学、ランダム、SciPy が使用されます。実際の運用では、研究者は SymPy または描画関連のパッケージのインポートのみを指定し、その他のインポートされたパッケージは自動的に合成されます。

ゼロショット学習、つまり元の問題のみを自動的に強化する学習を使用することで、問題の 71% を自動的に解決できます。

問題が解決しない場合は、研究者は Few-shot 学習を使用して解決を試みます。

まず、OpenAI の text-similarity-babbag-001 埋め込みエンジンを使用して、すべての質問に対して 2048 次元の埋め込みを取得し、次にすべてのベクトルに対してコサイン類似度計算を使用して、解決済みの問題に最も類似した未解決の問題を見つけます。最後に、最も類似した問題とそれに対応するコードが、新しい問題の少数の例として使用されます。

生成されたコードが正しい回答を出力しない場合は、次に類似する解決済みの問題を使用するたびに、別の解決済みの質問とコードのペアを追加します。

実際には、最大 5 つの例を使用した少数ショット学習が最も効果的であることがわかっており、自動的に解決できる問題の総数は、ゼロショット学習の 71% から少数ショット学習の 81% に増加します。

残りの 19% の問題を解決するには、人間による編集が必要です。

研究者たちはまずすべての質問を集め、その多くが漠然としていたり、映画の登場人物や時事問題への言及など、冗長な情報を含んでいたりすることを発見した。質問の本質を抽出するには、質問を整理する必要があった。

問題の準備には、主に冗長な情報の削除、長い文の構造を小さな要素に分解すること、プロンプトをプログラミング形式に変換することが含まれます。

人間の介入が必要な別の状況としては、問題の解決に説明のための描画の複数のステップが必要な場合、つまり、望ましい視覚化効果が達成されるまで Codex を対話的に操作する必要がある場合が挙げられます。

モデルは、回答を生成するだけでなく、回答の理由も説明できなければなりません。研究者は、「上記のコードが行っていることは次のとおりです: 1.」というプロンプトを使用して、モデルが段階的な説明を生成するように誘導しました。

質問に答えられるようになったら、次のステップは Codex を使用して各コースの新しい質問を生成することです。

研究者らは、各クラスの生徒が書いた質問の番号付きリストを作成し、ランダムな数の質問の後でリストを切り捨て、その結果を使用して Codex に次の質問を生成するよう指示しました。

このプロセスは、各コースに十分な数の新しい質問が作成されるまで繰り返されます。

生成された質問を評価するために、研究者らはこれらのコースまたは同等のコースを受講した MIT の学生を対象に調査を行い、機械が生成した質問の質と難易度をコースの元の質問と比較しました。

学生調査の結果は次のようになりました。

機械による採点の品質は、人間が作成した質問の品質に匹敵します。
難易度の点では、人間による質問の方がコースのトピックとして適していますが、機械が生成した結果は少し難しくなります。
学生は、コースの質問の半分以上がモデルによって生成されており、人間に最も近いのは 18.01 であることがわかります。

参考文献:

https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only/

<<: 多言語AI分析は、顧客体験の可能性を解き放ち、ビジネスの成長を促す鍵となる

>>: D2C フロントエンドインテリジェンスは「がん」か「特効薬」か?

MIT、「上級数学」ソルバーの強化版をリリース：7つのコースの正解率は81%

高等教育のマイルストーン

ワークフロー

人工知能の罪と罰についても話しましょう

人工知能の時代に、チャットするインテリジェントロボットを Python で作成しました。とても優れています。

ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

機械学習を推奨するマーケティングアカウントが増えています。これは本当に信頼できるのでしょうか?

Google: 人工知能、機械学習などを Wear OS オペレーティングシステムに統合

Microsoft TensorFlow-DirectML 正式版リリース: WSL での GPU による機械学習の高速化

AI導入によるエッジインテリジェンスの強化

生まれたばかりのロボット犬は、1時間転がった後、自分で歩くことを学んだ。これはアンドリュー・ン氏の弟子の成果である。

推薦する

古典的なJavaアルゴリズムの筆記試験問題を分析する

インテリジェント時代の到来により、インテリジェントロボットが私たちの仕事と収入を奪ってしまうのでしょうか?

AIアーキテクトとはどのような人達でしょうか？

最も強力な AI 搭載スマートフォンに関する神の視点: iPhone X

「ICV革新的アルゴリズム研究タスク」が正式にリリースされました！登録は11月18日に開始されます

世界で最も引用率の高い中国の AI ジャーナルではどのような研究が行われていますか?

知能運転における「知覚重視・マッピング軽視」の技術動向と長期的にサポートできるビジネスシナリオを考える

ニューラルネットワークが大きいほど良いのはなぜですか? NeurIPSの論文が証明：堅牢性は一般化の基礎である

人間的な顧客サービスを必要とするのは高齢者だけではない

テクノロジーは未来を変えます。将来、配達員も失業するでしょう。配達員のいない郵便局だけが残るでしょう。

ロボットは期待低下の谷間にあるのか？何が問題ですか？

2秒で2枚の画像を3D再構築！このAIツールはGitHubで人気です、ネットユーザー：Soraを忘れてください

あなたの孤独をAIが見抜く：その精度はなんと94％