MIT、「上級数学」ソルバーの強化版をリリース:7つのコースの正解率は81%

MIT、「上級数学」ソルバーの強化版をリリース:7つのコースの正解率は81%

AIは小学校の算数の文章題を解くだけでなく、高度な数学にも取り組み始めています。

最近、MIT の研究者たちは、OpenAI Codex の事前トレーニング済みモデルに基づく少量学習を通じて、学部レベルの数学の問題で 81% の正解率を達成することに成功したと発表しました。

  • 論文リンク: https://arxiv.org/abs/2112.15594
  • コードリンク: https://github.com/idrori/mathq

まずは、単変数関数のグラフを軸を中心に回転させて生成される体積を計算する、ローレンツアトラクターと投影を計算する、特異値分解 (SVD) の幾何学的形状を計算して描画するなど、いくつかの小さな質問に対する答えを見てみましょう。正しく答えられるだけでなく、対応する説明もできます。

本当にすごいですね。昔は上級数学の試験でも楽々合格できましたが、今はAIが一気に81点取れるんです。AIが人間を超えたと一方的に宣言します。

さらに驚くべきは、通常の機械学習モデルでは解決が難しい問題を解決できることに加え、この研究は、この技術を大規模に推進して、授業や類似の授業の問題を​​解決できることも示していることです。

単一の機械学習モデルでこのような大規模な数学的問題を解決できるのは歴史上初めてであり、問​​題の解決プロセスを説明・描画し、さらには新しい問題を生成することさえ可能です。

実はこの論文は今年初めに出版されました。半年間の改訂を経て、長さは114ページから181ページに増加しました。より多くの数学の問題を解くことができ、付録の番号はAZから直接増加しました。

この記事の著者は、マサチューセッツ工科大学、コロンビア大学、ハーバード大学、ウォータールー大学という 4 つの主要機関の出身です。

第一著者のイド・ドロリ氏は、MIT電気工学・コンピュータサイエンス学部のAI部門の講師であり、コロンビア大学工学応用科学学部の非常勤准教授です。 CCAI NeurIPS 2021で最優秀論文賞を受賞しました。

彼の主な研究分野は、大学レベルの数学や STEM コースを機械で解決、解釈、生成できるようにする教育用機械学習、数千年分のデータに基づいて極端な気候変動を予測し気候を監視し、長年にわたる大西洋の海洋生物地球化学の変化を予測するために学際的な研究を統合する気候科学における機械学習、自動運転のための機械学習アルゴリズムなどです。

彼はまた、ケンブリッジ大学出版局から出版された『The Science of Deep Learning』の著者でもあります。

高等教育のマイルストーン

この論文が出る前は、ほとんどの研究者は、ニューラル ネットワークは高度な数学の問題を処理できず、単純な数学の問題しか解けないと考えていました。

Transformer モデルはさまざまな NLP タスクで人間のパフォーマンスを上回っていますが、数学的な問題を解決することはまだできません。主な理由は、GPT-3 などのさまざまな大規模モデルがテキスト データでのみ事前トレーニングされているためです。

その後、研究者たちは、段階的な分析方法(思考の連鎖)によって言語モデルを導き、いくつかの簡単な数学の問題を推論して答えることができるが、高度な数学の問題を解くのはそれほど簡単ではないことを発見しました。

高度な数学の問題を解決することが目標である場合、最初に行うべきことは、トレーニング データの波を収集することです。

著者らは、以下の MIT コース 7 つから 25 の質問をランダムに選択しました。

  • 18.01 一変数微積分
  • 18.02 多変数微積分
  • 18.03 微分方程式
  • 18.05 確率と統計入門
  • 18.06 線形代数
  • 6.042 コンピュータサイエンスのための数学
  • コロンビア大学のCOMS3251計算線形代数

MATH データセットの場合、研究者はデータセット内の 6 つのトピック (代数、計数と確率、中級代数、数論、初等代数、および初等修士) から 15 の問題をランダムに選択しました。

モデルによって生成された結果がトレーニング データに過剰適合していないことを確認するために、研究者はインターネット上で公開されていない COMS3251 コースを選択し、生成された結果を検証しました。

ワークフロー

このモデルは、コースの質問を入力として受け取り、コンテキストによる自動拡張と合成プログラムを実行し、最後に回答と生成された説明を出力します。

出力は問題によって異なる場合があります。たとえば、18.01 の答えは方程式、18.02 の答えはブール値、18.03 と 18.06 の答えはグラフまたはベクトル、18.05 の答えは数値です。

質問が与えられた場合、最初のステップは、モデルに質問の関連するコンテキストを見つけさせることです。研究者は主に Codex によって生成された Python プログラムに興味があったため、質問の前に「プログラムを書きなさい」という単語を追加し、その単語を 3 つの引用符で囲んで Python プログラムを囲み、それがプログラム内の docstring であるかのように見せかけました。

プログラムを生成した後、インポートするライブラリを指定するための Codex プロンプトが必要です。作成者は、問題を解決するために合成されたプログラムがこのパッケージを使用する必要があることを指定するコンテキストとして、質問の前に「use sympy」文字列を追加することを選択しました。

各コースで使用される Python プログラミング パッケージを数えると、すべてのコースで NumPy と Sympy が使用されていることがわかります。 Matplotlib は、プロットを必要とする問題のあるコースでのみ使用されます。コースの約半分では、数学、ランダム、SciPy が使用されます。実際の運用では、研究者は SymPy または描画関連のパッケージのインポートのみを指定し、その他のインポートされたパッケージは自動的に合成されます。

ゼロショット学習、つまり元の問題のみを自動的に強化する学習を使用することで、問題の 71% を自動的に解決できます。

問題が解決しない場合は、研究者は Few-shot 学習を使用して解決を試みます。

まず、OpenAI の text-similarity-babbag-001 埋め込みエンジンを使用して、すべての質問に対して 2048 次元の埋め込みを取得し、次にすべてのベクトルに対してコサイン類似度計算を使用して、解決済みの問題に最も類似した未解決の問題を見つけます。最後に、最も類似した問題とそれに対応するコードが、新しい問題の少数の例として使用されます。

生成されたコードが正しい回答を出力しない場合は、次に類似する解決済みの問題を使用するたびに、別の解決済みの質問とコードのペアを追加します。

実際には、最大 5 つの例を使用した少数ショット学習が最も効果的であることがわかっており、自動的に解決できる問題の総数は、ゼロショット学習の 71% から少数ショット学習の 81% に増加します。

残りの 19% の問題を解決するには、人間による編集が必要です。

研究者たちはまずすべての質問を集め、その多くが漠然としていたり​​、映画の登場人物や時事問題への言及など、冗長な情報を含んでいたりすることを発見した。質問の本質を抽出するには、質問を整理する必要があった。

問題の準備には、主に冗長な情報の削除、長い文の構造を小さな要素に分解すること、プロンプトをプログラミング形式に変換することが含まれます。

人間の介入が必要な別の状況としては、問題の解決に説明のための描画の複数のステップが必要な場合、つまり、望ましい視覚化効果が達成されるまで Codex を対話的に操作する必要がある場合が挙げられます。

モデルは、回答を生成するだけでなく、回答の理由も説明できなければなりません。研究者は、「上記のコードが行っていることは次のとおりです: 1.」というプロンプトを使用して、モデルが段階的な説明を生成するように誘導しました。

質問に答えられるようになったら、次のステップは Codex を使用して各コースの新しい質問を生成することです。

研究者らは、各クラスの生徒が書いた質問の番号付きリストを作成し、ランダムな数の質問の後でリストを切り捨て、その結果を使用して Codex に次の質問を生成するよう指示しました。

このプロセスは、各コースに十分な数の新しい質問が作成されるまで繰り返されます。

生成された質問を評価するために、研究者らはこれらのコースまたは同等のコースを受講した MIT の学生を対象に調査を行い、機械が生成した質問の質と難易度をコースの元の質問と比較しました。

学生調査の結果は次のようになりました。

  • 機械による採点の品質は、人間が作成した質問の品質に匹敵します。
  • 難易度の点では、人間による質問の方がコースのトピックとして適していますが、機械が生成した結果は少し難しくなります。
  • 学生は、コースの質問の半分以上がモデルによって生成されており、人間に最も近いのは 18.01 であることがわかります。

参考文献:

https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only/​

<<:  多言語AI分析は、顧客体験の可能性を解き放ち、ビジネスの成長を促す鍵となる

>>:  D2C フロントエンド インテリジェンスは「がん」か「特効薬」か?

ブログ    
ブログ    

推薦する

大規模ウェブサイトのアルゴリズムとアーキテクチャについての簡単な説明(パート 2)

順序前回の記事「大規模 Web サイトのアルゴリズムとアーキテクチャに関する簡単な説明 (パート 1...

AIは人間の感情を理解できるのか?

温かく思いやりのある、一緒にいてくれる「ダバイ」が欲しいと願う人は多いだろうが、ダバイのように人間の...

50枚の写真が「毒された」安定した拡散、車と牛の区別がつかない

AI侵害に対するアーティストの反撃がここに——絵画に「毒」を入れると、AIが「毒化」されて使用時に誤...

高いリアリティ、全体的な一貫性、優れた外観を備えたぼやけたターゲット向けの NeRF ソリューションがリリースされました

[[402913]]オブジェクトの明るさが色やビューに大きく依存する多くの没入型 VR/AR アプリ...

AI の洞察: インテリジェント ビデオはエッジをどのように形成するのか?

ビデオの需要と視覚データの理解のための AI の使用が増加するにつれて、カメラの数と生成されるデータ...

仕事の未来: 2030 年までに消滅する仕事はどれでしょうか?

[[397136]]自動化と人工知能が急速に進歩する時代において、2030年までに仕事は消滅するで...

...

量子もつれによりホログラムが生成されます。物体は画像を形成するために光を放射する必要はありません。

新たな研究によると、量子力学は科学者が物体から光を捉えることなくホログラムを生成するのに役立つ可能性...

ヘルスケア市場における人工知能の急速な発展を理解する

COVID19パンデミックにより、医療機関は効果的な結果を達成するために人工知能(AI)ベースのソリ...

一般的なモデル統合手法の紹介: バギング、ブースティング、スタッキング

この記事では、ブートストラップ、バギング、ランダム フォレスト、ブースティング、スタッキング、その他...

アルゴリズムは難しい、プログラミングは簡単ではない、プログラマーの苦労を誰が理解できるだろうか?

[[199239]]今日は、プログラマーにとっての困難がどこにあるのかについて議論しましょう。アル...

...

どうやってパートナーを見つけたのですか?日本のネットユーザー:国はAIを使って配信している

星野源のような容姿の人を満足させることは、実はとても簡単です。ついに国家がオブジェクトを割り当てる時...

2021年のAIの発展:エッジAIは止められない

[[388887]]人工知能研究を専門とする外国の機関が、人工知能の実務家を対象に、2021年の人工...