MIT、「上級数学」ソルバーの強化版をリリース:7つのコースの正解率は81%

MIT、「上級数学」ソルバーの強化版をリリース:7つのコースの正解率は81%

AIは小学校の算数の文章題を解くだけでなく、高度な数学にも取り組み始めています。

最近、MIT の研究者たちは、OpenAI Codex の事前トレーニング済みモデルに基づく少量学習を通じて、学部レベルの数学の問題で 81% の正解率を達成することに成功したと発表しました。

  • 論文リンク: https://arxiv.org/abs/2112.15594
  • コードリンク: https://github.com/idrori/mathq

まずは、単変数関数のグラフを軸を中心に回転させて生成される体積を計算する、ローレンツアトラクターと投影を計算する、特異値分解 (SVD) の幾何学的形状を計算して描画するなど、いくつかの小さな質問に対する答えを見てみましょう。正しく答えられるだけでなく、対応する説明もできます。

本当にすごいですね。昔は上級数学の試験でも楽々合格できましたが、今はAIが一気に81点取れるんです。AIが人間を超えたと一方的に宣言します。

さらに驚くべきは、通常の機械学習モデルでは解決が難しい問題を解決できることに加え、この研究は、この技術を大規模に推進して、授業や類似の授業の問題を​​解決できることも示していることです。

単一の機械学習モデルでこのような大規模な数学的問題を解決できるのは歴史上初めてであり、問​​題の解決プロセスを説明・描画し、さらには新しい問題を生成することさえ可能です。

実はこの論文は今年初めに出版されました。半年間の改訂を経て、長さは114ページから181ページに増加しました。より多くの数学の問題を解くことができ、付録の番号はAZから直接増加しました。

この記事の著者は、マサチューセッツ工科大学、コロンビア大学、ハーバード大学、ウォータールー大学という 4 つの主要機関の出身です。

第一著者のイド・ドロリ氏は、MIT電気工学・コンピュータサイエンス学部のAI部門の講師であり、コロンビア大学工学応用科学学部の非常勤准教授です。 CCAI NeurIPS 2021で最優秀論文賞を受賞しました。

彼の主な研究分野は、大学レベルの数学や STEM コースを機械で解決、解釈、生成できるようにする教育用機械学習、数千年分のデータに基づいて極端な気候変動を予測し気候を監視し、長年にわたる大西洋の海洋生物地球化学の変化を予測するために学際的な研究を統合する気候科学における機械学習、自動運転のための機械学習アルゴリズムなどです。

彼はまた、ケンブリッジ大学出版局から出版された『The Science of Deep Learning』の著者でもあります。

高等教育のマイルストーン

この論文が出る前は、ほとんどの研究者は、ニューラル ネットワークは高度な数学の問題を処理できず、単純な数学の問題しか解けないと考えていました。

Transformer モデルはさまざまな NLP タスクで人間のパフォーマンスを上回っていますが、数学的な問題を解決することはまだできません。主な理由は、GPT-3 などのさまざまな大規模モデルがテキスト データでのみ事前トレーニングされているためです。

その後、研究者たちは、段階的な分析方法(思考の連鎖)によって言語モデルを導き、いくつかの簡単な数学の問題を推論して答えることができるが、高度な数学の問題を解くのはそれほど簡単ではないことを発見しました。

高度な数学の問題を解決することが目標である場合、最初に行うべきことは、トレーニング データの波を収集することです。

著者らは、以下の MIT コース 7 つから 25 の質問をランダムに選択しました。

  • 18.01 一変数微積分
  • 18.02 多変数微積分
  • 18.03 微分方程式
  • 18.05 確率と統計入門
  • 18.06 線形代数
  • 6.042 コンピュータサイエンスのための数学
  • コロンビア大学のCOMS3251計算線形代数

MATH データセットの場合、研究者はデータセット内の 6 つのトピック (代数、計数と確率、中級代数、数論、初等代数、および初等修士) から 15 の問題をランダムに選択しました。

モデルによって生成された結果がトレーニング データに過剰適合していないことを確認するために、研究者はインターネット上で公開されていない COMS3251 コースを選択し、生成された結果を検証しました。

ワークフロー

このモデルは、コースの質問を入力として受け取り、コンテキストによる自動拡張と合成プログラムを実行し、最後に回答と生成された説明を出力します。

出力は問題によって異なる場合があります。たとえば、18.01 の答えは方程式、18.02 の答えはブール値、18.03 と 18.06 の答えはグラフまたはベクトル、18.05 の答えは数値です。

質問が与えられた場合、最初のステップは、モデルに質問の関連するコンテキストを見つけさせることです。研究者は主に Codex によって生成された Python プログラムに興味があったため、質問の前に「プログラムを書きなさい」という単語を追加し、その単語を 3 つの引用符で囲んで Python プログラムを囲み、それがプログラム内の docstring であるかのように見せかけました。

プログラムを生成した後、インポートするライブラリを指定するための Codex プロンプトが必要です。作成者は、問題を解決するために合成されたプログラムがこのパッケージを使用する必要があることを指定するコンテキストとして、質問の前に「use sympy」文字列を追加することを選択しました。

各コースで使用される Python プログラミング パッケージを数えると、すべてのコースで NumPy と Sympy が使用されていることがわかります。 Matplotlib は、プロットを必要とする問題のあるコースでのみ使用されます。コースの約半分では、数学、ランダム、SciPy が使用されます。実際の運用では、研究者は SymPy または描画関連のパッケージのインポートのみを指定し、その他のインポートされたパッケージは自動的に合成されます。

ゼロショット学習、つまり元の問題のみを自動的に強化する学習を使用することで、問題の 71% を自動的に解決できます。

問題が解決しない場合は、研究者は Few-shot 学習を使用して解決を試みます。

まず、OpenAI の text-similarity-babbag-001 埋め込みエンジンを使用して、すべての質問に対して 2048 次元の埋め込みを取得し、次にすべてのベクトルに対してコサイン類似度計算を使用して、解決済みの問題に最も類似した未解決の問題を見つけます。最後に、最も類似した問題とそれに対応するコードが、新しい問題の少数の例として使用されます。

生成されたコードが正しい回答を出力しない場合は、次に類似する解決済みの問題を使用するたびに、別の解決済みの質問とコードのペアを追加します。

実際には、最大 5 つの例を使用した少数ショット学習が最も効果的であることがわかっており、自動的に解決できる問題の総数は、ゼロショット学習の 71% から少数ショット学習の 81% に増加します。

残りの 19% の問題を解決するには、人間による編集が必要です。

研究者たちはまずすべての質問を集め、その多くが漠然としていたり​​、映画の登場人物や時事問題への言及など、冗長な情報を含んでいたりすることを発見した。質問の本質を抽出するには、質問を整理する必要があった。

問題の準備には、主に冗長な情報の削除、長い文の構造を小さな要素に分解すること、プロンプトをプログラミング形式に変換することが含まれます。

人間の介入が必要な別の状況としては、問題の解決に説明のための描画の複数のステップが必要な場合、つまり、望ましい視覚化効果が達成されるまで Codex を対話的に操作する必要がある場合が挙げられます。

モデルは、回答を生成するだけでなく、回答の理由も説明できなければなりません。研究者は、「上記のコードが行っていることは次のとおりです: 1.」というプロンプトを使用して、モデルが段階的な説明を生成するように誘導しました。

質問に答えられるようになったら、次のステップは Codex を使用して各コースの新しい質問を生成することです。

研究者らは、各クラスの生徒が書いた質問の番号付きリストを作成し、ランダムな数の質問の後でリストを切り捨て、その結果を使用して Codex に次の質問を生成するよう指示しました。

このプロセスは、各コースに十分な数の新しい質問が作成されるまで繰り返されます。

生成された質問を評価するために、研究者らはこれらのコースまたは同等のコースを受講した MIT の学生を対象に調査を行い、機械が生成した質問の質と難易度をコースの元の質問と比較しました。

学生調査の結果は次のようになりました。

  • 機械による採点の品質は、人間が作成した質問の品質に匹敵します。
  • 難易度の点では、人間による質問の方がコースのトピックとして適していますが、機械が生成した結果は少し難しくなります。
  • 学生は、コースの質問の半分以上がモデルによって生成されており、人間に最も近いのは 18.01 であることがわかります。

参考文献:

https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only/​

<<:  多言語AI分析は、顧客体験の可能性を解き放ち、ビジネスの成長を促す鍵となる

>>:  D2C フロントエンド インテリジェンスは「がん」か「特効薬」か?

ブログ    
ブログ    
ブログ    

推薦する

通信業界は最大のAI市場となり、2021年に重要な転換点を迎える

Informa傘下の世界的に有名な市場調査会社Tractica/Ovumは、30の分野で約300件の...

自動運転の安全上のリスクはどこから来るのでしょうか?

最近、当社の自動運転デビューがニュースで取り上げられており、ADS はついに謎の組織ではなくなりまし...

...

ビッグデータの時代では、ソフトウェアエンジニアは徐々に減少し、アルゴリズムエンジニアが増加しています。

[[209263]]ビッグデータは人類の歴史のどの時代にも存在していましたが、テクノロジーが一定の...

アルゴリズム | ダブルポインタはリンクリストを破る優れた魔法の武器です

今は少し理解できました。面接の過程で、面接官が私たちにコードを手書きで書くように頼むことがあります。...

...

今年の機械学習研究で最もホットな分野は何ですか?幾何学的ディープラーニングの最大の勝者、Redditは混乱に陥っている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI はどのようにしてソフトウェアおよびハードウェア製品のイノベーションを実現するのでしょうか? Baidu Brain オープンデー 西安駅の暗号解読

6月25日、「AIによるソフトウェアとハ​​ードウェア製品のイノベーションの促進」をテーマにした西安...

...

AIを拡張するための3つの成功要因

AIからより多くの利益を得るには、管理者はテクノロジーの使用方法を変える必要があります。 [[333...

...

その本を読むのは時間の無駄だ!ロボットは北京大学入試数学テストに挑戦し、105点を獲得した。

6月7日、成都ハイテクの人工知能システム「AI-MATHS」数学大学入試ロボットが2017年度大学...

人工知能は徐々に成熟しつつあります。まずルールを見つけてから法律を作るのが良いでしょう。

[[258657]]近年、人工知能(AI)は急速に発展しています。今後、AIはどうなるのでしょうか...

ニューラルネットワークはどのように学習するのでしょうか?

坂を下るのと同じように、損失関数の最低点を見つけます。 [[336501]]ニューラル ネットワーク...