AIが高度な数学の問題を生成し、新たな難易度に到達：MITは問題を生成し、質問に答え、採点できるアルゴリズムモデルを提案

少し前に、DeepMind による研究が Nature の表紙を飾り、直感を導くことで 2 つの主要な数学的問題を解決しました。その後、OpenAI は GPT-3 にインターネットの閲覧とテキストベースの Web ブラウザーの使用方法を学習させました。

2021年の最終日に、MIT、コロンビア大学、ハーバード大学、ウォータールー大学の共同研究チームが114ページの論文を発表し、大学レベルの数学の問題を大規模に自動で解き、採点し、生成できる初のモデルを提案した。これは人工知能と高等教育における重要なマイルストーンと言える。実際、この研究が行われる前は、ニューラルネットワークでは高度な数学の問題を解くことができないと一般に信じられていました。

この研究では OpenAI の Codex が使用されたことは特筆に値します。

この研究はどれほど強力でしょうか?次の図を例に挙げてみましょう。これは、ローレンツ・アトラクターとその投影の計算、特異値分解 (SVD) 法の幾何学の計算とデモンストレーションなどを示しています。機械学習モデルは上記の問題を解決するのが困難ですが、この研究では、機械学習モデルがこれらの問題を解決できるだけでなく、問題のクラスやその多くに対して大規模に実行できることが示されています。

この研究は、テキストで事前トレーニングされ、コードで微調整されたニューラルネットワークが、プログラム合成を通じて数学の問題を解決できることを示しています。具体的には、この研究では数学の問題をプログラミングタスクに変換し、プログラムを自動的に生成して実行し、MIT の数学コースの問題や MATH データセットの問題を解決できます。その中で、MATH データセットは、初等代数、代数学、計数と確率、数論、微積分学を網羅し、数学的推論を評価するために特に使用される高度な数学問題の最新ベンチマークです。

さらに、この研究では、Transformer が画像付きの解決策を含む、対応するトピックの問題解決者を生成できるようにするいくつかのプロンプト生成方法について調査しました。この研究では、元の質問と変換されたプロンプト間のギャップを定量化することにより、生成された質問の品質と難易度を評価しました。

論文アドレス: https://arxiv.org/pdf/2112.15594.pdf

方法

データセット

この研究は、以下の MIT の 6 つのコースからそれぞれ 25 の質問をランダムに選択することから始まりました。

一変数微積分;
多変量微積分;
微分方程式;
確率と統計入門;
線形代数;
コンピュータサイエンスのための数学。

MATH データセットについては、各トピックからランダムに 5 つの問題を選択し、新しい応用線形代数コース COMS3251 での実験を通じて、この方法の結果がトレーニングデータに過剰適合しているだけではないことを検証しました。

方法フロー

下の図 2 に示すように、この研究では Codex を使用してコースの質問をプログラミングタスクに変換し、プログラムを実行して数学の問題を解きました。下の図には AE の 5 つのパネルが含まれています。各パネルの左側には、元の質問と、コンテキスト、インタラクション、簡略化された説明などを追加して作成されたプロンプトが示されています。

この調査では、元のコースの質問から Codex のプロンプトへの変換を 3 つのカテゴリに分類しました。

ネイティブプロンプト: Codex プロンプトは元の質問と同じです。
自動プロンプト変換: Codex プロンプトは元の質問とは異なり、Codex によって自動的に生成されます。
手動プロンプト変換: Codex プロンプトは元の質問とは異なり、手動で生成されます。

質問とプロンプトのギャップ

問題を Codex ヒントに変換するための鍵は、意味的に言えば、元の問題が正しい解決策を生み出すヒントにどれだけ近いかです。元の質問と成功したプロンプト間のギャップを測定するために、この研究では、下の図 3 に示すように、Sentence-BERT 埋め込み間のコサイン類似度を使用しました。

Sentence-BERT は、シャムニューラルネットワーク構造とトリプレットニューラルネットワーク構造を使用して、事前トレーニング済みの BERT モデルを微調整します。重要なのは、Sentence-BERT は文レベルで意味的埋め込みを生成できるため、長いテキスト間の意味的類似性の比較が可能になることです。

この研究の実験では、元の質問と正しい回答を生成したプロンプトの類似性を以下の図 4 に示します。

コーデックスは生成を促すために使用される

一部のコースでは、Codex 内の元の変換されていない問題プロンプトを直接使用しても、正しい解答が得られませんでした。したがって、元の質問を Codex が処理できる形式に変換する必要があります。これは、次の 3 つのカテゴリに分類できます。

トピックコンテキストフォーム: このフォームは、一般的なカリキュラムに関連するトピックとサブトピック、および Codex が関連性のある正しい回答を生成できるようにするための具体的な質問を Codex に提供します。たとえば、確率における条件付き期待値の問題の場合、ベイズの定理、期待値などに関するコンテキスト情報を提供すると役立ちます。
ライブラリコンテキスト: このフォームは、特定の問題を解決するために必要なプログラミングパッケージ/ライブラリを Codex に提供します。たとえば、Codex では、線形代数の問題を解決するために Python の numpy パッケージを使用するように指示されています。
定義のコンテキスト: 多くの場合、コーデックスの特定の用語の定義には現実世界のコンテキストが欠けています。たとえば、Codex はトランプの「フルハウス」が何を意味するのか理解できません。したがって、Codex がこれらの用語を理解し、明確に定義することで、プログラム統合をより適切に導くことができます。

質問の生成と人間による評価

この研究では、Codex を使用して各コースの新しい質問を生成しました。これは、データセットから番号付きの質問リストを作成することによって行われました。このリストは、ランダムな数の質問が生成された後に切り捨てられ、その結果を使用して Codex に次の質問を生成するよう指示しました。このプロセスを何度も繰り返すことで、各コースに多くの新しい質問を生成できます。

この研究は、これらのコースまたは同等のコースを受講した MIT とコロンビア大学の学生を対象とした長期調査でした。調査の目的は、各コースについて機械が生成した質問の質と難易度を人間が作成した質問と比較することです。この研究では、MIT の各コースについて、5 つのオリジナルの質問と 5 つの生成された質問をランダムに選択しました。調査では、学生に各コースから10問の質問を読むように求めました。質問には人間が書いた質問と機械が生成した質問が混在していました。

図 5 に示すように、60 の質問それぞれについて、学生には 3 つの質問が出されました。質問は (i) 人間が書いたものか機械が生成したものか、(ii) 特定のコースに適切か不適切か、(iii) 質問の難易度は 1 (最も簡単) から 5 (最も難しい) の間でどの程度か、というものです。生徒に数学の問題を解くのではなく、評価をするよう求めます。調査はオンラインで匿名で実施されました。

調査結果

問題解決

研究者らは、6 つのコースそれぞれに対応する 25 のランダムな問題と、MATH データセットの 6 つのトピック (初等代数、代数、数論、計数と確率、中級代数、微積分) それぞれに対応する 10 のランダムな問題を含む、補足資料に掲載された合計 210 の問題を解きました。

新しい質問を生成する

研究者らは、6 つのコースと 6 つの MATH トピックのそれぞれに 10 個の新しい問題を含む、120 個の新しい問題を生成しました。以下の表 2 は、各コースおよび各 MATH トピックに対して生成された 1 つの質問を示しています。質問の生成には 1 秒もかからず、研究者は任意の数の質問を生成できます。彼らは、Codex が正しい回答を生成できる、ランダムに選択された 25 の質問に対するプロンプトを作成し、ランダムな質問に切り替えて、Codex に次の新しい質問を完了させました。

学生アンケート結果

研究者らによると、合計13人の参加者が60問のアンケートに回答し、調査には平均40分かかったという。下の図 6 は、学生アンケートにおける人間が作成した質問と機械が作成した質問の比較をまとめたものであり、次のような結果が得られています。

機械が生成した質問は人間が作成した質問よりも難しいですが、信頼区間内です。
機械で生成された質問よりも、人間が作成した質問の方がコースに適しています。
人間が書いた質問は人間が書いたものとみなされる可能性が高く、機械が生成した質問は機械が生成したものと人間が書いたものとみなされる可能性が同程度です。

回答の評価

Codex は、ランダムにサンプリングされた大学レベルおよび MATH データセットのすべての数学の問題に、生の状態またはクリーンな状態で回答できます。

チャレンジ

研究者のアプローチには、未解決の技術的な障害もいくつかある。

1. 画像を入力します。 Codex の基本的な制限は、テキストベースの入力しか受け入れられないことです。その結果、Codex はグラフやチャートなどの必要な視覚的要素を使用して質問に答えることができません。

2. 高度な数学的証明。この研究のもう一つの限界は、高度な数学の証明が不足していることです。研究者らは、これはコーデックスの証明能力によるものではなく、研究自体の幅広さによるものだと強調した。実際、この研究で Codex に提出された単純な解析的証明のほとんどは正常に実行されましたが、証明は通常はコードベースではないため、これは驚くべきことです。

3. プログラムの評価。研究の最後のステップは、たとえば Python インタープリターを使用してプログラムを実行することです。大学レベルのコースを受講する学生も、問題の一部を解決するためのコードを書きます。そのため、この研究では、ニューラルネットワークの問題解決能力を人間の学生と同じ方法でテストし、必要なツールへのアクセスを提供しました。機械学習を使用してプログラム出力を予測することを示すニューラルプログラム評価に関する研究もあります。 LSTMは、特定の線形時間プログラムと定数空間プログラムの出力を予測するために使用されてきました（18）。これらすべてにより、メモリキャッシュが増加し、より大規模なクラスのプログラムが可能になりました (19)。最近のアプローチでは因果GNN（20）とトランスフォーマー（21）が使用されています。任意のコードを評価することは決定不可能ですが、単純な数学の問題を解決するために別のトランスフォーマーによって生成されたプログラムなどの特殊なケースは、原則として学習可能であるはずです。

4. 理論的な複雑さ。計算の複雑さの結果は、この研究では大学の数学コースにおける一般的な問題のあらゆる特定の例を解決できないことを示しています。たとえば、次の問題は解決困難な結果をもたらします: ベクトル v は、集合 S のベクトルの合計として表すことができますか?次の一階微分方程式の解は何ですか?しかし、宿題や試験で与えられた問題は人間が解くことができることはわかっているので、これらの複雑さの結果は、この研究で解決する特定のインスタンスには当てはまりません。

<<: LeCunの新作、カード1枚でトレーニングできる！分散正規化、スパースエンコーダがクラッシュしなくなりました

>>: パラメータのわずか4%、GPT-3のパフォーマンスに匹敵：開発者がDeepMindのRETROを説明