少し前に、DeepMind による研究が Nature の表紙を飾り、直感を導くことで 2 つの主要な数学的問題を解決しました。その後、OpenAI は GPT-3 にインターネットの閲覧とテキストベースの Web ブラウザーの使用方法を学習させました。 2021年の最終日に、MIT、コロンビア大学、ハーバード大学、ウォータールー大学の共同研究チームが114ページの論文を発表し、大学レベルの数学の問題を大規模に自動で解き、採点し、生成できる初のモデルを提案した。これは人工知能と高等教育における重要なマイルストーンと言える。実際、この研究が行われる前は、ニューラル ネットワークでは高度な数学の問題を解くことができないと一般に信じられていました。 この研究では OpenAI の Codex が使用されたことは特筆に値します。 この研究はどれほど強力でしょうか?次の図を例に挙げてみましょう。これは、ローレンツ・アトラクターとその投影の計算、特異値分解 (SVD) 法の幾何学の計算とデモンストレーションなどを示しています。機械学習モデルは上記の問題を解決するのが困難ですが、この研究では、機械学習モデルがこれらの問題を解決できるだけでなく、問題のクラスやその多くに対して大規模に実行できることが示されています。 この研究は、テキストで事前トレーニングされ、コードで微調整されたニューラル ネットワークが、プログラム合成を通じて数学の問題を解決できることを示しています。具体的には、この研究では数学の問題をプログラミングタスクに変換し、プログラムを自動的に生成して実行し、MIT の数学コースの問題や MATH データセットの問題を解決できます。その中で、MATH データセットは、初等代数、代数学、計数と確率、数論、微積分学を網羅し、数学的推論を評価するために特に使用される高度な数学問題の最新ベンチマークです。 さらに、この研究では、Transformer が画像付きの解決策を含む、対応するトピックの問題解決者を生成できるようにするいくつかのプロンプト生成方法について調査しました。この研究では、元の質問と変換されたプロンプト間のギャップを定量化することにより、生成された質問の品質と難易度を評価しました。 論文アドレス: https://arxiv.org/pdf/2112.15594.pdf 方法 データセット この研究は、以下の MIT の 6 つのコースからそれぞれ 25 の質問をランダムに選択することから始まりました。
MATH データセットについては、各トピックからランダムに 5 つの問題を選択し、新しい応用線形代数コース COMS3251 での実験を通じて、この方法の結果がトレーニング データに過剰適合しているだけではないことを検証しました。 方法フロー 下の図 2 に示すように、この研究では Codex を使用してコースの質問をプログラミング タスクに変換し、プログラムを実行して数学の問題を解きました。下の図には AE の 5 つのパネルが含まれています。各パネルの左側には、元の質問と、コンテキスト、インタラクション、簡略化された説明などを追加して作成されたプロンプトが示されています。 この調査では、元のコースの質問から Codex のプロンプトへの変換を 3 つのカテゴリに分類しました。
質問とプロンプトのギャップ 問題を Codex ヒントに変換するための鍵は、意味的に言えば、元の問題が正しい解決策を生み出すヒントにどれだけ近いかです。元の質問と成功したプロンプト間のギャップを測定するために、この研究では、下の図 3 に示すように、Sentence-BERT 埋め込み間のコサイン類似度を使用しました。 Sentence-BERT は、シャムニューラルネットワーク構造とトリプレットニューラルネットワーク構造を使用して、事前トレーニング済みの BERT モデルを微調整します。重要なのは、Sentence-BERT は文レベルで意味的埋め込みを生成できるため、長いテキスト間の意味的類似性の比較が可能になることです。 この研究の実験では、元の質問と正しい回答を生成したプロンプトの類似性を以下の図 4 に示します。 コーデックスは生成を促すために使用される 一部のコースでは、Codex 内の元の変換されていない問題プロンプトを直接使用しても、正しい解答が得られませんでした。したがって、元の質問を Codex が処理できる形式に変換する必要があります。これは、次の 3 つのカテゴリに分類できます。
質問の生成と人間による評価 この研究では、Codex を使用して各コースの新しい質問を生成しました。これは、データセットから番号付きの質問リストを作成することによって行われました。このリストは、ランダムな数の質問が生成された後に切り捨てられ、その結果を使用して Codex に次の質問を生成するよう指示しました。このプロセスを何度も繰り返すことで、各コースに多くの新しい質問を生成できます。 この研究は、これらのコースまたは同等のコースを受講した MIT とコロンビア大学の学生を対象とした長期調査でした。調査の目的は、各コースについて機械が生成した質問の質と難易度を人間が作成した質問と比較することです。この研究では、MIT の各コースについて、5 つのオリジナルの質問と 5 つの生成された質問をランダムに選択しました。調査では、学生に各コースから10問の質問を読むように求めました。質問には人間が書いた質問と機械が生成した質問が混在していました。 図 5 に示すように、60 の質問それぞれについて、学生には 3 つの質問が出されました。質問は (i) 人間が書いたものか機械が生成したものか、(ii) 特定のコースに適切か不適切か、(iii) 質問の難易度は 1 (最も簡単) から 5 (最も難しい) の間でどの程度か、というものです。生徒に数学の問題を解くのではなく、評価をするよう求めます。調査はオンラインで匿名で実施されました。 調査結果 問題解決 研究者らは、6 つのコースそれぞれに対応する 25 のランダムな問題と、MATH データセットの 6 つのトピック (初等代数、代数、数論、計数と確率、中級代数、微積分) それぞれに対応する 10 のランダムな問題を含む、補足資料に掲載された合計 210 の問題を解きました。 新しい質問を生成する 研究者らは、6 つのコースと 6 つの MATH トピックのそれぞれに 10 個の新しい問題を含む、120 個の新しい問題を生成しました。以下の表 2 は、各コースおよび各 MATH トピックに対して生成された 1 つの質問を示しています。質問の生成には 1 秒もかからず、研究者は任意の数の質問を生成できます。彼らは、Codex が正しい回答を生成できる、ランダムに選択された 25 の質問に対するプロンプトを作成し、ランダムな質問に切り替えて、Codex に次の新しい質問を完了させました。 学生アンケート結果 研究者らによると、合計13人の参加者が60問のアンケートに回答し、調査には平均40分かかったという。下の図 6 は、学生アンケートにおける人間が作成した質問と機械が作成した質問の比較をまとめたものであり、次のような結果が得られています。
回答の評価 Codex は、ランダムにサンプリングされた大学レベルおよび MATH データセットのすべての数学の問題に、生の状態またはクリーンな状態で回答できます。 チャレンジ 研究者のアプローチには、未解決の技術的な障害もいくつかある。 1. 画像を入力します。 Codex の基本的な制限は、テキストベースの入力しか受け入れられないことです。その結果、Codex はグラフやチャートなどの必要な視覚的要素を使用して質問に答えることができません。 2. 高度な数学的証明。この研究のもう一つの限界は、高度な数学の証明が不足していることです。研究者らは、これはコーデックスの証明能力によるものではなく、研究自体の幅広さによるものだと強調した。実際、この研究で Codex に提出された単純な解析的証明のほとんどは正常に実行されましたが、証明は通常はコードベースではないため、これは驚くべきことです。 3. プログラムの評価。研究の最後のステップは、たとえば Python インタープリターを使用してプログラムを実行することです。大学レベルのコースを受講する学生も、問題の一部を解決するためのコードを書きます。そのため、この研究では、ニューラルネットワークの問題解決能力を人間の学生と同じ方法でテストし、必要なツールへのアクセスを提供しました。機械学習を使用してプログラム出力を予測することを示すニューラル プログラム評価に関する研究もあります。 LSTMは、特定の線形時間プログラムと定数空間プログラムの出力を予測するために使用されてきました(18)。これらすべてにより、メモリキャッシュが増加し、より大規模なクラスのプログラムが可能になりました (19)。最近のアプローチでは因果GNN(20)とトランスフォーマー(21)が使用されています。任意のコードを評価することは決定不可能ですが、単純な数学の問題を解決するために別のトランスフォーマーによって生成されたプログラムなどの特殊なケースは、原則として学習可能であるはずです。 4. 理論的な複雑さ。計算の複雑さの結果は、この研究では大学の数学コースにおける一般的な問題のあらゆる特定の例を解決できないことを示しています。たとえば、次の問題は解決困難な結果をもたらします: ベクトル v は、集合 S のベクトルの合計として表すことができますか?次の一階微分方程式の解は何ですか?しかし、宿題や試験で与えられた問題は人間が解くことができることはわかっているので、これらの複雑さの結果は、この研究で解決する特定のインスタンスには当てはまりません。 |
<<: LeCunの新作、カード1枚でトレーニングできる!分散正規化、スパースエンコーダがクラッシュしなくなりました
>>: パラメータのわずか4%、GPT-3のパフォーマンスに匹敵:開発者がDeepMindのRETROを説明
[[431747]]最近、第 1 回 Microsoft Research Summit の 2 日...
データ保護とセキュリティは、何十年もの間、企業にとって最大の懸念事項でした。現在、75% 以上の企業...
AI と IoT テクノロジーがスマート シティにどのような革命をもたらしているか。人工知能 (AI...
「不確実性」の概念は、人工知能の安全性、リスク管理、ポートフォリオの最適化、科学的測定、保険などにつ...
[51CTO.comより引用] 近年、コンピュータ技術は急速に発展しており、人工知能はその操作性と...
[[385285]]著者は、Raftアルゴリズムフレームワークraft-coreの独自のJavaバー...
[[415607]] IDC の最新版「Worldwide Semiannual Artificia...
7月24日、Appleは社内で従業員の業務を支援するためにチャットボットを使用しており、将来的には顧...
人工知能 (AI) と機械学習 (ML) のテクノロジーは、世界中のほぼすべての業界に革命をもたらし...
人工知能 (AI) は、今後最も期待されるテクノロジーの 1 つです。テクノロジーがビジネスに与える...
大規模言語モデル (LLM)、特に生成事前トレーニング済みトランスフォーマー (GPT) モデルは、...
[[225280]] 2018年度Google PhDフェローシップ(北米、ヨーロッパ、中東)の候...
このほど、Synced Machine Intelligenceが主催する「AI China」Syn...
翻訳者 |ブガッティレビュー | Chonglou 1.基本モデルの定義ベースモデルは、大量のデータ...