AI受験者が発狂!上級数学試験の正解率は81%で、競争試験のスコアはコンピュータドクターのスコアよりも高い。

AI受験者が発狂!上級数学試験の正解率は81%で、競争試験のスコアはコンピュータドクターのスコアよりも高い。

上級数学の試験で悪い成績を取ることは、多くの人にとって悪夢です。

高度な数学は AI ほど得意ではないと誰かに言われたら、それを受け入れるのはさらに難しいのではないでしょうか。

そうです、OpenAI の Codex は、MIT の 7 つの上級数学コースの質問で 81.1% の正解率を達成しました。これは間違いなく MIT の学部生のレベルです。

コースは初等微積分から微分方程式、確率論、線形代数まで多岐にわたり、質問には計算や描画も含まれます。

この事件は最近Weiboで話題になった。

△「たった」81点、AIへの期待が高すぎる

さて、Google から最新のビッグニュースがあります。

当社の AI は数学だけでなく、科学および工学の全分野で最高得点を達成しました。

テクノロジー大手各社は「AI受験者」の育成において新たな高みに到達したようだ。

Google の最新の AI 試験受験者は 4 つの試験を受けた。

数学の競争試験であるMATHでは、過去に90点を獲得したIMO金メダリストはわずか3人であり、一般的なコンピューター博士は40点程度しか取れません。

他のAI受験者に関しては、過去の最高得点はわずか6.9点でした...

しかし今回、Google の新しい AI は 50 ポイントを獲得し、コンピューターの博士号よりも高いスコアを獲得しました。

総合試験 MMLU-STEM は、数学、物理学、化学、生物学、電子工学、コンピューターサイエンスをカバーしており、問題の難易度は高校や大学レベルです。

今回もGoogle AIの「純血版」が受験者の中で最高得点を獲得し、スコアを約20ポイントも直接引き上げた。

小学校の算数問題では、GSM8k はスコアを 78 点まで直接上げました。比較すると、GPT-3 は合格しませんでした (55 点のみ)。

MITの学部生や大学院生が学ぶ固体化学、天文学、微分方程式、特殊相対性理論などのコースでも、Googleの新しいAIは200以上の質問のほぼ3分の1に答えることができます。

最も重要なのは、OpenAIが「プログラミングスキル」に頼って高い数学のスコアを獲得する方法とは異なり、Google AIは今回「人間のように考える」という道を歩んだことだ。

それは、本を暗記するだけで演習は行わない文系の学生が、理科や工学の分野でより優れた問題解決能力を習得したようなものです。

論文の第一著者である Lewkowycz 氏が、論文には含まれていなかったハイライトも共有していることは特筆に値します。

私たちのモデルは、今年のポーランドの大学数学入学試験に参加し、全国平均を上回るスコアを達成しました。

これを見て、じっとしていられなくなる親もいる。

これを娘に話したら、宿題をするのに AI を使うようになるのではないかと心配です。しかし、彼女に伝えなければ、将来に向けての準備ができていないことになります。

業界関係者の目には、この研究の最も驚くべき点は、算術、論理、代数をハードコーディングすることなく、言語モデルのみでこのレベルのパフォーマンスを達成している点です。

それで、これはどのように行われるのでしょうか?

AIがarXivで200万本の論文を読む

新しいモデル Minerva は、Pathway アーキテクチャに基づく一般言語モデル PaLM に基づいています。

それぞれ 80 億、600 億、5,400 億のパラメータを持つ PaLM モデルでさらにトレーニングが実行されました。

Minerva の問題解決のアプローチは Codex のアプローチとはまったく異なります。

Codex の方法は、各数学の問題をプログラミングの問題に書き直し、コードを記述して解決することです。

一方、ミネルバは論文を熱心に読み、自然言語と同じように数学記号を理解しようとします。

PaLM に基づいてトレーニングを続行し、3 つの新しいデータ セットを追加します。

主に、arXiv に収集された 200 万件の学術論文、LaTeX 数式を含む 60 GB の Web ページ、および PaLM トレーニング フェーズで使用される少量のテキストが含まれています。

通常の NLP データ クリーニング プロセスでは、すべてのシンボルが削除され、純粋なテキストのみが保持されるため、数式が不完全になります。たとえば、アインシュタインの有名な質量エネルギー方程式では、Emc2 のみが残ります。

しかし今回、Google はすべての数式を保持し、プレーンテキストと同じように Transformer のトレーニング プロセスを実行し、AI が言語を理解するのと同じように記号を理解できるようにしました。

これが、Minerva が以前の言語モデルと比較して数学の問題で優れたパフォーマンスを発揮する理由の 1 つです。

しかし、数学の問題を解くことに特化した AI と比較すると、ミネルバのトレーニングには明確な基礎となる数学的構造がないため、不利な点と利点の両方が生じます。

欠点は、AI が間違った手順で正しい答えを得る可能性があることです。

利点は、さまざまな対象に適応できることです。正式な数学言語で表現できない問題でも、自然言語理解機能を組み合わせることで解決できます。

AI推論段階に関しては、MinervaはGoogleが最近開発したいくつかの新しいテクノロジーも組み合わせています。

最初に登場したのは、今年 1 月に Google Brain チームによって提案された「Chain of Thought」という提案でした。

具体的には、質問するときに、生徒を導くために段階的な回答例を示します。 AI は質問に答えるときに同様の思考プロセスを使用し、そうでなければ間違って答えられるような質問に正しく答えることができます。

もうひとつの方法は、Google と MIT が開発した Scrathpad ドラフト ペーパー方式で、AI が段階的な計算の中間結果を一時的に保存できるようにします。

最後に、今年 3 月に発表された多数決方式があります。

AIに同じ質問に複数回答えさせ、最も頻繁に現れる答えを選択します。

これらすべてのトリックを使用した後、5,400億のパラメータを持つ Minerva はさまざまなテスト セットで SOTA に到達しました。

Minerva の 80 億パラメータ バージョンでも、競技レベルの数学の問題や MIT オープン コースの問題では、GPT-3 の最新の更新版である davinci-002 バージョンのレベルに到達できます。

ここまで述べてきましたが、ミネルバは具体的にどのような疑問を解決できるのでしょうか?

Google もこれに関するサンプル セットをリリースしているので、見てみましょう。

数学、物理学、化学、生物学、さらには機械学習

数学的には、ミネルバは直接力ずくで値を計算するのではなく、人間のように段階的に値を計算できます。

文章題の場合は、自分で方程式を書いて簡略化することができます。

証明を導き出すことも可能です。

物理学では、Minerva は中性窒素基底状態 (Z = 7) における電子の全スピン量子数などの大学レベルの問題を解決できます。

生物学や化学では、ミネルバは言語理解能力を活かして、さまざまな多肢選択式の質問に答えることもできます。

次の点突然変異のうち、DNA 配列から形成されるタンパク質に悪影響を及ぼさないものはどれですか?

次のどれが放射性元素ですか?

天文学:なぜ地球は強い磁場を持っているのでしょうか?

機械学習の観点から見ると、「分布外サンプル検出」の意味を説明することで、この用語の別の言い方を正しく示しています。

しかし、ミネルバは、方程式の両辺の√を消去するなど、低レベルの間違いを犯すことがあります。

さらに、Minerva では、推論プロセスは間違っているが結果が正しい「偽陽性」の状況が、以下のように 8% の確率で発生する可能性があります。

分析の結果、チームは、主なエラーは計算エラーと推論エラーから生じており、質問の意味を誤解したり、手順で誤った事実を使用したりといった他の状況から生じるエラーはごくわずかであることを発見しました。

計算エラーは外部計算機や Python インタープリターにアクセスすることで簡単に修正できますが、ニューラル ネットワークが大きすぎるため、他の種類のエラーを調整するのは困難です。

全体的に、Minerva のパフォーマンスは多くの人々に感銘を与えており、コメント セクションで API を求める声が上がっています (残念ながら、Google は現在、公開する計画はありません)。

数日前、GPT-3 の問題解決精度を 61% も急上昇させた「誘導」手法により、精度がさらに向上するのではないかと考えるネットユーザーもいた。

しかし、著者は、コーキング法はゼロサンプル学習に属し、どれほど強力であっても、4 つの例による少数サンプル学習ほど優れている可能性は低いと回答しました。

一部のネットユーザーからは、質問に答えられるのだから、逆に質問することもできるのかとの質問も出ている。

実際、MIT はすでに OpenAI と提携し、AI を使って大学生に質問しています。

人間が出した質問と AI が出した質問を混ぜて、学生にアンケート調査に答えてもらいました。質問が AI によって出されたものかどうかを全員が見分けるのは困難でした。

つまり、AIに携わっている人以外は、この論文を読むのに忙しいというのが現状です。

学生たちは、AI を使って宿題をこなせる日を心待ちにしています。

教師たちも、将来的には AI を使って試験問題を出題できるようになることを期待しています。

論文アドレス: https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

デモアドレス: https://minerva-demo.github.io/

関連論文: Chain of Thought https://arxiv.org/abs/2201.11903 Scrathpads https://arxiv.org/abs/2112.00114 Majority Voting https://arxiv.org/abs/2203.11171

参考リンク:

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https://twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622​

<<:  Intel がオープンソースの大規模スパースモデルトレーニング/予測エンジン DeepRec の構築を支援

>>:  ハッカーはAIの顔を変える技術を使って就職活動を行っている。人工知能のセキュリティ問題は無視できない

ブログ    
ブログ    

推薦する

第四次産業革命:人工知能

人工知能 (AI): 私たちの日常生活、生き方、他者との関わり方に根本的な変化がもたらされるのは、第...

ネットワークにおける機械学習の実用的応用

各 Web アプリケーションには独自の機能とパフォーマンス パラメーターのセットがあり、これらは動的...

ヒューマノイドロボットはマジックを披露することができます。春節祭のスタッフにその詳細をお伝えします。

一瞬のうちに、ロボットは魔法を使うことを覚えたのでしょうか?まず、テーブルの上の水のスプーンを手に取...

Raft アルゴリズムの原理と CMQ への応用 (パート 2)

CMQにおけるラフトの応用初期には、rabbitmqをベースにスケーラブルなメッセージミドルウェア...

エージェントは迅速なエンジニアリングに使用されます

エージェントが現実世界での人間の行動を模倣する場合、それをプロンプトエンジニアリングに適用できますか...

AIがIoTの状況をどう変えるのか

人工知能 (AI) はモノのインターネット (IoT) の世界に革命をもたらし、IoT の人工知能 ...

DeepMind の新しいモデルは CAD スケッチを自動的に生成します。ネットユーザー: 建築設計が飛躍しそうです

[[399928]]製造業ではCADが広く使われています。 CAD は、その正確性、柔軟性、高速性に...

Redditのネットユーザーが議論中!コンピューティング能力とデータは本当にすべてを解決できるのでしょうか?

誰もが知っているように、コンピューティング能力とデータは非常に重要ですが、それだけで十分でしょうか?...

AIのおかげで、これら5つの業界の求人需要は大幅な成長傾向を示すだろう

編集者注: 人工知能と人間の仕事は、今日多くの人が話題にしているトピックであり、議論の焦点は主に、人...

Swin TransformerとDCNの融合、変形可能なアテンションTransformerモデルはほとんどのViTを上回る

Transformer は最近、さまざまな視覚タスクで優れたパフォーマンスを発揮しており、受容野によ...

スマート、インテリジェントなインタラクティブ推奨システムと販売前ショッピングガイドロボットをリリース

昨日、北京のマイクロソフトビルでSmarterが開催されました。カンファレンスのテーマは「インテリジ...

ARMベースの3DES暗号化アルゴリズムの実装(2)

ARMベースのハードウェア実装3DESアルゴリズムと一般的な組み込みアプリケーションの要件に応じて...

欧州が癌治療における人工知能の新基準を設定

EUCAIM (EUropean Federation for CAncer IMages) プロジ...

自動運転システムにおけるエッジコンピューティング技術

エッジ コンピューティングは、ネットワークのエッジでコンピューティングを実行する新しいコンピューティ...