GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー：それは脳の働きのようです

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

GPT-4 の数学的能力はさらに強化される可能性があります。

新しい研究により、GPT-4 コードインタープリターが質問に答える際の精度は、コードを使用する頻度に関連していることがわかりました。

この目的のために、研究者らは症状を治療し、数学的能力を新しい SOTA に直接高める新しい方法を提案しました。

MATHデータセットでは、質問への回答精度が53.9%から84.3%に向上しました。

おっしゃる通りです。これは、しばらく前に ChatGPT がリリースされて以来、最も強力なモードと呼ばれているコードインタープリターです。

研究者たちはそのコード生成と実行のメカニズムを覗き込み、自己検証と検証ガイドによる加重多数決方式を使用して、数学の問題を解くための仁経絡と杜経絡を直接開きました。

好奇心旺盛なネットユーザーはフォローした:

彼らが高度な数学をやっているのも見てみたいですね👀。

一部のネットユーザーは次のようにも考えている。

これが脳の働きであり、人間も数学の問題を解くときに自己検証を行います。

この研究の詳細を見てみましょう〜

数学のスキルを向上させる2つのステップ

GPT-4 コードパーサーのコード生成および実行メカニズムとは何ですか?

この問題を解決するために、香港中文大学 MMLab、南京大学、USTC、清華大学、城市大学、長沙理工大学などの研究者が、特定のコード制約ヒントを使用した実験を実施しました。

GPT-4 コードパーサーで使用されるコードの頻度を制限するために、3 つの異なるヒントメソッドを設計しました。

プロンプト 1: コードは一切許可されません。出力は完全に自然言語推論に依存し、ソリューションにコードを組み込むことは禁止されています。
プロンプト 2: コードの使用は 1 回のみ許可されます。つまり、ソリューションを構築するときに、コードは単一のコードブロック内でのみ使用できます。
基本プロンプト: 制限はありません。GPT-4 コードパーサーは一連の推論ステップを実行でき、各ステップはテキスト + Python コードで構成できます。

△ (a) 異なるプロンプトに対する回答の正確さの比較 (b) コードの使用頻度は、5 つの難易度レベルの正確さに比例します。この現象は、数学の問題が比較的複雑な場合に特に顕著です。

結果は、GPT-4 コードパーサーがコードを複数回生成して実行できるようにすると、自然言語推論のみを使用する場合やコードを 1 回だけ使用する場合よりも、問題解決の精度が大幅に高くなることを示しています。

分析の結果、研究者らは、コードを複数回生成して実行することで、GPT-4 コードパーサーがソリューションを徐々に改善できると考えています。コード実行中にエラーが発生した場合、GPT-4 コードパーサーは自己デバッグしてソリューションを修正できます。

次に、 「コードの使用頻度」という概念が導入され、さまざまなプロンプト方法でコードが使用される回数を定量化します。

研究者たちは、これまでの分析結果に基づいて、GPT-4 コードパーサーの正確なコードを生成し、コード実行結果を評価し、ソリューションを自動的に調整する機能を強化したいと考えています。

したがって、 CSV (自己検証) プロンプト方式が提案され、ソリューション C に対して V と呼ばれる追加の検証段階が導入されます。

自己検証プロンプトを追加した場合の効果は、上の図の緑色の検証プロンプトに相当します。

このように、GPT-4 コードパーサーは回答を検証するために追加のコードを生成する必要があり、結果が False の場合は正しい回答を得るために再推論する必要があります。

CSV Prompt は、検証から論理的推論までのすべてのステップを拡張するだけでなく、外部モデルや人間の介入を必要とせずにエラーを自動的に修正します。

△MATHデータセットの712番目の中級代数問題。 CSV プロンプト：コードインタープリターを使用して問題を段階的に解決し、コードインタープリターを使用して回答を確認してください。

上記の例からわかるように、自己検証を行わないと、モデルは誤った回答を生成しました。自己検証を通じて、モデルはエラーを修正し、正しい答えを生成しました。

さらに、CSV は質問に対する回答を効果的に検証できることから、研究者らは検証ガイド付き加重多数決 (VW 投票)方式を提案しました。この方式では、自己検証結果を多数決に統合し、異なる検証ステータスに異なる重み付けを与えて、投票の信頼性を高めます。

実際には、回答が間違っていることが確認されると、追加の検証は実行されず、検証ステータスが不正確になります。研究者は、これらの状態にそれぞれ対応する重みを割り当てました: 真 (wT)、不確実 (wU)、偽 (wF)。

最後に、候補の回答の中から最もスコアの高いものを選択します。

過去最高水準より30％高い

上記の方法を使用することで、GPT-4 コードパーサーの数学問題を解く能力が向上しました。

MATH データセットでは、元の GPT-4 コードパーサーの精度は 69.69% でしたが、CSV プロンプトを使用した後は 73.54% に向上し、加重多数決を組み合わせた後は 84.32% にさらに向上し、以前の SOTA と比べて 30% 以上向上しました。

△MATHデータセットの精度（％）

MATH データセットの各サブタスクにおいて、提案された方法は、特に難易度の高い質問において大幅な改善を達成しました。

たとえば、中級代数の問題では、元の GPT-4 コードパーサーの精度は 50.1% でしたが、新しい方法を使用すると 74.4% に向上しました。

さらに研究者らは、GSM8K、MMLU-Math、MMLU-STEMなどのデータセットでもこれを検証した。

△GSM8Kデータセットでのパフォーマンス

上記の表からわかるように、検証ガイド付き加重多数決方式を使用すると、サンプリングする必要があるサンプルパスの数も大幅に削減できます。GSM8K データセットで 97% の精度を達成するために必要なパスは 5 つだけです。

△ MMLUデータセットでのパフォーマンス

異なる難易度の問題（下図 a）と異なる種類の問題（下図 b）のテストでは、新しい方法を使用した後、正解率が向上しました。

各曲線上の 4 つのポイントは、プロンプト 1、プロンプト 2、BasicPrompt、および CSV プロンプトを使用して取得された結果に対応します。

研究者らはまた、GPT-4 コードパーサーによるコード使用頻度の増加が精度の向上と正の相関関係にあることを発見しました。問題の難易度が上がるにつれて、コードの使用頻度は着実に増加します。これは、より難しい数学の問題では、コードをより頻繁に使用することが重要であることを示唆しています。

さらに、コードベースの自己検証を追加すると、個々の質問タイプのパフォーマンスが向上しますが、改善の程度は質問タイプによって異なり、7.6% からわずか 0.6% の範囲であることも注目に値します。

研究者らは次のように指摘した。

特に、幾何学の問題の精度はわずか 0.6% しか向上せず、元の GPT-4 コードパーサーの精度はわずか 54.0% で、すべての問題タイプの中では比較的低い結果となりました。この矛盾は、幾何学的問題を解くには通常、マルチモーダル性が必要であるという事実によるものと考えられますが、これはこの論文の範囲を超えています。

論文ポータル: https://arxiv.org/abs/2308.07921

<<: 秘密裏に利用規約を変更したことで、Software Freedom Conservancy が激怒しました。オープンソースコミュニティがZoomの放棄を呼び掛け

>>: 1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

ブログ

GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー：それは脳の働きのようです

数学のスキルを向上させる2つのステップ

過去最高水準より30％高い

機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

PyTorchの基本操作の詳細な説明

大規模モデルの微調整には人間のデータに頼らなければならないのでしょうか? DeepMind: フィードバック付きの自己トレーニングの方が優れている

マイクロソフトCEO、テクノロジー大手各社がAIを訓練するためのコンテンツをめぐって競争していると語る

Baidu World 2023 ネタバレ丨ドキュメントで PPT を生成し、ワンクリックで長い記事を要約... Baidu Library AI「ブラックテクノロジー」がスマートオフィスの革新をリード

ディープラーニング、NLP、コンピュータービジョンのための 30 の優れた Python ライブラリ

Google 中国人がタイムクリスタルを使って何十年も昔の謎を解く！永久機関が再び自然界に出現

推薦する

機械学習におけるシャプレー値を理解するにはどうすればよいでしょうか?

スマート物流は進化し、AIは「独自のスキル」を発揮し続ける

生成AIはスマートホームの触媒となる

Nervana Technology の深掘り: Neon を使用したエンドツーエンドの音声認識の実装方法

産業用 AI が将来、精製業界にどのような力を与えるか

機械にプライバシーを学習させることはできるでしょうか?

自動車開発者エコロジー戦略の調印式が成功裏に開催されました

上位 10 の古典的なソートアルゴリズムの詳細な説明: バブルソート、選択ソート、挿入ソート

知っておくべき 5 つの AI 応用シナリオ

人工知能は航空宇宙に貢献しており、我が国の有人宇宙計画の宇宙ステーションの軌道上建設ミッションは着実に前進している。

CMU が Gemini、GPT-3、Mistral8×7B を権威ある方法で比較します。 GPT-3.5は依然としてGeminiに勝っているが、オープンソースモデル間のギャップは依然として大きい

人工知能は、研究論文の合理的で興味深く、科学的に価値のあるタイトルを生成できるかもしれない。

生死に関わる問題：病院のICU病棟で人工知能は何ができるのか？