GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー:それは脳の働きのようです

GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー:それは脳の働きのようです

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

GPT-4 の数学的能力はさらに強化される可能性があります。

新しい研究により、GPT-4 コードインタープリターが質問に答える際の精度は、コードを使用する頻度に関連していることがわかりました。

この目的のために、研究者らは症状を治療し、数学的能力を新しい SOTA に直接高める新しい方法を提案しました。

MATHデータセットでは、質問への回答精度が53.9%から84.3%に向上しました

おっしゃる通りです。これは、しばらく前に ChatGPT がリリースされて以来、最も強力なモードと呼ばれているコード インタープリターです。

研究者たちはそのコード生成と実行のメカニズムを覗き込み、自己検証と検証ガイドによる加重多数決方式を使用して、数学の問題を解くための仁経絡と杜経絡を直接開きました。

好奇心旺盛なネットユーザーはフォローした:

彼らが高度な数学をやっているのも見てみたいですね👀。

一部のネットユーザーは次のようにも考えている。

これが脳の働きであり、人間も数学の問題を解くときに自己検証を行います。

この研究の詳細を見てみましょう〜

数学のスキルを向上させる2つのステップ

GPT-4 コード パーサーのコード生成および実行メカニズムとは何ですか?

この問題を解決するために、香港中文大学 MMLab、南京大学、USTC、清華大学、城市大学、長沙理工大学などの研究者が、特定のコード制約ヒントを使用した実験を実施しました。

GPT-4 コード パーサーで使用されるコードの頻度を制限するために、3 つの異なるヒント メソッドを設計しました。

  • プロンプト 1: コードは一切許可されません。出力は完全に自然言語推論に依存し、ソリューションにコードを組み込むことは禁止されています。
  • プロンプト 2: コードの使用は 1 回のみ許可されます。つまり、ソリューションを構築するときに、コードは単一のコード ブロック内でのみ使用できます。
  • 基本プロンプト: 制限はありません。GPT-4 コード パーサーは一連の推論ステップを実行でき、各ステップはテキスト + Python コードで構成できます。

△ (a) 異なるプロンプトに対する回答の正確さの比較 (b) コードの使用頻度は、5 つの難易度レベルの正確さに比例します。この現象は、数学の問題が比較的複雑な場合に特に顕著です。

結果は、GPT-4 コード パーサーがコードを複数回生成して実行できるようにすると、自然言語推論のみを使用する場合やコードを 1 回だけ使用する場合よりも、問題解決の精度が大幅に高くなることを示しています。

分析の結果、研究者らは、コードを複数回生成して実行することで、GPT-4 コード パーサーがソリューションを徐々に改善できると考えています。コード実行中にエラーが発生した場合、GPT-4 コード パーサーは自己デバッグしてソリューションを修正できます。

次に、 「コードの使用頻度」という概念が導入され、さまざまなプロンプト方法でコードが使用される回数を定量化します。

研究者たちは、これまでの分析結果に基づいて、GPT-4 コード パーサーの正確なコードを生成し、コード実行結果を評価し、ソリューションを自動的に調整する機能を強化したいと考えています。

したがって、 CSV (自己検証) プロンプト方式が提案され、ソリューション C に対して V と呼ばれる追加の検証段階が導入されます。

自己検証プロンプトを追加した場合の効果は、上の図の緑色の検証プロンプトに相当します。

このように、GPT-4 コード パーサーは回答を検証するために追加のコードを生成する必要があり、結果が False の場合は正しい回答を得るために再推論する必要があります。

CSV Prompt は、検証から論理的推論までのすべてのステップを拡張するだけでなく、外部モデルや人間の介入を必要とせずにエラーを自動的に修正します。

△MATHデータセットの712番目の中級代数問題。 CSV プロンプト:コード インタープリターを使用して問題を段階的に解決し、コード インタープリターを使用して回答を確認してください。

上記の例からわかるように、自己検証を行わないと、モデルは誤った回答を生成しました。自己検証を通じて、モデルはエラーを修正し、正しい答えを生成しました。

さらに、CSV は質問に対する回答を効果的に検証できることから、研究者らは検証ガイド付き加重多数決 (VW 投票)方式を提案しました。この方式では、自己検証結果を多数決に統合し、異なる検証ステータスに異なる重み付けを与えて、投票の信頼性を高めます。

実際には、回答が間違っていることが確認されると、追加の検証は実行されず、検証ステータスが不正確になります。研究者は、これらの状態にそれぞれ対応する重みを割り当てました: 真 (wT)、不確実 (wU)、偽 (wF)。

最後に、候補の回答の中から最もスコアの高いものを選択します。

過去最高水準より30%高い

上記の方法を使用することで、GPT-4 コード パーサーの数学問題を解く能力が向上しました。

MATH データセットでは、元の GPT-4 コード パーサーの精度は 69.69% でしたが、CSV プロンプトを使用した後は 73.54% に向上し、加重多数決を組み合わせた後は 84.32% にさらに向上し、以前の SOTA と比べて 30% 以上向上しました。

△MATHデータセットの精度(%)

MATH データセットの各サブタスクにおいて、提案された方法は、特に難易度の高い質問において大幅な改善を達成しました。

たとえば、中級代数の問題では、元の GPT-4 コード パーサーの精度は 50.1% でしたが、新しい方法を使用すると 74.4% に向上しました。

さらに研究者らは、GSM8K、MMLU-Math、MMLU-STEMなどのデータセットでもこれを検証した。

△GSM8Kデータセットでのパフォーマンス

上記の表からわかるように、検証ガイド付き加重多数決方式を使用すると、サンプリングする必要があるサンプルパスの数も大幅に削減できます。GSM8K データセットで 97% の精度を達成するために必要なパスは 5 つだけです。

△ MMLUデータセットでのパフォーマンス

異なる難易度の問題(下図 a)と異なる種類の問題(下図 b)のテストでは、新しい方法を使用した後、正解率が向上しました。

各曲線上の 4 つのポイントは、プロンプト 1、プロンプト 2、BasicPrompt、および CSV プロンプトを使用して取得された結果に対応します。

研究者らはまた、GPT-4 コードパーサーによるコード使用頻度の増加が精度の向上と正の相関関係にあることを発見しました。問題の難易度が上がるにつれて、コードの使用頻度は着実に増加します。これは、より難しい数学の問題では、コードをより頻繁に使用することが重要であることを示唆しています。

さらに、コードベースの自己検証を追加すると、個々の質問タイプのパフォーマンスが向上しますが、改善の程度は質問タイプによって異なり、7.6% からわずか 0.6% の範囲であることも注目に値します。

研究者らは次のように指摘した。

特に、幾何学の問題の精度はわずか 0.6% しか向上せず、元の GPT-4 コード パーサーの精度はわずか 54.0% で、すべての問題タイプの中では比較的低い結果となりました。この矛盾は、幾何学的問題を解くには通常、マルチモーダル性が必要であるという事実によるものと考えられますが、これはこの論文の範囲を超えています。

論文ポータル: https://arxiv.org/abs/2308.07921

<<:  秘密裏に利用規約を変更したことで、Software Freedom Conservancy が激怒しました。オープンソースコミュニティがZoomの放棄を呼び掛け

>>:  1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

ブログ    
ブログ    
ブログ    

推薦する

...

機械学習におけるシャプレー値を理解するにはどうすればよいでしょうか?

[[282454]]シャプレー値について初めて聞いたのは、モデルの解釈可能性を勉強していたときでし...

スマート物流は進化し、AIは「独自のスキル」を発揮し続ける

データによると、わが国のスマート物流市場規模は2019年に5074億元で、前年比23.10%増加しま...

生成AIはスマートホームの触媒となる

ラスベガスで開催される2024年コンシューマー・エレクトロニクス・ショーが終わりに近づく中、LGやサ...

Nervana Technology の深掘り: Neon を使用したエンドツーエンドの音声認識の実装方法

音声は本質的に即時の信号です。音声で伝えられる情報要素は、複数の時間スケールで進化します。空気圧の影...

産業用 AI が将来、精製業界にどのような力を与えるか

[[347965]]研究によると、人工知能技術は石油精製業界に大きな利益をもたらす可能性があるそうで...

機械にプライバシーを学習させることはできるでしょうか?

機械学習では、モデルをトレーニングするために大量のデータが必要であり、通常、このトレーニング データ...

自動車開発者エコロジー戦略の調印式が成功裏に開催されました

2021年10月20日、国家インテリジェントコネクテッドビークルイノベーションセンター(以下、「イノ...

上位 10 の古典的なソート アルゴリズムの詳細な説明: バブル ソート、選択ソート、挿入ソート

[[377307]] 1. アルゴリズムの評価基準ソートアルゴリズムを説明する前に、まずアルゴリズム...

知っておくべき 5 つの AI 応用シナリオ

人工知能は過去10年間で急速に発展し、徐々に私たちの生活に入り込んできました。現在、人工知能はさまざ...

人工知能は航空宇宙に貢献しており、我が国の有人宇宙計画の宇宙ステーションの軌道上建設ミッションは着実に前進している。

中国有人宇宙工程弁公室によると、2021年以来、我が国の有人宇宙計画は宇宙ステーションの重要技術検証...

...

人工知能は、研究論文の合理的で興味深く、科学的に価値のあるタイトルを生成できるかもしれない。

人工知能(AI)技術は、将来の研究論文に対して、説得力があり、面白く、科学的な見出しを生成できること...

生死に関わる問題:病院のICU病棟で人工知能は何ができるのか?

病院の集中治療室 (ICU) では、重病の患者を一日中一連の機器に接続し、いつでもバイタルサインを監...