GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー:それは脳の働きのようです

GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー:それは脳の働きのようです

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

GPT-4 の数学的能力はさらに強化される可能性があります。

新しい研究により、GPT-4 コードインタープリターが質問に答える際の精度は、コードを使用する頻度に関連していることがわかりました。

この目的のために、研究者らは症状を治療し、数学的能力を新しい SOTA に直接高める新しい方法を提案しました。

MATHデータセットでは、質問への回答精度が53.9%から84.3%に向上しました

おっしゃる通りです。これは、しばらく前に ChatGPT がリリースされて以来、最も強力なモードと呼ばれているコード インタープリターです。

研究者たちはそのコード生成と実行のメカニズムを覗き込み、自己検証と検証ガイドによる加重多数決方式を使用して、数学の問題を解くための仁経絡と杜経絡を直接開きました。

好奇心旺盛なネットユーザーはフォローした:

彼らが高度な数学をやっているのも見てみたいですね👀。

一部のネットユーザーは次のようにも考えている。

これが脳の働きであり、人間も数学の問題を解くときに自己検証を行います。

この研究の詳細を見てみましょう〜

数学のスキルを向上させる2つのステップ

GPT-4 コード パーサーのコード生成および実行メカニズムとは何ですか?

この問題を解決するために、香港中文大学 MMLab、南京大学、USTC、清華大学、城市大学、長沙理工大学などの研究者が、特定のコード制約ヒントを使用した実験を実施しました。

GPT-4 コード パーサーで使用されるコードの頻度を制限するために、3 つの異なるヒント メソッドを設計しました。

  • プロンプト 1: コードは一切許可されません。出力は完全に自然言語推論に依存し、ソリューションにコードを組み込むことは禁止されています。
  • プロンプト 2: コードの使用は 1 回のみ許可されます。つまり、ソリューションを構築するときに、コードは単一のコード ブロック内でのみ使用できます。
  • 基本プロンプト: 制限はありません。GPT-4 コード パーサーは一連の推論ステップを実行でき、各ステップはテキスト + Python コードで構成できます。

△ (a) 異なるプロンプトに対する回答の正確さの比較 (b) コードの使用頻度は、5 つの難易度レベルの正確さに比例します。この現象は、数学の問題が比較的複雑な場合に特に顕著です。

結果は、GPT-4 コード パーサーがコードを複数回生成して実行できるようにすると、自然言語推論のみを使用する場合やコードを 1 回だけ使用する場合よりも、問題解決の精度が大幅に高くなることを示しています。

分析の結果、研究者らは、コードを複数回生成して実行することで、GPT-4 コード パーサーがソリューションを徐々に改善できると考えています。コード実行中にエラーが発生した場合、GPT-4 コード パーサーは自己デバッグしてソリューションを修正できます。

次に、 「コードの使用頻度」という概念が導入され、さまざまなプロンプト方法でコードが使用される回数を定量化します。

研究者たちは、これまでの分析結果に基づいて、GPT-4 コード パーサーの正確なコードを生成し、コード実行結果を評価し、ソリューションを自動的に調整する機能を強化したいと考えています。

したがって、 CSV (自己検証) プロンプト方式が提案され、ソリューション C に対して V と呼ばれる追加の検証段階が導入されます。

自己検証プロンプトを追加した場合の効果は、上の図の緑色の検証プロンプトに相当します。

このように、GPT-4 コード パーサーは回答を検証するために追加のコードを生成する必要があり、結果が False の場合は正しい回答を得るために再推論する必要があります。

CSV Prompt は、検証から論理的推論までのすべてのステップを拡張するだけでなく、外部モデルや人間の介入を必要とせずにエラーを自動的に修正します。

△MATHデータセットの712番目の中級代数問題。 CSV プロンプト:コード インタープリターを使用して問題を段階的に解決し、コード インタープリターを使用して回答を確認してください。

上記の例からわかるように、自己検証を行わないと、モデルは誤った回答を生成しました。自己検証を通じて、モデルはエラーを修正し、正しい答えを生成しました。

さらに、CSV は質問に対する回答を効果的に検証できることから、研究者らは検証ガイド付き加重多数決 (VW 投票)方式を提案しました。この方式では、自己検証結果を多数決に統合し、異なる検証ステータスに異なる重み付けを与えて、投票の信頼性を高めます。

実際には、回答が間違っていることが確認されると、追加の検証は実行されず、検証ステータスが不正確になります。研究者は、これらの状態にそれぞれ対応する重みを割り当てました: 真 (wT)、不確実 (wU)、偽 (wF)。

最後に、候補の回答の中から最もスコアの高いものを選択します。

過去最高水準より30%高い

上記の方法を使用することで、GPT-4 コード パーサーの数学問題を解く能力が向上しました。

MATH データセットでは、元の GPT-4 コード パーサーの精度は 69.69% でしたが、CSV プロンプトを使用した後は 73.54% に向上し、加重多数決を組み合わせた後は 84.32% にさらに向上し、以前の SOTA と比べて 30% 以上向上しました。

△MATHデータセットの精度(%)

MATH データセットの各サブタスクにおいて、提案された方法は、特に難易度の高い質問において大幅な改善を達成しました。

たとえば、中級代数の問題では、元の GPT-4 コード パーサーの精度は 50.1% でしたが、新しい方法を使用すると 74.4% に向上しました。

さらに研究者らは、GSM8K、MMLU-Math、MMLU-STEMなどのデータセットでもこれを検証した。

△GSM8Kデータセットでのパフォーマンス

上記の表からわかるように、検証ガイド付き加重多数決方式を使用すると、サンプリングする必要があるサンプルパスの数も大幅に削減できます。GSM8K データセットで 97% の精度を達成するために必要なパスは 5 つだけです。

△ MMLUデータセットでのパフォーマンス

異なる難易度の問題(下図 a)と異なる種類の問題(下図 b)のテストでは、新しい方法を使用した後、正解率が向上しました。

各曲線上の 4 つのポイントは、プロンプト 1、プロンプト 2、BasicPrompt、および CSV プロンプトを使用して取得された結果に対応します。

研究者らはまた、GPT-4 コードパーサーによるコード使用頻度の増加が精度の向上と正の相関関係にあることを発見しました。問題の難易度が上がるにつれて、コードの使用頻度は着実に増加します。これは、より難しい数学の問題では、コードをより頻繁に使用することが重要であることを示唆しています。

さらに、コードベースの自己検証を追加すると、個々の質問タイプのパフォーマンスが向上しますが、改善の程度は質問タイプによって異なり、7.6% からわずか 0.6% の範囲であることも注目に値します。

研究者らは次のように指摘した。

特に、幾何学の問題の精度はわずか 0.6% しか向上せず、元の GPT-4 コード パーサーの精度はわずか 54.0% で、すべての問題タイプの中では比較的低い結果となりました。この矛盾は、幾何学的問題を解くには通常、マルチモーダル性が必要であるという事実によるものと考えられますが、これはこの論文の範囲を超えています。

論文ポータル: https://arxiv.org/abs/2308.07921

<<:  秘密裏に利用規約を変更したことで、Software Freedom Conservancy が激怒しました。オープンソースコミュニティがZoomの放棄を呼び掛け

>>:  1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

香水アートとAIが出会うとき

[51CTO.com 速訳] 香水は依然として人工物とみなされており、「スーパーな鼻」を持つトップマ...

この目立たないロボットトラックにユニコーンが登場しました!

人工知能やビッグデータなどの技術の発展に伴い、チャットボットも大きな進歩を遂げています。その応用分野...

...

Stability AIがAIプログラミングツール「StableCode」をリリース

Stability AI は、プログラミング用の最初の生成 LLM AI 製品である StableC...

確かな情報です!魅力的なチャットボットを 0 から 1 まで構築する方法を教えますか?

ここ数か月、私はたくさんのロボットに取り組んできました。このプロセスで私が学んだ教訓をいくつか紹介し...

...

クラッシュラマ2!マイクロソフトの13億パラメータphi-1.5は、単一のA100でトレーニングされ、SOTAを更新します

モデルが大きくなれば機能も増えるのでしょうか?しかし、そうではありません。最近、マイクロソフトの研究...

...

ウェアラブル AI が IoT に与える影響

ウェアラブル人工知能がモノのインターネット (IoT) の発展に与える影響を探ります。デジタル時代の...

...

AI バイアスを検出して防止するにはどうすればよいでしょうか?

[[417154]] [51CTO.com クイック翻訳]あらゆる AI アプリケーションの成功は...

国連がAI報告書を発表:自動化とAIはアジアに大きな影響を与える

[[245530]]科学技術の急速な発展は、社会の変化に大きな影響を与えます。第四次産業革命は、人工...

グラフなしの ICLR'24 のための新しいアイデア! LaneSegNet: 車線セグメンテーションを考慮したマップ学習

序文と著者の個人的な理解自動運転システムの下流アプリケーションにとって重要な情報である地図は、通常、...

...

ドアを早く開けてください、ロボット先生が教えに来ます

[[206421]]国慶節の連休中の数日間、河南省では新たなテクノロジードラマが繰り広げられた。コン...