この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 GPT-4 の数学的能力はさらに強化される可能性があります。 新しい研究により、GPT-4 コードインタープリターが質問に答える際の精度は、コードを使用する頻度に関連していることがわかりました。 この目的のために、研究者らは症状を治療し、数学的能力を新しい SOTA に直接高める新しい方法を提案しました。 MATHデータセットでは、質問への回答精度が53.9%から84.3%に向上しました。 おっしゃる通りです。これは、しばらく前に ChatGPT がリリースされて以来、最も強力なモードと呼ばれているコード インタープリターです。 研究者たちはそのコード生成と実行のメカニズムを覗き込み、自己検証と検証ガイドによる加重多数決方式を使用して、数学の問題を解くための仁経絡と杜経絡を直接開きました。 好奇心旺盛なネットユーザーはフォローした: 彼らが高度な数学をやっているのも見てみたいですね👀。 一部のネットユーザーは次のようにも考えている。 これが脳の働きであり、人間も数学の問題を解くときに自己検証を行います。 この研究の詳細を見てみましょう〜 数学のスキルを向上させる2つのステップGPT-4 コード パーサーのコード生成および実行メカニズムとは何ですか? この問題を解決するために、香港中文大学 MMLab、南京大学、USTC、清華大学、城市大学、長沙理工大学などの研究者が、特定のコード制約ヒントを使用した実験を実施しました。 GPT-4 コード パーサーで使用されるコードの頻度を制限するために、3 つの異なるヒント メソッドを設計しました。
△ (a) 異なるプロンプトに対する回答の正確さの比較 (b) コードの使用頻度は、5 つの難易度レベルの正確さに比例します。この現象は、数学の問題が比較的複雑な場合に特に顕著です。 結果は、GPT-4 コード パーサーがコードを複数回生成して実行できるようにすると、自然言語推論のみを使用する場合やコードを 1 回だけ使用する場合よりも、問題解決の精度が大幅に高くなることを示しています。 分析の結果、研究者らは、コードを複数回生成して実行することで、GPT-4 コード パーサーがソリューションを徐々に改善できると考えています。コード実行中にエラーが発生した場合、GPT-4 コード パーサーは自己デバッグしてソリューションを修正できます。 次に、 「コードの使用頻度」という概念が導入され、さまざまなプロンプト方法でコードが使用される回数を定量化します。 研究者たちは、これまでの分析結果に基づいて、GPT-4 コード パーサーの正確なコードを生成し、コード実行結果を評価し、ソリューションを自動的に調整する機能を強化したいと考えています。 したがって、 CSV (自己検証) プロンプト方式が提案され、ソリューション C に対して V と呼ばれる追加の検証段階が導入されます。 自己検証プロンプトを追加した場合の効果は、上の図の緑色の検証プロンプトに相当します。 このように、GPT-4 コード パーサーは回答を検証するために追加のコードを生成する必要があり、結果が False の場合は正しい回答を得るために再推論する必要があります。 CSV Prompt は、検証から論理的推論までのすべてのステップを拡張するだけでなく、外部モデルや人間の介入を必要とせずにエラーを自動的に修正します。 △MATHデータセットの712番目の中級代数問題。 CSV プロンプト:コード インタープリターを使用して問題を段階的に解決し、コード インタープリターを使用して回答を確認してください。 上記の例からわかるように、自己検証を行わないと、モデルは誤った回答を生成しました。自己検証を通じて、モデルはエラーを修正し、正しい答えを生成しました。 さらに、CSV は質問に対する回答を効果的に検証できることから、研究者らは検証ガイド付き加重多数決 (VW 投票)方式を提案しました。この方式では、自己検証結果を多数決に統合し、異なる検証ステータスに異なる重み付けを与えて、投票の信頼性を高めます。 実際には、回答が間違っていることが確認されると、追加の検証は実行されず、検証ステータスが不正確になります。研究者は、これらの状態にそれぞれ対応する重みを割り当てました: 真 (wT)、不確実 (wU)、偽 (wF)。 最後に、候補の回答の中から最もスコアの高いものを選択します。 過去最高水準より30%高い上記の方法を使用することで、GPT-4 コード パーサーの数学問題を解く能力が向上しました。 MATH データセットでは、元の GPT-4 コード パーサーの精度は 69.69% でしたが、CSV プロンプトを使用した後は 73.54% に向上し、加重多数決を組み合わせた後は 84.32% にさらに向上し、以前の SOTA と比べて 30% 以上向上しました。 △MATHデータセットの精度(%) MATH データセットの各サブタスクにおいて、提案された方法は、特に難易度の高い質問において大幅な改善を達成しました。 たとえば、中級代数の問題では、元の GPT-4 コード パーサーの精度は 50.1% でしたが、新しい方法を使用すると 74.4% に向上しました。 さらに研究者らは、GSM8K、MMLU-Math、MMLU-STEMなどのデータセットでもこれを検証した。 △GSM8Kデータセットでのパフォーマンス 上記の表からわかるように、検証ガイド付き加重多数決方式を使用すると、サンプリングする必要があるサンプルパスの数も大幅に削減できます。GSM8K データセットで 97% の精度を達成するために必要なパスは 5 つだけです。 △ MMLUデータセットでのパフォーマンス 異なる難易度の問題(下図 a)と異なる種類の問題(下図 b)のテストでは、新しい方法を使用した後、正解率が向上しました。 各曲線上の 4 つのポイントは、プロンプト 1、プロンプト 2、BasicPrompt、および CSV プロンプトを使用して取得された結果に対応します。 研究者らはまた、GPT-4 コードパーサーによるコード使用頻度の増加が精度の向上と正の相関関係にあることを発見しました。問題の難易度が上がるにつれて、コードの使用頻度は着実に増加します。これは、より難しい数学の問題では、コードをより頻繁に使用することが重要であることを示唆しています。 さらに、コードベースの自己検証を追加すると、個々の質問タイプのパフォーマンスが向上しますが、改善の程度は質問タイプによって異なり、7.6% からわずか 0.6% の範囲であることも注目に値します。 研究者らは次のように指摘した。
論文ポータル: https://arxiv.org/abs/2308.07921 |
<<: 秘密裏に利用規約を変更したことで、Software Freedom Conservancy が激怒しました。オープンソースコミュニティがZoomの放棄を呼び掛け
>>: 1週間で2.5kの星、3枚の写真でユニークな画像を作成するオープンソースプロジェクトFaceChainにより、誰でもAIGCの個人写真を作成できます
[51CTO.com 速訳] 香水は依然として人工物とみなされており、「スーパーな鼻」を持つトップマ...
人工知能やビッグデータなどの技術の発展に伴い、チャットボットも大きな進歩を遂げています。その応用分野...
Stability AI は、プログラミング用の最初の生成 LLM AI 製品である StableC...
ここ数か月、私はたくさんのロボットに取り組んできました。このプロセスで私が学んだ教訓をいくつか紹介し...
モデルが大きくなれば機能も増えるのでしょうか?しかし、そうではありません。最近、マイクロソフトの研究...
ウェアラブル人工知能がモノのインターネット (IoT) の発展に与える影響を探ります。デジタル時代の...
[[417154]] [51CTO.com クイック翻訳]あらゆる AI アプリケーションの成功は...
[[245530]]科学技術の急速な発展は、社会の変化に大きな影響を与えます。第四次産業革命は、人工...
序文と著者の個人的な理解自動運転システムの下流アプリケーションにとって重要な情報である地図は、通常、...
[[206421]]国慶節の連休中の数日間、河南省では新たなテクノロジードラマが繰り広げられた。コン...