GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

大規模言語モデル (LLM) は常識理解やコード生成などのタスクでは大きな進歩を遂げていますが、数学的推論タスクではまだ改善の余地が大きく、意味のない不正確なコンテンツを生成したり、過度に複雑な計算を処理できないことがよくあります。

GPT-4 や PaLM-2 など、最近リリースされた言語モデルの中には、数学的推論において大きな進歩を遂げているものがあります。特に、OpenAI の最新モデルである GPT-4 コードインタープリターは、より難しい数学的推論データセットでも高いパフォーマンスを発揮しています。

「コード生成タスク」が「言語モデル推論能力」に与える影響を調査するため、香港中文大学、南京大学、中国科学技術大学、清華大学、香港城市大学、長沙科技大学、タフツ大学の研究者らが共同で論文を発表し、実験検証のためにコード使用頻度にさまざまな制約を導入した。

論文リンク: https://arxiv.org/abs/2308.07921

実験結果によると、GPT-4 コード インタープリター モデルの成功は、主に「コードを生成して実行し、コード実行の出力を評価し、不合理な出力を受け取ったときにそのソリューションを修正する」という強力な能力によるものであることがわかりました。

上記の結論に基づいて、研究者らは、GPT-4 コードインタープリターの数学的推論の可能性をさらに向上させるために、明示的なコードベースの自己検証 (CSV) という新しい効率的なヒント方法を提案しました。

この方法では、GPT-4 コード インタープリターのゼロショット プロンプトを使用して、モデルがコードを使用して回答を自己検証するように促します。

検証ステータスが「偽」の場合、モデルは数学の試験で人間が間違いを訂正するプロセスと同様に、自動的にソリューションを修正します。

さらに研究者らは、検証結果のステータスによってソリューションの信頼性が示され、多数決の有効性がさらに向上することを発見しました。

GPT-4 コードインタープリターと CSV メソッドを組み合わせることで、MATH データセットのゼロショット精度が 54.9% から 84.3% に大幅に向上しました。

LLM の推論能力はどこから来るのでしょうか?

コードの使用が GPT4-Code の数学の問題を解く能力に与える影響を調査するために、研究者は、慎重に設計されたプロンプトを通じて GPT4-Code とコードのやり取りを制限するという直接的なアプローチを採用しました。

具体的には、2 つのコード制限プロンプトと比較用の基本プロンプトがあります。

ヒント1: コードの使用は許可されていません

GPT4-Code では、ソリューションにコードを追加することはできません。つまり、モデルは Chain of Thought (CoT) フレームワークのソリューションと同様に、自然言語 (NL) 推論チェーンにのみ完全に依存できます。結果として得られる推論ステップのシーケンスは、上の図の (a) に示すように、CNL と呼ばれます。

ヒント2: コードは1回しか使用できません

GPT4-Code は、従来の PAL 方式と同様に、単一のコード ブロック内のコードを使用してのみソリューションを生成できます。この論文では、このシーケンスを CSL と呼んでいます。これは、推論に Python などの記号言語 (SL) を使用することを意味します。上図の (b) は例です。

基本的なヒント: コードの使用に制限はありません。

推論シーケンスは として表すことができます。各ステップは、上図の (c) に示すように、自然言語と Python コードで構成されます。

さらに、研究者らは、さまざまなプロンプトの下でのコード実行回数を記録するために、コード使用頻度も導入しました。結果は、GPT4-Code の高いパフォーマンスと高いコード使用頻度の間に正の相関関係があることを示しました。

具体的には、ヒント 2 はヒント 1 の 2 倍のコードを使用し、ヒント 2 はヒント 1 よりも 6.9% 精度が向上しています。これは、Python コード チェーン CSL が自然言語チェーン CNL よりも計算能力を向上させることを示しています。これは、Python ベースのヒント メソッドの以前の結果と一致しています。

ただし、コードを一度だけ使用することには欠点もあります。コード出力でエラーが発生したり、予期しない結果が生成されたりすると、モデルには自己デバッグ機能が欠けてしまいます。

ヒント 2 と基本ヒントを比較すると、基本ヒントでは常に複数のコード使用インスタンスを含むソリューションを生成できること、つまりコード使用頻度が高く、基本ヒントの精度も大幅に向上していることがわかります。

これは、コードの 2 つの利点によるものです。

1. 自然言語推論ステップを分割できる短いコード ブロックをいくつか生成し、精度を高めます。

2. モデルには、コード実行結果を評価し、結果内のエラーや非論理的な解決手順を見つけて修正する機能があります。

コードベースの自己検証CSV

研究者たちは、コード使用頻度分析からの観察に触発され、GPT4-Code のコード生成、コード評価、コード実行、自動ソリューション調整機能を活用してソリューション検証を強化し、推論パフォーマンスを向上させることにしました。

CSV の主なプロセスは、GPT コードのプロンプトを入力し、コード生成を通じて回答の正確性を明示的に検証することです。

ソリューション C の検証結果 V は、「真」、「偽」、「不確実」の 3 つのカテゴリに分類できます。

CSV と組み合わせることで、モデルはコードを使用して回答を検証し、検証結果が「間違っている」場合は、ソリューションの導出方法を確認して調整し、正しい回答を得ることができます。

初期ソリューションを改良して修正すると、精度が大幅に向上します。

検証フェーズと修正フェーズの両方がコードベースであるため、必然的にコードの使用頻度が増加することに注意してください。

GPT4-Code が登場する前は、従来のフレームワークは主に、検証に自然言語を使用する外部 LLM と、慎重に設計された少数のプロンプトに依存していました。

対照的に、CSV アプローチは GPT4-Code からの直接プロンプトのみに依存し、ゼロショット方式でプロセスを合理化し、高度なコード実行メカニズムを活用してソリューションを自律的に検証し、独立して修正します。

研究者らはまた、検証段階を加重多数決に統合し、検証プロセスの各状態に異なる重みを割り当てました。

回答が「偽」と確定してそれ以上検証できなくなることを防ぐために、研究者らは3つの状態にwT、wF、wUという異なる重みを割り当て、システムの信頼性を高めることができる。

簡単にするために、アンサンブル アルゴリズムは k 個のソリューションから最終的な回答とそれに対応する検証結果のペアを抽出します。これは、 v と a がそれぞれ i 番目の最終的な回答と最終的な検証結果を表す と表されます。

したがって、各候補の回答 a の投票スコアは次のように表すことができます。

最後に、すべての候補回答の中から最もスコアの高い回答を選択します。

実験結果

MATHデータセット

GPT4-Code は MATH ベンチマークで 69.69% の精度を達成し、従来の方法 (53.90%) を大幅に上回り、GPT4-Code が数学の問題を解く上で強力な能力を発揮することを示しています。

GPT4コードに基づいて、本論文で提案されたCSV方式は精度をさらに73.54%に向上させます。

明示的なコードベースの自己検証と検証ガイド付き加重多数決 (16 個のサンプル パスを使用) を追加した後、結果はさらに 84.32% に改善されました。

コードベースの自己検証を追加すると質問のパフォーマンスが向上しますが、具体的な向上の程度は質問の難易度と形式によって異なります。

その他のデータセット

研究者らは、GSM8K、MMLU-Math、MMLU-STEM などの他の推論データセットにも CSV メソッドを適用しました。

結果から判断すると、CSV + GPT4-Code が各データセットで最高の結果を達成しました。

モデル選択を備えた GPT-4 および PHP と比較すると、検証ガイド付き多数決は、サンプルパスの数を削減するための効果的なフレームワークです。

MMLU-Math および MMLU-STEM データセットにおける CSV メソッドと既存モデルのパフォーマンス比較では、オープン ソース モデルがクローズド ソース モデルよりも大幅に優れていることがわかります。

このギャップを埋めるために、研究者らはすでにデータセットの準備を開始しており、近い将来に公開される予定だとしている。

LLaMA 2 などの他のオープンソース LLM モデルでは、このデータセットを使用して微調整を行い、数学的推論機能をさらに向上させることができます。

<<:  1つのコマンドでChatGPTがさらに強力になります

>>:  Google は、大規模モデルが啓示を達成できること、特別な方法によってモデルを迅速に一般化できること、または大規模モデルのブラックボックスを破ることができることを証明しています。

ブログ    
ブログ    

推薦する

...

...

AIはセルオートマトンを通じてMinecraftで家を建てることを学ぶ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ガートナー:2026年までに企業の80%が生成型AIを導入する見込み、これは現在の16倍にあたる

アナリスト会社ガートナーは10月13日、2026年までに企業の80%以上が生成型AIアプリケーション...

機械学習の錬金術の理論的根拠はどれほど強固なのでしょうか?

機械学習の分野は近年急速に発展しています。しかし、機械学習理論に対する理解は依然として非常に限られて...

機械学習の仕組み - コード例

誰が生き残るかを予測するモデルをトレーニングします。 [注: ここでモデルを自分で構築するには、完全...

上海で一人っ子を亡くした母親が、AIを使って14歳の娘を「蘇らせた」...

大切な人が亡くなったら、その人の記憶をAIに引き渡しますか?「The Debaters」のこの討論テ...

12 の主要な AI ホットテクノロジーの方向性を網羅する、AISummit グローバル人工知能テクノロジーカンファレンス 2022 が開催されます。

人工知能は、60年以上にわたる発展の中で、数々の浮き沈みを経験してきました。近年、モバイルインターネ...

K近傍教師あり学習マシンアルゴリズムの詳細な分析

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟K 近傍法 (KNN) は、機械学習アルゴリズムにおける回...

...

...

...

人工知能の時代において、Web フロントエンドは何ができるのでしょうか?

私は最近、クローラーを使用してページのスナップショットを取得し、ページの互換性の包括的なテストを実施...

画期的なニューラルネットワークが量子AI研究への道を開く可能性

海外メディアの報道によると、イタリアの研究者らは最近、量子コンピュータ上で特殊なアルゴリズムを実行す...

...