GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

大規模言語モデル (LLM) は常識理解やコード生成などのタスクでは大きな進歩を遂げていますが、数学的推論タスクではまだ改善の余地が大きく、意味のない不正確なコンテンツを生成したり、過度に複雑な計算を処理できないことがよくあります。

GPT-4 や PaLM-2 など、最近リリースされた言語モデルの中には、数学的推論において大きな進歩を遂げているものがあります。特に、OpenAI の最新モデルである GPT-4 コードインタープリターは、より難しい数学的推論データセットでも高いパフォーマンスを発揮しています。

「コード生成タスク」が「言語モデル推論能力」に与える影響を調査するため、香港中文大学、南京大学、中国科学技術大学、清華大学、香港城市大学、長沙科技大学、タフツ大学の研究者らが共同で論文を発表し、実験検証のためにコード使用頻度にさまざまな制約を導入した。

論文リンク: https://arxiv.org/abs/2308.07921

実験結果によると、GPT-4 コード インタープリター モデルの成功は、主に「コードを生成して実行し、コード実行の出力を評価し、不合理な出力を受け取ったときにそのソリューションを修正する」という強力な能力によるものであることがわかりました。

上記の結論に基づいて、研究者らは、GPT-4 コードインタープリターの数学的推論の可能性をさらに向上させるために、明示的なコードベースの自己検証 (CSV) という新しい効率的なヒント方法を提案しました。

この方法では、GPT-4 コード インタープリターのゼロショット プロンプトを使用して、モデルがコードを使用して回答を自己検証するように促します。

検証ステータスが「偽」の場合、モデルは数学の試験で人間が間違いを訂正するプロセスと同様に、自動的にソリューションを修正します。

さらに研究者らは、検証結果のステータスによってソリューションの信頼性が示され、多数決の有効性がさらに向上することを発見しました。

GPT-4 コードインタープリターと CSV メソッドを組み合わせることで、MATH データセットのゼロショット精度が 54.9% から 84.3% に大幅に向上しました。

LLM の推論能力はどこから来るのでしょうか?

コードの使用が GPT4-Code の数学の問題を解く能力に与える影響を調査するために、研究者は、慎重に設計されたプロンプトを通じて GPT4-Code とコードのやり取りを制限するという直接的なアプローチを採用しました。

具体的には、2 つのコード制限プロンプトと比較用の基本プロンプトがあります。

ヒント1: コードの使用は許可されていません

GPT4-Code では、ソリューションにコードを追加することはできません。つまり、モデルは Chain of Thought (CoT) フレームワークのソリューションと同様に、自然言語 (NL) 推論チェーンにのみ完全に依存できます。結果として得られる推論ステップのシーケンスは、上の図の (a) に示すように、CNL と呼ばれます。

ヒント2: コードは1回しか使用できません

GPT4-Code は、従来の PAL 方式と同様に、単一のコード ブロック内のコードを使用してのみソリューションを生成できます。この論文では、このシーケンスを CSL と呼んでいます。これは、推論に Python などの記号言語 (SL) を使用することを意味します。上図の (b) は例です。

基本的なヒント: コードの使用に制限はありません。

推論シーケンスは として表すことができます。各ステップは、上図の (c) に示すように、自然言語と Python コードで構成されます。

さらに、研究者らは、さまざまなプロンプトの下でのコード実行回数を記録するために、コード使用頻度も導入しました。結果は、GPT4-Code の高いパフォーマンスと高いコード使用頻度の間に正の相関関係があることを示しました。

具体的には、ヒント 2 はヒント 1 の 2 倍のコードを使用し、ヒント 2 はヒント 1 よりも 6.9% 精度が向上しています。これは、Python コード チェーン CSL が自然言語チェーン CNL よりも計算能力を向上させることを示しています。これは、Python ベースのヒント メソッドの以前の結果と一致しています。

ただし、コードを一度だけ使用することには欠点もあります。コード出力でエラーが発生したり、予期しない結果が生成されたりすると、モデルには自己デバッグ機能が欠けてしまいます。

ヒント 2 と基本ヒントを比較すると、基本ヒントでは常に複数のコード使用インスタンスを含むソリューションを生成できること、つまりコード使用頻度が高く、基本ヒントの精度も大幅に向上していることがわかります。

これは、コードの 2 つの利点によるものです。

1. 自然言語推論ステップを分割できる短いコード ブロックをいくつか生成し、精度を高めます。

2. モデルには、コード実行結果を評価し、結果内のエラーや非論理的な解決手順を見つけて修正する機能があります。

コードベースの自己検証CSV

研究者たちは、コード使用頻度分析からの観察に触発され、GPT4-Code のコード生成、コード評価、コード実行、自動ソリューション調整機能を活用してソリューション検証を強化し、推論パフォーマンスを向上させることにしました。

CSV の主なプロセスは、GPT コードのプロンプトを入力し、コード生成を通じて回答の正確性を明示的に検証することです。

ソリューション C の検証結果 V は、「真」、「偽」、「不確実」の 3 つのカテゴリに分類できます。

CSV と組み合わせることで、モデルはコードを使用して回答を検証し、検証結果が「間違っている」場合は、ソリューションの導出方法を確認して調整し、正しい回答を得ることができます。

初期ソリューションを改良して修正すると、精度が大幅に向上します。

検証フェーズと修正フェーズの両方がコードベースであるため、必然的にコードの使用頻度が増加することに注意してください。

GPT4-Code が登場する前は、従来のフレームワークは主に、検証に自然言語を使用する外部 LLM と、慎重に設計された少数のプロンプトに依存していました。

対照的に、CSV アプローチは GPT4-Code からの直接プロンプトのみに依存し、ゼロショット方式でプロセスを合理化し、高度なコード実行メカニズムを活用してソリューションを自律的に検証し、独立して修正します。

研究者らはまた、検証段階を加重多数決に統合し、検証プロセスの各状態に異なる重みを割り当てました。

回答が「偽」と確定してそれ以上検証できなくなることを防ぐために、研究者らは3つの状態にwT、wF、wUという異なる重みを割り当て、システムの信頼性を高めることができる。

簡単にするために、アンサンブル アルゴリズムは k 個のソリューションから最終的な回答とそれに対応する検証結果のペアを抽出します。これは、 v と a がそれぞれ i 番目の最終的な回答と最終的な検証結果を表す と表されます。

したがって、各候補の回答 a の投票スコアは次のように表すことができます。

最後に、すべての候補回答の中から最もスコアの高い回答を選択します。

実験結果

MATHデータセット

GPT4-Code は MATH ベンチマークで 69.69% の精度を達成し、従来の方法 (53.90%) を大幅に上回り、GPT4-Code が数学の問題を解く上で強力な能力を発揮することを示しています。

GPT4コードに基づいて、本論文で提案されたCSV方式は精度をさらに73.54%に向上させます。

明示的なコードベースの自己検証と検証ガイド付き加重多数決 (16 個のサンプル パスを使用) を追加した後、結果はさらに 84.32% に改善されました。

コードベースの自己検証を追加すると質問のパフォーマンスが向上しますが、具体的な向上の程度は質問の難易度と形式によって異なります。

その他のデータセット

研究者らは、GSM8K、MMLU-Math、MMLU-STEM などの他の推論データセットにも CSV メソッドを適用しました。

結果から判断すると、CSV + GPT4-Code が各データセットで最高の結果を達成しました。

モデル選択を備えた GPT-4 および PHP と比較すると、検証ガイド付き多数決は、サンプルパスの数を削減するための効果的なフレームワークです。

MMLU-Math および MMLU-STEM データセットにおける CSV メソッドと既存モデルのパフォーマンス比較では、オープン ソース モデルがクローズド ソース モデルよりも大幅に優れていることがわかります。

このギャップを埋めるために、研究者らはすでにデータセットの準備を開始しており、近い将来に公開される予定だとしている。

LLaMA 2 などの他のオープンソース LLM モデルでは、このデータセットを使用して微調整を行い、数学的推論機能をさらに向上させることができます。

<<:  1つのコマンドでChatGPTがさらに強力になります

>>:  Google は、大規模モデルが啓示を達成できること、特別な方法によってモデルを迅速に一般化できること、または大規模モデルのブラックボックスを破ることができることを証明しています。

ブログ    
ブログ    

推薦する

...

ICLR 2024 の合格率は 31% です。清華大学 LCM 論文著者: 冗談を言ったら拒否されました。

国際学習表現会議(ICLR 2024)は今年で12回目となり、今年は5月7日から11日までオーストリ...

人工知能、ディープラーニング、マシンビジョン、理解すべき概念

人工知能の概念は長年提唱されてきたが、最近の流行は「人間対機械」の競争で囲碁の世界的名人、イ・セドル...

ハッカーがトレーニングデータセットを汚染し、AIモデルが「犬を入力して猫を生成」できるようにするNightshadeツールを公開

10月25日、AIの大規模モデルトレーニングデータソースの著作権問題は、常に業界にとって頭痛の種とな...

...

プログラマーという職業は10年以内にAIによって消滅するのでしょうか?

これは非常に興味深い質問です。プログラマーという職業はAIによって消滅することはないと思いますが、プ...

...

...

2021年に理解すべき5つのAIコンセプト

人間の知能は、生物学を模倣することで模倣されるべきでしょうか? それとも、鳥類の生物学が航空宇宙工学...

データ管理はAI革命の最大の課題となるでしょうか?

最新のデータへの投資は人工知能の拡張を成功させる上で重要ですが、調査によると、企業の半数がコストの障...

人工知能とモノのインターネット:スマートシティの交通管理

今日のスマート シティは、都市部を再形成する高度なテクノロジーによって推進されています。人工知能とモ...

最新の NaViT モデルは最高です!あらゆるアスペクト比と解像度に対応する強力なトランスフォーマー

本日は、あらゆるアスペクト比と解像度で動作する Transformer モデルである NaViT を...

マイクロソフトが積極的に顔認識データベースを削除した秘密は何でしょうか?

1. マイクロソフトはひそかに顔認識データベースを削除したマイクロソフトは、同社最大の公開顔認識デ...