GPT-4 MATHの精度は84.3%まで上昇しました！香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

大規模言語モデル (LLM) は常識理解やコード生成などのタスクでは大きな進歩を遂げていますが、数学的推論タスクではまだ改善の余地が大きく、意味のない不正確なコンテンツを生成したり、過度に複雑な計算を処理できないことがよくあります。

GPT-4 や PaLM-2 など、最近リリースされた言語モデルの中には、数学的推論において大きな進歩を遂げているものがあります。特に、OpenAI の最新モデルである GPT-4 コードインタープリターは、より難しい数学的推論データセットでも高いパフォーマンスを発揮しています。

「コード生成タスク」が「言語モデル推論能力」に与える影響を調査するため、香港中文大学、南京大学、中国科学技術大学、清華大学、香港城市大学、長沙科技大学、タフツ大学の研究者らが共同で論文を発表し、実験検証のためにコード使用頻度にさまざまな制約を導入した。

論文リンク: https://arxiv.org/abs/2308.07921

実験結果によると、GPT-4 コードインタープリターモデルの成功は、主に「コードを生成して実行し、コード実行の出力を評価し、不合理な出力を受け取ったときにそのソリューションを修正する」という強力な能力によるものであることがわかりました。

上記の結論に基づいて、研究者らは、GPT-4 コードインタープリターの数学的推論の可能性をさらに向上させるために、明示的なコードベースの自己検証 (CSV) という新しい効率的なヒント方法を提案しました。

この方法では、GPT-4 コードインタープリターのゼロショットプロンプトを使用して、モデルがコードを使用して回答を自己検証するように促します。

検証ステータスが「偽」の場合、モデルは数学の試験で人間が間違いを訂正するプロセスと同様に、自動的にソリューションを修正します。

さらに研究者らは、検証結果のステータスによってソリューションの信頼性が示され、多数決の有効性がさらに向上することを発見しました。

GPT-4 コードインタープリターと CSV メソッドを組み合わせることで、MATH データセットのゼロショット精度が 54.9% から 84.3% に大幅に向上しました。

LLM の推論能力はどこから来るのでしょうか?

コードの使用が GPT4-Code の数学の問題を解く能力に与える影響を調査するために、研究者は、慎重に設計されたプロンプトを通じて GPT4-Code とコードのやり取りを制限するという直接的なアプローチを採用しました。

具体的には、2 つのコード制限プロンプトと比較用の基本プロンプトがあります。

ヒント1: コードの使用は許可されていません

GPT4-Code では、ソリューションにコードを追加することはできません。つまり、モデルは Chain of Thought (CoT) フレームワークのソリューションと同様に、自然言語 (NL) 推論チェーンにのみ完全に依存できます。結果として得られる推論ステップのシーケンスは、上の図の (a) に示すように、CNL と呼ばれます。

ヒント2: コードは1回しか使用できません

GPT4-Code は、従来の PAL 方式と同様に、単一のコードブロック内のコードを使用してのみソリューションを生成できます。この論文では、このシーケンスを CSL と呼んでいます。これは、推論に Python などの記号言語 (SL) を使用することを意味します。上図の (b) は例です。

基本的なヒント: コードの使用に制限はありません。

推論シーケンスはとして表すことができます。各ステップは、上図の (c) に示すように、自然言語と Python コードで構成されます。

さらに、研究者らは、さまざまなプロンプトの下でのコード実行回数を記録するために、コード使用頻度も導入しました。結果は、GPT4-Code の高いパフォーマンスと高いコード使用頻度の間に正の相関関係があることを示しました。

具体的には、ヒント 2 はヒント 1 の 2 倍のコードを使用し、ヒント 2 はヒント 1 よりも 6.9% 精度が向上しています。これは、Python コードチェーン CSL が自然言語チェーン CNL よりも計算能力を向上させることを示しています。これは、Python ベースのヒントメソッドの以前の結果と一致しています。

ただし、コードを一度だけ使用することには欠点もあります。コード出力でエラーが発生したり、予期しない結果が生成されたりすると、モデルには自己デバッグ機能が欠けてしまいます。

ヒント 2 と基本ヒントを比較すると、基本ヒントでは常に複数のコード使用インスタンスを含むソリューションを生成できること、つまりコード使用頻度が高く、基本ヒントの精度も大幅に向上していることがわかります。

これは、コードの 2 つの利点によるものです。

1. 自然言語推論ステップを分割できる短いコードブロックをいくつか生成し、精度を高めます。

2. モデルには、コード実行結果を評価し、結果内のエラーや非論理的な解決手順を見つけて修正する機能があります。