GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

大規模言語モデル (LLM) は常識理解やコード生成などのタスクでは大きな進歩を遂げていますが、数学的推論タスクではまだ改善の余地が大きく、意味のない不正確なコンテンツを生成したり、過度に複雑な計算を処理できないことがよくあります。

GPT-4 や PaLM-2 など、最近リリースされた言語モデルの中には、数学的推論において大きな進歩を遂げているものがあります。特に、OpenAI の最新モデルである GPT-4 コードインタープリターは、より難しい数学的推論データセットでも高いパフォーマンスを発揮しています。

「コード生成タスク」が「言語モデル推論能力」に与える影響を調査するため、香港中文大学、南京大学、中国科学技術大学、清華大学、香港城市大学、長沙科技大学、タフツ大学の研究者らが共同で論文を発表し、実験検証のためにコード使用頻度にさまざまな制約を導入した。

論文リンク: https://arxiv.org/abs/2308.07921

実験結果によると、GPT-4 コード インタープリター モデルの成功は、主に「コードを生成して実行し、コード実行の出力を評価し、不合理な出力を受け取ったときにそのソリューションを修正する」という強力な能力によるものであることがわかりました。

上記の結論に基づいて、研究者らは、GPT-4 コードインタープリターの数学的推論の可能性をさらに向上させるために、明示的なコードベースの自己検証 (CSV) という新しい効率的なヒント方法を提案しました。

この方法では、GPT-4 コード インタープリターのゼロショット プロンプトを使用して、モデルがコードを使用して回答を自己検証するように促します。

検証ステータスが「偽」の場合、モデルは数学の試験で人間が間違いを訂正するプロセスと同様に、自動的にソリューションを修正します。

さらに研究者らは、検証結果のステータスによってソリューションの信頼性が示され、多数決の有効性がさらに向上することを発見しました。

GPT-4 コードインタープリターと CSV メソッドを組み合わせることで、MATH データセットのゼロショット精度が 54.9% から 84.3% に大幅に向上しました。

LLM の推論能力はどこから来るのでしょうか?

コードの使用が GPT4-Code の数学の問題を解く能力に与える影響を調査するために、研究者は、慎重に設計されたプロンプトを通じて GPT4-Code とコードのやり取りを制限するという直接的なアプローチを採用しました。

具体的には、2 つのコード制限プロンプトと比較用の基本プロンプトがあります。

ヒント1: コードの使用は許可されていません

GPT4-Code では、ソリューションにコードを追加することはできません。つまり、モデルは Chain of Thought (CoT) フレームワークのソリューションと同様に、自然言語 (NL) 推論チェーンにのみ完全に依存できます。結果として得られる推論ステップのシーケンスは、上の図の (a) に示すように、CNL と呼ばれます。

ヒント2: コードは1回しか使用できません

GPT4-Code は、従来の PAL 方式と同様に、単一のコード ブロック内のコードを使用してのみソリューションを生成できます。この論文では、このシーケンスを CSL と呼んでいます。これは、推論に Python などの記号言語 (SL) を使用することを意味します。上図の (b) は例です。

基本的なヒント: コードの使用に制限はありません。

推論シーケンスは として表すことができます。各ステップは、上図の (c) に示すように、自然言語と Python コードで構成されます。

さらに、研究者らは、さまざまなプロンプトの下でのコード実行回数を記録するために、コード使用頻度も導入しました。結果は、GPT4-Code の高いパフォーマンスと高いコード使用頻度の間に正の相関関係があることを示しました。

具体的には、ヒント 2 はヒント 1 の 2 倍のコードを使用し、ヒント 2 はヒント 1 よりも 6.9% 精度が向上しています。これは、Python コード チェーン CSL が自然言語チェーン CNL よりも計算能力を向上させることを示しています。これは、Python ベースのヒント メソッドの以前の結果と一致しています。

ただし、コードを一度だけ使用することには欠点もあります。コード出力でエラーが発生したり、予期しない結果が生成されたりすると、モデルには自己デバッグ機能が欠けてしまいます。

ヒント 2 と基本ヒントを比較すると、基本ヒントでは常に複数のコード使用インスタンスを含むソリューションを生成できること、つまりコード使用頻度が高く、基本ヒントの精度も大幅に向上していることがわかります。

これは、コードの 2 つの利点によるものです。

1. 自然言語推論ステップを分割できる短いコード ブロックをいくつか生成し、精度を高めます。

2. モデルには、コード実行結果を評価し、結果内のエラーや非論理的な解決手順を見つけて修正する機能があります。

コードベースの自己検証CSV

研究者たちは、コード使用頻度分析からの観察に触発され、GPT4-Code のコード生成、コード評価、コード実行、自動ソリューション調整機能を活用してソリューション検証を強化し、推論パフォーマンスを向上させることにしました。

CSV の主なプロセスは、GPT コードのプロンプトを入力し、コード生成を通じて回答の正確性を明示的に検証することです。

ソリューション C の検証結果 V は、「真」、「偽」、「不確実」の 3 つのカテゴリに分類できます。

CSV と組み合わせることで、モデルはコードを使用して回答を検証し、検証結果が「間違っている」場合は、ソリューションの導出方法を確認して調整し、正しい回答を得ることができます。

初期ソリューションを改良して修正すると、精度が大幅に向上します。

検証フェーズと修正フェーズの両方がコードベースであるため、必然的にコードの使用頻度が増加することに注意してください。

GPT4-Code が登場する前は、従来のフレームワークは主に、検証に自然言語を使用する外部 LLM と、慎重に設計された少数のプロンプトに依存していました。

対照的に、CSV アプローチは GPT4-Code からの直接プロンプトのみに依存し、ゼロショット方式でプロセスを合理化し、高度なコード実行メカニズムを活用してソリューションを自律的に検証し、独立して修正します。

研究者らはまた、検証段階を加重多数決に統合し、検証プロセスの各状態に異なる重みを割り当てました。

回答が「偽」と確定してそれ以上検証できなくなることを防ぐために、研究者らは3つの状態にwT、wF、wUという異なる重みを割り当て、システムの信頼性を高めることができる。

簡単にするために、アンサンブル アルゴリズムは k 個のソリューションから最終的な回答とそれに対応する検証結果のペアを抽出します。これは、 v と a がそれぞれ i 番目の最終的な回答と最終的な検証結果を表す と表されます。

したがって、各候補の回答 a の投票スコアは次のように表すことができます。

最後に、すべての候補回答の中から最もスコアの高い回答を選択します。

実験結果

MATHデータセット

GPT4-Code は MATH ベンチマークで 69.69% の精度を達成し、従来の方法 (53.90%) を大幅に上回り、GPT4-Code が数学の問題を解く上で強力な能力を発揮することを示しています。

GPT4コードに基づいて、本論文で提案されたCSV方式は精度をさらに73.54%に向上させます。

明示的なコードベースの自己検証と検証ガイド付き加重多数決 (16 個のサンプル パスを使用) を追加した後、結果はさらに 84.32% に改善されました。

コードベースの自己検証を追加すると質問のパフォーマンスが向上しますが、具体的な向上の程度は質問の難易度と形式によって異なります。

その他のデータセット

研究者らは、GSM8K、MMLU-Math、MMLU-STEM などの他の推論データセットにも CSV メソッドを適用しました。

結果から判断すると、CSV + GPT4-Code が各データセットで最高の結果を達成しました。

モデル選択を備えた GPT-4 および PHP と比較すると、検証ガイド付き多数決は、サンプルパスの数を削減するための効果的なフレームワークです。

MMLU-Math および MMLU-STEM データセットにおける CSV メソッドと既存モデルのパフォーマンス比較では、オープン ソース モデルがクローズド ソース モデルよりも大幅に優れていることがわかります。

このギャップを埋めるために、研究者らはすでにデータセットの準備を開始しており、近い将来に公開される予定だとしている。

LLaMA 2 などの他のオープンソース LLM モデルでは、このデータセットを使用して微調整を行い、数学的推論機能をさらに向上させることができます。

<<:  1つのコマンドでChatGPTがさらに強力になります

>>:  Google は、大規模モデルが啓示を達成できること、特別な方法によってモデルを迅速に一般化できること、または大規模モデルのブラックボックスを破ることができることを証明しています。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ

分散システムにおける中心的な問題はデータの一貫性です。 Paxos アルゴリズムは分散一貫性における...

科学者は人工知能を使って新素材を発見する

米国の科学者チームは、人工知能を利用して非常に短期間で新たな鉄鋼の代替品を発見したいと考えている。そ...

2021年5月のAI資金調達活動の概要

科学技術の継続的な進歩により、インテリジェント製品は徐々に日常生活に統合され、人工知能は現代の発展の...

Lightning AI Studioを無料で使う方法

翻訳者 |ブガッティレビュー | Chonglouこの記事では、無料で使いやすい新しいクラウドIDE...

...

...

バイオメディカルホログラフィックイメージング用の RNN が 50 倍高速化

[[407014]]デジタル ホログラフィーは、生物医学イメージングでよく使用される顕微鏡技術です。...

...

音声認識システムが裁判にかけられる

舒城県裁判所杭埠法廷は最近、建設工事契約紛争事件の審理に法廷音声認識システムを使用した。これは、杭埠...

JVM チューニングの概要: 新世代のガベージ コレクション アルゴリズム

ガベージコレクションのボトルネック従来の世代別ガベージ コレクション方式では、ある程度、アプリケーシ...

IDC: 2021 年の中国スマート デバイス市場に関するトップ 10 の予測

過去 10 年間、中国のスマート デバイス市場では、一連の技術的変化、エコシステムの変化、ユーザーの...

水滴事件の裏側:スマート監視下では逃げ場はなく、カモフラージュやマスク着用も無意味!

[[213371]]はじめに:90年代生まれの少女が突然現れ、水滴カメラ生放送プラットフォームを批...

量子超越性のマイルストーン! Googleの量子コンピュータは47年分の計算を6秒で完了し、世界初のスーパーコンピュータを上回る

Googleは再び「量子超越性」を達成したのか?最近、Google は、同社の量子コンピュータが、世...

AI とブロックチェーンは 2020 年にモバイル アプリ業界にどのような革命を起こすのでしょうか?

新たな10年を迎えるにあたり、人々は過去10年間の経験と教訓を活用する必要があります。モバイル アプ...

画像解析アプリケーション向けの大規模サンプルフィルタリングソリューション

画像解析アプリケーションでは、大量の画像サンプルを効果的かつ自動的にフィルタリングすることが重要な基...