GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

大規模言語モデル (LLM) は常識理解やコード生成などのタスクでは大きな進歩を遂げていますが、数学的推論タスクではまだ改善の余地が大きく、意味のない不正確なコンテンツを生成したり、過度に複雑な計算を処理できないことがよくあります。

GPT-4 や PaLM-2 など、最近リリースされた言語モデルの中には、数学的推論において大きな進歩を遂げているものがあります。特に、OpenAI の最新モデルである GPT-4 コードインタープリターは、より難しい数学的推論データセットでも高いパフォーマンスを発揮しています。

「コード生成タスク」が「言語モデル推論能力」に与える影響を調査するため、香港中文大学、南京大学、中国科学技術大学、清華大学、香港城市大学、長沙科技大学、タフツ大学の研究者らが共同で論文を発表し、実験検証のためにコード使用頻度にさまざまな制約を導入した。

論文リンク: https://arxiv.org/abs/2308.07921

実験結果によると、GPT-4 コード インタープリター モデルの成功は、主に「コードを生成して実行し、コード実行の出力を評価し、不合理な出力を受け取ったときにそのソリューションを修正する」という強力な能力によるものであることがわかりました。

上記の結論に基づいて、研究者らは、GPT-4 コードインタープリターの数学的推論の可能性をさらに向上させるために、明示的なコードベースの自己検証 (CSV) という新しい効率的なヒント方法を提案しました。

この方法では、GPT-4 コード インタープリターのゼロショット プロンプトを使用して、モデルがコードを使用して回答を自己検証するように促します。

検証ステータスが「偽」の場合、モデルは数学の試験で人間が間違いを訂正するプロセスと同様に、自動的にソリューションを修正します。

さらに研究者らは、検証結果のステータスによってソリューションの信頼性が示され、多数決の有効性がさらに向上することを発見しました。

GPT-4 コードインタープリターと CSV メソッドを組み合わせることで、MATH データセットのゼロショット精度が 54.9% から 84.3% に大幅に向上しました。

LLM の推論能力はどこから来るのでしょうか?

コードの使用が GPT4-Code の数学の問題を解く能力に与える影響を調査するために、研究者は、慎重に設計されたプロンプトを通じて GPT4-Code とコードのやり取りを制限するという直接的なアプローチを採用しました。

具体的には、2 つのコード制限プロンプトと比較用の基本プロンプトがあります。

ヒント1: コードの使用は許可されていません

GPT4-Code では、ソリューションにコードを追加することはできません。つまり、モデルは Chain of Thought (CoT) フレームワークのソリューションと同様に、自然言語 (NL) 推論チェーンにのみ完全に依存できます。結果として得られる推論ステップのシーケンスは、上の図の (a) に示すように、CNL と呼ばれます。

ヒント2: コードは1回しか使用できません

GPT4-Code は、従来の PAL 方式と同様に、単一のコード ブロック内のコードを使用してのみソリューションを生成できます。この論文では、このシーケンスを CSL と呼んでいます。これは、推論に Python などの記号言語 (SL) を使用することを意味します。上図の (b) は例です。

基本的なヒント: コードの使用に制限はありません。

推論シーケンスは として表すことができます。各ステップは、上図の (c) に示すように、自然言語と Python コードで構成されます。

さらに、研究者らは、さまざまなプロンプトの下でのコード実行回数を記録するために、コード使用頻度も導入しました。結果は、GPT4-Code の高いパフォーマンスと高いコード使用頻度の間に正の相関関係があることを示しました。

具体的には、ヒント 2 はヒント 1 の 2 倍のコードを使用し、ヒント 2 はヒント 1 よりも 6.9% 精度が向上しています。これは、Python コード チェーン CSL が自然言語チェーン CNL よりも計算能力を向上させることを示しています。これは、Python ベースのヒント メソッドの以前の結果と一致しています。

ただし、コードを一度だけ使用することには欠点もあります。コード出力でエラーが発生したり、予期しない結果が生成されたりすると、モデルには自己デバッグ機能が欠けてしまいます。

ヒント 2 と基本ヒントを比較すると、基本ヒントでは常に複数のコード使用インスタンスを含むソリューションを生成できること、つまりコード使用頻度が高く、基本ヒントの精度も大幅に向上していることがわかります。

これは、コードの 2 つの利点によるものです。

1. 自然言語推論ステップを分割できる短いコード ブロックをいくつか生成し、精度を高めます。

2. モデルには、コード実行結果を評価し、結果内のエラーや非論理的な解決手順を見つけて修正する機能があります。

コードベースの自己検証CSV

研究者たちは、コード使用頻度分析からの観察に触発され、GPT4-Code のコード生成、コード評価、コード実行、自動ソリューション調整機能を活用してソリューション検証を強化し、推論パフォーマンスを向上させることにしました。

CSV の主なプロセスは、GPT コードのプロンプトを入力し、コード生成を通じて回答の正確性を明示的に検証することです。

ソリューション C の検証結果 V は、「真」、「偽」、「不確実」の 3 つのカテゴリに分類できます。

CSV と組み合わせることで、モデルはコードを使用して回答を検証し、検証結果が「間違っている」場合は、ソリューションの導出方法を確認して調整し、正しい回答を得ることができます。

初期ソリューションを改良して修正すると、精度が大幅に向上します。

検証フェーズと修正フェーズの両方がコードベースであるため、必然的にコードの使用頻度が増加することに注意してください。

GPT4-Code が登場する前は、従来のフレームワークは主に、検証に自然言語を使用する外部 LLM と、慎重に設計された少数のプロンプトに依存していました。

対照的に、CSV アプローチは GPT4-Code からの直接プロンプトのみに依存し、ゼロショット方式でプロセスを合理化し、高度なコード実行メカニズムを活用してソリューションを自律的に検証し、独立して修正します。

研究者らはまた、検証段階を加重多数決に統合し、検証プロセスの各状態に異なる重みを割り当てました。

回答が「偽」と確定してそれ以上検証できなくなることを防ぐために、研究者らは3つの状態にwT、wF、wUという異なる重みを割り当て、システムの信頼性を高めることができる。

簡単にするために、アンサンブル アルゴリズムは k 個のソリューションから最終的な回答とそれに対応する検証結果のペアを抽出します。これは、 v と a がそれぞれ i 番目の最終的な回答と最終的な検証結果を表す と表されます。

したがって、各候補の回答 a の投票スコアは次のように表すことができます。

最後に、すべての候補回答の中から最もスコアの高い回答を選択します。

実験結果

MATHデータセット

GPT4-Code は MATH ベンチマークで 69.69% の精度を達成し、従来の方法 (53.90%) を大幅に上回り、GPT4-Code が数学の問題を解く上で強力な能力を発揮することを示しています。

GPT4コードに基づいて、本論文で提案されたCSV方式は精度をさらに73.54%に向上させます。

明示的なコードベースの自己検証と検証ガイド付き加重多数決 (16 個のサンプル パスを使用) を追加した後、結果はさらに 84.32% に改善されました。

コードベースの自己検証を追加すると質問のパフォーマンスが向上しますが、具体的な向上の程度は質問の難易度と形式によって異なります。

その他のデータセット

研究者らは、GSM8K、MMLU-Math、MMLU-STEM などの他の推論データセットにも CSV メソッドを適用しました。

結果から判断すると、CSV + GPT4-Code が各データセットで最高の結果を達成しました。

モデル選択を備えた GPT-4 および PHP と比較すると、検証ガイド付き多数決は、サンプルパスの数を削減するための効果的なフレームワークです。

MMLU-Math および MMLU-STEM データセットにおける CSV メソッドと既存モデルのパフォーマンス比較では、オープン ソース モデルがクローズド ソース モデルよりも大幅に優れていることがわかります。

このギャップを埋めるために、研究者らはすでにデータセットの準備を開始しており、近い将来に公開される予定だとしている。

LLaMA 2 などの他のオープンソース LLM モデルでは、このデータセットを使用して微調整を行い、数学的推論機能をさらに向上させることができます。

<<:  1つのコマンドでChatGPTがさらに強力になります

>>:  Google は、大規模モデルが啓示を達成できること、特別な方法によってモデルを迅速に一般化できること、または大規模モデルのブラックボックスを破ることができることを証明しています。

ブログ    
ブログ    
ブログ    

推薦する

語尾予測に基づく英語-ロシア語翻訳品質の向上方法

[51CTO.com からのオリジナル記事] ニューラルネットワーク翻訳モデルは、使用できる語彙のサ...

カリフォルニア大学の中国の博士研究チームは、リアルタイムの「思考から音声への変換」で鳥の鳴き声を真似るAIを訓練した。

現在の最先端の音声変換システムは、「考える」から「話す」へと進む人間の自然なプロセスと比較すると遅い...

...

AIがデータ統合の状況をどう変えるのか

生成 AI は統合の状況を変えています。 チームの経済性、速度、プロジェクト構造、配信モデルについて...

機械学習は世界をどう見ているか: 機械学習との戦いは人工知能と人間の思考の違いを説明する

人間の観察者にとって、次の 2 つの画像は同一です。しかし、Google の研究者は 2015 年に...

世界最高の AI 教育会社はどこでしょうか?米国、中国、欧州、イスラエルが先頭を走る

GoogleがモバイルファーストではなくAIファーストを語り、テンセントがAIをあらゆるものに取り入...

AIoTは単なる発言ではない

みなさんこんにちは。今日はAIoTについてお話します。 AIoT、つまり AI + IoT は、人工...

採血時に血管が見つからない?人工知能には解決策がある

[[318810]]ビッグデータダイジェスト制作出典: rutgers.edu編纂者:張大毓如、夏亜...

自律走行車の障害物回避、経路計画、制御技術の詳細な説明

1 はじめにインテリジェント交通システムは、複雑な環境における困難な自律性と安全性の問題に対処するた...

AIの「脳内いっぱい」写真は迫力満点!フェイフェイ・リーのチームの新作「ZeroNVS」は、単一ビューの360度フルシーン生成です。

最近では、3D 対応の拡散モデルを使用してモデルをトレーニングし、個々のオブジェクトに対して SDS...

異常検出のためのいくつかのグラフ分割アルゴリズム

セキュリティ分野では、アカウント取引の異常や異なるイベント間の相関関係など、さまざまなシナリオで「グ...

MAEよりも強力なFAIRの新しいメソッドMaskFeatはHOGを使用して複数のSOTAを更新します

マスク・アンド・予測法は、コンピュータービジョンの分野における新しい流派となるかもしれません。自己教...

何年も救助ステーションに取り残されていた彼らは、顔認識技術によって愛する人を見つけることができた。

2年前、アンディ・ラウとジン・ボーランが主演した映画「恋の迷宮」は、数え切れないほどのファンを映画...

何が足りないのでしょうか?現在の機械学習教育の欠点

[[347910]]ビッグデータダイジェスト制作出典: thegradient編集者: フィッシャー...

知能の時代に、人工知能はこれらの歴史上の人物を復元し、AIの現実的な技術を完全に実証しました

Nathan Shipley は、サンフランシスコを拠点とするテクノロジー ディレクター、クリエイテ...