GPT-4よりも優れた20億パラメータモデルは、ほぼ100%の精度で算術問題を解く

GPT-4よりも優れた20億パラメータモデルは、ほぼ100%の精度で算術問題を解く

現在、大規模言語モデル (LLM) は、NLP の分野におけるさまざまな下流タスクの処理において優れた能力を発揮しています。特に、GPT-4 や ChatGPT などの先駆的なモデルは、大量のテキスト データでトレーニングされているため、強力なテキスト理解および生成機能を備えており、一貫性があり文脈に適した応答を生成でき、さまざまな NLP タスクで非常に汎用性があります。

しかし、数学的推論における LLM のパフォーマンスは満足できるものではありません。 LLM では、複雑な算術演算、特に 8 桁を超える数値の乗算や小数と分数を含む演算を正確に実行することが困難です。

これを基に、清華大学、TAL AI Lab、Zhipu AIの研究者らが共同で、複雑な算術演算を完璧に実行できる新しいモデル「MathGLM」を提案した。


  • 論文アドレス: https://arxiv.org/pdf/2309.03241v2.pdf
  • プロジェクトアドレス: https://github.com/THUDM/MathGLM#arithmetic-tasks

この研究では、十分なトレーニングデータがあれば、20億パラメータの言語モデルが、データ漏洩なしに、ほぼ100%の精度でマルチビット算術演算を正確に実行できることが示されています。この結果は、GPT-4(多桁の乗算精度はわずか4.3%)をはるかに上回ります。

方法の紹介

この論文では、数学的推論における LLM の効率性を調査するために、MathGLM というモデルを提案します。

MathGLM モデルで完了する必要がある算術タスクは、基本的な算術演算と複雑な混合演算の 2 つのカテゴリに大まかに分けられます。基本的な算術演算には、2 つの数値間の単純な計算を中心とした基本的な数学タスクが含まれます。複雑な混合演算には、さまざまな算術演算と数値形式 (整数、小数、分数など) の組み合わせが含まれます。表1はMathGLMタスクの分類を示しています。

MathGLM の算術機能を強化するために、Transformer ベースのデコーダーのみのアーキテクチャを採用し、自己回帰目的を使用して生成された算術データセットでゼロからトレーニングします。

算数の学習課題

算術トレーニング データセットは、加算、減算、乗算、除算、累乗などのさまざまな演算が含まれるように慎重に設計されています。さらに、整数、小数、パーセンテージ、分数、負の数など、複数の数値形式が含まれています。データセットのサイズは、100 万件から 5,000 万件のレコードまでさまざまです。

各データ セットでは、1 つの演算式が 2 ~ 10 の演算ステップで構成され、加算 (+)、減算 (-)、乗算 (×)、除算 (/)、累乗 (^) などのさまざまな数学演算をカバーします。図 3 は算術データセットから抽出されたいくつかのトレーニング例を示しています。

表 2 は、それぞれ異なるパラメータ サイズを持つ 4 つの異なるタイプのモデルを含む、MathGLM モデルのさまざまなサイズをまとめたものです。最大のモデルは 2B のパラメータを持ち、最も強力な容量を備えています。残りのモデルは 500M のパラメータ、100M のパラメータを持ち、最小のモデルは 10M のパラメータを持ちます。

応用数学の問題の研究

この論文では、算術タスクに加えて、数学の応用問題を解決するために、一般言語モデル (GLM) とそのチャットバージョンと呼ばれる一連の Transformer ベースの言語モデルをトレーニング (微調整) しました。トレーニングプロセスでは、公開されている Chinese Ape210K データセットが使用されました。このデータセットには、中国の小学校の算数問題 210,000 問が含まれており、各問題の答えが直接計算されます。

数学の文章題における MathGLM のパフォーマンスを向上させるために、この論文では、Ape210K データセットを再構築し、各数学の問題の答えを段階的に計算するバージョンに変換する段階的な戦略を採用しています。図 4 は、オリジナルの Ape210K データセットとこの論文で再構築されたバージョンの比較を示しています。

MathGLM をトレーニングするためのバックボーンとして、335M パラメータを持つ GLM-large、GLM-6B、GLM2-6B、GLM-10B など、さまざまな GLM バリアントを使用します。さらに、この論文では、ChatGLM-6B および ChatGLM2-6B バックボーン ネットワークを使用して MathGLM をトレーニングします。これらのバックボーン モデルにより、MathGLM は基本的な言語理解機能を備え、数学の文章問題に含まれる言語情報を効果的に理解できるようになります。

実験

この論文では、算数課題と数学の文章題を含む 2 つの異なるタイプの実験が設計されました。

算術タスクについては、5億のパラメータを持つTransformerベースのMathGLMモデルを事前トレーニングし、そのパフォーマンスをGPT-4やChatGPTなどの主要な大規模言語モデル(LLM)と比較します。結果は表 3 に示されています。MathGLM は他のすべてのモデルよりも優れており、算術タスクの処理において優れたパフォーマンスを発揮することを示しています。

わずか 1,000 万のパラメータ (MathGLM-10M) でも、結果は驚くべきものです。 MathGLM-10M は、さまざまな包括的な算術タスクにおいて GPT-4 および ChatGPT よりも優れたパフォーマンスを発揮します。

さらに、異なるパラメータ サイズの MathGLM を比較すると、MathGLM の演算パフォーマンスはパラメータ数の増加に直接関係していることがわかります。この結果は、モデルのサイズが大きくなるにつれて、パフォーマンスもそれに応じて向上することを示唆しています。

要約すると、複雑な算術タスクに関する研究者の評価結果は、MathGLM が優れたパフォーマンスを発揮することを示しています。算術タスクを分解することで、これらのモデルは GPT-4 や ChatGPT よりも大幅に優れたパフォーマンスを発揮します。

さらに、この論文では、GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM、GLMも比較しています。この論文では、前述の大規模なデータセットから 100 個のテストケースを含むコンパクトな算術データセットをランダムに抽出します。結果を表4に示す。

上記の分析結果から、MathGLM は 20 億のパラメータで 93.03% の精度を達成し、他のすべての LLM を上回っていることがわかります。

数学の応用問題については、この論文では Ape210K データセットで実験を行いました。表 8 には、MathGLM のバリエーション、GPT-4、ChatGPT などを含む結果が報告されています。

結果は、GLM-10B と併用した場合、MathGLM は回答の精度に関して最先端の GPT-4 モデルと同等のパフォーマンス レベルを達成することを示しています。

さらに、MathGLM のパフォーマンスを GLM-Large、GLM-6B、GLM-10B と比較すると、明らかな傾向が浮かび上がりました。MathGLM は、算術精度と回答精度の両方で大幅な向上を示しました。

異なる学年の数学の問題を解くモデルの能力を評価するために、この研究では、GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B、MathGLM-GLM-10B など、K6 データセットでいくつかのモデルのパフォーマンスをテストおよび評価しました。結果を下の図 8 に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  入力から出力までの「モーダル自由度」を実現し、NUSの中国チームがNExT-GPTをオープンソース化。AGIに最も近い最も統一されたマルチモーダルモデルがここにあります。

>>:  iPhoneのトランスフォーマーを公開: GPT-2アーキテクチャをベースにした単語セグメンターには、MITの卒業生が制作した絵文字が含まれています。

ブログ    
ブログ    
ブログ    

推薦する

百度の主任科学者アンドリュー・ン氏が辞任を発表

[[186234]] 3月22日、百度のトップ科学者アンドリュー・ン氏は、英語のセルフメディアプラッ...

...

C/C++アルゴリズム設計における任意のビット幅の使用

固定小数点アルゴリズムを開発する場合、設計機能、数値的に正確なモデリング、検証 (シミュレーション)...

...

AIGCの投資刺激策のおかげで、マイクロソフトとグーグルのクラウドコンピューティング事業は大幅に成長した

MicrosoftとGoogleはAI市場の支配を競っており、両社ともAIハードウェアに多額の投資を...

ヘルスケアにおけるAI導入が難しい理由

私たちはほぼ毎日、人工知能と医療業界におけるその応用に関する最新の記事を読んでおり、医療機関などのク...

データサイエンスと機械学習のためのツールと言語の最新情報

[[198310]]第 18 回 KDnuggets ソフトウェア アンケートには、今年もアナリティ...

上海交通大学卒業生によるソロ作品! 50年間のゼロ進歩アルゴリズム問題が解決された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能と仮想現実のつながり

バーチャルリアリティ(VR)は、新しい実用的な技術です。バーチャルリアリティ技術は、コンピュータ、電...

AIを活用して都市の建物の特性を識別し、地震などの災害に対するリスクを予測する

人工知能は、ビジネスから工業デザイン、エンターテインメントまで、さまざまな分野で新たな機会を提供して...

...

来年1月1日からAIフェイク動画は自由に公開できなくなる

新しいルールが登場します。 今回公布された「オンライン音声・動画情報サービス管理規則」では、ディープ...

AIが世界を侵略する中、プログラマーは2040年になってもコードを書き続けることができるでしょうか?

アルファ囲碁が中国の囲碁の天才柯潔に3連勝した後、ロボット脅威論がますます広まりました。電話接客、デ...

「知的障害ロボット」が解雇に直面

最近、ストレンジという日本のロボットホテルが「ロボット従業員」の半数を解雇した。ロボットに仕事を奪わ...

データが増えるほど、AIの意思決定モデルは脆弱になる

データは、人工知能システムを構築するために必要な重要なインフラストラクチャです。データは、AI シス...