「大学受験5年間・シミュレーション3年間」の大型模型版が登場！ 6141 の数学の問題、マルチモーダルの問題

「大学入試５年間・シミュレーション３年間」の数学の問題集が大幅パワーアップして登場！

Microsoft、カリフォルニア大学ロサンゼルス校 (UCLA)、ワシントン大学 (UW) は共同で、新しいマルチモーダル数学的推論ベンチマークデータセットを作成しました。

それは「MathVista」と呼ばれます。

これは、既存の 28 のマルチモーダルデータセットと新たに注釈が付けられた 3 つのデータセットから派生した、さまざまな質問タイプの合計6141 の質問をカバーしています。

大規模なモデルの数学的レベルを知りたい場合は、このテストを実行してください。

最新の大型モデル12台は、試験問題の難易度を事前に体験済みです。

データセットとともに、112 ページの詳細な評価レポートが公開されました。

レポートによると、最も高度な GPT-4V でさえ、MathVista の豊富なタスクタイプ、推論方法、画像タイプに直面すると「イライラ」し、精度率は 49.9% で、人間より 10.4% 遅れているという。

バードは正解率34.8％で2位となり、その差は再び広がった。

さらに、このレポートでは、 GPT-4Vの自己検証、自己一貫性、マルチラウンド対話機能の研究の可能性についても深く分析しています。

詳細については読み続けてください。

MathVista ベンチマークデータセット

数学的推論能力は、AGI を実現するための重要なステップと見なされています。従来の純粋なテキストシナリオに加えて、多くの数学の研究とアプリケーションには、豊富なグラフィックコンテンツも含まれます。

しかし、視覚シーンにおける大規模モデルの数学的推論能力は体系的に研究されていません。

そこで、マイクロソフトは、カリフォルニア大学ロサンゼルス校 (UCLA) およびワシントン大学 (UW) と共同で、視覚シーンにおける数学的な質問応答タスクに焦点を当てた、マルチモーダル数学的推論ベンチマークデータセットである MathVista を開発しました。

前述のように、MathVista には28 の既存のデータセットと3 つの新しく注釈が付けられたデータセットからの6141 の数学の問題が含まれています。

新しく注釈が付けられた 3 つのデータセットはIQTest 、 FunctionQA 、 PaperQAであり、それぞれ独自の特性を持っています。

IQTest は知能テストの質問に焦点を当て、FunctionQA は関数グラフに関する推論に焦点を当て、PaperQA は文献のグラフの詳細な理解に焦点を当て、既存のデータセットの欠点を効果的に補います。

さらに、MathVista は、多肢選択式問題 (55.2% を占める) と数値自由回答式問題 (44.8% を占める) という 2 つの主要なタイプのタスクをカバーしています。

これには、グラフィック質問回答(FQA)、幾何学問題解決(GPS)、数学文章題(MWP)、教科書質問回答(TQA)、ビジュアル質問回答(VQA) の 5 つの主要なタスクカテゴリが含まれます。

これらのタスクカテゴリは、現在の数学的推論の分野における最先端の課題を表しています。

詳細には、MathVista は算術、統計、代数、幾何学、数値常識、科学、論理を含む数学的推論の 7 つの主要領域を定義しています。

これらの領域は数学的推論の中核となる要素をカバーしており、MathVista が数学的認知の範囲を包括的にカバーしていることを反映しています。

MathVista は、画像タイプの多様性に関しても、独自の幅広さと深さを示しています。

データセットには10 種類以上の異なる画像タイプが含まれています。

自然画像から幾何学図形まで：

抽象的なシーンから合成的なシーンへ：

さまざまなグラフ、チャート、図面:

この多種多様な画像タイプは、データセットの複雑さを増すだけでなく、さまざまな種類の視覚情報を処理する大規模なマルチモーダルモデルに包括的な課題をもたらします。

包括的な定量評価

この研究レポートは、視覚シナリオにおける現在の大規模モデルの数学的推論能力の初めての包括的な定量的評価を示しています。

レポートで使用されている MathVista データセットは、 minitest と test の2 つのサブセットに分かれています。

minitest サブセットには 1000 個の質問が含まれており、主にモデルのパフォーマンスを迅速に評価するために使用されます。

テストサブセットには残りの5141の質問が含まれており、モデルの標準化された評価を実行することを目的としています。テストデータの汚染を避けるため、このサブセットの回答ラベルデータは一般に公開されません。

モデル評価プロセスは、応答の生成、回答の抽出、スコアの計算という3 つの主要な段階に分かれています。

回答生成段階では、研究チームは特定のテンプレートを使用して、テストの質問の種類に基づいて回答を出力するようにモデルを誘導しました。

現在の大規模モデルは通常、対話形式で長いテキスト回答を出力することを考慮して、レポートの実験ではGPT-4ベースの回答抽出器を設計しました。

この抽出機能は、GPT-4 にいくつかの例を提示して、モデルの長いテキスト回答から質問タイプに一致する短い回答を抽出します。このアプローチは、従来の手動評価の高コストと、ルールベースの回答抽出から生じる可能性のある不正確さを効果的に克服します。

抽出された短いテキスト回答は、モデルの全体的な精度と、さまざまなサブカテゴリでの精度を計算するために使用されました。

大きなモデルのパフォーマンスはどうですか?

この実験では、testmini サブセットで 12 の大規模モデルを評価しました。評価対象は、ChatGPT、GPT-4、Claude-2 の 3 つの大規模言語モデルと、LLaVA、LLaMA-Adapter、miniGPT-4、Bard、GPT-4V の 9 つのマルチモーダル大規模モデルです。

大規模言語モデルの場合、実験は次の 2 つの形式で設計されました。

最初のものは質問のテキスト情報のみを利用します。

2 つ目は、画像のキャプションの説明と OCR テキストを外部拡張情報として使用することです。

さらに、2 つのランダム化ベンチマークと人間のパフォーマンスベンチマークで実験が完了しました。

実験結果によると、MathVista 上の現在の大規模モデルの全体的なパフォーマンスはまだ改善する必要があることがわかりました。

最も優れたパフォーマンスを示した GPT-4Vモデルは49.9% の精度を達成しましたが、これは人間の 60.3% のパフォーマンスと比較すると依然として大きな差です。

2番目はBardモデルの精度が34.8%で、現在最も優れたオープンソースモデルであるLLaVAの精度は26.1%です。

これらのデータは、視覚的なコンテキストにおける大規模モデルの数学的推論能力には改善の余地が大いにあることを示唆しています。

興味深いことに、画像OCRとキャプション情報を組み合わせた場合、大規模言語モデルGPT-4のパフォーマンス（33.9％）は、マルチモーダルモデルBardのパフォーマンス（34.8％）に近くなります。この発見は、適切なツールで強化すれば、大規模言語モデルがマルチモーダル領域で大きな可能性を秘めていることを示しています。

実験では、さまざまな数学的推論機能と画像タイプのサブカテゴリにおける主要モデルのパフォーマンスも定量的に評価します。

結果によると、GPT-4Vのパフォーマンスは、代数、幾何学、科学などの分野での推論や、表、関数グラフ、幾何学画像、散布図、科学的グラフなどの画像タイプの処理において、人間のパフォーマンスに近いか、あるいはそれを上回っています。

テストサブセットの評価では、最良の 2 つの大規模言語モデル (CoT/PoT GPT-4) と最良のオープンソース大規模マルチモーダルモデル (LLaVA) を比較し、モデルのパフォーマンスの包括的な概要を提供します。

以下にさらに詳細な分析を示します。

MathVistaにおけるバードのパフォーマンス

MathVista での評価では、Bard モデルの全体的なパフォーマンスは GPT-4 にほぼ匹敵することが示されています。報告書は、具体的な事例分析を通じて、バードモデルがいわゆる「幻覚現象」を頻繁に生み出すこと、つまり、質問文や画像に存在しない情報が生成された回答に導入されることを発見した。

さらに、 Bard は数学演算を実行するときにエラーが発生しやすくなります。

たとえば、次の例では、バードは分数 8/10 を簡略化する際に計算ミスを犯しました。この種の問題は、数学の問題を扱う際のモデルの限界を浮き彫りにします。

MathVista での GPT-4 のパフォーマンス

GPT-4 は本質的には言語モデルですが、ツールの機能強化(OCR テキストとキャプションの説明の組み合わせなど) により、MathVista でのパフォーマンスはマルチモーダルモデル Bard に匹敵するレベルに達することができます。

具体的には、これらの画像の OCR テキストとキャプションの説明を補助入力情報として導入すると、GPT-4 は多くのマルチモーダル数学の問題をうまく解決できます。この発見は、マルチモーダル問題処理における GPT-4 の可能性を示しています。

ただし、GPT-4 はこの強化された情報の精度に大きく依存します。

これらの OCR テキストまたはキャプションの説明にエラーや不正確な点があると、GPT-4 は推論プロセス中に簡単に間違った方向に進み、不正確な結果につながる可能性があります。

この点は、大規模な言語モデルを強化するツールを使用する場合の入力情報の品質の重要性を強調しています。

MathVista での GPT-4V の包括的な分析

現在最も先進的なマルチモーダル大規模モデルとして、GPT-4V の機能の詳細な分析は将来の研究にとって大きな意義を持ちます。このレポートでは、多数の例を使用して、さまざまな側面における GPT-4V の能力、特に自己検証、自己一貫性、およびマルチラウンド対話における大きな可能性を徹底的に分析しています。

代数的推論スキル:

MathVista の代数問題では、GPT-4V は画像内の関数を理解し、その特性を推測する優れた能力を発揮し、他の大規模モデルや人間を凌駕しました。しかし、GPT-4V は、低解像度画像や多機能画像を処理する際には依然として課題に直面しています。

数値計算機能:

MathVista の算術問題では、正確な基本演算だけでなく、さまざまな視覚シーンの理解も必要です。下の図に示すように、GPT-4V はこの点で既存のモデルに比べて大幅な改善を示しています。

幾何学的推論能力:

幾何学的推論に関しては、GPT-4V は MathVista で人間と同等のパフォーマンスを発揮します。次の 2 つの例では、GPT-4V は、小学校レベルと高校レベルの両方の質問に対して、詳しい説明とともに正しい答えを提供できます。

論理的推論能力:

MathVista の論理的推論問題では、モデルは抽象的なグラフィックから数字や形状の暗黙的なパターンを推測する必要があります。 GPT-4V はこの点で課題に直面しており、精度率はわずか 21.6% で、ランダム推測の 8.1% よりわずかに高いだけです。

数値的常識的推論能力:

MathVista の数値的常識推論には、日常の物や有名人に関する知識が含まれます。この種の問題は、大規模なモデルにとって大きな課題となります。例えば、下図のような問題では、GPT-4Vだけが画像内の錯視現象を正しく理解できます。

ただし、ビーカーの最大容量を特定する場合など、一部のケースでは、GPT-4V と Bard モデルの両方のパフォーマンスが低下しました。

科学的推論スキル:

MathVista の科学的推論問題では、GPT-4V は他の大規模モデルを大幅に上回りました。多くの場合、特定の科学分野に関連するグラフの情報を正確に解釈し、その後の推論を実行できます。

ただし、相対運動などの特定の基本概念の適用は、GPT-4V の弱点として残っています。

統計的推論スキル:

GPT-4V は、MathVista のさまざまなチャート、プロット、グラフを理解する上で強力な統計的推論機能を発揮します。他の大規模モデルを凌駕し、チャート分析に関わる数学的問題に正確に答えることができます。

GPT-4Vの自己検証能力の探究

自己検証は社会心理学の概念であり、その中核となる考え方は、個人が自分自身を認識するのと同じように他人にも理解してもらいたいというものです。これにより、個人は他の人に自分の安定した状態を見せるために積極的に行動を起こすようになります (Talaifar & Swann、2020)。

実験では、研究者らはGPT-4Vが同様の自己検証能力を示したことを示しました。

この機能は、GPT-4Vが推論中に自身の動作を自律的にチェックし、起こりうるエラーを積極的に修正できるという事実に反映されています。

この自己検証機能は、モデル出力を改善するために外部からのフィードバックや複数回の対話だけに頼るのとは異なる点に注目すべきです。

たとえば、場合によっては、GPT-4V は単一の出力で一連の候補回答を独自に確認し、指定されたすべての基準を満たす有効な回答を識別できます。

次の多段階推論問題では、GPT-4V は優れた能力を発揮します。一貫した推論を可能にするだけでなく、重要なステップの有効性も検証します。

特に、長さが負の数であることが判明するなど、無効な中間結果が発生した場合、GPT-4V はこれらのエラーを積極的に検出して識別できます。この機能により、GPT-4V は問題を特定した後、さまざまなアプローチを試して問題を解決し、推論プロセスを最適化できます。

GPT-4Vの自己矛盾のない応用とその限界

自己一貫性は、複雑な推論タスクを処理する際のモデルの精度を向上させるために、大規模な言語モデルで広く使用されている手法です。このアプローチでは通常、複数の推論パスをサンプリングし、最も頻繁に発生する回答を最終的な解決策として選択します。

研究者らの実験により、MathVista 上の GPT-4V のパフォーマンスを向上させる自己一貫性技術の有効性が検証されました。

実験では、自己一貫性がGPT-4Vの視覚知覚と計算におけるエラーを修正し、幻覚を軽減する上で重要な役割を果たすことが示されています。

しかし、実験によって自己一貫性の限界も明らかになった。特に、GPT-4Vが複雑な視覚シーンを正しく理解することが困難な場合、自己一貫性の改善は顕著ではありません。

これは、自己一貫性は効果的な改善方法である一方で、その成功はモデルの視覚情報の基本的な理解に大きく依存することを示唆しています。

GPT-4VのMathVistaにおけるマルチラウンド会話機能

Microsoft のレポートは、GPT-4V が MathVista 上で複数ラウンドの人間とコンピューターの対話型会話を実行する能力を調査して締めくくっています。

実験結果によると、 GPT-4Vはユーザーが提供するプロンプトを効果的に活用して、複数ラウンドの会話における推論プロセスを最適化するのが得意です。

これには、ユーザーガイダンスに基づいて視覚認識の誤解を修正すること、推論ロジックの不一致を修正すること、関連するドメイン知識を修正すること、さらには人間の支援を受けて非常に複雑な図表の問題を理解して処理することが含まれます。

主な中国作家の紹介

パン・ルー

Pan Lu 氏は、カリフォルニア大学ロサンゼルス校 (UCLA) の博士課程の学生であり、UCLA 自然言語処理研究所 (NLP グループ) および視覚、認知、学習、自律性センター (VCLA) のメンバーです。

彼は以前、清華大学でコンピュータサイエンスの修士号を取得しました。彼はマイクロソフトとアレン人工知能研究所でインターンをしました。

彼は『ScienceQA』や『Chameleon』などの著者です。彼は、Amazon PhD フェローシップ、ブルームバーグ PhD フェローシップ、Qualcomm イノベーションフェローシップを受賞しています。

トニー・シア

トニー・シアはスタンフォード大学コンピューターサイエンス学部の修士課程の学生です。彼は以前、UCLA でコンピューターサイエンスの学士号を取得しました。

劉嘉成

Jiacheng Liu はワシントン大学の博士課程の学生で、常識的推論、数学的推論、テキスト生成の研究を行っています。

彼は以前、イリノイ大学アーバナ・シャンペーン校で学士号を取得しました。彼はクアルコムイノベーション奨学金を受賞しました。

チュンユアン・リー

Chunyuan Li 氏は、Microsoft Research Redmond の主任研究員です。

彼は以前、ローレンス・カリン教授の指導の下、デューク大学で機械学習の博士号を取得しました。彼は、NeurIPS、ICML、ICLR、EMNLP、AAAI のエリアチェアを務め、IJCV のゲストエディターも務めました。

彼は、LLaVA、Visual Instruction Tuning、Instruction Tuning の著者です。

ハオ・チェン

Hao Cheng 氏は、Microsoft Research Redmond の上級研究員であり、ワシントン大学の非常勤教授です。

彼は以前、ワシントン大学で博士号を取得しました。彼は2017年のAlexa Prize受賞チームの主要メンバーでした。

論文アドレス: https://arxiv.org/abs/2310.02255
プロジェクトアドレス: https://mathvista.github.io/
HF データセット: https://huggingface.co/datasets/AI4Math/MathVista
データの視覚化: https://mathvista.github.io/#visualization
リーダーボード: https://mathvista.github.io/#leaderboard

<<:

>>: トランスフォーマーの覇権を覆せ！ CMU プリンストンは致命的なバグを解決し推論速度を 5 倍に向上させる新しい Mamba アーキテクチャを発表