Microsoft は最近、「MathVista」と呼ばれる新しいマルチモーダル数学的推論ベンチマーク データセットをリリースし、大規模なマルチモーダル モデルの数学的推論パフォーマンスに焦点を当てた 112 ページの詳細な評価レポートを提供しました。このベンチマークは、GPT-4V などの現在の最先端モデルにとっても挑戦的であり、マルチモーダル数学問題解決におけるこれらのモデルの限界を示しています。このレポートでは、GPT-4V の自己検証、自己一貫性、マルチラウンド対話機能の研究の可能性についても深く分析しています。
数学的に推論する能力は、汎用人工知能を実現するための重要なステップであると考えられています。従来の純粋なテキスト シナリオに加えて、多くの数学の研究とアプリケーションには豊富なグラフィック コンテンツも含まれており、モデルのマルチモーダル処理機能に対する要求がさらに高まります。 数学の問題には、紀元前 2000 年のメソポタミアにまで遡る長い歴史があります。当時の人々はすでに粘土板を使って台形や三角形を含む数学の問題を記録していました。研究によれば、彼らはギリシャの哲学者ピタゴラスが生きるよりずっと前に、ピタゴラスの定理(ピタゴラスの定理としてよく知られている)を習得していたことが分かっています。 古代中国数学の傑作である『周壁算経』には、ピタゴラスの定理の優雅な証明が含まれているだけでなく、数学の分野における私たちの祖先の深遠な業績も示されています。 私たちが子供の頃から受けてきた数学教育では、数学を理解する上で視覚的要素の重要性を強調する、鮮やかで興味深いさまざまなグラフィックがよく見られます。 現代の科学研究において、大量の画像データの数学的分析は欠かせないものとなっています。特に、大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) の開発により、これらのモデルはさまざまなタスクやドメインで優れた問題解決能力を発揮しています。 しかし、視覚シーンにおけるこれらのモデルの数学的推論能力は体系的に調査されていません。この分野を探求するために、Microsoft は UCLA およびワシントン大学と提携し、新しい MathVista ベンチマーク データセットを開発しました。このデータセットは、さまざまな数学的および視覚的なタスクからの課題を組み合わせたもので、28 の既存のマルチモーダル データセットと、IQTest、FunctionQA、PaperQA を含む 3 つの新しく注釈が付けられたデータセットからの 6,141 の質問が含まれています。 MathVista の豊富なタスク タイプ、推論方法、画像タイプは、既存の大規模モデルにとって大きな課題となります。 Microsoft の研究論文では、最近の 12 の大規模モデルの包括的な評価が提供されています。実験結果によると、最も強力な GPT-4V は現在 MathVista で 49.9% の精度を達成しており、2 位の Bard モデルを 15.1% 大幅に上回っています。しかし、 GPT-4V は人間のパフォーマンスと比べるとまだ 10.4% の差があります。この違いは主に、複雑なグラフを理解して厳密な推論を実行できないことに起因します。 Microsoft のレポートでは、GPT-4V の自己検証機能、自己一貫性、および複数ラウンドの会話を処理する可能性についてさらに詳しく説明しています。これらの分析は、特に複雑な状況を理解して推論するモデルの能力を向上させるという、将来の研究のいくつかの方向性を浮き彫りにしています。 MathVista ベンチマーク データセット現在、テキストベースの数学的推論データセットやマルチモーダル質問応答データセットは複数存在しますが、特にマルチモーダルデータセットにおける数学的推論の分野における大規模モデルの機能を包括的に評価するには、依然として大きなギャップが存在します。 この目的のために、Microsoft は、視覚的なシナリオにおける数学的な質問応答タスクに焦点を当てた MathVista データセットを提案しました。 MathVista には、28 の既存のデータセットと 3 つの新しい注釈付きデータセット (IQTest、FunctionQA、PaperQA)からの6141 の数学の問題が含まれています。 これら 3 つの新しく注釈が付けられたデータセットにはそれぞれ独自の特徴があります。IQTest は知能テストの質問に焦点を当て、FunctionQA は関数グラフに関する推論に焦点を当て、PaperQA は文献のグラフの詳細な理解に焦点を当てており、既存のデータセットの欠点を効果的に補っています。 MathVista は、多肢選択式問題(55.2%) と数値自由回答式問題 (44.8%) の 2 つの主なタイプのタスクをカバーしています。また、グラフィック質問回答(FQA)、幾何学問題解決 (GPS)、数学文章題 (MWP)、教科書質問回答 (TQA)、ビジュアル質問回答 (VQA) という 5 つの主要なタスク カテゴリも含まれており、これらは現在の数学的推論分野における最先端の課題を表しています。 MathVistaにおける数学的推論と画像の多様性MathVista は、算術、統計、代数、幾何学、数値一般知識、科学、論理を含む数学的推論の7 つの領域を分類して定義します。これらの領域は数学的推論の中核となる要素をカバーしており、MathVista が数学的認知の範囲を包括的にカバーしていることを反映しています。 MathVista は、画像タイプの多様性に関しても、独自の幅広さと深さを示しています。データセットには、自然画像から幾何学的図、抽象的なシーンから合成シーン、さらにさまざまなグラフ、チャート、図面に至るまで、10 種類を超えるさまざまな画像タイプが含まれています。この多種多様な画像タイプは、データセットの複雑さを増すだけでなく、さまざまな種類の視覚情報を処理する大規模なマルチモーダル モデルに包括的な課題をもたらします。 包括的な定量評価Microsoft の調査レポートは、視覚シナリオにおける現在の大規模モデルの数学的推論能力の包括的な定量的評価を提供する初めてのレポートです。レポートで使用されている MathVista データセットは、minitest と test の 2 つのサブセットに分かれています。 minitest サブセットには 1000 個の質問が含まれており、主にモデルのパフォーマンスを迅速に評価するために使用されます。テストサブセットには残りの 5141 の質問が含まれており、モデルの標準化された評価を目的としています。したがって、テストデータの汚染を避けるため、このサブセットの回答ラベルデータは一般に公開されません。 モデル評価プロセスは、応答の生成、回答の抽出、スコアの計算という 3 つの主要な段階に分かれています。回答生成段階では、研究チームは特定のテンプレートを使用して、テストの質問の種類に基づいて回答を出力するようにモデルを誘導しました。 現在の大規模モデルは通常、会話の形式で長いテキスト回答を出力することを考慮して、レポートの実験では GPT-4 に基づく回答抽出器を設計しました。この抽出機能は、GPT-4 にいくつかの例を提示して、モデルの長いテキスト回答から質問タイプに一致する短い回答を抽出します。このアプローチは、従来の手動評価の高コストと、ルールベースの回答抽出から生じる可能性のある不正確さを効果的に克服します。抽出された短いテキスト回答は、モデルの全体的な精度と、さまざまなサブカテゴリでの精度を計算するために使用されました。 MathVistaでの大規模モデル評価実験この実験では、testmini サブセットで 12 の大規模モデルを評価しました。評価対象は、ChatGPT、GPT-4、Claude-2 を含む 3 つの大規模言語モデルと、LLaVA、LLaMA-Adapter、miniGPT-4、Bard、GPT-4V を含む 9 つの大規模マルチモーダル モデルです。大規模言語モデルについては、実験で 2 つの形式が設計されました。1 つ目は質問のテキスト情報のみを使用し、2 つ目は画像のキャプションの説明と OCR テキストを外部強化情報として使用します。さらに、2 つのランダム化ベンチマークと人間のパフォーマンス ベンチマークで実験が完了しました。 実験結果によると、MathVista 上の現在の大規模モデルの全体的なパフォーマンスはまだ改善する必要があることが示されています。最も優れたパフォーマンスを示した GPT-4V モデルは 49.9% の精度を達成しましたが、これは人間の 60.3% のパフォーマンスと比較すると依然として大きな差です。 2 番目は Bard モデルの精度が 34.8% ですが、現在最も優れたオープン ソース モデルである LLaVA の精度は 26.1% です。これらのデータは、視覚的なコンテキストにおける大規模モデルの数学的推論能力には改善の余地が大いにあることを示唆しています。 興味深いことに、画像 OCR とキャプション情報を組み合わせると、大規模言語モデル GPT-4 (33.9%) のパフォーマンスは、マルチモーダル モデル Bard (34.8%) のパフォーマンスに近くなります。この発見は、適切なツールで強化すれば、大規模言語モデルがマルチモーダル領域で大きな可能性を秘めていることを示しています。 実験では、さまざまな数学的推論機能と画像タイプのサブカテゴリにおける主要モデルのパフォーマンスも定量的に評価します。結果によると、GPT-4V のパフォーマンスは、代数、幾何学、科学などの分野での推論や、表、関数グラフ、幾何学画像、散布図、科学的グラフなどの画像タイプの処理において、人間のパフォーマンスに近いか、あるいはそれを上回っています。 テスト サブセットの評価では、2 つの最良の大規模言語モデル (CoT/PoT GPT-4) と最良のオープン ソース大規模マルチモーダル モデル (LLaVA) を比較し、モデルのパフォーマンスの包括的な概要を提供します。 MathVistaにおけるバードのパフォーマンスMathVista での評価では、Bard モデルの全体的なパフォーマンスは GPT-4 にほぼ匹敵することが示されています。報告書は、具体的な事例分析を通じて、バードモデルがいわゆる「幻覚現象」、つまり質問文や画像に存在しない情報が生成された回答に導入される現象を頻繁に引き起こすことが判明した。さらに、Bard は数学演算を実行するときにエラーが発生しやすくなります。 たとえば、次の例では、バードは分数 8/10 を簡略化する際に計算ミスを犯しました。この種の問題は、数学の問題を扱う際のモデルの限界を浮き彫りにします。 MathVista での GPT-4 のパフォーマンスGPT-4 は本質的には言語モデルですが、ツールの機能強化 (OCR テキストとキャプションの説明の組み合わせなど) により、MathVista でのパフォーマンスはマルチモーダル モデル Bard に匹敵するレベルに達することができます。具体的には、これらの画像の OCR テキストとキャプションの説明を補助入力情報として導入すると、GPT-4 は多くのマルチモーダル数学の問題をうまく解決できます。この発見は、マルチモーダル問題処理における GPT-4 の可能性を示しています。 ただし、GPT-4 はこの拡張情報の精度に大きく依存します。これらの OCR テキストまたはキャプションの説明にエラーや不正確な点があると、GPT-4 は推論中に簡単に間違った方向に進み、不正確な結果につながる可能性があります。この点は、大規模な言語モデルを強化するツールを使用する場合の入力情報の品質の重要性を強調しています。 MathVista での GPT-4V の包括的な分析現在利用可能な最も先進的な大規模マルチモーダルモデルとして、GPT-4V の機能の詳細な分析は将来の研究にとって非常に重要です。このレポートでは、多数の例を使用して、GPT-4V のさまざまな側面の能力、特に自己検証、自己一貫性、およびマルチラウンド対話における大きな可能性を徹底的に分析しています。 代数的推論: MathVista の代数問題において、GPT-4V は画像内の関数を理解し、その特性を推測する優れた能力を示し、他の大規模モデルや人間を凌駕しました。しかし、GPT-4V は、低解像度画像や多機能画像を処理する際には依然として課題に直面しています。 数値計算スキル: MathVista の算術問題では、正確な基本演算だけでなく、多様な視覚シーンの理解も必要です。下の図に示すように、GPT-4V はこの点で既存のモデルに比べて大幅な改善を示しています。 幾何学的推論能力: 幾何学的推論に関しては、GPT-4V は MathVista 上で人間レベルのパフォーマンスを発揮します。次の 2 つの例では、GPT-4V は、小学生レベルの質問と上級学年レベルの質問の両方に対して、詳しい説明とともに正しい答えを提供できます。 論理的推論スキル: MathVista の論理的推論問題では、モデルは抽象的なグラフィックから数字や形状の暗黙的なパターンを推測する必要があります。 GPT-4V はこの点で課題に直面しており、精度率はわずか 21.6% で、ランダムな推測の 8.1% よりわずかに高いだけです。 数値的常識推論スキル: MathVista の数値的常識推論には、日常の物や有名人に関する知識が含まれます。この種の問題は、大規模なモデルにとって大きな課題となります。例えば、下図のような問題では、GPT-4Vだけが画像内の錯視現象を正しく理解できます。 ただし、ビーカーの最大容量を特定する場合など、一部のケースでは、GPT-4V と Bard モデルの両方のパフォーマンスが低下しました。 科学的推論能力: GPT-4V は、MathVista の科学的推論の質問において他の大規模モデルを大幅に上回ります。多くの場合、特定の科学分野に関連するグラフの情報を正確に解釈し、その後の推論を実行できます。 ただし、相対運動などの特定の基本概念の適用は、GPT-4V の弱点として残っています。 統計的推論スキル: GPT-4V は、MathVista のさまざまなチャート、プロット、グラフを理解する上で強力な統計的推論スキルを発揮します。他の大規模モデルを凌駕し、チャート分析に関わる数学的問題に正確に答えることができます。 GPT-4Vの自己検証機能の探究自己検証は社会心理学の概念であり、その中核となる考え方は、個人が自分自身を認識するのと同じように他人にも理解してもらいたいというものです。これにより、個人は他の人に自分の安定した状態を見せるために積極的に行動を起こすようになります (Talaifar & Swann、2020)。 Microsoft の実験では、GPT-4V は同様の自己検証能力を実証しました。この機能は、GPT-4V が推論中に自身の動作を自律的にチェックし、起こりうるエラーを積極的に修正できるという事実に反映されています。この自己検証機能は、モデル出力を改善するために外部からのフィードバックや複数回の対話だけに頼るのとは異なる点に注目すべきです。たとえば、場合によっては、GPT-4V は単一の出力で一連の候補回答を独自に確認し、指定されたすべての基準を満たす有効な回答を識別できます。 次の多段階推論問題では、GPT-4V は優れた能力を発揮します。一貫した推論を可能にするだけでなく、重要なステップの有効性も検証します。特に、長さが負の数であることが判明するなど、無効な中間結果が発生した場合、GPT-4V はこれらのエラーを積極的に検出して識別できます。この機能により、GPT-4V は問題を特定した後、さまざまなアプローチを試して問題を解決し、推論プロセスを最適化できます。 GPT-4Vの自己矛盾のない応用と限界自己一貫性は、複雑な推論タスクを処理する際のモデルの精度を向上させるために、大規模な言語モデルで広く使用されている手法です。このアプローチでは通常、複数の推論パスをサンプリングし、最も頻繁に発生する回答を最終的な解決策として選択します。 Microsoft の実験により、MathVista での GPT-4V のパフォーマンスを向上させる自己一貫性技術の有効性が検証されました。実験では、自己一貫性がGPT-4Vの視覚知覚と計算におけるエラーを修正し、幻覚を軽減する上で重要な役割を果たすことが示されています。 しかし、実験によって自己一貫性の限界も明らかになった。特に、GPT-4V が複雑な視覚シーンを正しく理解することが困難な場合、自己一貫性の改善は顕著ではありません。これは、自己一貫性は効果的な改善方法である一方で、その成功はモデルの視覚情報の基本的な理解に大きく依存することを示唆しています。 GPT-4VのMathVistaにおけるマルチラウンド会話機能Microsoft のレポートでは、GPT-4V が MathVista 上で複数ラウンドの人間とコンピューターの対話型対話を実行する能力についてようやく調査されています。実験結果によると、 GPT-4Vはユーザーが提供するプロンプトを効果的に活用して、複数ラウンドの会話における推論プロセスを最適化するのが得意です。これには、ユーザーガイダンスに基づいて視覚認識の誤解を修正すること、推論ロジックの不一致を修正すること、関連するドメイン知識を修正すること、さらには人間の支援を受けて非常に複雑な図表の問題を理解して処理することが含まれます。 主な中国人作家パン・ルー Pan Lu 氏は、カリフォルニア大学ロサンゼルス校 (UCLA) の博士課程の学生であり、UCLA 自然言語処理研究所 (NLP グループ) および視覚、認知、学習、自律性センター (VCLA) のメンバーです。 彼は以前、清華大学でコンピュータサイエンスの修士号を取得しました。彼はマイクロソフトとアレン人工知能研究所でインターンをしました。 彼は『ScienceQA』や『Chameleon』などの著者です。彼は、Amazon PhD フェローシップ、ブルームバーグ PhD フェローシップ、Qualcomm イノベーション フェローシップを受賞しています。 トニー・シア トニー・シアはスタンフォード大学コンピューターサイエンス学部の修士課程の学生です。彼は以前、UCLA でコンピューターサイエンスの学士号を取得しました。 劉嘉成 Jiacheng Liu はワシントン大学の博士課程の学生で、常識的推論、数学的推論、テキスト生成に関する研究を行っています。 彼は以前、イリノイ大学アーバナ・シャンペーン校で学士号を取得しました。彼はクアルコムイノベーション奨学金を受賞しました。 チュンユアン・リー Chunyuan Li 氏は、Microsoft Research Redmond の主任研究員です。 彼は以前、ローレンス・カリン教授の指導の下、デューク大学で機械学習の博士号を取得しました。彼は、NeurIPS、ICML、ICLR、EMNLP、AAAI のエリア チェアを務め、IJCV のゲスト エディターも務めました。 彼は、LLaVA、Visual Instruction Tuning、Instruction Tuning の著者です。 ハオ・チェン Hao Cheng 氏は、Microsoft Research Redmond の上級研究員であり、ワシントン大学の非常勤教授です。 彼は以前、ワシントン大学で博士号を取得しました。彼は2017年のAlexa Prize受賞チームの主要メンバーでした。 |
<<: 新しい近似注意メカニズム HyperAttention: 長いコンテキストに適しており、LLM 推論が 50% 高速化します
>>: さまざまな専門家が独自のカスタムGPTを提供しました。24時間のトップ9リストはこちらです。
今後数年間で、初めて医療用人工知能 (AI) システムとやり取りすることになるかもしれません。自動運...
過去 10 年間、データ サイエンスと機械学習の分野では驚異的な進歩が見られました。ディープラーニン...
[[192924]] Pegasystems の調査によると、消費者は人工知能が人間の顧客サービスと...
よりスマートで高速なサービスを求めて、IT 部門は社内のサービス提供を改善するための新しい方法とプロ...
要点一般的な機械学習/ディープラーニング プロジェクトでは、データ準備が分析パイプライン全体の 60...
近年、ソーシャル ネットワーキング プラットフォームのユーザー数は飛躍的に増加しています。これらのプ...
新しい論文の著者は、コード生成を「強化」する方法を提案しています。コード生成は人工知能においてますま...
2015年8月から現在までに、人工知能、フロントエンド開発、モバイル開発、クラウドコンピューティング...
まず、ドローンはソレイマニの暗殺に使用され、その後、アルメニアとアゼルバイジャンの戦場でドローンが活...
ChatGPT は、開始から 9 か月ですでに 2 億ドル近くを費やしています。海外メディアAnal...
意識のアップロードは、人間が将来の自分たちの存在を想像する方法として常に存在してきました。このアイデ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...