DAMOアカデミーが大規模モデルテストベンチマークを発表: GPT-4はかろうじて合格、他のモデルはすべて不合格

ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデルを完全かつ正確に評価する方法がますます重要になっています。ますます認識されつつある方向性の 1 つは、モデルの知識と推論能力をテストするために、人間によるテスト質問を使用してモデルを検証することです。たとえば、英語モデルの場合、MMLU は複数の科目におけるモデルのパフォーマンスを評価するために広く使用されてきました。同様に、中国のコミュニティでは最近、中国語のテスト問題を使用してモデル、特に中国語モデルのパフォーマンスをテストする C-Eval や GAOKAO などのツールが登場しています。

このようなテストベンチマークは、モデルの開発を促進する上で重要な役割を果たします。しかし、大規模な多言語/マルチモーダルモデルの場合、対応する評価はまだ空白です。そこで、アリババDAMOアカデミー多言語NLPチームは、このような評価の開発を促進するために、初の多言語マルチモーダルテストベンチマークM3Examをリリースしました。論文とデータコードは公開されています。

写真

論文: https://arxiv.org/pdf/2306.05179.pdf
データとコード: https://github.com/DAMO-NLP-SG/M3Exam

背景

従来の NLP タスクでは、大規模な言語モデルの真の有効性を完全にテストすることがますます困難になっています。このような状況では、人間によるテスト質問を使用してモデルをテストすることが、大規模モデルをテストするための一般的な方法になりつつあります。たとえば、MMLU データセットは複数の分野をカバーしており、さまざまなモデルのテストに広く使用されています。GPT-4 でも、重要なテストベンチマークとして使用されています。同様に、先月、C-EvalやGAOKAOなど、さまざまな種類の大学入試から中国語のテスト問題を集約して中国語モデルをテストする中国語での同様の試みも見られました。

しかし、現在のテストベンチマークには英語または中国語の質問しかありません。多くのモデルが登場し、多言語効果を持つと主張していますが、モデルの多言語機能を完全にテストすることはできません。さらに、マルチモーダルな質問、つまり画像を含む質問は、構築プロセスで見落とされがちです。その結果、大規模な多言語/マルチモーダルモデルの有効性を正確に測定できなくなります。このギャップを埋めるために、私たちは M3Exam を構築しました。これは、人間の試験問題を使用して構築された、合計 12,317 の質問をカバーする、多言語、マルチモーダル、マルチレベルのテストベンチマークです。

写真

名前が示すように、M3Exam には 3 つの機能があります。

多言語：言語特性、リソースレベル、文化的背景などの要素を総合的に考慮し、英語、中国語、イタリア語、ポルトガル語、ベトナム語、アフリカーンス語、スワヒリ語、タイ語、ジャワ語の9か国に対応する言語を選択しました。すべての問題は、対応する国の公式テスト問題から出題されます。
マルチモーダル: テキストのみの質問と画像ベースの質問の両方を考慮し、モデル処理を容易にするためにすべての画像を慎重に処理しました。
マルチレベル: 小学校から中学校、中学校から高校、高校卒業という 3 つの重要な教育段階を考慮し、対応する段階の公式試験から問題を入手して、異なる段階に対応する異なる知能要件の下でのモデルのパフォーマンスの違いを比較できるようにします。

多言語テスト

多言語機能をテストするために、さまざまなオープンソースおよびクローズドソースモデルを選択しました。結果は次の図に示されています。

写真

多くのモデルが英語で良い結果を示していますが（たとえば、Claude と ChatGPT は約 75% に到達できます）、平均的な結果は良くないことがわかります。 GPT-4 は 60% 以上の精度を達成できる唯一のモデルですが、ChatGPT は 57% の精度しか達成できません。言語学的な観点から見ると、タイ語やジャワ語などのリソースが少ない言語やラテン文字以外の言語では、GPT-4 でも 50% 以上の精度しか達成できません。これは、現在のほとんどのモデルの機能がまだ英語に集中しており、多言語機能をさらに改善する必要があることを示しています。

また、各国からの質問により、モデルの多言語機能がより徹底的にテストされていることもわかります。たとえば、GPT-4 レポートでは MMLU を複数の言語に翻訳し、さまざまな言語での翻訳の質問に対して良好な結果を達成しました。ただし、実際のシナリオからの質問を使用する場合、モデルは質問に答えるために各言語とその背後にある対応する文化的背景知識を学習する必要があります。たとえば、上記の例では、スワヒリ語ではことわざの空欄を埋める必要があり、タイ語ではタイの一般的な自然の景観の特徴が必要になります。

写真

正確な翻訳（上の写真の英語翻訳はタイ語のネイティブスピーカーによるものです）に基づいていても、対応する言語と文化の知識がなければ答えることは不可能であることがわかります。これは、モデルの多言語能力の完全なテストを反映しています。

マルチモーダルテスト

また、Fromage、OpenFlamingo、BLIP-2、InstructBLIP など、いくつかの大規模なマルチモーダルモデルを選択してテストしました。結果を次の図に示します。

写真

ご覧のとおり、ほとんどのモデルのパフォーマンスは非常に低く、精度が 50% を超えるモデルはありませんでした。同様のパラメータ数を持つ Flan-T5 モデル (Flan-T5 は画像を入力として受け取りません) と比較しても、マルチモーダルモデルには基本的に利点はありません。

さらに調査してみると、これは既存のマルチモーダルテストデータが比較的単純であることが原因である可能性があることがわかりました。たとえば、VQA では、多くの場合、画像の 1 つの側面に関する単純な質問のみが行われます。人間に対するテスト問題では、多くの場合、画像のより複雑な理解が求められます。たとえば、数学や科学のテストでは、画像の数値の詳細に注意を払う必要があります。次の図は、特定の問題と各モデルの出力を示しています。

写真

すべてのモデルが間違った回答をしたことがわかります。モデルの画像理解をさらにテストするために、モデルのさまざまな詳細を説明するよう求める追加のプロンプトを作成しました (上記画像の右側)。すべてのモデルが画像にマークされた 65 度の角度を正確に説明できないため、当然、画像内の反射角度が何であるかを答えることができないことがわかります。

マルチレベルテスト

データ構築の過程で、小学校から中学校、中学校から高校、高校から大学という3つの重要な試験段階を選択しました。各国の教育制度は異なっていても、基本的には対応する教育段階があることがわかったことは注目に値します。教育のさまざまな段階は、多くの場合、さまざまな国で対応する年齢層の人々に期待される知的レベルに対応しています。この区分により、さまざまな教育段階の問題を使用してモデルの有効性を観察する視点が得られます。結果は以下の図にまとめられています。

写真

驚くべきことに、モデル効果は、低い教育レベルから高い教育レベルにかけて大きな低下を示さないことがわかります。奇妙なことに、ほぼすべてのモデルは中レベルの問題で最も優れたパフォーマンスを発揮します。しかし、人間の場合、例えば中国では、大学入試で約 70% の精度を達成できるのであれば、小学校の試験問題を解くのは簡単なはずですが、このモデルではそうではないようです。

この観察から得られる教訓は、より困難なデータを使用してモデルを継続的にテストしても、必ずしもモデルの違いが最大化されるとは限らないということです。 AI 教育など、実際の生活でモデルを確実に使用したい場合は、基本的な質問に対してモデルがなぜ間違いを犯すのかを研究する方が価値があるかもしれません。

結論

この論文では、大規模な多言語/マルチモーダルモデルの評価に信頼性の高いベンチマークを提供することを目的とした、新しく作成されたテストベンチマーク M3Exam を紹介します。現在のテスト結果から、多くのモデルが英語や中国語などの高リソース言語では良好な結果を達成できるものの、多言語状況ではほとんどのモデルの結果は満足のいくものではないことがわかります。マルチモーダルモデルの効果はさらに不十分であり、現在のマルチモーダルモデルでは画像の単純な特徴しか捉えられず、より正確な詳細を捉えることができないことがわかります。今後、M3Exam が関連モデルの開発と反復に役立ち、あらゆる言語のユーザーに大規模モデルの利便性とより豊富な使用シナリオをもたらすことを期待しています。

<<: GPT-4ではMITでコンピュータサイエンスの学位を取得できない

>>: AIはソフトウェア開発の特効薬ではない