中国のLMM体格に適したベンチマークであるCMMMUがここにあります:30以上のサブ分野、12Kの専門家レベルの質問

中国のLMM体格に適したベンチマークであるCMMMUがここにあります:30以上のサブ分野、12Kの専門家レベルの質問

近年、大規模マルチモーダルモデル (LMM) の機能が向上したため、LMM のパフォーマンスを評価する必要性も高まっています。同時に、LMM の高度な知識と推論能力を中国語の文脈で評価することの重要性がより顕著になります。

このような状況において、MAP オープンソース コミュニティ、香港科技大学、ウォータールー大学、Zero One Everything は共同で、さまざまな中国語タスクにおける基本モデルの専門家レベルのマルチモーダル理解機能を評価するため、Chinese Massive Multi-discipline Multimodal Understanding and Reasoning (CMMMU) ベンチマークを立ち上げました。

CMMMU は、芸術、ビジネス、健康と医学、科学、人文社会科学、テクノロジーとエンジニアリングの 6 つの広範な分野をカバーし、30 を超えるサブ分野にまたがっています。下の図は、各サブフィールドのトピックの例を示しています。 CMMMU は、中国における最初のマルチモーダル ベンチマークであり、LMM の複雑な理解と推論の能力を検査する数少ない既存のマルチモーダル ベンチマークの 1 つです。

データセットの構築

データ収集

データ収集は 3 つの段階に分かれています。第 1 段階では、研究者はトピック ソースの重複を避けながら、各主題の著作権ライセンス要件を満たすトピック ソース (Web ページまたは書籍) を収集します。次に、第 2 段階では、研究者はトピック ソースをクラウドソーシング アノテーターに転送して、さらに注釈を付けます。注釈を付けた質問とそれに関連する説明を検証できるよう、注釈者は全員学部生以上でした。注釈付けのプロセス中、研究者は注釈者に、画像がなくても回答できる質問を除外すること、同じ画像をできるだけ多く使用する質問を除外すること、回答に専門知識を必要としない質問を除外することなど、注釈付けの原則に厳密に従うことを要求します。最後に、第 3 段階では、データセット内の各被験者の質問数のバランスをとるために、研究者は特に被験者に少ない質問を追加しました。

データセットのクリーニング

CMMMU のデータ品質をさらに向上させるために、研究者は厳格なデータ品質管理プロトコルに従います。まず、各質問は論文の著者の少なくとも 1 人によって手動で検証されました。第二に、データ汚染の問題を考慮して、OCR の助けを借りずに複数の LLM で回答できる質問も除外しました。

データセットの概要

CMMMU は 12,000 の質問で構成され、少数の開発セット、検証セット、テスト セットに分かれています。少数の開発セットには各科目に約 5 つの質問が含まれ、検証セットには 900 の質問がサンプリングされ、テスト セットには 11,000 の質問が含まれます。タイトルの写真は病理写真、楽譜、回路図、化学構造図など計39種類。彼らは、知的な難しさではなく論理的な難しさに基づいて、データを簡単 (30%)、中程度 (58%)、難しい (12%) の 3 つの難易度に分類しました。詳細な質問統計は表 2 と 3 に示されています。

実験

チームは、CMMMU 上で複数の主流の中国語 - 英語バイリンガル LMM といくつかの LLM のパフォーマンスをテストしました。これには、クローズド ソース モデルとオープン ソース モデルが含まれます。評価プロセスでは、微調整や少数ショットの設定ではなく、ゼロショットの設定を使用して、モデルの生の機能をチェックします。 LLM は、画像 OCR 結果 + テキストを入力として使用する実験も追加しました。すべての実験は NVIDIA A100 グラフィック プロセッサで実行されます。

主な結果

表4に実験結果を示します。

主な調査結果は次のとおりです。

- CMMMU は MMMU よりも難しいですが、これは MMMU がすでに非常に難しいという前提に基づいています。

GPT-4V の中国語コンテキストでの精度はわずか 41.7% ですが、英語コンテキストでの精度は 55.7% です。これは、既存の言語間一般化手法が最先端のクローズドソース LMM に対しても十分ではないことを示しています。

- MMMUと比較すると、国内の代表的なオープンソースモデルとGPT-4Vとのギャップは比較的小さいです。

MMMU 上の Qwen-VL-Chat と GPT-4V の差は 13.3% ですが、MMMU 上の BLIP2-FLAN-T5-XXL と GPT-4V の差は 21.9% です。驚くべきことに、Yi-VL-34B は、CMMMU 上のオープンソースのバイリンガル LMM と GPT-4V の差を 7.5% まで縮めました。つまり、中国語の設定では、オープンソースのバイリンガル LMM は GPT-4V と同等であり、オープンソース コミュニティにおける有望な進歩です。

- オープンソース コミュニティでは、中国のエキスパートによるマルチモーダル汎用人工知能 (AGI) の追求のゲームが始まったばかりです。

チームは、最近リリースされたQwen-VL-Chat、Yi-VL-6B、Yi-VL-34Bを除いて、オープンソースコミュニティのすべてのバイリンガルLMMは、CMMMUが頻繁に選択するものと同等の精度しか達成できないと指摘しました。

さまざまな質問の難易度と質問タイプの分析

- さまざまな質問タイプ

Yi-VL シリーズ、Qwen-VL-Plus、GPT-4V の違いは、主に複数選択問題に回答する能力の違いにあります。

異なる質問タイプの結果を表 5 に示します。

- 質問の難易度が異なる

結果で注目すべき点は、中程度から難しい問題では、最高のオープンソース LMM (Yi-VL-34B) と GPT-4V の間に大きなギャップがあることです。これは、オープンソースの LMM と GPT-4V の主な違いが、複雑な条件下で計算および推論する能力にあることをさらに強く示しています。

質問の難易度別の結果を表6に示します。

エラー分析

研究者たちはGPT-4Vの誤った回答を注意深く分析した。下の図に示すように、主なエラーの種類は、知覚エラー、知識不足、推論エラー、回答拒否、注釈エラーです。これらのエラー タイプを分析することは、現在の LMM の機能と制限を理解するための鍵であり、将来の設計およびトレーニング モデルの改善にも役立ちます。

- 認識エラー(26%):認識エラーは、GPT-4V が誤った例を生成する主な理由の 1 つです。一方、モデルが画像を理解できない場合、画像の根本的な認識に偏りが生じ、誤った応答につながります。一方、モデルがドメイン固有の知識の曖昧さ、暗黙の意味、または不明瞭な数式に遭遇すると、ドメイン固有の知覚エラーが発生することがよくあります。この場合、GPT-4V はテキスト情報 (質問やオプションなど) に基づく応答に依存する傾向があり、視覚入力よりもテキスト情報を優先するため、マルチモーダル データの理解に偏りが生じます。

- 推論エラー(26%):推論エラーは、GPT-4V が誤った例を生成するもう 1 つの大きな要因です。モデルが画像やテキストによって伝えられる意味を正しく認識した場合でも、複雑な論理的および数学的推論を必要とする問題を解決するときに推論エラーが発生する可能性があります。通常、このエラーは、モデルの論理的および数学的推論能力が弱いために発生します。

- 知識不足(22%):専門知識の不足も、GPT-4V が誤った回答を出す理由の 1 つです。 CMMMU は LMM エキスパート AGI を評価するためのベンチマークであるため、さまざまな分野とサブフィールドにおける専門家レベルの知識が必要です。したがって、LMM に専門知識を注入することも、取り組むべき方向性の 1 つです。

- 回答を拒否する(12%):モデルが回答を拒否することもよくあります。分析を通じて、彼らはモデルが質問に答えることを拒否したいくつかの理由を指摘した:(1)モデルは画像から情報を認識できなかった。(2)モデルは宗教的な問題や個人的な実生活の情報を含む質問を積極的に避けた。(3)質問に性別や主観的な要素が含まれている場合、モデルは直接的な回答を避けた。

- エラー:残りのエラーには、テキスト理解エラー (7%)、注釈エラー (2%)、回答抽出エラー (5%) が含まれていました。これらのエラーは、複雑な構造追跡機能、複雑なテキスト ロジックの理解、応答生成の制限、データ注釈のエラー、回答の一致抽出で発生する問題など、さまざまな要因によって発生します。

結論は

CMMMU ベンチマークは、高度な汎用人工知能 (AGI) の開発における大きな進歩を示しています。 CMMMU は、最新の大規模マルチモーダル モデル (LMM) を厳密に評価し、基本的な知覚スキル、複雑な論理的推論、特定の分野における深い専門知識をテストするように設計されています。この研究では、中国語と英語のバイリンガルコンテキストにおけるLMMの推論能力を比較し、その違いを指摘します。この詳細な評価は、各分野の経験豊富な専門家の熟練度と比較してモデルのパフォーマンスがどの程度優れているかを判断するために重要です。

<<:  今後 5 年間で AI はさまざまな分野をどのように変えるのでしょうか? LLM から AI タンパク質設計、ヘルスケアまで...

>>:  OpenAI の共同創設者 Karpathy が記事「自動運転による AGI の解釈」を公開しました。元の投稿は削除されました。保存済み

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

深層強化学習の謎を解く

【51CTO.com クイック翻訳】 深層強化学習は、人工知能の最も興味深い分野の 1 つです。ボー...

暗号化アルゴリズムの鍵交換は少し安全ではない

今日は対称暗号化アルゴリズムの重要な問題についてお話ししましょう。暗号化の基本的な概念に精通していな...

大きな出来事がやってくる: Google Bard は Gemini に改名される予定、Ultra 1.0 は強力だが有料、Android アプリも登場

最後に、Google が昨年 12 月に約束した Gemini Ultra はリリースされるのでしょ...

人工知能、機械学習、データマイニング、データ分析の関係は何ですか?

人工知能は現在、注目されている分野です。すべてのインターネット企業や著名人が、人工知能はインターネッ...

...

2021 年の人工知能データ収集および注釈業界の 4 つの主要トレンド予測

人工知能データ収集およびラベリングのリーディングカンパニーであるYunce Dataは最近、「202...

...

事前トレーニング後、パフォーマンスが悪化します。自己トレーニングは事前トレーニングに取って代わるものでしょうか?

2018年末には、FAIRの研究者らが「ImageNetの事前トレーニングの再考」と題する論文を発...

ダンスをしたり、音楽を作曲したり、演出したりできる AI を見たことがありますか?

最近、NVIDIA Blog は「ライト、カメラ、AI: Cambridge Consultants...

C# 暗号化におけるハッシュ アルゴリズムの適用に関する簡単な分析

ハッシュ アルゴリズムは C# 暗号化でよく使用される方法ですが、ハッシュ アルゴリズムとは何でしょ...

強化学習と世界モデルにおける因果推論

1. 世界モデル「世界モデル」という用語は認知科学に由来しており、認知科学ではメンタルモデルと呼ばれ...

...

「ウイルス」ではなく「情報」を広めよう!プログラマーがAIを使って「手を洗う」を500以上の言語に翻訳

[[321195]]ビッグデータダイジェスト制作ダニエル・ホワイトナック編集者: lin、Cao P...

...