GPT-4Vは2位にしかランクされません！華中科技大学などがマルチモーダル大規模モデルの新たなベンチマークを発表：5つの主要タスクにおける14のモデルを総合的に評価

最近、大規模マルチモーダルモデル (LMM) は、視覚言語タスクにおいて優れた能力を発揮することが実証されています。しかし、大規模マルチモーダルモデルによって提供される回答はオープンエンド型であるため、大規模マルチモーダルモデルのさまざまな側面のパフォーマンスを正確に評価する方法が、解決すべき緊急の問題となっています。

現在、いくつかの方法では GPT を使用して回答を採点していますが、不正確さと主観性の問題があります。他の方法では、真偽の質問や複数選択の質問を通じて、大規模なマルチモーダルモデルの機能を評価します。

しかし、正誤問題や複数選択問題では、一連の参照回答から最適な回答を選択するだけでよいため、大規模なマルチモーダルモデルが画像内のテキストを完全に認識する能力を正確に反映することはできません。現在、大規模なマルチモーダルモデルの光学式文字認識 (OCR) 機能に関する専門的な評価ベンチマークが不足しています。

最近、華中科技大学の白翔氏のチームは、華南理工大学、北京科技大学、中国科学院、マイクロソフト研究所の研究者らと共同で、大規模なマルチモーダルモデルの OCR 機能に関する詳細な研究を実施しました。

私たちは、27 の公開データセットと 2 つの生成されたセマンティックフリーデータセットおよび比較セマンティックデータセットに対して、テキスト認識、シーンテキスト VQA、ドキュメント VQA、キー情報抽出、手書きの数式認識の 5 つのタスクに関する広範な実験を実施しました。

論文リンク: https://arxiv.org/abs/2305.07895

コードアドレス: https://github.com/Yuliang-Liu/MultimodalOCR

本論文では、大規模マルチモーダルモデルのOCR機能を簡便かつ正確に評価するために、大規模マルチモーダルモデルのゼロサンプル一般化機能を検証するためのテキスト分野における最も包括的な評価ベンチマークであるOCRBenchをさらに構築しました。Google Gemini、OpenAI GPT4V、および現在オープンソースのGPT4Vのような複数のマルチモーダル大規模モデルを評価し、OCR分野で大規模マルチモーダルモデルを直接適用することの限界を明らかにしました。

評価モデルの概要

この論文では、Google Gemini や OpenAI GPT4V を含む 14 の大規模なマルチモーダルモデルを評価します。

その中で、BLIP2 は視覚モデルと言語モデルを接続するために Q-Former を導入しました。Flamingo と OpenFlamingo は、大規模な言語モデルが視覚入力を理解できるようにするために、新しいゲート付きクロスアテンションレイヤーを導入しました。LLaVA は、マルチモーダル指示追跡データを生成するために GPT-4 の使用を先駆けて実施し、その後継である LLaVA1.5 は、アライメントレイヤーとプロンプト設計を改善することで、LLaVA のパフォーマンスをさらに向上させました。

さらに、mPLUG-Owl と mPLUG-Owl2 は画像とテキストのモーダルコラボレーションを重視しており、LLaVAR はリッチテキストトレーニングデータを収集し、高解像度の CLIP をビジュアルエンコーダーとして使用して LLaVA の OCR 機能を強化します。

BLIVA は、命令認識機能とグローバル視覚機能を組み合わせて、より豊富な画像情報を取得します。MiniGPT4V2 は、モデルをトレーニングするときにさまざまなタスクに固有の識別子を使用して、各タスクの命令を簡単に区別します。UniDoc は、大規模な命令追跡データセットに対して統合されたマルチモーダル命令の微調整を実行し、タスク間の有益な相互作用を利用して個々のタスクのパフォーマンスを向上させます。

Docpedia は、ピクセル空間ではなく周波数領域で視覚入力を直接処理します。 Monkey は、詳細な記述データと高解像度のモデルアーキテクチャを生成することで、低コストで LMM の詳細認識機能を向上させます。

評価指標と評価データセット

LMM によって生成される応答には通常、多くの説明的な発話が含まれるため、ゼロショットシナリオで LMM のパフォーマンスを評価する場合、完全一致または平均正規化レーベンシュタイン類似度 (ANLS) は適用できません。

この論文では、すべてのデータセットに対して統一された単純な評価基準、つまり LMM の出力に GT が含まれているかどうかを判断する基準を定義します。さらに、誤検知を減らすために、この論文では、回答が 4 文字未満のすべての質問と回答のペアを除外します。

テキスト認識

本稿では、広く採用されている OCR テキスト認識データセットを使用して LMM を評価します。これらのデータセットには以下が含まれます。

（１）従来のテキスト認識：IIIT5K、SVT、IC13

（２）不規則文字認識：IC15、SVTP、CT80、COCOText（COCO）、SCUT-CTW1500（CTW）、Total-Text（TT）

（３）遮蔽されたシーンにおけるテキスト認識、WOSTおよびHOST

（4）WordArt認識：WordArt

（５）手書き文字認識：IAM

（６）中国の承認：ReCTS

（７）手書き数字列認識：ORAND-CAR-2014（CAR-A）

（８）非意味テキスト（NST）と意味テキスト（ST）：STデータセットには、IIIT5K辞書からの3,000語の画像が含まれています。NSTデータセットとSTデータセットの違いは、単語の文字の順序がシャッフルされており、意味がないことです。

この記事では、英語の単語認識について、「画像には何が書かれていますか?」という統一されたプロンプトを使用しています。 ReCTS データセット内の中国語テキストの場合、「画像内の中国語の文字は何ですか?」がプロンプトとして使用されます。手書きの数字文字列の場合は、「画像内の数字は何ですか?」というプロンプトを使用します。

シーンテキスト中心のVQA

この論文では、STVQA、TextVQA、OCRVQA、ESTVQA に関する実験を行っています。 ESTVQA データセットは、それぞれ中国語と英語の質問と回答のペアを含む ESTVQA(CN) と ESTVQA(EN) に分かれています。

ドキュメント指向の VQA

この論文では、スキャンされた文書、複雑なポスター、グラフを含む DocVQA、InfographicVQA、ChartQA データセットを評価します。

キー情報抽出 (KIE)

私たちは、レシート、フォーム、製品の栄養成分表示ラベルを含む SROIE、FUNSD、POIE データセットで実験を実施しました。 KIE では、画像からキーと値のペアを抽出する必要があります。

LMM が KIE データセット内の特定のキーの正しい値を正確に抽出できるようにするために、この論文ではデータセットごとに異なるプロンプトを設計しています。

SROIE データセットでは、LMM が「会社」、「日付」、「住所」、「合計」に対応する値を生成できるように、次のプロンプトを使用します。「この領収書を発行した会社の名前は何ですか?」、「この領収書はいつ発行されましたか?」、「この領収書はどこで発行されましたか?」、「この領収書の合計金額はいくらですか?」。

さらに、FUNSD および POIE で特定のキーに対応する値を取得するために、この記事では「 '{key}' の値は何ですか?」というプロンプトを使用します。

手書き数式認識 (HMER)

HME100K データセットが評価されました。評価プロセス中、この記事では「画像内の数式の表現を LaTeX 形式で書き出してください。」というプロンプトを使用しました。

評価結果

LMM は、通常のテキスト、不規則なテキスト、遮蔽されたシーン内のテキスト、芸術的なテキストの認識において、Supervised-SOTA と同等のパフォーマンスを実現します。

InstructBLIP2 と BLIVA は WordArt データセットでは Supervised-SOTA よりも優れていますが、LMM には依然として大きな制限があります。

意味的依存性

LMM は、意味を持たない文字の組み合わせを識別する場合、認識パフォーマンスが低下します。

具体的には、NST データセットの LMM の精度は ST データセットと比較して平均で 57.0% 低下しましたが、Supervised-SOTA の精度は約 4.6% しか低下しませんでした。

これは、シーンテキスト認識用の Supervised-SOTA が各文字を直接認識し、意味情報は認識プロセスを支援するためにのみ使用されるのに対し、LMM は主に意味理解に依存して単語を認識するためです。

たとえば、図 1 では、LMM は「Message」という単語を正常に認識しましたが、「Message」という単語の順序を単に変更した「egaesMs」を誤って認識しました。

- 手書きのテキスト

LMM では手書きのテキストを正確に認識することが困難です。手書きのテキストは、書く速度が速い、筆跡が不規則、紙質が低いなどの要因により、不完全またはぼやけて見えることがよくあります。平均すると、このタスクでは LMM のパフォーマンスは Supervised-SOTA よりも 51.9% 低下します。

- 多言語テキスト

ReCTS、ESTVQA(En)、ESTVQA(Ch) で観察された大きなパフォーマンスのギャップは、中国語のテキスト認識と質問応答に対する LMM の不十分さを示しています。これは中国語のトレーニングデータが不足していることが原因である可能性があります。 Monkey の言語モデルとビジュアルエンコーダーは大量の中国語データを使用してトレーニングされているため、中国語のシナリオでは他の大規模なマルチモーダルモデルよりも優れたパフォーマンスを発揮します。

- きめ細かな認識

現在、ほとんどの LMM の入力画像解像度は 224 x 224 に制限されており、これはアーキテクチャで使用されるビジュアルエンコーダーの入力サイズと一致しています。ただし、高解像度の入力画像はより多くの画像の詳細をキャプチャできるため、よりきめ細かい情報を提供できます。 BLIP2 などの LMM は入力解像度が限られているため、シーンテキストの質問応答、ドキュメントの質問応答、キー情報の抽出などのタスクで細かい情報を抽出するのが苦手です。対照的に、Monkey や DocPedia などの入力解像度が高い大規模なマルチモーダルモデルは、これらのタスクで優れたパフォーマンスを発揮します。

-HMER

LMM では手書きの数式を認識するのが非常に困難です。これは主に、乱雑な手書き文字、複雑な空間構造、間接的な LaTeX 表現、トレーニングデータの不足が原因です。

OCRベンチ

すべてのデータセットを完全に評価するには時間がかかり、一部のデータセットの注釈が不正確な場合、精度に基づく評価が不正確になります。

これらの制限を考慮して、本論文では、LMM の OCR 能力を便利かつ正確に評価するための OCRBench をさらに構築します。

OCRBench には、テキスト認識、シーンテキストの質問への回答、ドキュメントの質問への回答、キー情報の抽出、手書きの数式認識の 5 つのタスクからの 1,000 の質問と回答のペアが含まれています。

KIE タスクの場合、この論文ではさらにプロンプトに「画像内のテキストを直接使用してこの質問に回答してください。」を追加し、モデルの回答形式を制限しています。

より正確な評価を確実にするために、OCRBench で 1,000 の質問と回答のペアを手動で検証し、誤った選択肢を修正し、正しい回答の代替候補を提供しました。

結果は表3に示されています。Geminiが最高得点を獲得し、GPT4Vが2位になりました。 OpenAI による厳格なセキュリティレビューにより、GPT4V は OCRBench で 84 枚の画像の結果を提供することを拒否したことに注意することが重要です。

Monkey は、GPT4V と Gemini に次ぐ OCR 機能を発揮します。テスト結果から、GPT4V や Gemini などの最先端のマルチモーダル大規模モデルでさえ、HMER タスクで困難に直面していることがわかります。

さらに、ぼやけた画像、手書きのテキスト、意味のないテキストの処理、タスクの指示に従うことにも課題があります。

図2(g)に示すように、画像内のテキストを使用して回答するように明示的に求められた場合でも、Geminiは「02/02/2018」を「2018年2月2日」と解釈します。

要約する

本稿では、テキストスポッティング、シーンテキスト質問応答、ドキュメント質問応答、KIE、HMER などの OCR タスクにおける LMM のパフォーマンスについて広範囲にわたる調査を実施します。

私たちの定量的評価では、LMM は特にテキスト認識において有望な結果を達成でき、一部のデータセットでは SOTA にも到達できることがわかりました。

しかし、ドメイン固有の教師あり手法と比較すると依然として大きなギャップがあり、後者では計算リソースとデータがはるかに少なくなるため、各タスクに合わせた特殊な手法が依然として不可欠であることを示しています。

この論文で提案されている OCRBench は、大規模なマルチモーダルモデルの OCR 機能を評価するベンチマークを提供し、大規模なマルチモーダルモデルを OCR 分野に直接適用することの限界を明らかにします。

この論文では、OCRBench のオンラインランキングも構築し、さまざまなマルチモーダル大規模モデルの OCR 機能を紹介および比較しています (ランキングへの参加方法については、Github を参照してください)。

<<: ヒューマノイドロボットはマジックを披露することができます。春節祭のスタッフにその詳細をお伝えします。

>>: Google は、Bard が無料の RAW 写真と無制限の補充を提供することを公式に発表し、ネットユーザーたちは大喜びしています。トップモデルのメレーを実際に試す

GPT-4Vは2位にしかランクされません！華中科技大学などがマルチモーダル大規模モデルの新たなベンチマークを発表：5つの主要タスクにおける14のモデルを総合的に評価

評価モデルの概要

評価指標と評価データセット

評価結果

OCRベンチ

要約する

モデルの解釈可能性に関する詳細な考察: それはどこから来て、どこに向かうのか?

張震: AIOps の 6 つの技術的難しさと CreditEase の運用と保守における大きな変化

10億件の速達配送のピークを迎える中、Baidu OCRが物流企業のスピードアップにどのように貢献しているかをご覧ください。

AWS が ML プラットフォーム SageMaker の 9 つの主要なアップデートを発表

アマゾンが注文梱包ロボットを導入、数千人の従業員が職を失う可能性も

2019年に主流となった10のAIテクノロジー

NASAのジェット推進研究所が人工知能に取り組んでいる様子をご覧ください

強力な人工知能まであとどれくらいでしょうか?まず、これらの5つの数学の問題を解くのに10年から20年かかります

推薦する

10人が2か月かけて大型模型を製作しました！ 1年間でトップカンファレンスで発表された16本の論文: 市場で最も優れた論文はどれもオープンソースではない

ベクトルインデックスの概念を解明する

小売業界のトレンド: 人工知能からクーポンコードまで

決済の未来は生体認証にかかっている

ChatGPTのサプライチェーンへの応用の可能性

OpenAIのSora、中国は追いつけないのか？

TPCアライアンス設立：科学的発見の推進に向け、1兆以上のパラメータを持つAIモデルを目指す

倉庫ロボットは資本の新たなトレンドになるか？オートストアは124億ドルの評価額で資金調達を受ける

ロボットR2-D2は50年後に人間の仕事を完全に置き換えるでしょうか？

2018年: 人工知能の世界における8つのトレンド

「顔認証」は大人気だけど、知らないことも多い

2022 年の 5 つの主要な AI と機械学習のトレンド

掃除ロボットが話し始めた。人工知能アシスタントは、家庭の6つの主要分野で努力している。