BLIP-2とInstructBLIPがトップ3にランクイン! 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価

BLIP-2とInstructBLIPがトップ3にランクイン! 12の主要モデル、16のリスト、「マルチモーダル大規模言語モデル」の総合評価

マルチモーダル大規模言語モデル (MLLM) は、LLM の豊富な知識蓄積と強力な推論および一般化機能を利用して、マルチモーダルの問題を解決します。画像を見て文章を書いたり、画像を見てコードを書いたりするなど、驚くべき機能が登場しています。

しかし、これらの例だけに基づいて MLLM のパフォーマンスを完全に反映することは難しく、MLLM の包括的な評価はまだ不足しています。

この目的のために、テンセントYoutuラボと厦門大学は、新たに作成された評価ベンチマークMM上で12の既存のオープンソースMLLMモデルの包括的な定量評価を初めて実施し、知覚と認知の2つの総合ランキングと14のサブランキングを含む16のランキングを公開しました。

論文リンク: https://arxiv.org/pdf/2306.13394.pdf

プロジェクトリンク: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Evaluation

MLLM の既存の定量評価方法は主に 3 つのカテゴリに分類されますが、いずれも一定の制限があり、そのパフォーマンスを完全に反映することが困難です。

最初のカテゴリの方法は、画像キャプションやビジュアル質問回答 (VQA) データセットなどの従来の公開データセットで評価されます。

しかし、一方では、これらの従来のデータセットは、MLLM の新たな機能を反映できない可能性があります。他方では、大規模モデルの時代のトレーニング セットはもはや統一されていないため、これらの評価データセットが他の MLLM によってトレーニングされていないことを確認することは困難です。

2つ目のアプローチは、オープン評価のために新しいデータを収集することですが、このデータは公開されていないか[1]、数が少なすぎます(画像が50枚のみ)[2]。

3番目のアプローチは、物体幻覚[3]や敵対的堅牢性[4]など、MLLMの特定の側面に焦点を当てており、包括的に評価することはできません。

MLLM の急速な発展に対応するために、包括的な評価ベンチマークが緊急に必要とされています。研究者たちは、普遍的な総合評価ベンチマークには次のような特徴があるべきだと考えています。

(1)知覚能力や認知能力など、可能な限り幅広い範囲をカバーすべきである。前者は、物体の存在、量、位置、色などの認識を指します。後者は、LLM で感覚情報と知識を統合して、より複雑な推論を実行することを指します。前者は後者の基礎となる。

(2)データ漏洩のリスクを減らすため、データや注釈は既存の公開データセットをできる限り使用しないようにすべきである。

(3)指示はできる限り簡潔で、人間の認知習慣に沿ったものでなければならない。異なる命令設計はモデルの出力に大きな影響を与える可能性がありますが、統一された簡潔な命令の下ですべてのモデルを評価することで公平性を確保できます。優れた MLLM モデルは、このような簡潔な指示に一般化でき、プロンプト エンジニアリングに陥ることを回避できる必要があります。

(4)この簡潔な指示によるMLLMの出力は直感的で定量化が容易であるべきである。 MLLM の自由回答は、定量的統計に大きな課題をもたらします。既存の方法では、GPT または手動スコアリングを使用する傾向がありますが、不正確さや主観性の問題に直面する可能性があります。

図 1. MME ベンチマークの例。各画像は2つの質問に対応しており、答えはそれぞれ「はい[Y]」と「いいえ[N]」です。質問と「はいまたはいいえで答えてください」の組み合わせが指示を構成します。

上記の理由に基づいて、上記の 4 つの特徴を持つ新しい MLLM 評価ベンチマーク MME が構築されました。

1. MME は知覚能力と認知能力の両方を評価します。 OCR に加えて、認識機能には粗粒度および細粒度のオブジェクト認識も含まれます。前者は物体の存在、量、位置、色を認識します。後者は、映画のポスター、有名人、シーン、ランドマーク、アートワークを識別します。認知能力には、常識的な推論、数値計算、テキスト翻訳、コード推論が含まれます。図 1 に示すように、サブタスクの合計数は 14 に達します。

2. MME 内のすべてのコマンドと応答のペアは手動で構築されます。使用される少数の公開データセットについては、元の注釈に依存せず、画像のみが使用されます。同時に、研究者たちは手作業による写真撮影や画像生成を通じてデータを収集するために最善を尽くしています。

3. MME の指示は、プロンプト エンジニアリングがモデル出力に影響を与えないように、できるだけシンプルになるように設計されています。研究者らは、優れた MLLM は、すべてのモデルに対して公平な、この簡潔で頻繁に使用される指示に一般化される必要があることを繰り返し述べています。各サブタスクの手順を図 1 に示します。

4. 「はい、またはいいえで答えてください」という指示設計により、モデルから出力される「はい」または「いいえ」に基づいて定量的な統計を簡単に実行できます。この方法により、正確性と客観性を同時に確保できます。研究者らは多肢選択式の質問に対する指示の設計も試みたが、現在の MLLM ではそのようなより複雑な指示に従うことが依然として困難であることがわかったことは注目に値する。

研究者らは、BLIP-2 [5]、LLaVA [6]、MiniGPT-4 [7]、mPLUG-Owl [2]、LLaMA-Adapter-v2 [8]、Otter [9]、Multimodal-GPT [10]、InstructBLIP [11]、VisualGLM-6B [12]、PandaGPT [13]、ImageBind-LLM [14]、LaVIN [15]を含む合計12の高度なMLLMモデルを評価しました。

その中には、Accuracy、Accuracy+、Score の 3 つの統計指標があります。各タスクの精度は質問の統計に基づき、精度+ は画像の統計に基づきます (画像に対応する両方の質問に正しく回答する必要があります)。スコアは精度と精度+ の合計です。

知覚の合計スコアは 10 個の知覚サブタスクのスコアの合計であり、認知の合計スコアは 4 つの認知タスクのスコアの合計です。詳細についてはプロジェクトリンクをご覧ください。

14 のサブタスクにおける 12 のモデルのテスト比較を図 2 に示します。

図 2. 14 のサブタスクにおける 12 のモデルの比較。各サブタスクの総合得点は 200 ポイントです。

知覚と認知の全体リストと14のサブタスクのリストを含む合計16のリストが公開されました。 2 つの全体リストはそれぞれ図 3 と図 4 に示されています。BLIP-2 と InstructBLIP が両方のリストで上位 3 位に留まっていることは注目に値します。

写真

図3. 知覚課題の総合順位

図4. 認知タスクの全体リスト

図5. 全ランキング

さらに、研究者らは、図 6 に示すように、実験で MLLM モデルによって明らかになったいくつかの一般的な問題もまとめ、その後のモデル最適化の指針を提供することを期待しています。

写真

図 6. MLLM によって明らかになる一般的な問題。 [Y]/[N]は実際の回答がYes/Noであることを意味します。 [R]はMLLMによって生成された答えです。

最初の問題は指示に従わないことです。

非常に簡潔な指導設計が採用されているにもかかわらず、指示に従うのではなく質問に答える MLLM が依然として存在します。

図 6 の最初の行に示すように、指示には「はいまたはいいえで答えてください」と記載されていましたが、MLLM は宣言的な回答のみを返しました。回答の先頭に「はい」または「いいえ」が表示されていない場合は、その回答は間違っているとみなされます。優れた MLLM は、特に命令の微調整後、このような単純な命令に一般化できるはずです。

2番目の問題は認識の欠如です。

図 6 の 2 行目に示すように、MLLM は最初の写真のバナナの数と 2 番目の写真の数を誤って識別し、誤った回答を導きました。研究者たちはまた、同じ画像に対する2つの指示がたった1語だけ異なるだけで、まったく異なる知覚結果につながることから、知覚能力は指示の変更によって簡単に影響を受けることにも気づいた。

3番目の問題は推論能力の欠如です。

図 6 の 3 行目に示されているように、赤いテキストは、MLLM が最初の写真がオフィス スペースではないことをすでに認識しているにもかかわらず、誤った回答「はい」を出していることを示しています。

同様に、2 番目の画像では、MLLM は正しい演算結果を計算しましたが、最終的には間違った答えを出します。 「段階的に考えてみましょう」などの思考連鎖プロンプトを追加すると、より良い結果が得られる可能性があります。この分野でのより詳細な研究を楽しみにしています。

4 番目の質問は、オブジェクト現象学の指示に従っていました。図 6 の 4 行目に示すように、命令に画像内に存在しないオブジェクトが含まれている場合、MLLM はそのオブジェクトが存在すると想定し、最終的に「はい」という回答を返します。

常に「はい」と答えるこのアプローチにより、精度は 50% に近くなり、精度 + は 0 に近くなります。これは、ターゲット閃光を抑制することの重要性を示しており、MLLM によって生成された回答の信頼性についてさらに検討する必要があることを示しています。

<<:  清華大学のオープンソースの中国語マルチモーダルモデルVisCPM:対話テキストと画像の双方向生成をサポートし、驚くべき詩と絵画の機能を備えています。

>>:  Terence Tao さんがリポストして「いいね!」しました! ChatGPTは自動的に大きな進歩を証明し、AIは10年後に数学の世界を支配するだろう

ブログ    

推薦する

コンパニオン チップ: AI にとって賢い選択でしょうか?

半導体業界では長年にわたり、より多くのコンポーネントを単一のシステムオンチップ (SoC) に緊密に...

医療用人工知能の分野は新たな状況を迎え、テクノロジー大手は積極的に導入を進めている。

報告書によると、医療における人工知能の主な応用分野の一つである医療ロボットの市場規模は2019年に4...

これらの「ブラックテクノロジー」は洪水対策をよりスマートにする

現在、我が国の南北はともに洪水の季節を迎え、大雨が頻繁に発生し、洪水の予防と制御は危機的な段階に達し...

トレンドマイクロ:2030年までにサイバーセキュリティ分野で人工知能が人間に取って代わる

テキサス州ダラスに本拠を置くクラウドセキュリティ企業トレンドマイクロの新しい調査によると、IT業界の...

IoTが災害管理にどのように役立つか

[[405572]]災害管理における IoT の活用は、災害を予測し、早期に当局に警告し、災害の影響...

2023 年の 5 つの驚くべき自動化の進歩

自動化は、業界やプロセスの変革の原動力となり、効率性、コスト効率、エラーの低減を実現しています。 2...

オープンソースのラマ2の背後には、若い中国人たちの力がある

最近、Llama 2 のオープン ソース化により、Yann LeCun 氏や業界関係者の多くが「ビッ...

人工知能に関する10のよくある質問への回答

人工知能は今世紀の主要な話題の一つです。 AI の能力と無限の可能性は、多くの興味深い会話や議論を生...

...

人工知能を活用してビジネスを成長させ、企業価値を創造する方法

組織は、全員を関与させれば、AI を活用してビジネスを成長させることができます。人工知能への投資は、...

人工知能、機械学習、ディープラーニングの違いと関連性を説明する記事

人工知能の波が世界を席巻しており、人工知能、機械学習、ディープラーニングといった多くの言葉が常に私た...

3分で顔認識を始めましょう

顔認識は、AI 研究が世界にもたらした数多くの驚異のうちの 1 つです。これは多くの技術者にとって興...

AI開発は断片化に直面しており、ディープラーニングフレームワークの統一が必要

人工知能の急速な発展の背後には、大手メーカー間の秘密戦争の始まりがあります。誰もが開発者をめぐって競...

顔認証闇市場:実在人物認証ビデオは1セット100元、アプリで検証可能

「1セット100元で、身分証明書の表裏の写真、身分証明書を持っている写真、うなずいたり首を振ったり口...