精度が 20% 未満なので、GPT-4V/Gemini はコミックを理解できません。最初の画像シーケンスベンチマークがリリースされました

OpenAI の GPT-4V と Google の最新の Gemini マルチモーダル大規模言語モデルは、発表されるや否や業界と学界から強い注目を集めました。一連の研究により、これらのマルチモーダル大規模言語モデルが複数の角度からビデオを理解できることが実証されています。人々は、私たちが汎用人工知能 (AGI) に大きく一歩近づいたと信じているようです。

しかし、GPT-4V は漫画の登場人物の行動さえも誤読できると言ったら、私はこう尋ねたいのです。「Yuan Fang、どう思いますか?」

このミニコミックシリーズを見てみましょう:

写真

生物界で最も知能の高い生物である人間、つまり読者の皆さんに、それを説明するよう頼めば、おそらくこう言うでしょう。

写真

それでは、機械世界最高の知能を持つ GPT-4V がこのミニコミックシリーズを見たときに何を説明するか見てみましょう。

写真

軽蔑の連鎖の頂点に立つと認識されている機械知能実体である GPT-4V は、実際には目を見開いて露骨に嘘をついていました。

さらにとんでもないことに、GPT-4V に実際の画像クリップを与えても、階段を上りながら別の人と話している人の行動を、2 人が「武器」を持って戦ったり遊んだりしている行動としてとんでもないことに識別します (下の図を参照)。

写真

ジェミニも同様に印象的で、同じ映像で、男性が階段を上るのに苦労したり、妻と口論した後に家の中に閉じ込められたりする様子が映し出されている。

写真

これらの例は、メリーランド大学とノースカロライナ大学チャペルヒル校の研究チームによる最新の研究成果から得られたもので、同チームは MLLM 専用に設計された画像シーケンス推論ベンチマークである Mementos を立ち上げました。

クリストファー・ノーラン監督の映画「メメント」がストーリーテリングを再定義したように、「メメント」は人工知能の限界を試すことの意味を再構築しています。

新たなベンチマークとして、AI に記憶のような画像シーケンスの理解を課します。

写真

論文リンク: https://arxiv.org/abs/2401.10529

プロジェクトのホームページ: https://mementos-bench.github.io

Mementos は、大規模モデルの連続画像における物体幻覚と動作幻覚に焦点を当て、MLLM による画像シーケンス推論用に設計された最初のベンチマークです。

対象となる画像はさまざまな種類があり、現実世界の画像、ロボット画像、アニメ画像の 3 つのカテゴリに分かれています。

これには、長さの異なる 4,761 枚の多様な画像シーケンスが含まれており、各シーケンスには、主要なオブジェクトとシーケンス内のそれらの動作に関する人間による注釈付きの説明が付いています。

写真

データは現在オープンソースであり、更新中です。

幻覚の種類

この論文では、著者らは、MLLM が Mementos で生成できる 2 種類の幻覚、つまり物体幻覚と行動幻覚について説明しています。

名前が示すように、物体幻覚は存在しない物体があるという錯覚であり、行動幻覚は物体が実行しない行動や動作があるという錯覚です。

評価方法

Mementos における MLLM の行動幻覚と物体幻覚を正確に評価するために、研究チームは、MLLM によって生成された画像の説明と人間が注釈を付けた説明の間でキーワードマッチングを実行することを選択しました。

各 MLLM のパフォーマンスを自動的に評価するために、著者は GPT-4 補助テスト方法を使用して評価しました。

写真

1. 作者は画像シーケンスとプロンプトワードをMLLMへの入力として受け取り、対応する画像シーケンスに対応する説明を生成します。

2. AI が生成した説明からオブジェクトと動作のキーワードを抽出するように GPT-4 に要求します。

3. AI 生成オブジェクトキーワードリストと AI 生成動作キーワードリストの 2 つのキーワードリストを取得します。

4. AI が生成したオブジェクトキーワードリスト、動作キーワードリスト、人間が注釈を付けたキーワードリストの再現率、精度、F1 インデックスを計算します。

評価結果

著者らは、Mementos での順次画像推論における MLLM のパフォーマンスを評価し、GPT4V や Gemini を含む 9 つの最先端の MLLM の詳細な評価を実施しました。

MLLM は、画像シーケンスで何が起こっているかを説明するように求められ、それによって連続画像に対する MLLM の推論能力が評価されます。

結果は、下の図に示すように、コミックデータセット内のキャラクターの行動を予測する際の GPT-4V と Gemini の精度が 20% 未満であることを示しています。

写真

現実世界の画像やロボット画像でも、GPT-4V と Gemini のパフォーマンスは低かった。

写真

要点

1. マルチモーダル大規模言語モデルを評価する場合、ブラックボックス MLLM とオープンソース MLLM の中で、GPT-4V と LLaVA-1.5 がそれぞれ最高のパフォーマンスを発揮するモデルです。 GPT-4V は画像シーケンスの推論において他のすべての MLLM よりも優れていますが、LLaVA-1.5 はオブジェクトの理解においてブラックボックスモデル Gemini とほぼ同等か、それを上回っています。

2. Video-LLaMA-2 と Chat-UniVi はビデオ理解用に設計されていますが、LLaVA-1.5 よりも優れた利点は見られません。

3. すべての MLLM は、画像シーケンス内のオブジェクト推論の 3 つのメトリックにおいて動作推論よりも大幅に優れたパフォーマンスを発揮します。これは、現在の MLLM が連続した画像から動作を自律的に推論できないことを示しています。

4. ブラックボックスモデルはロボット工学の分野で最高のパフォーマンスを発揮しますが、オープンソースモデルは日常生活の分野で比較的優れたパフォーマンスを発揮します。これはトレーニングデータの分布の変化に関連している可能性があります。

5. トレーニングデータの制限により、オープンソース MLLM の推論能力が弱くなります。これは、トレーニングデータの重要性と、それがモデルのパフォーマンスに直接与える影響を示しています。

原因

現在の大規模マルチモーダル言語モデルが画像シーケンス推論を処理する際に失敗する理由に関する著者らの分析では、エラーの主な原因が 3 つ特定されています。

1. 物体間の相互作用と行動錯覚

この研究では、誤った物体識別がその後の行動の識別の不正確さにつながるという仮説が立てられました。定量分析とケーススタディは、物体幻覚がある程度行動幻覚につながる可能性があることを示唆しています。たとえば、MLLM が誤ってシーンをテニスコートとして識別すると、画像シーケンスにテニスのアクションが存在しないにもかかわらず、テニスをしている人物が描写されることがあります。

2. 共起が行動幻覚に与える影響

MLLM は、画像シーケンス推論で一般的な動作の組み合わせを生成する傾向があり、動作幻覚の問題を悪化させます。たとえば、ロボット工学分野の画像を処理する場合、実際の動作は「引き出しの側面をつかむ」ことであったにもかかわらず、MLLM はロボットアームが「ハンドルをつかんで」引き出しを開けていると誤って記述する可能性があります。

3. 行動幻覚の雪だるま効果

画像シーケンスが進むにつれて、エラーが徐々に蓄積したり悪化したりすることがあり、これを雪だるま効果と呼びます。画像シーケンス推論では、早い段階でエラーが発生すると、エラーがシーケンス内で蓄積されて増幅され、オブジェクトとアクションの認識精度が低下する可能性があります。

例えば

写真

上図からわかるように、MLLM が失敗する理由には、物体幻覚、物体幻覚と行動幻覚の相関関係、共起行動などがあります。

例えば、「テニスコート」という物体幻覚の後、MLLM は続いて「テニスラケットを持っている」という行動幻覚（物体幻覚と行動幻覚の相関）と「テニスをしているように見える」という共起行動を示した。

写真

上の図のサンプルを見ると、MLLM は椅子がさらに後ろに傾いていると誤って認識し、椅子が壊れていると考えていることがわかります。

この現象は、MLLM が画像シーケンス内の静止したオブジェクトが何らかの動きをしたという錯覚も生み出すことができることを明らかにしています。

写真

上記のロボットアームの画像シーケンスでは、ロボットアームがハンドルの横に到達し、MLLM はロボットアームがハンドルをつかんだと誤って信じています。これは、MLLM が画像シーケンス推論で一般的な動作の組み合わせを生成し、それによって幻覚を生み出すことを証明しています。

写真

上記の例では、老夫子は犬をリードでつないでいませんでしたが、MLLM は犬を散歩させるときはリードでつなぐ必要があると誤って信じ、「犬の棒高跳び」が「噴水を作る」と認識されました。

エラーの数が多いのは、MLLM が漫画分野に不慣れなことを反映しています。2 次元アニメーションの分野では、MLLM に大幅な最適化と事前トレーニングが必要になる可能性があります。

付録では、著者は各主要カテゴリごとに詳細な失敗事例を示し、徹底的な分析を行っています。

要約する

近年、マルチモーダル大規模言語モデルは、さまざまな視覚言語タスクを処理する上で優れた能力を発揮しています。

GPT-4VやGeminiなどのこれらのモデルは、画像に関連付けられたテキストを理解して生成することができ、人工知能技術の発展を大きく前進させます。

しかし、既存の MLLM ベンチマークは主に単一の静止画像に基づく推論に焦点を当てており、絶えず変化する世界を理解するために重要な画像シーケンスからの推論能力についての研究は比較的ほとんど行われていません。

この課題に対処するために、研究者らは、シーケンス画像推論における MLLM の能力を評価するための新しいベンチマーク「Mementos」を提案しました。

Mementos には、長さの異なる 4761 個の多様な画像シーケンスが含まれています。さらに、研究チームはGPT-4補助法も採用してMLLMの推論性能を評価しました。

Mementos で 9 つの最先端の MLLM (GPT-4V と Gemini を含む) を慎重に評価した結果、これらのモデルは特定の画像シーケンスの動的情報を正確に記述する上で課題に直面しており、多くの場合、オブジェクトとその動作の幻覚や誤った表現につながることがわかりました。

定量分析とケーススタディにより、MLLM による順次画像推論に影響を与える 3 つの主要な要因が特定されました。

1. 物体錯覚と行動錯覚の相関関係

2. 共起行動の影響

3. 行動幻覚の累積的な影響。

この発見は、MLLM の動的視覚情報の処理能力を理解し、改善する上で大きな意義を持ちます。 Mementos ベンチマークは、現在の MLLM の限界を明らかにするだけでなく、将来の研究と改善の方向性も示します。

人工知能技術の急速な発展に伴い、マルチモーダル理解の分野における MLLM の応用はより広範囲かつ深くなるでしょう。 Mementos ベンチマークの導入により、この分野の研究が前進するだけでなく、これらの高度な AI システムが複雑で絶えず変化する世界をどのように処理し理解するかを理解し、改善するための新たな洞察も得られます。

参考文献:

https://github.com/umd-huanglab/メメントス

<<: Baichuan Intelligence が数千億のパラメータを持つ大規模モデルをリリース、その中国の能力は GPT-4 を上回る!

>>: プログラミング能力はGPT-4を超え、アルパカコード版「スーパーカップ」が登場、ザッカーバーグ氏も自らLlama3をネタバレ