GPT-4Vは小学生にも及ばない？最新のベンチマークテストではエラー率が最大90%に達し、信号機が間違っており、ピタゴラスの定理が不明である

GPT-4 は素晴らしいと大いに宣伝されており、視覚機能を備えた GPT-4 のバージョンである GPT-4V も一般の人々から大きな期待を集めています。

しかし、中学生でも知っているピタゴラスの定理が直角三角形にのみ当てはまると言ったらどうでしょうか。

ただし、GPT-4V はこれを自信を持って使用して、鈍角三角形の斜辺の長さを計算します。

さらにひどいのは、GPT-4V が致命的な安全上のミスを犯し、信号が赤のときに運転してもよいと実際に考えていたことです。

何が起こっているのか？
メリーランド大学の研究チームは、探索の過程でこれらの問題を発見し、これに基づいて、これらのエラーの原因を説明するために、言語錯覚と視覚錯覚という 2 つの主なタイプのエラーを提案しました。

写真

論文リンク: https://arxiv.org/abs/2310.14566

プロジェクトのホームページ: https://github.com/tianyi-lab/HallusionBench

上記の分析に基づいて、研究者らは、画像とコンテキストの推論の複雑さを深く探求することを目的とした、HallusionBench と呼ばれる画像コンテキスト推論ベンチマークを作成しました。
視覚能力のテストに基づくと、GPT4V は視覚的な質問に答える際に約 90% のエラー率を示しました。

写真

研究者らはまた、新しくリリースされたGPT-4V(ision)とLLaVA-1.5の詳細な研究を実施し、視覚理解能力を深く分析した。

HallusionBench は、視覚的錯覚と知識的錯覚に焦点を当て、VLM 専用に設計された最初のベンチマークです。テストには約200セットの視覚的な質問と回答が含まれており、そのうちのほぼ半分は人間の専門家によって作成された。

データは現在オープンソースであり、更新中です。

対象となる画像は、オリジナルの錯視画像、チャート、地図、ポスター、ビデオ、手動で作成または修正された画像など、さまざまな種類があり、数学、計算、文化、アニメーション、スポーツ、地理など、さまざまな分野をカバーしています。

この論文では、HallusionBench における視覚問題分類の 2 つのタイプ (Visual Dependent と Visual Supplement) について予備的に説明し、実験対照群の設計方法について議論しました。

次に研究者らは、誤った答えにつながる可能性のある2つの主な理由、つまり視覚的錯覚と言語的幻覚を分析した。

記事の最後では、著者は各主要カテゴリの失敗事例をさまざまなサブカテゴリを通じて詳細に紹介し、徹底的な分析を行っています。

要点:
1. 「言語幻覚」: GPT-4V および LLaVA-1.5 のサンプル推論の 90% を誤解させます。ビジュアルと言語の微妙なバランスが重要です。
2. 「視覚的錯覚」：LVLM の視覚モジュールは複雑な視覚コンテキストの影響を受けやすく、言語モデルのエラーが誇張されます。
3. 単純な画像変更により GPT-4V と LLaVA-1.5 を騙すことができるため、より強力な画像分析機能の必要性が明らかになります。
4. GPT-4V は複数の画像間の時間的関係を推論するのが困難です。
5. LLaVA-1.5 は常識的なクエリで間違いを起こすことがあるため、言語モデルの事前条件を改善する必要があります。

視力障害の種類

視覚依存の問題:

これらの質問に対する答えは視覚的な内容に完全に依存しており、画像情報なしでは正確に答えることはできません。

これらの問題は通常、画像自体または表示されるコンテンツに関連しています。たとえば、画像がなければ、「画像の右側にあるオレンジ色の円は左側の円と同じ大きさですか？」などの質問に正確に答えることはできません。

視覚補足質問:

これらの質問には、視覚的なコンテンツがなくても答えることができます。このタイプの質問では、視覚的な要素は追加情報のみを提供します。

たとえば、画像の助けがなくても、GPT-4V は「ニューメキシコはテキサスより大きいか?」などの質問に答えることができます。

テストの核心は、GPT-4V と LLaVA-1.5 が、パラメータ化されたメモリだけに頼るのではなく、画像の内容を使用して質問に答えることができるかどうかを判断することです。

エラー分類

著者らは不正解を分析し、その原因を次の 2 つのカテゴリに分類しました。

視覚エラー（言語幻覚）:

このようなエラーは、入力画像の視覚的な認識と解釈が不正確であるために発生します。モデルは画像から正確な情報を抽出したり、画像について正しい推論を行うことができません。視覚的錯覚:

モデルは、パラメータ化された知識ベースに基づいて、質問の入力と画像のコンテキストについて不適切な先入観を持っています。モデルは、問題を無視したり、イメージを誤って解釈したりするのではなく、問題の特定のコンテキストに対応する必要があります。

例

図 1 に示す典型的な視覚錯覚の事例からわかるように、GPT-4V はさまざまな錯覚画像とその名前を識別する際に、LLaVA-1.5 よりも豊富な知識を蓄えています。

図1

しかし、編集された画像に関する質問に答える際、GPT-4V は正確な回答を提供できませんでした。

この現象は、GPT-4V が実際に画像を分析するのではなく、パラメータ化された保存された知識に依存しているという事実から生じている可能性があります。

対照的に、LLaVA-1.5 は、視覚認識能力が限られていることを反映して、元の画像と編集された画像の両方で比較的パフォーマンスが低くなっています。

図 2 に示されているサンプルを観察すると、GPT-4V と LLaVA-1.5 の両方が平行線、正三角形、多角形、およびその他の数学定理を正しく識別できなかったことがわかります。

この現象は、GPT-4V が幾何学的および数学的問題に対処する上で依然として大きな課題に直面していることを明らかにしています。

図2

図 3 では、よく知られている地元の料理を示すポスターがいくつか示されていますが、これらの料理の地理的特徴は変更されています。

このようなシナリオに直面して、GPT-4V と LLaVA-1.5 はどちらもコンテキスト情報を十分に考慮できず、画像の内容を無視し、テキストに記載されているよく知られた原産地に基づいて関連する質問に答え続けました。

図3

図 4 の場合、著者らは複数の画像シーケンスを処理する能力をさらに調査しました。画像の連続的および逆の順序は、「出現と消失」や「前後」など、意味論上は相反する意味を表すことが多い。

図4

比較の結果、これらの画像シーケンスは異なるダイナミクスを描写しているにもかかわらず、GPT-4V はこれらの画像の連続した順序と逆の順序を区別できなかったことがわかりました。

この結果は、GPT-4V ではビデオシーケンスの推論において依然として大幅な最適化と改善が必要であることを示しています。

図 5 は、画像に関するコンテキスト情報がない場合に GPT-4V が断定的な回答を提供する例を示しています。

図5

対照的に、LLaVA-1.5 は、テキストの理解が不十分だったため、技術的には正しいが無関係な回答を提案しました。

修正されたπの値を視覚入力として与えられた場合、どちらのモデルも画像からこの値を正しく識別して解釈することができませんでした。

図 6 のシナリオは、視覚入力がない場合、GPT-4V と LLaVA-1.5 の両方が正確かつ自信を持って回答できることを示しています。

図6

しかし、視覚的な入力として表が与えられた場合、GPT-4V は視覚情報に基づいて回答しようとしましたが、誤って間違ったデータを取得しました。

たとえば、チャートでは実際には米国が金メダルを 36 個獲得したことが示されていたにもかかわらず、GPT-4V は「中国が 36 個の金メダルを獲得した」と誤って応答しました。

対照的に、LLaVA-1.5 はパラメータ化されたメモリに大きく依存しており、質問と表をそれぞれ処理するときに異なる動作をします。

図 7 のシナリオでは、視覚的な支援がなくても、GPT-4V と LLaVA-1.5 の両方が断定的な応答を示し、GPT-4V の回答の方が正確で精密でした。

正確かつ精密。

図7

チャートが視覚的な入力として導入されると、GPT-4V はチャートのデータに基づいて正確に回答できますが、LLaVA-1.5 はパラメーター化された知識に基づいて回答します。

しかし、チャートを反転すると、GPT-4V の回答に関する予測は劇的に変化しました。このエラーは、目の錯覚によって発生したものと説明できます。

図 8 によると、画像サポートがない場合、GPT-4V と LLaVA-1.5 はどちらも明確な回答を提供しますが、正しい回答は GPT-4V によってのみ提供されます。

図8

GPT-4Vは知識の面ではLLaVA-1.5よりも優れていると推測できます。

しかし、マップの視覚的な表現が変更されると、両方のモデルは強力なパラメータ記憶機能のために、4 つの州の相対的な位置を正しく推測することができませんでした。

要約する

近年、人工知能の分野は、大規模言語モデルやマルチモーダル研究の急速な発展により大きな変化を遂げています。

自然言語処理 (NLP) とコンピュータービジョン (CV) の組み合わせにより、大規模な視覚言語モデル (LVLM) が誕生しただけでなく、画像推論タスクのパフォーマンスも大幅に向上しました。

しかし、LVLM には、言語幻覚や視覚錯覚などの課題がまだ残っています。

この研究では、HallusionBench を導入することで、特に言語幻覚や視覚錯覚により失敗しやすい複雑な状況において、VLM のベンチマークを提供することを目指しています。

GPT-4V と LLaVA-1.5 のさまざまな例と障害事例について詳しく説明します。

HallusionBench では、事前知識を含む問題を扱うときに、GPT-4V と LLaVA-1.5 は言語幻覚の影響を受けることが多いです。これらのモデルは事前の知識に大きく依存する傾向があり、分析した例では回答の 90% 以上が間違っていました。したがって、モデルは、パラメータ化されたメモリと入力テキスト画像の間のバランスを見つける必要があります。
パラメータ化されたメモリや事前の知識がない場合でも、GPT-4V と LLaVA-1.5 は視覚的な錯覚の影響を受けます。これらのモデルは、幾何学的図形、数学的画像、ビデオ (複数の画像シーン)、複雑な図などの問題を扱うときに、誤った答えを出すことがよくあります。現在、視覚言語モデルの視覚処理機能は限られています。
GPT-4V と LLaVA-1.5 は、画像の反転、順序の反転、オクルージョン、オブジェクトの編集、色の変更など、HallusionBench のいくつかの基本的な画像操作によって簡単に誤解されてしまいます。現在の視覚言語モデルでは、これらの画像操作を効果的に処理することはまだできません。
GPT-4V は複数の画像の処理をサポートしていますが、時間的な手がかりを含む複数画像の問題を分析する際に効果的な時間的推論機能を発揮できず、HallusionBench でのパフォーマンスも低くなります。
HalllusionBench テストでは、LLaVA-1.5 は知識ベースが比較的小さいため、基本的な間違いを犯すことがあります。

著者らは、データセットはオープンソース化されており、データベースの拡張を続けていると述べている。最新データはGithub（https://github.com/tianyi-lab/HallusionBench）で継続的に更新されます。

この研究は、将来、より強力でバランスのとれた、正確な LVLM の基礎を築くものであり、これらの詳細なケーススタディが将来の研究の方向性を示すことを期待しています。参照: https://arxiv.org/abs/2310.14566

<<: GPT-4とMidjourneyに加えて、Tan Pingの起業家チームは3D基本モデルを構築したいと考えています。

>>: コンテキスト化によって生成型AIの可能性を解き放つ方法