GPT-4 は素晴らしいと大いに宣伝されており、視覚機能を備えた GPT-4 のバージョンである GPT-4V も一般の人々から大きな期待を集めています。 しかし、中学生でも知っているピタゴラスの定理が直角三角形にのみ当てはまると言ったらどうでしょうか。 ただし、GPT-4V はこれを自信を持って使用して、鈍角三角形の斜辺の長さを計算します。 写真 論文リンク: https://arxiv.org/abs/2310.14566 プロジェクトのホームページ: https://github.com/tianyi-lab/HallusionBench 上記の分析に基づいて、研究者らは、画像とコンテキストの推論の複雑さを深く探求することを目的とした、HallusionBench と呼ばれる画像コンテキスト推論ベンチマークを作成しました。 写真 研究者らはまた、新しくリリースされたGPT-4V(ision)とLLaVA-1.5の詳細な研究を実施し、視覚理解能力を深く分析した。 HallusionBench は、視覚的錯覚と知識的錯覚に焦点を当て、VLM 専用に設計された最初のベンチマークです。テストには約200セットの視覚的な質問と回答が含まれており、そのうちのほぼ半分は人間の専門家によって作成された。 データは現在オープンソースであり、更新中です。 対象となる画像は、オリジナルの錯視画像、チャート、地図、ポスター、ビデオ、手動で作成または修正された画像など、さまざまな種類があり、数学、計算、文化、アニメーション、スポーツ、地理など、さまざまな分野をカバーしています。 この論文では、HallusionBench における視覚問題分類の 2 つのタイプ (Visual Dependent と Visual Supplement) について予備的に説明し、実験対照群の設計方法について議論しました。 次に研究者らは、誤った答えにつながる可能性のある2つの主な理由、つまり視覚的錯覚と言語的幻覚を分析した。 記事の最後では、著者は各主要カテゴリの失敗事例をさまざまなサブカテゴリを通じて詳細に紹介し、徹底的な分析を行っています。 要点: 視力障害の種類視覚依存の問題:これらの質問に対する答えは視覚的な内容に完全に依存しており、画像情報なしでは正確に答えることはできません。 これらの問題は通常、画像自体または表示されるコンテンツに関連しています。たとえば、画像がなければ、「画像の右側にあるオレンジ色の円は左側の円と同じ大きさですか?」などの質問に正確に答えることはできません。 視覚補足質問:これらの質問には、視覚的なコンテンツがなくても答えることができます。このタイプの質問では、視覚的な要素は追加情報のみを提供します。 たとえば、画像の助けがなくても、GPT-4V は「ニューメキシコはテキサスより大きいか?」などの質問に答えることができます。 テストの核心は、GPT-4V と LLaVA-1.5 が、パラメータ化されたメモリだけに頼るのではなく、画像の内容を使用して質問に答えることができるかどうかを判断することです。 エラー分類著者らは不正解を分析し、その原因を次の 2 つのカテゴリに分類しました。 視覚エラー(言語幻覚): このようなエラーは、入力画像の視覚的な認識と解釈が不正確であるために発生します。モデルは画像から正確な情報を抽出したり、画像について正しい推論を行うことができません。視覚的錯覚: モデルは、パラメータ化された知識ベースに基づいて、質問の入力と画像のコンテキストについて不適切な先入観を持っています。モデルは、問題を無視したり、イメージを誤って解釈したりするのではなく、問題の特定のコンテキストに対応する必要があります。 例図 1 に示す典型的な視覚錯覚の事例からわかるように、GPT-4V はさまざまな錯覚画像とその名前を識別する際に、LLaVA-1.5 よりも豊富な知識を蓄えています。 図1 しかし、編集された画像に関する質問に答える際、GPT-4V は正確な回答を提供できませんでした。 この現象は、GPT-4V が実際に画像を分析するのではなく、パラメータ化された保存された知識に依存しているという事実から生じている可能性があります。 対照的に、LLaVA-1.5 は、視覚認識能力が限られていることを反映して、元の画像と編集された画像の両方で比較的パフォーマンスが低くなっています。 図 2 に示されているサンプルを観察すると、GPT-4V と LLaVA-1.5 の両方が平行線、正三角形、多角形、およびその他の数学定理を正しく識別できなかったことがわかります。 この現象は、GPT-4V が幾何学的および数学的問題に対処する上で依然として大きな課題に直面していることを明らかにしています。 図2 図 3 では、よく知られている地元の料理を示すポスターがいくつか示されていますが、これらの料理の地理的特徴は変更されています。 このようなシナリオに直面して、GPT-4V と LLaVA-1.5 はどちらもコンテキスト情報を十分に考慮できず、画像の内容を無視し、テキストに記載されているよく知られた原産地に基づいて関連する質問に答え続けました。 図3 図 4 の場合、著者らは複数の画像シーケンスを処理する能力をさらに調査しました。画像の連続的および逆の順序は、「出現と消失」や「前後」など、意味論上は相反する意味を表すことが多い。 図4 比較の結果、これらの画像シーケンスは異なるダイナミクスを描写しているにもかかわらず、GPT-4V はこれらの画像の連続した順序と逆の順序を区別できなかったことがわかりました。 この結果は、GPT-4V ではビデオ シーケンスの推論において依然として大幅な最適化と改善が必要であることを示しています。 図 5 は、画像に関するコンテキスト情報がない場合に GPT-4V が断定的な回答を提供する例を示しています。 図5 対照的に、LLaVA-1.5 は、テキストの理解が不十分だったため、技術的には正しいが無関係な回答を提案しました。 修正されたπの値を視覚入力として与えられた場合、どちらのモデルも画像からこの値を正しく識別して解釈することができませんでした。 図 6 のシナリオは、視覚入力がない場合、GPT-4V と LLaVA-1.5 の両方が正確かつ自信を持って回答できることを示しています。 図6 しかし、視覚的な入力として表が与えられた場合、GPT-4V は視覚情報に基づいて回答しようとしましたが、誤って間違ったデータを取得しました。 たとえば、チャートでは実際には米国が金メダルを 36 個獲得したことが示されていたにもかかわらず、GPT-4V は「中国が 36 個の金メダルを獲得した」と誤って応答しました。 対照的に、LLaVA-1.5 はパラメータ化されたメモリに大きく依存しており、質問と表をそれぞれ処理するときに異なる動作をします。 図 7 のシナリオでは、視覚的な支援がなくても、GPT-4V と LLaVA-1.5 の両方が断定的な応答を示し、GPT-4V の回答の方が正確で精密でした。 正確かつ精密。 図7 チャートが視覚的な入力として導入されると、GPT-4V はチャートのデータに基づいて正確に回答できますが、LLaVA-1.5 はパラメーター化された知識に基づいて回答します。 しかし、チャートを反転すると、GPT-4V の回答に関する予測は劇的に変化しました。このエラーは、目の錯覚によって発生したものと説明できます。 図 8 によると、画像サポートがない場合、GPT-4V と LLaVA-1.5 はどちらも明確な回答を提供しますが、正しい回答は GPT-4V によってのみ提供されます。 図8 GPT-4Vは知識の面ではLLaVA-1.5よりも優れていると推測できます。 しかし、マップの視覚的な表現が変更されると、両方のモデルは強力なパラメータ記憶機能のために、4 つの州の相対的な位置を正しく推測することができませんでした。 要約する近年、人工知能の分野は、大規模言語モデルやマルチモーダル研究の急速な発展により大きな変化を遂げています。 自然言語処理 (NLP) とコンピューター ビジョン (CV) の組み合わせにより、大規模な視覚言語モデル (LVLM) が誕生しただけでなく、画像推論タスクのパフォーマンスも大幅に向上しました。 しかし、LVLM には、言語幻覚や視覚錯覚などの課題がまだ残っています。 この研究では、HallusionBench を導入することで、特に言語幻覚や視覚錯覚により失敗しやすい複雑な状況において、VLM のベンチマークを提供することを目指しています。 GPT-4V と LLaVA-1.5 のさまざまな例と障害事例について詳しく説明します。
著者らは、データセットはオープンソース化されており、データベースの拡張を続けていると述べている。最新データはGithub(https://github.com/tianyi-lab/HallusionBench)で継続的に更新されます。 この研究は、将来、より強力でバランスのとれた、正確な LVLM の基礎を築くものであり、これらの詳細なケース スタディが将来の研究の方向性を示すことを期待しています。 参照: https://arxiv.org/abs/2310.14566 |
<<: GPT-4とMidjourneyに加えて、Tan Pingの起業家チームは3D基本モデルを構築したいと考えています。
>>: コンテキスト化によって生成型AIの可能性を解き放つ方法
現在の社会経済情勢において、「新しい雇用形態」は強力なツールとなっている。新しい雇用モデルとは、新た...
Github を使用しているときに、次のプロンプトを見たことがありますか? $ gitクローン ht...
マスク氏のxAI、初の公開研究成果がここに!共著者の一人は、xAI の創設メンバーであり Shing...
翻訳者 |李睿レビュー | Chonglou 2023年11月6日、OpenAIはChatGPTをリ...
AI によって人々の働き方が変化する中、企業は従業員が自動化された職場環境に能力を適応できるように支...
医療画像解析に機械学習 (ML) を実装することは新しいことではありません。放射線科医は、自動化ツー...
最近、マッキンゼー・グローバル研究所は水曜日に発表した報告書の中で、技術の進歩により、将来世界で約3...
今後 20 ~ 30 年で、自動運転車 (AV) は私たちの運転習慣や輸送業界を変え、社会全体に影響...
「ブラックミラー」シリーズのエピソード「メタルヘッド」を見て、ロボット犬が兵器としてもたらす危害を知...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[348520]]建設現場は、人々とピースが適切なタイミングで組み合わさる必要がある巨大なパズルの...