GPT-4V は惨めに失敗しました! CVマスター謝彩寧氏の新作：V*の重量級「視覚検索」アルゴリズムにより、LLMの理解力が人間に近づく

サム・アルトマン氏は最近、世界経済フォーラムで講演し、人間レベルの AI が間もなく登場すると述べました。

しかし、ルカン氏がいつも言っているように、今日の AI は猫や犬と何ら変わりません。今ではそれが真実であるように思えます。

GPT-4V や LLaVA などのマルチモーダルモデルの画像理解機能は驚異的です。しかし、実際にすべてを実行できるわけではありません。

履歴書の達人謝彩寧氏は、一晩中眠れないほど悩まされている疑問があると語った。

フリーズされたビジュアルエンコーダーは、解像度やシーンの複雑さに関係なく、通常、グローバルイメージトークンを「一度だけ抽出」できます。

たとえば、スターバックスの陶器のカップが散らかったテーブルに置かれていて、ロゴの半分しか見えていないとします。

この点、GPT-4V はそれを正しく識別できず、幻覚さえ生み出しました。

たとえば、「写真の子供の靴は何色ですか？」のような単純な質問です。

GPT-4Vは「白」と答えました。

LLM 画像理解の隠れた問題を解決するために、「視覚検索」という重要な方法により、大規模なモデルの視覚情報を提供することができます。

これに対応して、カリフォルニア大学サンディエゴ校とニューヨーク大学の研究者は、マルチモーダル LLM の中核メカニズムとして V* 誘導視覚探索を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.14135.pdf

具体的には、研究者らは VQA LLM と視覚検索モデルを組み合わせました。

大規模モデルの世界の知識を活用して、V* は視覚ターゲットのガイド付き検索を複数回実行します。ローカルな特徴を抽出し、それを作業メモリに追加することができます。その後、VQA LLM は検索されたデータを使用して最終的な応答を生成します。

一部のネットユーザーは、V* モデルと論文は私の意見では非常に重要であると述べています。

たとえば、GPT-4V では解決できない「Google ロボット検証」の場合、V* は最後に見つかった信号機を直接見つけることができます。

視覚検索が役立つ

「人間の知能」を実現する特徴の 1 つは、複数の感覚情報を処理して統合し、複雑なタスクを完了する能力です。

視覚検索は、散らかったテーブルの上で鍵を探すときや、人混みの中で友人を探すときなど、視覚情報を伴う認知的推論において広く用いられています。

さらに、複数の推論ステップを必要とする複雑なタスクには、「視覚検索」も欠かせないステップです。

研究者は人間の能力にヒントを得て、モデルの視覚的限界に対処するために、LLM 誘導視覚検索メカニズムを MLLM に統合するための一般的なメタアーキテクチャである SEAL (Show、SEArch、TelL) を提案しました。

前述のように、SEAL は GPT-4V が画像認識に失敗した例を簡単に完了できます。

ぬいぐるみの山の中にいるオランウータンが持っている楽器は何でしょうか?

GPT-4V: サクソフォン

シール：ギター

賑やかな街で、男性がミネラルウォーターのボトルを12本持っています。このロゴは何でしょうか?

GPT-4V: はっきりと見えない

シール：エビアン

また、スーツケースに付いている小さなペンダントはどこの会社のものでしょうか？

GPT-4V: ラバーメイドコマーシャル

シール: インテル

もっと直感的に言えば、バスケットボール選手のジャージ番号は何でしょうか?

GPT-4V: 10

シール: 8

同様の例はたくさんあります。単純な見方でも複雑な見方でも、GPT-4V が完全に敗北していることがわかります。

では、SEAL フレームワークは何から構成されているのでしょうか?

SEALフレームワーク + V*視覚探索アルゴリズム

具体的には、SEAL フレームワークは、「VQA LLM」と「Visual Search Model」の 2 つの部分で構成されています。

典型的な MLLM モデルは、視覚エンコーダからの情報が不十分なために、回答を拒否したり、盲目的な推測 (つまり、幻覚) を行ったりする場合があります。

対照的に、SEAL の VQA LLM は、欠落している視覚的詳細を明示的に特定して、次のオブジェクトのターゲットオブジェクトハイライトを作成できます。

次に、豊富な世界知識と言語モデルの常識を活用して、視覚検索コンポーネントはこれらの識別された要素を見つけ、視覚作業記憶 (VWM) に追加します。

VWM のこの追加の視覚データにより、VQA 言語モデルはより正確で情報に基づいた応答を提供できるようになります。

左側の部分は、視覚作業記憶内のすべてのデータを活用して質問に答える VQA LLM を表します。右側はV*視覚探索アルゴリズムのプロセスを示しています

SEAL の適応性により、さまざまな MLLM ベースモデルで使用できることは特筆に値します。

論文の例では、研究者は視覚検索モデルで VQA LLM と MLLM として LLaVA を使用しました。

この新しい視覚検索機能により、MLLM は高解像度画像で正確な視覚的根拠が必要な状況に適切に対応できるようになります。

人間の視覚検索プロセスはトップダウンの特徴と文脈的シーンによって導かれるため、著者らは V* 誘導視覚検索と呼ばれる視覚検索アルゴリズムを設計しました。この視覚検索モデルも同様の原理に従います。

人間にとって、この指針は主に物理的な世界に関する知識と経験から得られます。

したがって、この視覚検索モデルは、世界に関する大量の常識的な知識を網羅し、この知識に基づいてシーン内のオブジェクトの可能性のある位置を効果的に推論できる別の MLLM 上に構築されています。

実験的評価

既存の MLLM ベンチマークは、主にさまざまなタスクカテゴリにわたる包括的な評価を提供することに重点を置いており、上記の現在のパラダイムの特定の制限に完全には挑戦していません。

このギャップを埋め、新しいフレームワークを評価するために、高解像度画像の視覚的グラウンディングに重点を置いた新しい専用 VQA ベンチマークである V-Bench を紹介します。

V-Bench は、視覚検索機能のない標準的な静的視覚エンコーダーでは簡単に見落とされてしまう可能性のある特定の視覚情報を正確に提供するために、マルチモーダルモデルを必要とする視覚中心のベンチマークです。

画像や動画などのリッチで複雑な視覚コンテンツがますます主流となっている世界では、MLLM が主要な視覚情報に積極的に焦点を当てて複雑な推論タスクを達成できることが重要です。

このベンチマークは、この基本的なメカニズムの重要性を強調し、人間の認知に固有のマルチモーダル処理および推論機能を反映するように MLLM の進化を導くことを目的としています。

以下は、V-Bench でのさまざまな検索戦略の評価結果です。

特定のアブレーション実験では、V* アルゴリズムを使用した Vicuna-7B モデルの方が優れたパフォーマンスを発揮しました。

最後に、視覚探索は数十年にわたって CogSci/Vision Science の中心的な問題となってきました。興味深いことに、人間の視線と比較すると、LLM 誘導 V* は人間の視覚検索に匹敵する効率を達成できます。

LLM 誘導視覚検索のプロセスは次のとおりです。

著者について

ペンハオ・ウー

Penghao Wu は現在、カリフォルニア大学サンディエゴ校でコンピューターサイエンスの修士課程に在籍しています。彼は2018年に上海交通大学で電気およびコンピュータ工学の学士号を取得しました。 2023年6月からニューヨーク大学の研究インターンとなり、謝彩寧氏を指導者として指導に当たっている。

謝蔡寧

Saining Xie は現在、ニューヨーク大学でコンピューターサイエンスの助教授を務めています。個人ホームページによると、彼は上海交通大学で学士号を取得し、2018年にカリフォルニア大学サンディエゴ校でコンピューターサイエンスの博士号を取得した。

卒業後はFacebook AI Research (FAIR)で研究科学者として働きました。

彼はまた、He Kaiming 氏と共同で、画像分類のためのシンプルで高度にモジュール化されたネットワーク構造 ResNeXt を提案しました。この論文は CVPR 2017 で発表されました。

<<:

>>: Midjourney V6は大幅に進化しており、トップネットユーザーによる徹底レビューがここにあります!画質は恐ろしいほどリアルで、ポートレート写真は素晴らしいです

Microsoft、Spark 向けディープラーニングライブラリ MMLSpark をオープンソース化

GPT-4V は惨めに失敗しました! CVマスター謝彩寧氏の新作：V*の重量級「視覚検索」アルゴリズムにより、LLMの理解力が人間に近づく

視覚検索が役立つ

SEALフレームワーク + V*視覚探索アルゴリズム

実験的評価

著者について

Microsoft、Spark 向けディープラーニングライブラリ MMLSpark をオープンソース化

インターネットと自動車の大手企業が「自動運転」に賭けているのはなぜでしょうか?

エッジAIとは何ですか?

KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

アリババのロボットが200語のエッセイを修正し、8つの間違いを発見

ディープラーニング、ノイズ除去オートエンコーダを使用して生データを予測する方法は?

顔認識は「スマート交通」に役立ち、3つの側面でその価値を実証する

Gonex CEO ウェン・メンフェイ氏との独占インタビュー: アプリケーションの分野では、モデル自体よりも意図の認識の方が重要です。

推薦する

Raspberry Pi で Stable Diffusion を実行すると、260 MB の RAM に 10 億のパラメータモデルが「保持」されます。

Alipay のディープラーニングエンジン xNN を公開

今後10年間で、人間の仕事の約50％が人工知能に置き換えられるでしょうか？

これからオープンする無人コンビニや無人スーパーにはこんな7つのブラックテクノロジーが隠されている

AIチップ業界は発展の初期段階にあり、将来的には大きな市場の可能性を秘めている

顔認識は簡単に破られるのでしょうか?虐待と闘う方法

マスク氏のChatGPTバージョンが急成長中！ Pythonなしで11人が2か月間懸命に働いた

ドライバーの状態行動を識別できる監視システムは、実際には十分に正確で信頼できるものではない

アルゴリズム、データ、機械学習機能... AI スタートアップの堀とは何でしょうか?

2021 年の機械学習の 6 つのトレンド

AIがクリエイティブな動画を自動生成: ビッグモデルを活用する方法