GPT-4V は惨めに失敗しました! CVマスター謝彩寧氏の新作:V*の重量級「視覚検索」アルゴリズムにより、LLMの理解力が人間に近づく

GPT-4V は惨めに失敗しました! CVマスター謝彩寧氏の新作:V*の重量級「視覚検索」アルゴリズムにより、LLMの理解力が人間に近づく

サム・アルトマン氏は最近、世界経済フォーラムで講演し、人間レベルの AI が間もなく登場すると述べました。

しかし、ルカン氏がいつも言っているように、今日の AI は猫や犬と何ら変わりません。今ではそれが真実であるように思えます。

GPT-4V や LLaVA などのマルチモーダル モデルの画像理解機能は驚異的です。しかし、実際にすべてを実行できるわけではありません。

履歴書の達人謝彩寧氏は、一晩中眠れないほど悩まされている疑問があると語った。

フリーズされたビジュアル エンコーダーは、解像度やシーンの複雑さに関係なく、通常、グローバル イメージ トークンを「一度だけ抽出」できます。

たとえば、スターバックスの陶器のカップが散らかったテーブルに置かれていて、ロゴの半分しか見えていないとします。

この点、GPT-4V はそれを正しく識別できず、幻覚さえ生み出しました。

たとえば、「写真の子供の靴は何色ですか?」のような単純な質問です。

GPT-4Vは「白」と答えました。

LLM 画像理解の隠れた問題を解決するために、「視覚検索」という重要な方法により、大規模なモデルの視覚情報を提供することができます。

これに対応して、カリフォルニア大学サンディエゴ校とニューヨーク大学の研究者は、マルチモーダル LLM の中核メカニズムとして V* 誘導視覚探索を提案しました。

論文アドレス: https://arxiv.org/pdf/2312.14135.pdf

具体的には、研究者らは VQA LLM と視覚検索モデルを組み合わせました。

大規模モデルの世界の知識を活用して、V* は視覚ターゲットのガイド付き検索を複数回実行します。ローカルな特徴を抽出し、それを作業メモリに追加することができます。その後、VQA LLM は検索されたデータを使用して最終的な応答を生成します。

一部のネットユーザーは、V* モデルと論文は私の意見では非常に重要であると述べています。

たとえば、GPT-4V では解決できない「Google ロボット検証」の場合、V* は最後に見つかった信号機を直接見つけることができます。

視覚検索が役立つ

「人間の知能」を実現する特徴の 1 つは、複数の感覚情報を処理して統合し、複雑なタスクを完了する能力です。

視覚検索は、散らかったテーブルの上で鍵を探すときや、人混みの中で友人を探すときなど、視覚情報を伴う認知的推論において広く用いられています。

さらに、複数の推論ステップを必要とする複雑なタスクには、「視覚検索」も欠かせないステップです。

研究者は人間の能力にヒントを得て、モデルの視覚的限界に対処するために、LLM 誘導視覚検索メカニズムを MLLM に統合するための一般的なメタアーキテクチャである SEAL (Show、SEArch、TelL) を提案しました。

前述のように、SEAL は GPT-4V が画像認識に失敗した例を簡単に完了できます。

ぬいぐるみの山の中にいるオランウータンが持っている楽器は何でしょうか?

GPT-4V: サクソフォン

シール:ギター

賑やかな街で、男性がミネラルウォーターのボトルを12本持っています。このロゴは何でしょうか?

GPT-4V: はっきりと見えない

シール:エビアン

また、スーツケースに付いている小さなペンダントはどこの会社のものでしょうか?

GPT-4V: ラバーメイドコマーシャル

シール: インテル

もっと直感的に言えば、バスケットボール選手のジャージ番号は何でしょうか?

GPT-4V: 10

シール: 8

同様の例はたくさんあります。単純な見方でも複雑な見方でも、GPT-4V が完全に敗北していることがわかります。

では、SEAL フレームワークは何から構成されているのでしょうか?

SEALフレームワーク + V*視覚探索アルゴリズム

具体的には、SEAL フレームワークは、「VQA LLM」と「Visual Search Model」の 2 つの部分で構成されています。

典型的な MLLM モデルは、視覚エンコーダからの情報が不十分なために、回答を拒否したり、盲目的な推測 (つまり、幻覚) を行ったりする場合があります。

対照的に、SEAL の VQA LLM は、欠落している視覚的詳細を明示的に特定して、次のオブジェクトのターゲット オブジェクト ハイライトを作成できます。

次に、豊富な世界知識と言語モデルの常識を活用して、視覚検索コンポーネントはこれらの識別された要素を見つけ、視覚作業記憶 (VWM) に追加します。

VWM のこの追加の視覚データにより、VQA 言語モデルはより正確で情報に基づいた応答を提供できるようになります。

左側の部分は、視覚作業記憶内のすべてのデータを活用して質問に答える VQA LLM を表します。右側はV*視覚探索アルゴリズムのプロセスを示しています

SEAL の適応性により、さまざまな MLLM ベース モデルで使用できることは特筆に値します。

論文の例では、研究者は視覚検索モデルで VQA LLM と MLLM として LLaVA を使用しました。

この新しい視覚検索機能により、MLLM は高解像度画像で正確な視覚的根拠が必要な状況に適切に対応できるようになります。

人間の視覚検索プロセスはトップダウンの特徴と文脈的シーンによって導かれるため、著者らは V* 誘導視覚検索と呼ばれる視覚検索アルゴリズムを設計しました。この視覚検索モデルも同様の原理に従います。

人間にとって、この指針は主に物理的な世界に関する知識と経験から得られます。

したがって、この視覚検索モデルは、世界に関する大量の常識的な知識を網羅し、この知識に基づいてシーン内のオブジェクトの可能性のある位置を効果的に推論できる別の MLLM 上に構築されています。

実験的評価

既存の MLLM ベンチマークは、主にさまざまなタスク カテゴリにわたる包括的な評価を提供することに重点を置いており、上記の現在のパラダイムの特定の制限に完全には挑戦していません。

このギャップを埋め、新しいフレームワークを評価するために、高解像度画像の視覚的グラウンディングに重点を置いた新しい専用 VQA ベンチマークである V-Bench を紹介します。

V-Bench は、視覚検索機能のない標準的な静的視覚エンコーダーでは簡単に見落とされてしまう可能性のある特定の視覚情報を正確に提供するために、マルチモーダル モデルを必要とする視覚中心のベンチマークです。

画像や動画などのリッチで複雑な視覚コンテンツがますます主流となっている世界では、MLLM が主要な視覚情報に積極的に焦点を当てて複雑な推論タスクを達成できることが重要です。

このベンチマークは、この基本的なメカニズムの重要性を強調し、人間の認知に固有のマルチモーダル処理および推論機能を反映するように MLLM の進化を導くことを目的としています。

以下は、V-Bench でのさまざまな検索戦略の評価結果です。

特定のアブレーション実験では、V* アルゴリズムを使用した Vicuna-7B モデルの方が優れたパフォーマンスを発揮しました。

最後に、視覚探索は数十年にわたって CogSci/Vision Science の中心的な問題となってきました。興味深いことに、人間の視線と比較すると、LLM 誘導 V* は人間の視覚検索に匹敵する効率を達成できます。

LLM 誘導視覚検索のプロセスは次のとおりです。

著者について

ペンハオ・ウー

Penghao Wu は現在、カリフォルニア大学サンディエゴ校でコンピューターサイエンスの修士課程に在籍しています。彼は2018年に上海交通大学で電気およびコンピュータ工学の学士号を取得しました。 2023年6月からニューヨーク大学の研究インターンとなり、謝彩寧氏を指導者として指導に当たっている。

謝 蔡寧

Saining Xie は現在、ニューヨーク大学でコンピューターサイエンスの助教授を務めています。個人ホームページによると、彼は上海交通大学で学士号を取得し、2018年にカリフォルニア大学サンディエゴ校でコンピューターサイエンスの博士号を取得した。

卒業後はFacebook AI Research (FAIR)で研究科学者として働きました。

彼はまた、He Kaiming 氏と共同で、画像分類のためのシンプルで高度にモジュール化されたネットワーク構造 ResNeXt を提案しました。この論文は CVPR 2017 で発表されました。

<<: 

>>:  Midjourney V6は大幅に進化しており、トップネットユーザーによる徹底レビューがここにあります!画質は恐ろしいほどリアルで、ポートレート写真は素晴らしいです

ブログ    
ブログ    
ブログ    

推薦する

データサイエンスの現在と未来

データサイエンスは、近年テクノロジー分野で最もホットな分野の 1 つです。データサイエンスまたは関連...

教育割引 Github AI インテリジェントコーディングアシスタント Copilot は、コードに不慣れな場合の悩みを解決します

教育機関向けオファー Github AI スマートコーディングアシスタント コパイロットAIプログラ...

Google のコード生成システムはプログラマーの半分を「飲み込んだ」のでしょうか?人類は長い間AIに「負けて」きました!

著者: 徐潔成最近、センセーショナルなAlphaGo囲碁ロボットを発売したDeepMindが再び大き...

梅の花の山の上を歩くロボット犬?自転車は自分でバランスをとることができますか?テンセント・ロボティクスXラボ研究初の「開封」

テンセントは11月20日、移動ロボット研究における新たな進展を発表し、四足移動ロボット「ジャモカ」と...

業界丨2020年のインテリジェントウェーブを理解するには、BaiduとGoogleのAIの足跡から始める

2020年が過ぎました。順調で平和な生活を送ったか、非常に困難な生活を送ったかにかかわらず、私たちは...

TikTokが米メディアにアルゴリズムの原則を導入:まずは8つの人気動画を使ってユーザーを理解する

人気の短編動画アプリ「TikTok」(Douyinの海外版)は、主にアルゴリズムのおかげで、世界中で...

Google:MLの発展を牽引する転移学習とは何でしょうか?丨NeurIPS 2020

機械学習の分野でよく使われる分類学習タスクでは、訓練された分類モデルの精度と高い信頼性を確保するため...

PS効果よりも優れています!このような写真編集ツールを使ったことがありますか?

そうです、グラフィックカードを作っている会社、NVIDIA です。 NV はグラフィック カード メ...

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれ...

将来の人工知能戦争の運用概念に関する研究

[[390910]]このレポートでは、将来の AI 戦争における作戦レベルの防御と攻撃の概念を提案し...

自動運転はAIの今後の発展の鍵となるのか?

現地時間10月12日、テスラのCEO、イーロン・マスク氏はツイッターで「約束通り、完全自動運転機能(...

アルトマン:解雇されて戻ってくるのは辛かったが、OpenAIにとっては良いことだ

1月8日、OpenAIのCEOサム・アルトマン氏は、タイム誌編集長とのインタビューで、昨年末に同社と...

...

「ビッグアイクリップ」が生まれ変わり、ChatGPTチャットボットに変身

6 月 29 日のニュースによると、かつては物議を醸し、今では懐かしく思われている Microsof...