Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上

サム・アルトマンは、将来の AI テクノロジーが人類に利益をもたらすためには、大規模言語モデルのマルチモーダル機能のブレークスルーが最も必要な分野であると、さまざまな機会に述べています。

それで、マルチモーダル大規模モデルの視覚機能は、言語機能と一致するレベルに到達できるのでしょうか?

マルチモーダルモデルの現在の進歩は、主に大規模言語モデル (LLM) の推論機能によるものです。しかし、ビジョンにおいては、モデルはインスタンスレベルの対照言語画像事前トレーニング (CLIP) のみに基づいていることが多いです。

最近、ニューヨーク大学とカリフォルニア大学バークレー校のチームは、マルチモーダル大規模言語モデル (MLLM) には視覚処理における普遍的な欠陥がまだあることを示しました。

その中で、チームメンバーは「豪華」と評される。チームリーダーの謝賴寧のほか、馬怡と楽邁という2人の大物も参加した。

論文アドレス: https://arxiv.org/abs/2401.06209

オープンソースプロジェクト: https://github.com/tsb0601/MMVP

いくつかの特殊なシナリオでは、多くの MLLM の画像コンテンツ認識能力は、ランダムな推測よりもさらに劣ります。

人間が簡単に正しく答えられる多くの画像認識問題では、大規模なマルチモーダルモデルは苦労します。

GPT-4V: 鷲には目が一つしかありません。

GPT-4V: ドアは閉まっています。

GPT-4V: 蝶の足は見えません。

GPT-4V: スクールバスはカメラから離れた方向を向いています。

GPT-4V: 赤いハートの境界線が暗いです。

研究者らは、この視覚的欠陥の主な原因として「比較言語画像事前トレーニングブラインドペア (CLIP ブラインドペア)」を提案しました。研究者らは、CLIP 埋め込みにおける認識の不正確さは、主に、視覚的には異なるが、CLIP モデルによって非常に類似してエンコードされた画像から生じていることを発見しました。

さらに、研究チームは、このタイプの画像におけるSOTAオープンソースモデル（LLaVA-1.5、InstructBLIP、Mini-GPT4）とクローズドソースモデル（GPT-4V、Gemini、Bard）の認識機能を評価しました。

人間の視覚能力との比較と組み合わせると、マルチモーダル LLM と人間の視覚能力の間には大きなパフォーマンスのギャップがあることがわかりました。

GPT-4V と Gemini を除くすべてのモデルのスコアは、ランダム推測 (25%) を下回りました。最先端の GPT-4V と Gemini も、このような基本的な視覚基盤の問題を解決するパフォーマンスは低いです。

これを基に研究者たちはこの問題を解決しようとした。

彼らは最終的に、CLIP と DINOv2 埋め込みの利点を活用して画像表現を強化する「Interleaved-MoF」方式を提案しました。

視覚的な自己教師学習機能を MLLM と統合すると、LLM の視覚ベース機能が大幅に強化されることを示します。

CLIP と DINOv2 から処理された特徴を取得し、元の空間順序を維持しながらインターリーブします。

Interleaved-MoF は視覚ベースの機能を大幅に強化し、モデルの指示に従う能力を損なうことなく、MMVP ベンチマークで 10.7% の機能向上を達成しました。

この実験は、LLaVA-1.5 設定とさまざまな画像解像度設定で繰り返すことができ、同様のパフォーマンスの向上が達成されます。

CLIPモデルのビジュアルモード

具体的には、CLIP ブラインドペアを特定した後、研究者は CLIP 視覚エンコーダーを誤解させることが多い体系的な視覚パターンを解明しました。

彼らは、MMVP ベンチマークの質問とオプションを参照しました。これらの質問により、画像内の捉えどころのない視覚パターンが、より明確で分類しやすい言語ベースの説明に変換されます。

研究者がまとめた 9 つの視覚モードは次のとおりです。

方向と方向

特徴が現れるかどうか

状態または条件

量の問題

色と外観

場所と状況

構造上の特徴

言葉

異なる視点

これを基に研究者らは、CLIP モデルがこれらの視覚パターンを適切に処理できるかどうかを体系的に研究できる新しいベンチマーク MMVP-VLM を導入しました。

研究者たちは、MMVP ベンチマークからの質問のサブセットをより単純な言語記述に抽出し、それを視覚パターンに分類しました。各視覚モダリティの質問数のバランスを保つために、必要に応じて質問を追加し、各視覚モダリティが 15 個のテキストと画像のペアで表されるようにしました。

CLIPを拡大しても視覚パターンの問題は解決されない

時間の経過とともに、CLIP モデルは進化し、規模が拡大しました。研究者らは、さまざまな CLIP モデルで MMVP を評価しました。

これらのモデルは、サイズ、トレーニングデータ、方法論が異なります。

下の表は、ネットワークのサイズとトレーニングデータを増やすと、「色と外観」および「状態と条件」の視覚モードの認識に役立つ一方で、他の視覚モードはすべての CLIP ベースのモデルにとって依然として課題であることを示しています。

モデルによって処理される画像の解像度を上げると、改善は非常に限定的でしたが、モデルネットワークのサイズを大きくすると、パフォーマンスがいくらか向上しました。

マルチモーダル大規模言語モデル (MLLM) の欠点

CLIP のパフォーマンスの低さと MLLM の視覚障害との間には関係があるのでしょうか?

これを調査するために、研究者は MMVP の問題をこれらの要約された視覚パターンに分類し、これらのパターンでの各 MLLM のパフォーマンスを取得しました。

CLIP ビジョンエンコーダーが特定の視覚モダリティでパフォーマンスが低い場合、MLLM モデルでも同様の欠陥が見られることがよくあります。

たとえば、LLaVA 1.5 や InstructBLIP など、CLIP ビジュアルエンコーダーを明示的に採用しているオープンソースモデルでは、パフォーマンス間に密接な相関関係が見られます。

CLIP が方向などの視覚パターンでパフォーマンスが低い場合、MLLM も同じ視覚パターン認識で期待されるパフォーマンスを達成することが困難になります。

さらに、研究者らは、各視覚様式における CLIP モデルと MLLM のパフォーマンス間のピアソン相関を計算しました。下の表の結果は、LLaVA 1.5 と InstructBLIP の係数スコアが両方とも 0.7 より大きいことを示しています。

この高いスコアは、CLIP モデルの視覚パターン認識の弱さと MLLM のパフォーマンスの間に強い相関関係があることを示しています。

新しい特徴混合法（MoF）

オープンソースの大規模言語モデルの視覚的な欠点が CLIP ビジュアルエンコーダーに起因している場合、より優れたパフォーマンスを持つビジュアルエンコーダーを作成するにはどうすればよいでしょうか。

この疑問に答えるために、研究者らは、視覚に重点を置いた自己教師あり学習 (DINOv2) の特徴と CLIP の特徴を組み合わせた特徴混合 (MoF) 技術を調査しました。

大規模言語モデルでさまざまな特徴の混合 (MoF) 戦略を採用します。左: 既製の CLIP 事前トレーニング済みビジュアルエンコーダーを使用した標準的な大規模言語モデル。中央: 追加的特徴混合 (A-MoF) 大規模言語モデル: アダプターの前に CLIP と DINOv2 の機能を線形に混合。右: インターリーブ特徴混合 (I-MoF MLLM) は、アダプターの後に CLIP ビジュアルトークンと DINOv2 ビジュアルトークンを空間的にインターリーブします。

視覚のみに依存する自己教師学習機能：視覚認識能力は向上するが、言語処理能力は低下する

研究者らは、事前トレーニング済みの DINOv2 エンコーダーを大規模言語モデルに追加し、それを CLIP 事前トレーニング済みエンコーダーと混合したところ、次のことが分かりました。

1. DINOv2 機能の割合が増加すると、大規模言語モデルの命令実行能力が低下し始めます。特に、DINOv2 機能の割合が 87.5% に達すると、機能が大幅に低下します。

2. DINOv2 機能の割合が増加すると、モデルの視覚情報理解能力は向上しますが、DINOv2 比率が 75% を超えると、この利点は弱まり始め、指示に従う能力も大幅に影響を受けます。

Interleaved-MoF: CLIPとDINOv2の機能を組み合わせて、両方の長所を活用

最後に、研究者らは、CLIPとDINOv2のそれぞれの特徴をインターリーブしながら元の空間順序を維持し、両者の利点を統合して画像の表現力を高める「インターリーブMoF法」を提案しました。

この段階的な特徴混合により、モデルの視覚情報理解能力が大幅に向上し、モデルの命令実行能力に影響を与えることなく、MMVP テストで 10.7% のパフォーマンス向上が達成されました。

この実験は、LLaVA-1.5 の構成とさまざまな画像解像度で検証され、同様のパフォーマンスの向上が達成されました。

段階的な特徴混合により、モデルの指示実行能力の安定性を維持しながら、視覚情報を理解する能力を向上させることができます。

研究者らは、視覚的な幻覚を検査するために設計されたPOPEも評価した。

段階的な特徴混合アプローチは、元の LLaVA モデルに対して一貫した改善も示しています。

画像の解像度とトークンの数を増やすだけでは、視覚的な基本機能は向上しません。また、インターリーブされた特徴ブレンディングにより、ビジョンベースのタスクのパフォーマンスが向上します。

研究者らは、MMBench や GQA などの他のベンチマークでもインターリーブ特徴混合法を評価し、インターリーブ特徴混合法がこれらのベンチマークで同様のパフォーマンスを達成することを発見しました。

著者について

シェンバントン

Peter Tong (Shengbang Tong) は NYU Courant CS の博士課程の学生で、Yann LeCun 教授と Xie Saining 教授が指導教員です。

以前は、カリフォルニア大学バークレー校でコンピューターサイエンス、応用数学（優等）、統計学（優等）を専攻していました。彼はバークレー人工知能研究所 (BAIR) の研究者であり、Ma Yi 教授と Jacob Steinhardt 教授を指導者として指導を受けていました。

彼の研究対象は、世界モデル、教師なし/自己教師あり学習、生成モデル、マルチモーダルモデルです。

PS 馬怡教授も、この研究に対する多大な支援に対してMetaに特に感謝の意を表しました。

<<: 国内オープンソースモデルのベンチマークが大幅にアップグレードされ、その主要機能はChatGPTに匹敵します。 Shusheng Puyu 2.0 がリリース、無料の商用利用をサポート

>>: ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価

ブログ

ブログ

Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上

CLIPモデルのビジュアルモード

CLIPを拡大しても視覚パターンの問題は解決されない

マルチモーダル大規模言語モデル (MLLM) の欠点

Interleaved-MoF: CLIPとDINOv2の機能を組み合わせて、両方の長所を活用

著者について

Amazon Pollyについて

農業革命: 世界市場における作物収穫ロボットの台頭

デンマークはロボット工学をリードしています – IoT はどのような役割を果たすのでしょうか?

データサイエンスの現在と未来

Uni-TTS音声合成モデルのアップグレード：1つの音声、複数の言語、高忠実度、高効率

茅面映画の李明輝氏：興行収入予測における機械学習の実用化

推薦する

AIの今後の4つの動向、人類は集団的に失業するのか？

ディープラーニングは限界に達したのか？

機械学習のケーススタディ: クレジットカード詐欺検出

タイムトラベルが現実になる？人間はワームホールを通じて「時空の端」に到達できるかもしれないし、量子AIは機械に意識を与えるだろう

あなた自身のarXivを作成しましょう！ドイツの大学のトップビジュアルチームが「カスタマイズされた論文」推奨システムを立ち上げました。これは無料で一般に公開されています。

ロボットは購入するよりもレンタルした方が良いのでしょうか?新モデルの普及には「4段階をクリア」する必要がある

セキュリティ | 機械学習の「データ汚染」を 1 つの記事で理解する

【ビッグネームがやってくる第12話】eスポーツデータ処理プラットフォームにおけるAIとビッグデータシステムの応用

人工知能の時代において、従来のメディアはどのようにしてニュースの取り組みを守ることができるのでしょうか?

ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者：プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善

一度に35万字の漢字を読める世界最強の長文モデル「Baichuan2-192K」がオンラインに

マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに