サム・アルトマンは、将来の AI テクノロジーが人類に利益をもたらすためには、大規模言語モデルのマルチモーダル機能のブレークスルーが最も必要な分野であると、さまざまな機会に述べています。 それで、マルチモーダル大規模モデルの視覚機能は、言語機能と一致するレベルに到達できるのでしょうか? マルチモーダル モデルの現在の進歩は、主に大規模言語モデル (LLM) の推論機能によるものです。しかし、ビジョンにおいては、モデルはインスタンスレベルの対照言語画像事前トレーニング (CLIP) のみに基づいていることが多いです。 最近、ニューヨーク大学とカリフォルニア大学バークレー校のチームは、マルチモーダル大規模言語モデル (MLLM) には視覚処理における普遍的な欠陥がまだあることを示しました。 その中で、チームメンバーは「豪華」と評される。チームリーダーの謝賴寧のほか、馬怡と楽邁という2人の大物も参加した。 論文アドレス: https://arxiv.org/abs/2401.06209 オープンソースプロジェクト: https://github.com/tsb0601/MMVP いくつかの特殊なシナリオでは、多くの MLLM の画像コンテンツ認識能力は、ランダムな推測よりもさらに劣ります。 人間が簡単に正しく答えられる多くの画像認識問題では、大規模なマルチモーダル モデルは苦労します。 GPT-4V: 鷲には目が一つしかありません。 GPT-4V: ドアは閉まっています。 GPT-4V: 蝶の足は見えません。 GPT-4V: スクールバスはカメラから離れた方向を向いています。 GPT-4V: 赤いハートの境界線が暗いです。 研究者らは、この視覚的欠陥の主な原因として「比較言語画像事前トレーニング ブラインド ペア (CLIP ブラインド ペア)」を提案しました。研究者らは、CLIP 埋め込みにおける認識の不正確さは、主に、視覚的には異なるが、CLIP モデルによって非常に類似してエンコードされた画像から生じていることを発見しました。 さらに、研究チームは、このタイプの画像におけるSOTAオープンソースモデル(LLaVA-1.5、InstructBLIP、Mini-GPT4)とクローズドソースモデル(GPT-4V、Gemini、Bard)の認識機能を評価しました。 人間の視覚能力との比較と組み合わせると、マルチモーダル LLM と人間の視覚能力の間には大きなパフォーマンスのギャップがあることがわかりました。 GPT-4V と Gemini を除くすべてのモデルのスコアは、ランダム推測 (25%) を下回りました。最先端の GPT-4V と Gemini も、このような基本的な視覚基盤の問題を解決するパフォーマンスは低いです。 これを基に研究者たちはこの問題を解決しようとした。 彼らは最終的に、CLIP と DINOv2 埋め込みの利点を活用して画像表現を強化する「Interleaved-MoF」方式を提案しました。 視覚的な自己教師学習機能を MLLM と統合すると、LLM の視覚ベース機能が大幅に強化されることを示します。 CLIP と DINOv2 から処理された特徴を取得し、元の空間順序を維持しながらインターリーブします。 Interleaved-MoF は視覚ベースの機能を大幅に強化し、モデルの指示に従う能力を損なうことなく、MMVP ベンチマークで 10.7% の機能向上を達成しました。 この実験は、LLaVA-1.5 設定とさまざまな画像解像度設定で繰り返すことができ、同様のパフォーマンスの向上が達成されます。 CLIPモデルのビジュアルモード具体的には、CLIP ブラインドペアを特定した後、研究者は CLIP 視覚エンコーダーを誤解させることが多い体系的な視覚パターンを解明しました。 彼らは、MMVP ベンチマークの質問とオプションを参照しました。これらの質問により、画像内の捉えどころのない視覚パターンが、より明確で分類しやすい言語ベースの説明に変換されます。 研究者がまとめた 9 つの視覚モードは次のとおりです。 方向と方向 特徴が現れるかどうか 状態または条件 量の問題 色と外観 場所と状況 構造上の特徴 言葉 異なる視点 これを基に研究者らは、CLIP モデルがこれらの視覚パターンを適切に処理できるかどうかを体系的に研究できる新しいベンチマーク MMVP-VLM を導入しました。 研究者たちは、MMVP ベンチマークからの質問のサブセットをより単純な言語記述に抽出し、それを視覚パターンに分類しました。各視覚モダリティの質問数のバランスを保つために、必要に応じて質問を追加し、各視覚モダリティが 15 個のテキストと画像のペアで表されるようにしました。 CLIPを拡大しても視覚パターンの問題は解決されない時間の経過とともに、CLIP モデルは進化し、規模が拡大しました。研究者らは、さまざまな CLIP モデルで MMVP を評価しました。 これらのモデルは、サイズ、トレーニング データ、方法論が異なります。 下の表は、ネットワークのサイズとトレーニング データを増やすと、「色と外観」および「状態と条件」の視覚モードの認識に役立つ一方で、他の視覚モードはすべての CLIP ベースのモデルにとって依然として課題であることを示しています。 モデルによって処理される画像の解像度を上げると、改善は非常に限定的でしたが、モデル ネットワークのサイズを大きくすると、パフォーマンスがいくらか向上しました。 マルチモーダル大規模言語モデル (MLLM) の欠点CLIP のパフォーマンスの低さと MLLM の視覚障害との間には関係があるのでしょうか? これを調査するために、研究者は MMVP の問題をこれらの要約された視覚パターンに分類し、これらのパターンでの各 MLLM のパフォーマンスを取得しました。 CLIP ビジョン エンコーダーが特定の視覚モダリティでパフォーマンスが低い場合、MLLM モデルでも同様の欠陥が見られることがよくあります。 たとえば、LLaVA 1.5 や InstructBLIP など、CLIP ビジュアル エンコーダーを明示的に採用しているオープン ソース モデルでは、パフォーマンス間に密接な相関関係が見られます。 CLIP が方向などの視覚パターンでパフォーマンスが低い場合、MLLM も同じ視覚パターン認識で期待されるパフォーマンスを達成することが困難になります。 さらに、研究者らは、各視覚様式における CLIP モデルと MLLM のパフォーマンス間のピアソン相関を計算しました。下の表の結果は、LLaVA 1.5 と InstructBLIP の係数スコアが両方とも 0.7 より大きいことを示しています。 この高いスコアは、CLIP モデルの視覚パターン認識の弱さと MLLM のパフォーマンスの間に強い相関関係があることを示しています。 新しい特徴混合法(MoF) オープンソースの大規模言語モデルの視覚的な欠点が CLIP ビジュアル エンコーダーに起因している場合、より優れたパフォーマンスを持つビジュアル エンコーダーを作成するにはどうすればよいでしょうか。 この疑問に答えるために、研究者らは、視覚に重点を置いた自己教師あり学習 (DINOv2) の特徴と CLIP の特徴を組み合わせた特徴混合 (MoF) 技術を調査しました。 大規模言語モデルでさまざまな特徴の混合 (MoF) 戦略を採用します。左: 既製の CLIP 事前トレーニング済みビジュアル エンコーダーを使用した標準的な大規模言語モデル。中央: 追加的特徴混合 (A-MoF) 大規模言語モデル: アダプターの前に CLIP と DINOv2 の機能を線形に混合。右: インターリーブ特徴混合 (I-MoF MLLM) は、アダプターの後に CLIP ビジュアル トークンと DINOv2 ビジュアル トークンを空間的にインターリーブします。 視覚のみに依存する自己教師学習機能:視覚認識能力は向上するが、言語処理能力は低下する 研究者らは、事前トレーニング済みの DINOv2 エンコーダーを大規模言語モデルに追加し、それを CLIP 事前トレーニング済みエンコーダーと混合したところ、次のことが分かりました。 1. DINOv2 機能の割合が増加すると、大規模言語モデルの命令実行能力が低下し始めます。特に、DINOv2 機能の割合が 87.5% に達すると、機能が大幅に低下します。 2. DINOv2 機能の割合が増加すると、モデルの視覚情報理解能力は向上しますが、DINOv2 比率が 75% を超えると、この利点は弱まり始め、指示に従う能力も大幅に影響を受けます。 Interleaved-MoF: CLIPとDINOv2の機能を組み合わせて、両方の長所を活用最後に、研究者らは、CLIPとDINOv2のそれぞれの特徴をインターリーブしながら元の空間順序を維持し、両者の利点を統合して画像の表現力を高める「インターリーブMoF法」を提案しました。 この段階的な特徴混合により、モデルの視覚情報理解能力が大幅に向上し、モデルの命令実行能力に影響を与えることなく、MMVP テストで 10.7% のパフォーマンス向上が達成されました。 この実験は、LLaVA-1.5 の構成とさまざまな画像解像度で検証され、同様のパフォーマンスの向上が達成されました。 段階的な特徴混合により、モデルの指示実行能力の安定性を維持しながら、視覚情報を理解する能力を向上させることができます。 研究者らは、視覚的な幻覚を検査するために設計されたPOPEも評価した。 段階的な特徴混合アプローチは、元の LLaVA モデルに対して一貫した改善も示しています。 画像の解像度とトークンの数を増やすだけでは、視覚的な基本機能は向上しません。また、インターリーブされた特徴ブレンディングにより、ビジョンベースのタスクのパフォーマンスが向上します。 研究者らは、MMBench や GQA などの他のベンチマークでもインターリーブ特徴混合法を評価し、インターリーブ特徴混合法がこれらのベンチマークで同様のパフォーマンスを達成することを発見しました。 著者についてシェンバントン Peter Tong (Shengbang Tong) は NYU Courant CS の博士課程の学生で、Yann LeCun 教授と Xie Saining 教授が指導教員です。 以前は、カリフォルニア大学バークレー校でコンピューターサイエンス、応用数学(優等)、統計学(優等)を専攻していました。彼はバークレー人工知能研究所 (BAIR) の研究者であり、Ma Yi 教授と Jacob Steinhardt 教授を指導者として指導を受けていました。 彼の研究対象は、世界モデル、教師なし/自己教師あり学習、生成モデル、マルチモーダルモデルです。 PS 馬怡教授も、この研究に対する多大な支援に対してMetaに特に感謝の意を表しました。 |
<<: 国内オープンソースモデルのベンチマークが大幅にアップグレードされ、その主要機能はChatGPTに匹敵します。 Shusheng Puyu 2.0 がリリース、無料の商用利用をサポート
>>: ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価
ほとんどの場合、テクノロジーがビジネスに与える影響は徐々に増加しますが、時折、ビジネスの世界観全体を...
事故の原因は特定されていないが(その後の報道では機械の故障だったとされている)、ドローンがハッカー攻...
現在、GoogleやOpenAIなどの大手企業が開発したテキストから画像へのモデルは、興味深いニュー...
ビジネスとテクノロジーの世界のつながりは非常に強いため、テクノロジーの発展が次の段階に進むたびに、ビ...
誰もがモデルをより速くトレーニングしたいと考えていますが、本当に適切なアプローチを探していますか?コ...
[[349418]]序文今回紹介するトライ辞書ツリーは、データ構造トピックの分岐です。トライのツリー...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
みなさんこんにちは。私はDiaobaiです。今日は、レコメンデーションシステムで学ぶべき対照学習法に...
AI は私たちの職業、働き方、そして企業文化を変えています。 AIを活用することで、本当に重要なスキ...
[[358096]]市場の状況がますます複雑化する今日の不安定なビジネス環境では、組織が分析に基づく...
AI トレンドがあらゆるところで広がる 2021 年を迎える準備はできていますか? ここでは、202...
人工知能 (AI) が普及し、人生を変えるような意思決定に組み込まれるようになるにつれて、透明性の必...
政策の推進と資本の注目により、人工知能産業は今後も急速な発展傾向を維持するでしょう。投資家は人工知能...