GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

マルチモーダル大型モデル着陸の風がようやく吹いた。

12日前、OpenAIはChatGPTに画像認識機能を追加し、ユーザーが1枚以上の画像をアップロードして会話に参加できるようにしました。 OpenAI自身が公開した短い文書から、ChatGPTの画像認識機能の背後にはGPT-4Vと呼ばれる新しい大規模モデルがあることがわかりました。

実は、この機能は半年前に GPT-4 がリリースされたときにすでに存在していましたが、一般ユーザーが利用できるようになっていませんでした。 AI の分野では、マルチモーダル大規模モデルは長い間認識されてきたトレンドであり、一般的な AI アシスタントの重要なモジュールとしても考えられています。

OpenAI が「クローズドソース」を主張していることから、多くの研究者も率先して独自のマルチモーダル大規模モデルの研究成果を発表しています。例えば、代表的な2つの作品「LLaVA」と「MiniGPT-4」は、自然な指示追跡と視覚的推論機能において素晴らしい結果を示しました。

今年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同で LLaVA (Large Language and Vision Assistant) をリリースしました。 LLaVA は小規模なマルチモーダル指示データセットでトレーニングされましたが、一部のサンプルでは GPT-4 と非常によく似た推論結果を示しました。

今日、この成果は大幅なアップグレードを受け、LLaVA-1.5 が正式にリリースされました。オリジナルの LLaVA に簡単な変更を加えることで、11 のベンチマークで新しい SOTA 標準が設定されました。


  • 論文アドレス: https://browse.arxiv.org/pdf/2310.03744.pdf
  • デモアドレス: https://llava.hliu.cc/

LLaVA-1.5 は、わずか 120 万の公開データを使用して、単一の 8-A100 ノードで 1 日未満でトレーニングを完了しました。

論文では、研究者らは、MLP クロスモーダル コネクタと、VQA などの学術タスクに関連するデータの組み込みという 2 つの簡単な改善点を紹介しました。 LLaVA と併用すると、これら 2 つの改善により、マルチモーダル理解が向上します。

数億、あるいは数十億の画像とテキストのペアリング データに対して特別に設計されたビジュアル リサンプラーをトレーニングする InstructBLIP や Qwen-VL と比較すると、LLaVA は最もシンプルなアーキテクチャ設計を使用し、60 万の画像とテキストのペアに対して完全に接続したシンプルな投影レイヤーをトレーニングするだけで済みます。

GPT-4Vと競合できますか?

論文を読む前に、まずは LLaVA-1.5 の認識能力と、それが GPT-4V と競合できるかどうかを見てみましょう。

提案1: 食料品をJSONに変換する

手順: すべての果物 (果物のみ) を識別し、果物ごとに、名前属性と、推定カロリー、炭水化物、脂肪、タンパク質属性などの栄養属性を持つオブジェクトを作成する必要があります。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

命題2: 簡略化されたスケッチから映画のタイトルを特定する

説明: この写真はどんな映画に関するものですか?注: 識別を困難にするため、登場人物の名前を変更しました。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

論文の詳細

LLaVA は視覚的推論において賞賛に値する能力を示し、現実の視覚的指示タスクのさまざまなベンチマークで複数の最先端モデルを上回りましたが、短い回答が求められる学術的なベンチマークでのみ劣っていました。研究チームは、後者は LLaVA が他の手法のように大規模なデータで事前トレーニングされていないことに起因すると考えています。

具体的には、この研究ではまず、以下の表 1 で選択された 3 つのデータセットに対する拡張データ、モデル、および入力画像解像度の影響を分析し、次に表 2 の 12 の異なるベンチマークで比較実験を実施します。実験結果から、LLaVA アーキテクチャは視覚指示のチューニングに強力かつデータ効率に優れ、他のすべての方法よりも大幅に少ない計算とトレーニング データを使用して最高のパフォーマンスを達成することが実証されています。


応答形式のプロンプト

調査の結果、InstructBLIP などの方法では短い形式の VQA と長い形式の VQA のバランスをとることができない主な理由が 2 つあることがわかりました。

まず、LLM に与えられたプロンプトの応答形式が不明確でした。たとえば、「Q: {質問} A: {回答}」のようなプロンプトでは、必要な出力形式が明確に示されません。自然な視覚的な会話の場合でも、LLM を過剰適合させて短い回答を返す可能性があります。

第二に、LLM の微調整は実行されませんでした。たとえば、InstructBLIP では、LLM の出力長 (長い形式/短い形式) を制御するために Qformer のビジュアル出力トークンが必要ですが、Qformer は容量が限られているため、これを正しく実行できない可能性があります。

この問題を解決するために、この研究では、出力形式を明示的に指定する「応答形式プロンプト」の使用を提案しました。たとえば、モデルが短い回答を要求される場合、VQA の質問の最後に「1 つの単語またはフレーズを使用して質問に回答してください」という文を追加します。

この研究では、このようなプロンプトを使用して LLM を微調整すると、LLaVA はユーザーの指示に基づいて出力形式を適切に調整でき、ChatGPT を使用して VQA データを追加処理する必要がないことを実験的に示しています。

さらに、この研究では、2層MLPを通じて視覚言語コネクタの表現能力を向上させることで、元のモデルと比較してLLaVAのマルチモーダル能力を向上できることも判明しました。さらに、この研究では、モデルのマルチモーダル機能を強化するために、VQA、OCR、および地域レベルの認識に関する学術タスク用の追加 VQA データセットを含む学術タスク用のデータも拡張しました。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  RPAテクノロジーが製造業の未来をどのように変えるか

>>:  モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

デジタル変革時代の産業用ロボットの5つの大きなトレンド

適応性は常に成功する組織の基礎となる原則です。過去 2 年間、世界は不確実性に直面してきましたが、こ...

SFから現実へ:人工知能の歴史と将来の可能性

人工知能は、SFで概念化されて以来、長い道のりを歩んできました。かつては想像上のものだったアイデアが...

機械学習プロジェクトにおけるデータの前処理とデータ ラングリング

要点一般的な機械学習/ディープラーニング プロジェクトでは、データ準備が分析パイプライン全体の 60...

水中ロボットが極地でその能力を披露

水中ロボットが極地でその能力を披露[[439571]]科学研究員らが甲板上で展​​開準備を進めている...

...

...

周明氏との対話: ラストマイルを解決するために大きなモデルを使用するときは、理想主義にならないでください。

ゲスト | 周明執筆者 | Yun Zhaoある夜、湘源の湧き水が、広大で無限に湧き出しました。 C...

...

絶対に対立なんかじゃない!短期的にはAIが人間に取って代わることができない5つの分野

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

職場におけるAIとARの進化

[[434145]]職場における支援/拡張現実 (AR) と人工知能 (AI) の可能性を最大限に引...

...

AIは教育分野で大きな可能性を秘めています。どのように活用できるでしょうか?

[[238201]]過去 10 年間、学界と AI の専門家は、AI が教育に活用できるかどうかに...

端から端まで道を切り開きます! OccWorld: 自動運転の未来に向けた 3D 占有世界モデルへの新しいアプローチ

序文と個人的な理解とても良い作品を見つけたので、皆さんと共有したいと思います!占有+世界モデルに関し...

人工知能が伝統文化に新たな命を吹き込む。パンダ型ロボット「Youyou」が「新年クロストーク会議」に登場

「パンダはトークができる、パンダはジョークを言うことができる、パンダは書道を書ける、そしてパンダはチ...