GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

マルチモーダル大型モデル着陸の風がようやく吹いた。

12日前、OpenAIはChatGPTに画像認識機能を追加し、ユーザーが1枚以上の画像をアップロードして会話に参加できるようにしました。 OpenAI自身が公開した短い文書から、ChatGPTの画像認識機能の背後にはGPT-4Vと呼ばれる新しい大規模モデルがあることがわかりました。

実は、この機能は半年前に GPT-4 がリリースされたときにすでに存在していましたが、一般ユーザーが利用できるようになっていませんでした。 AI の分野では、マルチモーダル大規模モデルは長い間認識されてきたトレンドであり、一般的な AI アシスタントの重要なモジュールとしても考えられています。

OpenAI が「クローズドソース」を主張していることから、多くの研究者も率先して独自のマルチモーダル大規模モデルの研究成果を発表しています。例えば、代表的な2つの作品「LLaVA」と「MiniGPT-4」は、自然な指示追跡と視覚的推論機能において素晴らしい結果を示しました。

今年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同で LLaVA (Large Language and Vision Assistant) をリリースしました。 LLaVA は小規模なマルチモーダル指示データセットでトレーニングされましたが、一部のサンプルでは GPT-4 と非常によく似た推論結果を示しました。

今日、この成果は大幅なアップグレードを受け、LLaVA-1.5 が正式にリリースされました。オリジナルの LLaVA に簡単な変更を加えることで、11 のベンチマークで新しい SOTA 標準が設定されました。


  • 論文アドレス: https://browse.arxiv.org/pdf/2310.03744.pdf
  • デモアドレス: https://llava.hliu.cc/

LLaVA-1.5 は、わずか 120 万の公開データを使用して、単一の 8-A100 ノードで 1 日未満でトレーニングを完了しました。

論文では、研究者らは、MLP クロスモーダル コネクタと、VQA などの学術タスクに関連するデータの組み込みという 2 つの簡単な改善点を紹介しました。 LLaVA と併用すると、これら 2 つの改善により、マルチモーダル理解が向上します。

数億、あるいは数十億の画像とテキストのペアリング データに対して特別に設計されたビジュアル リサンプラーをトレーニングする InstructBLIP や Qwen-VL と比較すると、LLaVA は最もシンプルなアーキテクチャ設計を使用し、60 万の画像とテキストのペアに対して完全に接続したシンプルな投影レイヤーをトレーニングするだけで済みます。

GPT-4Vと競合できますか?

論文を読む前に、まずは LLaVA-1.5 の認識能力と、それが GPT-4V と競合できるかどうかを見てみましょう。

提案1: 食料品をJSONに変換する

手順: すべての果物 (果物のみ) を識別し、果物ごとに、名前属性と、推定カロリー、炭水化物、脂肪、タンパク質属性などの栄養属性を持つオブジェクトを作成する必要があります。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

命題2: 簡略化されたスケッチから映画のタイトルを特定する

説明: この写真はどんな映画に関するものですか?注: 識別を困難にするため、登場人物の名前を変更しました。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

論文の詳細

LLaVA は視覚的推論において賞賛に値する能力を示し、現実の視覚的指示タスクのさまざまなベンチマークで複数の最先端モデルを上回りましたが、短い回答が求められる学術的なベンチマークでのみ劣っていました。研究チームは、後者は LLaVA が他の手法のように大規模なデータで事前トレーニングされていないことに起因すると考えています。

具体的には、この研究ではまず、以下の表 1 で選択された 3 つのデータセットに対する拡張データ、モデル、および入力画像解像度の影響を分析し、次に表 2 の 12 の異なるベンチマークで比較実験を実施します。実験結果から、LLaVA アーキテクチャは視覚指示のチューニングに強力かつデータ効率に優れ、他のすべての方法よりも大幅に少ない計算とトレーニング データを使用して最高のパフォーマンスを達成することが実証されています。


応答形式のプロンプト

調査の結果、InstructBLIP などの方法では短い形式の VQA と長い形式の VQA のバランスをとることができない主な理由が 2 つあることがわかりました。

まず、LLM に与えられたプロンプトの応答形式が不明確でした。たとえば、「Q: {質問} A: {回答}」のようなプロンプトでは、必要な出力形式が明確に示されません。自然な視覚的な会話の場合でも、LLM を過剰適合させて短い回答を返す可能性があります。

第二に、LLM の微調整は実行されませんでした。たとえば、InstructBLIP では、LLM の出力長 (長い形式/短い形式) を制御するために Qformer のビジュアル出力トークンが必要ですが、Qformer は容量が限られているため、これを正しく実行できない可能性があります。

この問題を解決するために、この研究では、出力形式を明示的に指定する「応答形式プロンプト」の使用を提案しました。たとえば、モデルが短い回答を要求される場合、VQA の質問の最後に「1 つの単語またはフレーズを使用して質問に回答してください」という文を追加します。

この研究では、このようなプロンプトを使用して LLM を微調整すると、LLaVA はユーザーの指示に基づいて出力形式を適切に調整でき、ChatGPT を使用して VQA データを追加処理する必要がないことを実験的に示しています。

さらに、この研究では、2層MLPを通じて視覚言語コネクタの表現能力を向上させることで、元のモデルと比較してLLaVAのマルチモーダル能力を向上できることも判明しました。さらに、この研究では、モデルのマルチモーダル機能を強化するために、VQA、OCR、および地域レベルの認識に関する学術タスク用の追加 VQA データセットを含む学術タスク用のデータも拡張しました。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  RPAテクノロジーが製造業の未来をどのように変えるか

>>:  モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

OpenAIの競合InflectAIがマイクロソフトとビル・ゲイツの支援を受けて13億ドルを調達

OpenAIの競合企業Inflection AIは最近、Microsoft、リード・ホフマン、ビル・...

ハッカーはパニックに陥っています!サイバーセキュリティにおける機械学習の包括的な説明

[51CTO.com からのオリジナル記事] 現在、インターネット上には機械学習 (ML)、人工知能...

暗号化アルゴリズムの将来と現状の簡単な分析

[[357912]]現在最も一般的に使用されている暗号化アルゴリズムは、一方向暗号化と双方向暗号化に...

...

自動運転の運転手が死亡事故で無罪となった。将来のAIの世界はより良くなるだろうか?

2018年3月18日、アメリカ・アリゾナ州で、セーフティドライバーを乗せたUberの自動運転車が道...

顔認識が再び禁止される:プライバシーと偏見をめぐる論争は続く 米国の別の州が顔認識ソフトウェアを禁止

海外メディアの報道によると、ニューヨーク州議会は、学校での顔認証やその他の生体認証技術の使用を202...

大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

最適化はあらゆる分野で重要です。一部の最適化は初期化から始まり、その後ソリューションを繰り返し更新し...

プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

[[434262]]序文最近、アルゴリズムの基礎を固めるために、アルゴリズムの本にある基本的なアルゴ...

...

プロの債権回収業者は失業するのでしょうか?人工知能はこうやって人々にお金を返済させる

他人に代わって借金を回収する「プロの債権回収業者」というと、恐ろしいイメージを抱く人も多いだろう。 ...

...

...

...

...

AI、自動化、そして仕事の未来: 取り組むべき10の課題

[[236355]]職場で機械が人間の労働に取って代わるにつれ、その恩恵を受けるためには私たち全員が...