GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

GPT-4Vに匹敵し、120万データと8つのA100のみを使用し、トレーニングは1日で完了し、LLaVA-1.5は11のベンチマークSOTAを更新しました。

マルチモーダル大型モデル着陸の風がようやく吹いた。

12日前、OpenAIはChatGPTに画像認識機能を追加し、ユーザーが1枚以上の画像をアップロードして会話に参加できるようにしました。 OpenAI自身が公開した短い文書から、ChatGPTの画像認識機能の背後にはGPT-4Vと呼ばれる新しい大規模モデルがあることがわかりました。

実は、この機能は半年前に GPT-4 がリリースされたときにすでに存在していましたが、一般ユーザーが利用できるようになっていませんでした。 AI の分野では、マルチモーダル大規模モデルは長い間認識されてきたトレンドであり、一般的な AI アシスタントの重要なモジュールとしても考えられています。

OpenAI が「クローズドソース」を主張していることから、多くの研究者も率先して独自のマルチモーダル大規模モデルの研究成果を発表しています。例えば、代表的な2つの作品「LLaVA」と「MiniGPT-4」は、自然な指示追跡と視覚的推論機能において素晴らしい結果を示しました。

今年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同で LLaVA (Large Language and Vision Assistant) をリリースしました。 LLaVA は小規模なマルチモーダル指示データセットでトレーニングされましたが、一部のサンプルでは GPT-4 と非常によく似た推論結果を示しました。

今日、この成果は大幅なアップグレードを受け、LLaVA-1.5 が正式にリリースされました。オリジナルの LLaVA に簡単な変更を加えることで、11 のベンチマークで新しい SOTA 標準が設定されました。


  • 論文アドレス: https://browse.arxiv.org/pdf/2310.03744.pdf
  • デモアドレス: https://llava.hliu.cc/

LLaVA-1.5 は、わずか 120 万の公開データを使用して、単一の 8-A100 ノードで 1 日未満でトレーニングを完了しました。

論文では、研究者らは、MLP クロスモーダル コネクタと、VQA などの学術タスクに関連するデータの組み込みという 2 つの簡単な改善点を紹介しました。 LLaVA と併用すると、これら 2 つの改善により、マルチモーダル理解が向上します。

数億、あるいは数十億の画像とテキストのペアリング データに対して特別に設計されたビジュアル リサンプラーをトレーニングする InstructBLIP や Qwen-VL と比較すると、LLaVA は最もシンプルなアーキテクチャ設計を使用し、60 万の画像とテキストのペアに対して完全に接続したシンプルな投影レイヤーをトレーニングするだけで済みます。

GPT-4Vと競合できますか?

論文を読む前に、まずは LLaVA-1.5 の認識能力と、それが GPT-4V と競合できるかどうかを見てみましょう。

提案1: 食料品をJSONに変換する

手順: すべての果物 (果物のみ) を識別し、果物ごとに、名前属性と、推定カロリー、炭水化物、脂肪、タンパク質属性などの栄養属性を持つオブジェクトを作成する必要があります。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

命題2: 簡略化されたスケッチから映画のタイトルを特定する

説明: この写真はどんな映画に関するものですか?注: 識別を困難にするため、登場人物の名前を変更しました。

LLaVA-1.5の回答結果:

GPT-4Vの回答結果:

論文の詳細

LLaVA は視覚的推論において賞賛に値する能力を示し、現実の視覚的指示タスクのさまざまなベンチマークで複数の最先端モデルを上回りましたが、短い回答が求められる学術的なベンチマークでのみ劣っていました。研究チームは、後者は LLaVA が他の手法のように大規模なデータで事前トレーニングされていないことに起因すると考えています。

具体的には、この研究ではまず、以下の表 1 で選択された 3 つのデータセットに対する拡張データ、モデル、および入力画像解像度の影響を分析し、次に表 2 の 12 の異なるベンチマークで比較実験を実施します。実験結果から、LLaVA アーキテクチャは視覚指示のチューニングに強力かつデータ効率に優れ、他のすべての方法よりも大幅に少ない計算とトレーニング データを使用して最高のパフォーマンスを達成することが実証されています。


応答形式のプロンプト

調査の結果、InstructBLIP などの方法では短い形式の VQA と長い形式の VQA のバランスをとることができない主な理由が 2 つあることがわかりました。

まず、LLM に与えられたプロンプトの応答形式が不明確でした。たとえば、「Q: {質問} A: {回答}」のようなプロンプトでは、必要な出力形式が明確に示されません。自然な視覚的な会話の場合でも、LLM を過剰適合させて短い回答を返す可能性があります。

第二に、LLM の微調整は実行されませんでした。たとえば、InstructBLIP では、LLM の出力長 (長い形式/短い形式) を制御するために Qformer のビジュアル出力トークンが必要ですが、Qformer は容量が限られているため、これを正しく実行できない可能性があります。

この問題を解決するために、この研究では、出力形式を明示的に指定する「応答形式プロンプト」の使用を提案しました。たとえば、モデルが短い回答を要求される場合、VQA の質問の最後に「1 つの単語またはフレーズを使用して質問に回答してください」という文を追加します。

この研究では、このようなプロンプトを使用して LLM を微調整すると、LLaVA はユーザーの指示に基づいて出力形式を適切に調整でき、ChatGPT を使用して VQA データを追加処理する必要がないことを実験的に示しています。

さらに、この研究では、2層MLPを通じて視覚言語コネクタの表現能力を向上させることで、元のモデルと比較してLLaVAのマルチモーダル能力を向上できることも判明しました。さらに、この研究では、モデルのマルチモーダル機能を強化するために、VQA、OCR、および地域レベルの認識に関する学術タスク用の追加 VQA データセットを含む学術タスク用のデータも拡張しました。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  RPAテクノロジーが製造業の未来をどのように変えるか

>>:  モザイクから高精細画像まで、AIの画像作成能力は強化されてきましたが、美しさと歪みのバランスをどう実現するのでしょうか。

ブログ    

推薦する

アルゴリズムがバグをキャッチ:ディープラーニングとコンピュータービジョンが昆虫学を変える

[[390223]]導入コンピュータ アルゴリズムは、ソフトウェア プログラムのバグを検出するのに役...

マイクロモード動的顔認識制御システムソリューション

マイクロモードの動的顔認識制御システム、インテリジェントビデオ監視は、元のビデオ監視に基づいてインテ...

人工知能の開発における主な成果は何ですか?また、どのような課題に直面していますか?

現代の人工知能は、現代の科学技術の中で最も驚くべき強力な技術の 1 つとなり、破壊的な技術でもありま...

「ブラックミラー」に匹敵する-AI技術が母親に亡くなった娘の姿を見せた

現在、外国の科学技術チームがAI技術を利用して、唯一の子供を亡くした母親の長年の願いを叶えた。彼らは...

自動生成された小さなデータセットを使用してエンコーディング LLM をトレーニングする方法

翻訳者 |李睿レビュー | Chonglou GPT-4 のような大規模言語モデル (LLM) はソ...

緑の希望を守るため、人工知能が森林火災防止ネットワークを構築

ご存知のとおり、森林火災は世界の8大自然災害の一つであり、森林の安全に対する脅威です。平均すると、世...

どのような Android の知識を学ぶ必要がありますか?ナレッジグラフ

コア分析コンテンツ初心者および中級の Android 開発者にとって、学ぶべき Android の理...

...

...

...

機械学習プロジェクトに十分なデータがありませんか?ここに5つの良い解決策があります

人工知能プロジェクトに着手する企業の多くは素晴らしいビジネスアイデアを持っていますが、企業の AI ...

AI データモデリングはどのようにして気候災害を防ぐことができるのでしょうか?

予測分析モデルが改良されるにつれ、この分野のイノベーターたちは、これまで断片化されていて使用コストが...

...

Oracle データベース初期化パラメータの分析: システム構成を最適化するための究極のガイド!

Oracle データベースでは、初期化パラメータは非常に重要な構成項目であり、データベースのパフォ...

ビジネスニーズに基づいて AI ソリューションを選択するにはどうすればよいでしょうか?

現在、企業では人工知能(AI)をますます幅広く活用しており、自動化する傾向もあります。既存のデータ開...