GPT-4Vと正面対決!浙江大学卒業生がオープンソースのマルチモーダル大規模モデル LLaVA-1.5 を開発、パラメータ 130 億個、1 日で 8 個の A100 をトレーニング

GPT-4Vと正面対決!浙江大学卒業生がオープンソースのマルチモーダル大規模モデル LLaVA-1.5 を開発、パラメータ 130 億個、1 日で 8 個の A100 をトレーニング

9月末、OpenAIはChatGPTのマルチモーダル機能の禁止を解除すると発表しました。マルチモーダル GPT-4V の魔法のような能力に誰もが驚きました。「これが GPT-4.5 ですよね?」

それから間もなく、GPT-4V のオープンソースの競合製品である LLaVA-1.5 が登場しました。

4月に、ウィスコンシン大学マディソン校、マイクロソフトリサーチ、コロンビア大学の研究者が、新しいエンドツーエンドのマルチモーダル大規模モデルであるLLaVAをオープンソース化しました。

現在、アップグレードされた LLaVA-1.5 は、11 のベンチマーク テストで SOTA を達成しただけでなく、GPT-4V と直接競合することもできます。

研究者らは、MLP マッピングを備えた CLIP-ViT-L-336px を使用し、シンプルな応答形式のプロンプトを備えた学術タスクの VQA データを追加することで、LLaVA-1.5 のパフォーマンスを大幅に向上させました。

結果によると、よりシンプルなアーキテクチャを持つ LLaVA-1.5 は、14 億 5,000 万のトレーニング データを使用する Qwen-VL や、1 億 3,000 万のトレーニング データを使用する HuggingFace IDEFICS (Flamingo に似た 80B モデル) を上回るのに、わずか 120 万の公開データしか必要としません。

そのうち、13Bモデルの訓練は、わずか8台のA100で1日で完了できます。

LLaVA-1.5 ハードバー GPT-4V

GPT-4Vに対抗できると言われていますが、LLaVA-1.5の強みは何でしょうか?

GPT-4V、LLaVA、LLaVA-1.5 を互いに競争させてみましょう。

プロジェクトアドレス: https://llava-vl.github.io/

質問: 「事実上の誤りがあれば、それを指摘してください。そうでなければ、砂漠で何が起こっているのか教えてください。」

GPT-4V の応答は少しばかげていました。「申し訳ありませんが、あなたが言及した砂漠を示すコンテキストがないため、この質問には答えられません。」

するとLLaVAさんは「写真では、街とビーチが街並みを形成していて、人々が夕日を楽しんでいます。このビーチの風景が砂漠にあるというのは、かなり珍しいですね」と答えた。

唯一満点を獲得した参加者 LLaVA-1.5 は、完璧な答えを出した。「写真には砂漠はありません。ヤシの木が生い茂るビーチ、街のスカイライン、そして大きな水域があります。」

さらに、LLaVA-1.5ではグラフから情報を抽出し、JSON形式で出力するなど、必要な形式で回答することも可能です。

LLaVA-1.5 は基本的にタスクを完了していることがわかりますが、GPT-4V と比較するとまだいくつかの欠陥があります。

同様に、LLaVA-1.5 に果物や野菜がたくさん写っている写真を与えると、GPT-4V のようにその写真を JSON に変換できます。

視覚的な分析とインテリジェントなデータ変換、とても簡単です!

次の質問はそれほど簡単ではありません - この絵は何を意味しているのでしょうか?

これはノーラン監督の『インセプション』を基に簡略化されたスケッチであることが判明した。難易度を上げるために、登場人物の名前は仮名に変更された。

LLaVA-1.5 は困惑しませんでした。自信を持って答えました。「これは映画『インセプション』に関する絵です。夢の世界のさまざまなレベルを示しており、各レベルは線で表されています。絵は紙に書かれており、その紙はテーブルの上に置かれています。」

グルメな人歓喜!おいしそうな写真を見て、どうしても食べたくなったらどうすればいいでしょうか?

LLaVA-1.5 に直接送信すると、すぐにレシピが生成されます。

さらに、LLaVA-1.5 は、ジェイルブレイクせずに検証コードを認識できます。

写真に写っているコインの種類も検出できます。

特に印象的なのは、LLaVA-1.5 が写真に写っている犬の品種も教えてくれることです。

あるユーザーは、Bing を使用して、晴れた夏のビーチで冬のコートを着た男性の画像を生成し、LLaVA 1.5 に画像内の問題点を指摘するよう依頼しました。

その目はとても鋭い――

これは、ジャケットを着てビーチに立っている男性の写真を加工またはフォトショップで加工したものです。男はコートを開けると、太陽の光が彼を照らした。

この画像の問題は、実際のビーチの風景ではないということです。その男性は実際には浜辺に立っていなかったし、太陽も彼を照らしていなかった。

この画像はビーチの風景を演出するためにフォトショップで加工されていますが、実際の風景を再現しているわけではありません。

ただし、LLaVA-1.5 では、設計に基づいてフロントエンド コードを記述する能力が低くなります。

結果から判断すると、その出力は確かに比較的単純です...

1日で訓練された8台のA100

LLaVA モデルのアーキテクチャは、事前トレーニング済みのビジュアル エンコーダー (CLIP ViT-L/14) と大規模言語モデル (Vicuna) を接続することです。

2 つのモデルは、視覚的特徴と言語的特徴を統一された空間で操作できるように調整または変換する役割を担う単純なマッピング マトリックスを介して接続されます。

マルチモーダル指示データセットでは、LLaVA は GPT-4 と比較して 85.1% のスコアで良好なパフォーマンスを示しました。科学QAでは、LLaVAは92.53%の正確率で新記録を樹立しました。

今回、研究者らは、LLaVA フレームワークに基づいて、より強力で実用的なベースラインを確立しました。

論文アドレス: https://browse.arxiv.org/pdf/2310.03744.pdf

MLP クロスモーダル コネクタと学術タスク関連データ (VQA など) の組み込みにより、LLaVA のマルチモーダル理解機能が強化されます。

数億、あるいは数十億の画像とテキストのペアでトレーニングされた特別に設計されたビジュアル リサンプラーである InstructBLIP や Qwen-VL と比較すると、LLaVA は最も単純な LMM アーキテクチャ設計を使用し、60 万の画像とテキストのペアで単純な完全接続マッピング レイヤーをトレーニングするだけで済みます。

最終モデルは 1 日で 8 台の A100 でトレーニングでき、さまざまなベンチマークで SOTA を達成します。

さらに、Qwen-VL ではトレーニング中に内部データが含まれますが、LLaVA では公開データのみが必要です。

これらの改善され、簡単に再現できるベースラインが、オープンソース LMM の将来にとって貴重な参考資料となることは間違いありません。

パフォーマンスが大幅に向上し、11個のSOTA項目がリフレッシュされました

オープンソースの視覚コマンド微調整モデルである LLaVA は、視覚推論機能において非常に優れたパフォーマンスを発揮します。実際の視覚コマンドに従うタスクに基づくベンチマークでは、LLaVA は最新のモデルを上回っています。

しかし、LLaVA は、通常、単語などの短い回答が求められる学術ベンチマークでは、それほど良い成績を収めませんでした。その理由は、LLaVA が大規模データで事前トレーニングされていないためです。

モデルのスケーリング

まず、研究者らは、LLM が画像の詳細をはっきりと「見る」ことができるように入力画像の解像度を上げ、視覚的知識の追加ソースとして GQA データセットを追加しました。さらに、ShareGPT データが追加され、LLM が 13B に拡大されます。

MM-Vet の結果は、LLM を 13B まで拡張した場合に改善が最も顕著になることを示しており、これは視覚的な対話における基本的な LLM の能力が非常に重要であることも示しています。

すべての改良を加えた最終モデルは LLaVA-1.5 と呼ばれ、オリジナルの LLaVA を大幅に上回る素晴らしいパフォーマンスを発揮します。

データ、モデル、解像度のスケーリング結果

SOTAとの比較

その後、研究者らは、さまざまな学術的 VQA ベンチマークと、特に指示に従う LMM 向けに提案されたベンチマークで LLaVA-1.5 をテストしました。

結果によると、LLaVA-1.5 は事前トレーニングと命令の微調整データの使用量が少ないだけでなく、最もシンプルなアーキテクチャ、学術コンピューティング、公開データセットで最高のパフォーマンスを達成し、12 のベンチマークのうち 11 で SOTA を達成しました。

さらに、この研究では、LMM 機能の向上には、事前トレーニングよりも視覚的な指示の微調整がより重要な役割を果たすことも判明しました。

これにより、視覚サンプラーの利点と、マルチモーダルコマンド追従機能の大規模な事前トレーニングの必要性についても再考することになります。

12のベンチマークにおけるSOTA方式との比較

応答形式のプロンプト

研究者らは、InstructBLIP などの従来の方法では、主に以下の理由から、短い形式の VQA と長い形式の VQA のバランスをとることができないことを発見しました。

まず、回答形式に関するプロンプトが曖昧でした。

たとえば、「Q: {質問} A: {回答}」は理想的な出力形式を明確に示していないため、自然な視覚的な会話であっても、LLM が短い形式の回答に過剰適合する可能性があります。

第二に、LLM の微調整は実行されませんでした。

たとえば、InstructBLIP は Qformer の命令のみを微調整しました。 Qformer のビジュアル出力トークンを使用して LLM 出力の長さを制御することは可能ですが、Qformer は LLaMA などの LLM と比較して容量が比較的限られているため、これを正しく実行できない可能性があります。

この問題に対処するために、研究者らは、VQA の質問の最後に出力形式を明確にするプロンプトを追加し、モデルが短い回答を生成できるようにすることを提案しています。たとえば、「1 つの単語またはフレーズで質問に答えます。」

このようなヒントを使用して LLM を微調整すると、LLaVA はユーザーの指示に従って出力形式を正しく微調整することができ、ChatGPT を使用して VQA データを追加処理する必要がなくなります。

結果は、トレーニングに VQAv2 を追加するだけで、MME での LLaVA のパフォーマンスが大幅に向上し (1323.8 vs 502.8)、InstructBLIP よりも 111 ポイント高いことを示しています。

学術課題のためのデータ

研究者らはさらに、VQA、OCR、地域レベルの認識に関する学術タスク用のVQAデータセットを追加し、さまざまな側面からモデルの機能を向上させました。

まず、InstructBLIP: Open Knowledge VQA で使用される 4 つの追加データセットを含めました。

その中で、A-OKVQA は複数選択問題に変換され、特定の回答形式のプロンプト(指定されたオプションの文字を使用して直接回答)を使用します。

InstructBLIP で使用されるデータセットのサブセットのみを使用すると、LLaVA は表 1 の 3 つのタスクすべてで InstructBLIP よりも優れたパフォーマンスを発揮し、LLaVA が非常に効果的に設計されていることがわかります。

さらに研究者らは、地域レベルの VQA データセットをさらに追加することで、モデルのきめ細かい視覚的詳細を見つける能力が向上することも発見しました。

ゼロショット形式命令の一般化

LLaVA-1.5 は限られたフォーマット命令セットのみを使用してトレーニングされましたが、他のフォーマット命令にも一般化できます。

たとえば、VizWiz では、提供されたコンテンツが質問に答えるのに不十分な場合にモデルが「回答不可」を出力することを要求しますが、LLaVA の回答形式プロンプトは、モデルに効果的にそうするように指示できます (回答不可の質問は 11.1% → 67.8% を占めます)。

ゼロショット多言語機能

同時に、LLaVA-1.5 は多言語の指示に合わせて微調整されていません。ただし、ShareGPT には大量の関連データが含まれているため、複数の言語でのマルチモーダルな指導を実現できます。

研究者らは、MMBenchの質問を中国語に変換したMMBenchCNで、モデルの中国語への一般化能力を定量的に評価した。

LLaVA-1.5 は Qwen-VL-Chat よりも 7.3% 正確性が高い (63.6% 対 56.7%) ことは注目に値します。このうち、Qwen は中国語のマルチモーダル命令に合わせて微調整されていますが、LLaVA-1.5 はそうではありません。

コストを計算する

LLaVA-1.5 では、研究者らは LCS-558K と同じ事前トレーニング データセットを使用し、命令の微調整トレーニングの反復回数とバッチ サイズを LLaVA とほぼ同じに保ちました。

画像入力解像度が 336 ピクセルに増加すると、LLaVA-1.5 のトレーニングには LLaVA の 2 倍の時間がかかります。つまり、事前トレーニングに 6 時間、A100 8 台を使用した視覚指示の微調整に 20 時間かかります。

制限

LLaVA-1.5 は非常に優れた結果を達成しましたが、まだいくつかの制限があることを認めなければなりません。

まず、LLaVA は完全な画像パッチを使用するため、各トレーニング反復の時間が長くなる可能性があります。

第二に、LLaVA-1.5 は、データに続く命令が不足しており、コンテキストの長さが制限されているため、複数の画像を処理できません。

第三に、LLaVA-1.5 は複雑な指示に巧みに従うことができますが、問題解決能力は一部の領域ではまだ限られており、より強力な言語モデルと高品質で対象を絞った視覚指示の微調整データを通じて改善することができます。

最後に、LLaVA-1.5 は幻覚や誤った情報の生成を免れるわけではないため、医療などの重要な用途では注意して使用する必要があります。

著者について

劉浩天

Haotian Liu 氏はウィスコンシン大学マディソン校のコンピューターサイエンスの博士課程の学生で、Yong Jae Lee 教授の指導を受けています。彼は以前、浙江大学で学士号を取得しました。

彼の研究対象はコンピュータービジョンと機械学習、特に視覚認識と理解のための効率的なアルゴリズムです。最近の研究では、人間の意図に基づいてカスタマイズ可能な大規模モデルの構築に重点が置かれています。

チュンユアン・リー

Chunyuan Li 氏は、Microsoft Research Redmond の主任研究員です。

彼は以前、デューク大学で機械学習の博士号を取得しており、指導教官はローレンス・カリン教授でした。彼は、NeurIPS、ICML、ICLR、EMNLP、AAAI のエリア チェア、および IJCV のゲスト エディターを務めてきました。

彼の最近の研究は、コンピュータービジョンと自然言語処理における大規模な事前トレーニングに焦点を当てています。たとえば、人間の意図に従う大規模なマルチモーダル モデル、視覚と言語の事前トレーニング、大規模な深層生成モデルの構築などです。

李宇恒

Yuheng Li はウィスコンシン大学マディソン校のコンピューターサイエンスの博士課程の学生で、Yong Jae Lee 教授の指導を受けています。彼は以前、華中科技大学で学士号を取得しました。

彼の研究対象は、制御可能なマルチモーダル画像の生成と処理、および創造的視覚に関連するその他の問題です。

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

2020年世界人工知能会議が開催されます! AI が人間の言語の高度な能力をいかにして習得するかをご覧ください。

2020年7月9日、2020年世界人工知能大会(WAIC)クラウドサミットが正式に開幕しました。I...

旅行を恥ずかしがる必要はありません。国内の観光地がAIを導入し、スマートな旅行の新たなシナリオを実現

旅行に出かけることは、祖国の美しい川や山を鑑賞し、「詩と遠い場所」を追求することです。 AIの助けに...

ホワイトボードに描くだけでコードに変換されます。AI は UI デザイナーに取って代わるのでしょうか?

「新製品のホームページについてどう思いますか?」あなたは、UI、フロントエンド、マーケティング、運...

環境センシング:スマートホームの次のステップ

「スマートホーム」という用語は何年も前から存在しているようですが、業界自体は比較的初期段階にあります...

ビル・ゲイツ: 生成AIは限界に達した

ビル・ゲイツ氏の暴露は機械学習コミュニティで話題となっている。 「GPT-5 は GPT-4 よりそ...

人工知能技術をより効果的に応用するにはどうすればよいでしょうか?より正確かつ迅速に行う5つの方法

広範囲にわたるモデリングと10万回以上のシミュレーションの実行を経て、AIシステムが2018年ワール...

メディア業界の自動化をリードする10のAI分野

データ爆発の時代では、データの収集だけでは不十分です。ビジネスを運営し、成長させるための洞察を得るに...

...

機械学習と感度分析を組み合わせてビジネス戦略を策定するにはどうすればよいでしょうか?

数え切れないほど多くの企業が、意思決定を支援するために機械学習 (ML) を日常的に使用しています。...

...

...

機械学習で知っておくべき 8 つの次元削減手法、最後の手法は超ハードコアです!

次元削減とは、高次元のデータ セットを同等の低次元空間に変換するプロセスです。実際のデータ セットに...

自然言語処理がヒラリーとトランプの「話し方」を分析

[[173621]]編集者注:現地時間10月9日、米国大統領選挙の2人の候補者による第2回公開討論会...