LLaVA-1.6は非常に強力で、Gemini Proを上回り、推論機能とOCR機能が向上しています。

LLaVA-1.6は非常に強力で、Gemini Proを上回り、推論機能とOCR機能が向上しています。

昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同で LLaVA (Large Language and Vision Assistant) をリリースしました。 LLaVA は小規模なマルチモーダル指示データセットでトレーニングされましたが、一部のサンプルでは GPT-4 と非常によく似た推論結果を示しました。 10 月に LLaVA-1.5 がリリースされ、オリジナルの LLaVA に簡単な変更を加えることで 11 のベンチマークの SOTA が更新されました。

現在、研究チームは、主に推論、OCR、世界知識のモデルのパフォーマンスを向上させる LLaVA-1.6 のリリースを発表しました。 LLaVA-1.6 は、いくつかのベンチマークで Gemini Pro を上回ります。


  • デモアドレス: https://llava.hliu.cc/
  • プロジェクトアドレス: https://github.com/haotian-liu/LLaVA

LLaVA-1.5 と比較して、LLaVA-1.6 には次の改善点があります。

  • 入力画像の解像度を 4 倍に増やし、最大 672x672、336x1344、1344x336 の解像度の 3 つのアスペクト比をサポートします。これにより、LLaVA-1.6 はより多くの視覚的詳細をキャプチャできるようになります。
  • LLaVA-1.6 は、改良された視覚的指示を通じてデータの混合を調整することにより、より優れた視覚的推論と OCR 機能を実現します。
  • より優れた視覚的なダイアログ、より多くのシナリオ、さまざまなアプリケーションをカバーします。 LLaVA-1.6はより多くの世界知識を獲得し、より優れた論理的推論能力を備えています。
  • 効率的な展開と推論には SGLang を使用します。

画像出典: https://twitter.com/imhaotian/status/1752621754273472927

LLaVA-1.6 は、LLaVA-1.5 のミニマリスト設計とデータ効率を維持しています。LLaVA-1.5 の事前トレーニング済みコネクタを再利用し、100 万個未満の視覚指示チューニング サンプルを使用します。最大の 34B モデルは、32 台の A100 を使用して約 1 日でトレーニングされました。 LLaVA-1.6 は 130 万のデータ サンプルを使用し、計算/トレーニング データ コストは他の方法に比べて約 100 ~ 1000 倍低くなります。

CogVLM や Yi-VL などのオープンソース LMM と比較すると、LLaVA-1.6 は SOTA パフォーマンスを実現します。市販製品と比較すると、LLaVA-1.6 は選択されたベンチマークで Gemini Pro に匹敵し、Qwen-VL-Plus よりも優れています。

LLaVA-1.6 は強力なゼロショット中国語機能を実証し、マルチモーダル ベンチマーク MMBench-CN で SOTA パフォーマンスを達成したことは特筆に値します。

方法の改善

ダイナミック高解像度

研究チームは、データ効率を維持することを目的として、LLaVA-1.6 モデルを高解像度で設計しました。高解像度の画像と詳細を保持する表現が提供されると、画像内の複雑な詳細を認識するモデルの能力が大幅に向上します。低解像度の画像に直面したときに、モデルの幻覚、つまり想像上の視覚コンテンツを推測することを軽減します。

データブレンディング

高品質なユーザー説明データ。高品質の視覚的なコマンド追従データの定義は、2 つの主な基準に依存します。1 つ目は、タスク コマンドの多様性です。これにより、特にモデル展開フェーズで、現実のシナリオで遭遇する可能性のある幅広いユーザーの意図が完全に表現されることが保証されます。第二に、好意的なユーザーフィードバックを得るために、応答に優先順位を付けることが重要です。

したがって、この研究では 2 つのデータ ソースを考慮しました。

既存の GPT-V データ (LAION-GPT-V および ShareGPT-4V)。

より多くのシナリオでより良い視覚的な会話をさらに促進するために、研究チームはさまざまなアプリケーションをカバーする 15K の小さな視覚コマンド調整データセットを収集し、プライバシーの問題がある可能性のある、または有害である可能性のあるサンプルを慎重にフィルタリングし、GPT-4V を使用して応答を生成しました。

マルチモーダルドキュメント/チャートデータ。 (1)研究チームは、TextCapがTextVQAと同じトレーニング画像セットを使用していることに気づいたため、トレーニングデータからTextCapを削除した。これにより、研究チームは TextVQA を評価する際に、モデルのゼロショット OCR 機能をより深く理解できるようになりました。モデルの OCR 機能を維持し、さらに向上させるために、本研究では TextCap を DocVQA と SynDog-EN に置き換えました。 (2)本研究では、Qwen-VL-7B-Chatの助けを借りて、グラフやチャートをよりよく理解するためにChartQA、DVQA、AI2Dをさらに追加しました。

研究チームはまた、Vicuna-1.5(7Bおよび13B)に加えて、Mistral-7BやNous-Hermes-2-Yi-34Bなど、より多くのLLMスキームが検討されており、LLaVAがより幅広いユーザーとより多くのシナリオをサポートできるようになると述べました。

<<: 

>>:  深度に関するあらゆる情報: 大規模なラベルなしデータから深度推定を解き放つ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習ガバナンスの5つの課題

ML モデル ガバナンスは、組織がアクセスを制御し、ポリシーを実装し、モデル アクティビティを追跡す...

彼女はウルトラマンを追い出すキーパーソンなのか? OpenAI CTOがビッグニュースを発表

OpenAI の内部紛争が 1 年経っても解決されていないとは思いもしませんでした。またしても爆発メ...

...

アルゴリズム | ダブルポインタはリンクリストを破る優れた魔法の武器です

今は少し理解できました。面接の過程で、面接官が私たちにコードを手書きで書くように頼むことがあります。...

LLM幻覚問題の徹底レビュー! HITチームの50ページのレビューが公開された

幻覚だよ、古い友人よ。 LLM が私たちの視野に入って以来、錯覚の問題は常に無数の開発者を悩ませてき...

Apple、Google Play ランキングアルゴリズム

すべてのアプリにおいて、製品自体が登場する前、アイデアが生まれた時点で、すでに製品マーケティングの問...

新しい人工ニューロンデバイスは、非常に少ないエネルギーでニューラルネットワークの計算を実行できる

カリフォルニア大学サンディエゴ校の研究者らが開発した新しい人工ニューロン装置のおかげで、画像の認識や...

アリババ、AI推論・計算用Ali-NPUニューラルネットワークチップをリリース

Alibaba DAMO Academyは、画像や動画の分析、機械学習などのAI推論計算に使用される...

人工知能の時代、今後子どもたちが持つどんな能力が人気になるのでしょうか?

今年の全国人民代表大会では、「人工知能」というホットな言葉が登場した。先週の土曜日、中国教育も音声デ...

機械学習アルゴリズムの実践 - Platt SMO と遺伝的アルゴリズム最適化 SVM

[[206589]]序文以前、SVMの双対問題を最適化するために、単純なSMOアルゴリズムを実装し...

言語モデルは時間をどのように認識するのでしょうか?時間ベクトルについてさらに詳しく

言語モデルは正確にはどのようにして時間を認識するのでしょうか?言語モデルの時間認識をどのように利用す...

自動車ドメインコントローラの統合アーキテクチャの背景、利点、設計を1つの記事で理解する

車両の電動化が徐々に進むにつれ、電子制御ユニット(ECU)が車全体を制御するようになりました。アンチ...

AIがクラウドコンピューティング管理の改善に役立ついくつかの方法

企業がクラウド管理について考えるとき、主にパフォーマンスの監視、セキュリティの維持、コンプライアンス...

人工知能技術がハリウッドスターを「若返らせる」

現代の若者は、ベテランスターたちの若い頃の見事な姿を見る機会がもうないが、それは問題ではない。人工知...