昨年 4 月、ウィスコンシン大学マディソン校、マイクロソフト リサーチ、コロンビア大学の研究者が共同で LLaVA (Large Language and Vision Assistant) をリリースしました。 LLaVA は小規模なマルチモーダル指示データセットでトレーニングされましたが、一部のサンプルでは GPT-4 と非常によく似た推論結果を示しました。 10 月に LLaVA-1.5 がリリースされ、オリジナルの LLaVA に簡単な変更を加えることで 11 のベンチマークの SOTA が更新されました。 現在、研究チームは、主に推論、OCR、世界知識のモデルのパフォーマンスを向上させる LLaVA-1.6 のリリースを発表しました。 LLaVA-1.6 は、いくつかのベンチマークで Gemini Pro を上回ります。
LLaVA-1.5 と比較して、LLaVA-1.6 には次の改善点があります。
画像出典: https://twitter.com/imhaotian/status/1752621754273472927 LLaVA-1.6 は、LLaVA-1.5 のミニマリスト設計とデータ効率を維持しています。LLaVA-1.5 の事前トレーニング済みコネクタを再利用し、100 万個未満の視覚指示チューニング サンプルを使用します。最大の 34B モデルは、32 台の A100 を使用して約 1 日でトレーニングされました。 LLaVA-1.6 は 130 万のデータ サンプルを使用し、計算/トレーニング データ コストは他の方法に比べて約 100 ~ 1000 倍低くなります。 CogVLM や Yi-VL などのオープンソース LMM と比較すると、LLaVA-1.6 は SOTA パフォーマンスを実現します。市販製品と比較すると、LLaVA-1.6 は選択されたベンチマークで Gemini Pro に匹敵し、Qwen-VL-Plus よりも優れています。 LLaVA-1.6 は強力なゼロショット中国語機能を実証し、マルチモーダル ベンチマーク MMBench-CN で SOTA パフォーマンスを達成したことは特筆に値します。 方法の改善ダイナミック高解像度 研究チームは、データ効率を維持することを目的として、LLaVA-1.6 モデルを高解像度で設計しました。高解像度の画像と詳細を保持する表現が提供されると、画像内の複雑な詳細を認識するモデルの能力が大幅に向上します。低解像度の画像に直面したときに、モデルの幻覚、つまり想像上の視覚コンテンツを推測することを軽減します。 データブレンディング 高品質なユーザー説明データ。高品質の視覚的なコマンド追従データの定義は、2 つの主な基準に依存します。1 つ目は、タスク コマンドの多様性です。これにより、特にモデル展開フェーズで、現実のシナリオで遭遇する可能性のある幅広いユーザーの意図が完全に表現されることが保証されます。第二に、好意的なユーザーフィードバックを得るために、応答に優先順位を付けることが重要です。 したがって、この研究では 2 つのデータ ソースを考慮しました。 既存の GPT-V データ (LAION-GPT-V および ShareGPT-4V)。 より多くのシナリオでより良い視覚的な会話をさらに促進するために、研究チームはさまざまなアプリケーションをカバーする 15K の小さな視覚コマンド調整データセットを収集し、プライバシーの問題がある可能性のある、または有害である可能性のあるサンプルを慎重にフィルタリングし、GPT-4V を使用して応答を生成しました。 マルチモーダルドキュメント/チャートデータ。 (1)研究チームは、TextCapがTextVQAと同じトレーニング画像セットを使用していることに気づいたため、トレーニングデータからTextCapを削除した。これにより、研究チームは TextVQA を評価する際に、モデルのゼロショット OCR 機能をより深く理解できるようになりました。モデルの OCR 機能を維持し、さらに向上させるために、本研究では TextCap を DocVQA と SynDog-EN に置き換えました。 (2)本研究では、Qwen-VL-7B-Chatの助けを借りて、グラフやチャートをよりよく理解するためにChartQA、DVQA、AI2Dをさらに追加しました。 研究チームはまた、Vicuna-1.5(7Bおよび13B)に加えて、Mistral-7BやNous-Hermes-2-Yi-34Bなど、より多くのLLMスキームが検討されており、LLaVAがより幅広いユーザーとより多くのシナリオをサポートできるようになると述べました。
|
>>: 深度に関するあらゆる情報: 大規模なラベルなしデータから深度推定を解き放つ
AIに「感情」を与える時が来たのかもしれない[[236486]]今後のビジネスモデルはますます「感情...
人工知能 (AI) と機械学習 (ML) は互換性があると考えられる場合もありますが、概念的には関連...
[51CTO.com クイック翻訳] ディープラーニングは確かに多くの印象的な成功事例をもたらしま...
本日、Google TensorFlow は、ニューラル グラフ学習手法を使用してグラフと構造化デー...
深層強化学習は最近大きな成功を収めていますが、安定性の欠如や再現性の低さといった限界もあります。 M...
機械学習の急速な発展により、インテリジェントな音声処理のための強固な理論的および技術的基盤が築かれま...
人工知能はかつてはSFの世界のものと考えられていましたが、今ではどこにでもあります。私たちが行う、ま...
これらの AI 搭載ガジェットはあなたの家をスマートにします。 『2001年宇宙の旅』の全知全能のH...
自然言語処理は人工知能の分野で常に重要なトピックであり、2018年も話題となりました。大量のテキスト...
人工知能は数え切れないほど多くの業界を前例のない形で変えています。ウェブホスティングは人工知能が関与...
Java 開発では、非効率的なコードや不合理なアルゴリズムにより、プログラムのパフォーマンスが低下す...
RPA は、企業が導入できる、リスクが低く価値の高い自動化アプローチの 1 つです。 RPA ツール...