GPT4 などの現在の大規模言語モデル (LLM) は、画像が与えられた場合にオープンエンドの指示に従うという優れたマルチモーダル機能を実証しています。しかし、これらのモデルのパフォーマンスは、ネットワーク アーキテクチャ、トレーニング データ、トレーニング戦略の選択に大きく依存しますが、これまでの文献ではこれらについては十分に議論されていません。さらに、現在、これらのモデルを評価および比較するための適切なベンチマークが不足しており、マルチモーダル LLM の開発が制限されています。 写真
この記事では、著者らは定量的および定性的な観点から、このようなモデルのトレーニングに関する体系的かつ包括的な研究を紹介します。 20 種類以上のバリエーションが設定されました。ネットワーク構造については、さまざまな LLM バックボーンとモデル設計を比較しました。トレーニング データについては、データとサンプリング戦略の影響を調査しました。指示に関しては、多様なプロンプトがモデルの指示追従能力に与える影響を調査しました。ベンチマークとして、この記事ではまず、画像とビデオのタスクを含むオープンな視覚的質問応答評価セットである Open-VQA を提案しています。 実験結果に基づいて、著者らは、既存のオープンソースの GPT4 スタイルのモデルと比較して、最高のマルチモーダル生成能力を維持しながら、最も正確なマルチモーダル理解能力を示す Lynx を提案しました。 評価計画一般的な視覚言語タスクとは異なり、GPT4スタイルのモデルを評価する際の主な課題は、テキスト生成能力とマルチモーダル理解の精度のパフォーマンスのバランスを取ることです。この問題に対処するために、著者らはビデオと画像データの両方を含む新しいベンチマーク Open-VQA を提案し、現在のオープンソース モデルの包括的な評価を実施しました。 具体的には、次の 2 つの定量的評価スキームが採用されました。
結論はマルチモーダルLLMのトレーニング戦略をさらに研究するために、著者らは、ネットワーク構造(プレフィックス微調整/クロスアテンション)、トレーニングデータ(データ選択と組み合わせ比率)、指示(単一指示/多様な指示)、LLMモデル(LLaMA [5]/Vicuna [6])、画像ピクセル(420/224)など、さまざまな側面から20を超えるバリエーションを設定しました。実験を通じて、次の主な結論が導き出されました。
リンクスモデル著者らは、2段階でトレーニングされるプレフィックス微調整を備えたGPT4スタイルのモデルであるLynxを提案しました。最初の段階では、約1 億 2,000 万の画像とテキストのペアを使用して、視覚と言語の埋め込みを調整します。2 番目の段階では、20 枚の画像またはビデオと自然言語処理 (NLP) データを使用したマルチモーダル タスクを使用して、モデルの指示追従能力を調整します。 写真 Lynx モデルの全体的な構造は、上の図 1 に示されています。 視覚入力は視覚エンコーダによって処理され、視覚トークン$$W_v$$が得られ、これがLLMの入力として命令トークン$$W_l$$とマッピングされ連結される。本論文では、この構造を「プレフィックスファインチューニング」と呼び、Flamingo [3]で使用されるクロスアテンション構造と区別している。 さらに、著者らは、LLM の特定のレイヤーをフリーズした後にアダプターを追加することで、トレーニング コストをさらに削減できることを発見しました。 モデル効果著者らは、Open-VQA、Mme [4]、OwlEval手動評価で既存のオープンソースマルチモーダルLLMモデルのパフォーマンスを評価しました(結果については下のグラフを、評価の詳細については論文を参照してください)。 Lynx モデルは、Open-VQA 画像およびビデオ理解タスク、OwlEval 手動評価、および Mme Perception タスクで最高のパフォーマンスを達成したことがわかります。その中で、InstructBLIP もほとんどのタスクで高いパフォーマンスを達成しましたが、その返答は短すぎました。それに比べて、Lynx モデルはほとんどの場合、正解に基づいて返答を裏付ける簡潔な理由を提供し、よりユーザーフレンドリーになりました (いくつかのケースについては、以下のケース プレゼンテーション セクションを参照してください)。 1. Open-VQA画像テストセットの指標結果を以下の表1に示します。 写真 2. Open-VQAビデオテストセットの指標結果を表2に示します。 写真 3. Open-VQA で最高スコアを獲得したモデルが、OwlEval 評価セットでの手動効果評価用に選択されます。結果は上の図 4 に示されています。手動評価の結果から、 Lynx モデルが最高の言語生成パフォーマンスを持っていることがわかります。 写真 4. Mme ベンチマーク テストでは、知覚タスクが最高のパフォーマンスを達成し、 14 個のサブタスクのうち 7 個で最高のパフォーマンスを発揮しました。 (詳細な結果は論文の付録に記載されています) ケース表示Open-VQA イメージのケース OwlEval のケース Open-VQA ビデオケース 要約する本論文では、著者らは 20 種類以上のマルチモーダル LLM バリアントで実験を行い、プレフィックス微調整を主な構造とする Lynx モデルを決定し、自由回答に対する Open-VQA 評価スキームを示しました。実験結果によると、Lynx モデルは、最高のマルチモーダル生成機能を維持しながら、最も正確なマルチモーダル理解精度を実現します。 |
>>: マスク氏がxAIの目標を設定:汎用人工知能の実現期限は2029年
[[358162]]コアリーディング人工知能は、世界的な科学技術革命と産業変革の新たな流れを導く重...
人間は機械にゲームをさせることに魅了されているようだ。1770 年という早い時期に、発明家たちは「ト...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
テクノロジーの世界では、「ロボット工学」と「人工知能(AI)」という 2 つの用語がしばしば結び付け...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
米国の著作権法では「人間」という言葉はほとんど使われておらず、この問題を扱った訴訟は歴史上ほとんど起...
今日は、ビッグデータ、人工知能、認知問題の解決の関係ロジックについて話す記事を書こうと思います。した...
注意ベースのエンコーダー/デコーダー アーキテクチャである Transformer は、自然言語処理...
現在進行中のCOVID-19パンデミックにより、企業がリモートワークを実施する必要性が浮き彫りになり...
病気の診断から交響曲の作曲、車の運転から道徳的な判断に至るまで、人間が行えるあらゆる作業を機械が実行...
[[176276]]この記事では、主に、一般的に使用されているいくつかのアルゴリズムの適応シナリオと...
猛威を振るう新型コロナウイルス感染症のパンデミックは、経済と社会に大きな打撃を与えている。この世界的...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
翻訳者 | 夏東偉校正 | 梁哲、孫淑娟医療においては、データは患者の健康記録、医師の指示、処方箋か...