13 の視覚言語タスクをクリアしましょう!ハルビン工業大学がマルチモーダル大型モデル「九天」をリリース、性能が5%向上

マルチモーダル大規模言語モデルにおける視覚情報抽出が不十分な問題に対処するため、ハルビン工業大学（深圳）の研究者らは、二重層知識強化型マルチモーダル大規模言語モデル「JiuTian-LION」を提案した。

論文リンク: https://arxiv.org/abs/2311.11860

GitHub: https://github.com/rshaojimmy/JiuTian

プロジェクトのホームページ: https://rshaojimmy.github.io/Projects/JiuTian-LION

既存の研究と比較して、Jiutian は初めて画像レベルの理解タスクと領域レベルのローカリゼーションタスク間の内部競合を分析し、2 つのタスクの相互改善を実現するためのセグメント化された命令の微調整戦略とハイブリッドアダプターを提案しました。

きめ細かな空間認識と高度な意味的視覚知識を注入することで、Jiutian は画像の説明、視覚的な質問、視覚的な配置を含む 17 の視覚言語タスクで大幅なパフォーマンスの向上を達成し (たとえば、視覚空間推論で最大 5% のパフォーマンス向上)、13 の評価タスクで国際トップレベルに達しました。パフォーマンスの比較を図 1 に示します。

図 1: 他の MLLM と比較して、Jiutian はほとんどのタスクで最高のパフォーマンスを実現します。

九天ライオン

大規模言語モデル (LLM) の驚異的な言語理解能力を利用して、いくつかの研究では、LLM にマルチモーダル知覚機能を与えることでマルチモーダル大規模言語モデル (MLLM) を生成するようになり、多くの視覚言語タスクで画期的な進歩を遂げています。ただし、既存の MLLM のほとんどは、CLIP-ViT などの画像とテキストのペアから事前トレーニングされたビジュアルエンコーダーを使用しています。

これらの視覚エンコーダは、主に画像レベルで粗い画像とテキストのモダリティの調整を学習しますが、きめ細かい視覚理解を含む包括的な視覚認識および情報抽出機能が欠けています。

視覚情報の抽出と理解が不十分であるというこの問題は、図 2 に示すように、視覚的位置決定バイアス、不十分な空間推論、物体幻覚など、MLLM の多くの欠陥につながることになります。

図 2: 二重層視覚知識強化マルチモーダル大規模言語モデル - JiuTian (JiuTian-LION)。

既存のマルチモーダル大規模言語モデル (MLLM) と比較して、Jiutian はきめ細かい空間認識視覚知識と高レベルの意味的視覚証拠を注入することで MLLM の視覚理解能力を効果的に向上させ、より正確なテキスト応答を生成し、MLLM の幻覚現象を軽減します。

JiuTian-LION、二層視覚知識で強化されたマルチモーダル大規模言語モデル

MLLM における視覚情報の抽出不足と理解不足の問題を補うために、研究者は JiuTian-LION と呼ばれる二重層の視覚知識強化を備えた MLLM を提案しました。この方法のフレームワークを図 3 に示します。

この方法は主に、きめ細かな空間認識視覚知識の段階的な組み込みと高レベルの意味的視覚証拠のソフトプロンプトという 2 つの側面から MLLM を強化します。

具体的には、研究者らは、画像レベルの理解タスクと領域レベルの定位タスク間の内部矛盾を解決するためにセグメント化された命令の微調整戦略を提案し、きめ細かい空間認識知識を MLLM に徐々に注入しました。同時に、高レベルの意味的視覚的証拠として画像ラベルが MLLM に追加され、誤ったラベルによる潜在的な悪影響を軽減するためにソフトヒント方式が使用されます。

図3: JiuTian-LIONモデルのフレームワーク図。

この研究では、セグメント化されたトレーニング戦略を使用して、まず Q-Former と Vision Aggregator – MLP ブランチに基づいて画像レベルの理解と領域レベルのローカリゼーションタスクを学習し、次に最終トレーニングステージでルーティングメカニズムを備えたハイブリッドアダプターを使用して、異なるブランチの知識を動的に融合し、両方のタスクでモデルのパフォーマンスを向上させます。

この研究では、RAM を介して画像ラベルを高レベルの意味的視覚的証拠として抽出し、高レベルの意味的注入の効果を向上させるソフトヒント法を提案しています。

きめ細かな空間認識視覚知識を段階的に統合する

画像レベルの理解タスク（画像の説明や視覚的な質問への回答など）が、領域レベルのローカリゼーションタスク（指示表現の理解、指示表現の生成など）と単一のステージで直接混在すると、MLLM は 2 つのタスク間で内部競合に遭遇し、すべてのタスクで全体的に良好なパフォーマンスを達成できなくなります。

研究者たちは、この内部対立は主に2つの問題によって引き起こされていると考えています。最初の問題は、領域レベルのモーダルアライメントの事前トレーニングが不足していることです。現在、領域レベルのローカリゼーション機能を備えたほとんどの MLLM は、大量の関連データを使用して事前トレーニングされています。そうしないと、トレーニングリソースが限られているため、画像レベルのモーダルアライメントに基づく視覚機能を領域レベルのタスクに適応させることは困難です。

もう 1 つの問題は、画像レベルの理解タスクと領域レベルのローカリゼーションタスクの間の入出力パターンの違いです。後者では、モデルがオブジェクトの座標に関する特定の短い文 ( の形式) をさらに理解する必要があります。上記の問題を解決するために、研究者はセグメント化された命令の微調整戦略とルーティングメカニズムを備えたハイブリッドアダプターを提案しました。

図 4 に示すように、研究者は単一段階の命令の微調整プロセスを 3 つの段階に分割しました。

ステージ 1 では、ViT、Q-Former、および画像レベルアダプターを使用して、画像レベルの理解タスクに含まれるグローバルな視覚知識を学習します。ステージ 2 では、Vision Aggregator、MLP、および領域レベルアダプターを使用して、領域レベルのローカリゼーションタスクに含まれるきめ細かい空間認識視覚知識を学習します。ステージ 3 では、ルーティングメカニズムを備えたハイブリッドアダプターを提案し、異なるブランチで学習された異なる粒度の視覚知識を動的に融合します。表 3 は、単一段階のトレーニングと比較した区分的命令微調整戦略のパフォーマンス上の利点を示しています。

図4: セグメント化された命令の微調整戦略

ソフトヒントによる高レベルの意味的視覚証拠の注入

研究者らは、強力な補足として、画像タグを高レベルの意味的視覚証拠として使用し、MLLM の全体的な視覚認識と理解能力をさらに強化することを提案しました。

具体的には、まずイメージタグが RAM から抽出され、次に「<ヒント> によると、次のタグの使用または部分的な使用が許可されています」という特定の指示テンプレートを使用してイメージタグがパッケージ化されます。命令テンプレート内の「<hint>」は、学習可能なソフトヒントベクターに置き換えられます。

テンプレート内の特定のフレーズ「使用または部分的に使用」と組み合わせることで、ソフトヒントベクトルはモデルをガイドし、誤ったラベルによる潜在的な悪影響を軽減することができます。

実験結果

研究者らは、画像キャプション作成、視覚的質問応答（VQA）、REC を含む 17 のベンチマークタスクでアルゴリズムを評価しました。

実験結果によると、Jiutian は 13 の評価セットで国際トップレベルに達しました。特に、InstructBLIP および Shikra と比較して、Jiutian はそれぞれ画像レベルの理解タスクおよび領域レベルのローカリゼーションタスクにおいて包括的かつ一貫したパフォーマンスの向上を達成し、視覚空間推論 (VSR) タスクでは最大 5% の向上を達成できます。

図 5 は、さまざまな視覚言語マルチモーダルタスクにおける Jiutian と他の MLLM の能力の違いを示しており、Jiutian はよりきめ細かい視覚理解と視覚空間推論機能を実現し、幻覚の少ないテキスト応答を出力できることを示しています。

図5: JiutianモデルとInstructBLIPおよびShikraの能力の違いに関する定性分析

図 6 は、サンプル分析を通じて、Jiutian モデルが画像レベルと領域レベルの両方の視覚言語タスクにおいて優れた理解および認識能力を備えていることを示しています。

図6: 画像と領域レベルの視覚的理解の観点からJiutianモデルの機能を示す、さらなる例の分析

要約する

（１）本研究では、新しいマルチモーダル大規模言語モデル「Jiutian」を提案する。これは、2層の視覚知識によって強化されたマルチモーダル大規模言語モデルである。

（２）この研究は、画像の説明、視覚的な質問応答、指示的表現の理解など17の視覚言語タスクベンチマークで評価され、これらの評価セットのうち13で現在最高のパフォーマンスを達成しました。

（３）本研究では、画像レベルの理解と領域レベルの定位タスク間の内部矛盾を解決し、２つのタスクの相互改善を達成するためのセグメント化された指示微調整戦略を提案する。

（4）この研究は、画像レベルの理解と領域レベルの位置決めタスクを統合して、複数のレベルで視覚シーンを包括的に理解することに成功しました。将来的には、この包括的な視覚理解能力を具体化された知能シナリオに適用して、ロボットが現在の環境をより良く、より包括的に識別して理解し、効果的な意思決定を行うのに役立ちます。

<<: Microsoft は「プロンプトエンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90％を超える

>>: マトリックスシミュレーション！ Transformer の大型モデルの 3D 視覚化。GPT-3 と Nano-GPT の各層がはっきりと見える