7BモデルはGPT4-Vを超えます！ HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

グラフニューラルネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが、通常、最高のパフォーマンスを達成するにはドメイン固有の調整が必要であり、さまざまなタスク間での一般化を妨げます。

対照的に、大規模言語モデル (LLM) に基づくグラフ推論は、クロスタスク機能と一般化機能が強力ですが、特定のタスクでのパフォーマンスは専用のグラフニューラルネットワークモデルよりも劣ることがよくあります。

グラフニューラルネットワークによって表現される従来のグラフ推論であれ、大規模言語モデルに基づく新しいグラフ推論であれ、グラフ推論に関する現在の研究では、視覚モダリティのグラフ情報は無視されてきました。

しかし、人間は、グラフにサイクルがあるかどうかを判断するなどの視覚的な特徴を通じて、グラフタスクを効率的かつ正確に完了することができます。

したがって、グラフ推論における視覚グラフ情報の役割を探ることは非常に重要です。

もっと具体的に言うと、グラフを画像として描画することで、モデルに特別な推論機能を与えることができるのでしょうか?これらの画像 (ビジュアルグラフと呼ばれる) は、他のモダリティに基づく既存のグラフ推論モデルを強化できますか?

これらの疑問に答えるために、香港科技大学と南方科技大学の研究チームは、ビジュアルグラフを含む初の推論質問応答データセットGITQAを構築し、GPT-4 turbo、GPT-4VなどのオープンソースモデルとVicunaやLLaVAなどのクローズドソースモデルで広範な実験を実施し、グラフ推論におけるビジュアルグラフの役割と、テキストモダリティとどのように相互に強化できるかを確認しました。

写真

論文アドレス: https://arxiv.org/abs/2402.02130

プロジェクトホームページ: https://v-graph.github.io/

GITQAテストベンチマークでは、LLaVA-7B/13Bをベースに微調整されたマルチモーダルモデルGITA-7B/13Bが、GPT-4Vを上回るグラフ推論性能を発揮しました。

GITQA マルチモーダルグラフ推論質問応答データセット

研究チームは、グラフ構造をさまざまなスタイルの視覚画像に描画することで、GITQA データセットとそれに対応するテストベンチマークを確立しました。GITQA データセットには 423,000 を超える質問応答インスタンスが含まれており、それぞれに対応するグラフ構造、テキスト、視覚情報、および対応する質問と回答のペアが含まれています。

GITQA データセットには、GITQA-Base と GITQA-Aug の 2 つのバージョンが含まれており、GITQA-Base には単一のスタイルの視覚イメージのみが含まれています。

GITQA-Aug はさらに豊富です。レイアウト、ポイントの形状、エッジの幅、ポイントのスタイルの変更など、ビジュアルグラフ上でさまざまなデータ拡張プロセスを実行し、より多様なビジュアルグラフ表現を提供します。

写真

図 1 に示すように、GITQA テストベンチマークには、Connectivity (グラフ内の 2 つのポイントが接続されているかどうかを判断)、Cycle (グラフにサイクルがあるかどうかを判断)、TS (グラフのトポロジカル順序を見つける)、SP (グラフ内の 2 つのポイント間の最短パスを見つける)、MaxFlow (グラフ内の 2 つのポイント間の最大フロー計算)、BGM (2 部グラフの最大マッチング計算)、HP (グラフ内のハミルトンパスを見つける)、および GNN (GNN メッセージパッシングのシミュレート) という 8 つの代表的なグラフ推論タスクが含まれています。

写真

各タスクに対応するデータセットは、グラフ構造の複雑さに応じて、異なる難易度のサブセットに分割されます (関連する統計は表 1 に示されています)。

実験と結果

実験1: 異なるモーダルグラフ情報に基づくモデルのグラフ推論能力の比較

研究チームは、テキストのみ (T-Only)、ビジョンのみ (V-Only)、テキストとビジョン (V+T) を含むさまざまなモーダルグラフ入力タイプに基づいて、GITQA-Base データセットで一般的なクローズドソースおよびオープンソースの大規模言語モデル (GPT-4 turbo や Vicuna-7B/13B など) と大規模マルチモーダル言語モデル (GPT-4V や LLaVA-7B/13B など) のパフォーマンスを評価しました。図2に示すように。

写真

具体的には、クローズドソースモデルのGPT-4とGPT-4Vはゼロショット推論を実行しますが、オープンソースモデルのVicunaとLLaVAについては、バックボーンモデルのパラメータを変更せずにプロジェクターとLoRA部分のみをトレーニングすることで微調整されます（特に、ビジュアル+テキストバイモーダル微調整後のLLaVAモデルは、研究者によってGITAと名付けられています）。

表 2 は、8 つのグラフ推論タスクすべてのテスト結果をまとめたものです。

写真

視覚的モダリティとテキスト的モダリティ

表 2 からわかるように、視覚モダリティは、Cycle タスクと BGM タスクではテキストモダリティよりもパフォーマンスが優れていますが、他の 5 つのタスクではテキストモダリティよりもパフォーマンスが劣っています。これは、視覚とテキストがそれぞれ特定の種類のグラフ推論タスクを処理する上で独自の強みを持っていることを示しています。視覚とテキストのモダリティの相互強化

クローズドソースモデルの場合、GPT-4V (V+T) は、8 つのタスクで GPT-4 Turbo (T のみ) および GPT-4V (V のみ) よりも平均精度がはるかに高くなります。

オープンソースモデル (7B、13B) の場合も、バイモーダルデータを使用してトレーニングされた GITA モデルが平均して最高のパフォーマンスを発揮します。これらの観察により、視覚情報とテキスト情報の両方を使用すると、モデルのグラフ推論機能が強化され、単一モーダルモデルよりも優れたパフォーマンスを実現できることが証明されました。

具体的には、GITA-7B (V+T) は、ほぼすべてのタスクにおいて LLaVA-7B (V-only) および Vicuna-7B (T-only) よりも優れたパフォーマンスを発揮します。クローズドソースモデルの場合、バイモダリティを使用すると、8 つのタスクのうち 5 つで最高の精度が達成されます。微調整されたLLaVAモデルはGPT-4Vを上回る性能を発揮する

表 2 と図 3 に示すように、GITA-7B および GITA-13B モデル、つまりバイモーダル微調整された LLaVA-7B/13B モデルは、GPT-4V に比べて 13% を超える大幅なパフォーマンス向上を示しています。この大幅な改善は、微調整された GITA モデルが GITQA データセットから優れたグラフ推論機能を効果的に学習できることを示しています。

写真

実験2: グラフ課題における難易度の影響

表 3 には、さまざまな難易度レベルでのモデルのテスト精度も示されています (GNN タスクはすべてのモデルにとって難しすぎるため省略されています)。

すべての難易度のサイクルタスクと BGM タスクの両方において、視覚モダリティのみを使用するとテキストモダリティよりもパフォーマンスが優れており、両方のモダリティを使用する場合と同等です。

ただし、他のタスクでは、難易度が簡単から中程度または困難に増加すると、視覚モダリティのみを使用するモデルのパフォーマンスが大幅に低下します。

写真

同様に、テキストモダリティのみを使用するモデルや、ビジュアル + テキストモダリティを使用するモデルでも、難易度が増すにつれてこれらのタスクでパフォーマンスが大幅に低下します。

接続性タスクでは、GITA-7B (ビジョン + テキスト) と GITA-13B (ビジョン + テキスト) は、3 つのチャレンジレベルすべてで同等のパフォーマンスを示します。

ただし、GPT-4V (Vision+Text) ではこの一貫したパターンは見られず、難易度が上がるにつれてパフォーマンスが低下します。

実験3: 視覚イメージ強化戦略とスタイルの好み

研究チームは、モデルを微調整する際に特定のデータ拡張戦略の効果についても調査しました。

研究者は、さまざまな強化戦略に基づいて、GITQA-Aug データセットを、レイアウト強化データセット、ノード形状強化データセット、エッジ幅強化データセット、ノードスタイル強化データセットの 4 つの強化サブセットに分割しました。

写真

研究者らは、視覚的なグラフ情報のみを使用して、LLaVA-7B モデル上で 4 つの拡張サブセットすべてを個別に微調整し、データ拡張前の推論パフォーマンスとの比較を表 4 に示します。

レイアウト拡張データセットでの困難なタスクに対するモデルの推論能力が劇的に向上したことがはっきりとわかります (SP は 64.8% 増加し、HP は 69.63% 増加しました)。

他の 3 つのデータ拡張戦略はパフォーマンスの低下につながります。

具体的には、当社のモデルはレイアウト拡張セットで優れた結果を達成し、GITQA-Base セットを 11% 以上上回りました。比較すると、他の拡張セットの 8 つのタスクの平均結果は、基本セットの結果よりも約 5% 低くなります。

写真

これらの調査結果は、レイアウトベースのデータ拡張がグラフ推論に対してより効果的な視覚的視点を提供することを示唆しています。さらに、研究者らは、表 5 に示すように、さまざまな強化戦略の下で、同じグループ内の各スタイルに基づくビジュアルグラフ推論のパフォーマンスもテストし、モデルに明らかなスタイルの好みがないことを実証しました。

<<: 53ページのPDFがOpenAIの「AGIタイムライン」を公開、内部告発者：マスクの訴訟が状況を混乱させた

>>: