7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

グラフ ニューラル ネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが、通常、最高のパフォーマンスを達成するにはドメイン固有の調整が必要であり、さまざまなタスク間での一般化を妨げます。

対照的に、大規模言語モデル (LLM) に基づくグラフ推論は、クロスタスク機能と一般化機能が強力ですが、特定のタスクでのパフォーマンスは専用のグラフ ニューラル ネットワーク モデルよりも劣ることがよくあります。

グラフニューラルネットワークによって表現される従来のグラフ推論であれ、大規模言語モデルに基づく新しいグラフ推論であれ、グラフ推論に関する現在の研究では、視覚モダリティのグラフ情報は無視されてきました。

しかし、人間は、グラフにサイクルがあるかどうかを判断するなどの視覚的な特徴を通じて、グラフタスクを効率的かつ正確に完了することができます。

したがって、グラフ推論における視覚グラフ情報の役割を探ることは非常に重要です。

もっと具体的に言うと、グラフを画像として描画することで、モデルに特別な推論機能を与えることができるのでしょうか?これらの画像 (ビジュアル グラフと呼ばれる) は、他のモダリティに基づく既存のグラフ推論モデルを強化できますか?

これらの疑問に答えるために、香港科技大学と南方科技大学の研究チームは、ビジュアルグラフを含む初の推論質問応答データセットGITQAを構築し、GPT-4 turbo、GPT-4VなどのオープンソースモデルとVicunaやLLaVAなどのクローズドソースモデルで広範な実験を実施し、グラフ推論におけるビジュアルグラフの役割と、テキストモダリティとどのように相互に強化できるかを確認しました。

写真

論文アドレス: https://arxiv.org/abs/2402.02130

プロジェクトホームページ: https://v-graph.github.io/

GITQAテストベンチマークでは、LLaVA-7B/13Bをベースに微調整されたマルチモーダルモデルGITA-7B/13Bが、GPT-4Vを上回るグラフ推論性能を発揮しました。

GITQA マルチモーダルグラフ推論質問応答データセット

研究チームは、グラフ構造をさまざまなスタイルの視覚画像に描画することで、GITQA データセットとそれに対応するテスト ベンチマークを確立しました。GITQA データセットには 423,000 を超える質問応答インスタンスが含まれており、それぞれに対応するグラフ構造、テキスト、視覚情報、および対応する質問と回答のペアが含まれています。

GITQA データセットには、GITQA-Base と GITQA-Aug の 2 つのバージョンが含まれており、GITQA-Base には単一のスタイルの視覚イメージのみが含まれています。

GITQA-Aug はさらに豊富です。レイアウト、ポイントの形状、エッジの幅、ポイントのスタイルの変更など、ビジュアル グラフ上でさまざまなデータ拡張プロセスを実行し、より多様なビジュアル グラフ表現を提供します。

写真

図 1 に示すように、GITQA テスト ベンチマークには、Connectivity (グラフ内の 2 つのポイントが接続されているかどうかを判断)、Cycle (グラフにサイクルがあるかどうかを判断)、TS (グラフのトポロジカル順序を見つける)、SP (グラフ内の 2 つのポイント間の最短パスを見つける)、MaxFlow (グラフ内の 2 つのポイント間の最大フロー計算)、BGM (2 部グラフの最大マッチング計算)、HP (グラフ内のハミルトン パスを見つける)、および GNN (GNN メッセージ パッシングのシミュレート) という 8 つの代表的なグラフ推論タスクが含まれています。

写真

各タスクに対応するデータセットは、グラフ構造の複雑さに応じて、異なる難易度のサブセットに分割されます (関連する統計は表 1 に示されています)。

実験と結果

実験1: 異なるモーダルグラフ情報に基づくモデルのグラフ推論能力の比較

研究チームは、テキストのみ (T-Only)、ビジョンのみ (V-Only)、テキストとビジョン (V+T) を含むさまざまなモーダルグラフ入力タイプに基づいて、GITQA-Base データセットで一般的なクローズドソースおよびオープンソースの大規模言語モデル (GPT-4 turbo や Vicuna-7B/13B など) と大規模マルチモーダル言語モデル (GPT-4V や LLaVA-7B/13B など) のパフォーマンスを評価しました。図2に示すように。

写真

具体的には、クローズドソースモデルのGPT-4とGPT-4Vはゼロショット推論を実行しますが、オープンソースモデルのVicunaとLLaVAについては、バックボーンモデルのパラメータを変更せずにプロジェクターとLoRA部分のみをトレーニングすることで微調整されます(特に、ビジュアル+テキストバイモーダル微調整後のLLaVAモデルは、研究者によってGITAと名付けられています)。

表 2 は、8 つのグラフ推論タスクすべてのテスト結果をまとめたものです。

写真

視覚的モダリティとテキスト的モダリティ

表 2 からわかるように、視覚モダリティは、Cycle タスクと BGM タスクではテキスト モダリティよりもパフォーマンスが優れていますが、他の 5 つのタスクではテキスト モダリティよりもパフォーマンスが劣っています。これは、視覚とテキストがそれぞれ特定の種類のグラフ推論タスクを処理する上で独自の強みを持っていることを示しています。視覚とテキストのモダリティの相互強化

クローズドソースモデルの場合、GPT-4V (V+T) は、8 つのタスクで GPT-4 Turbo (T のみ) および GPT-4V (V のみ) よりも平均精度がはるかに高くなります。

オープンソース モデル (7B、13B) の場合も、バイモーダル データを使用してトレーニングされた GITA モデルが平均して最高のパフォーマンスを発揮します。これらの観察により、視覚情報とテキスト情報の両方を使用すると、モデルのグラフ推論機能が強化され、単一モーダル モデルよりも優れたパフォーマンスを実現できることが証明されました。

具体的には、GITA-7B (V+T) は、ほぼすべてのタスクにおいて LLaVA-7B (V-only) および Vicuna-7B (T-only) よりも優れたパフォーマンスを発揮します。クローズドソース モデルの場合、バイモダリティを使用すると、8 つのタスクのうち 5 つで最高の精度が達成されます。微調整されたLLaVAモデルはGPT-4Vを上回る性能を発揮する

表 2 と図 3 に示すように、GITA-7B および GITA-13B モデル、つまりバイモーダル微調整された LLaVA-7B/13B モデルは、GPT-4V に比べて 13% を超える大幅なパフォーマンス向上を示しています。この大幅な改善は、微調整された GITA モデルが GITQA データセットから優れたグラフ推論機能を効果的に学習できることを示しています。

写真

実験2: グラフ課題における難易度の影響

表 3 には、さまざまな難易度レベルでのモデルのテスト精度も示されています (GNN タスクはすべてのモデルにとって難しすぎるため省略されています)。

すべての難易度のサイクル タスクと BGM タスクの両方において、視覚モダリティのみを使用するとテキスト モダリティよりもパフォーマンスが優れており、両方のモダリティを使用する場合と同等です。

ただし、他のタスクでは、難易度が簡単から中程度または困難に増加すると、視覚モダリティのみを使用するモデルのパフォーマンスが大幅に低下します。

写真

同様に、テキスト モダリティのみを使用するモデルや、ビジュアル + テキスト モダリティを使用するモデルでも、難易度が増すにつれてこれらのタスクでパフォーマンスが大幅に低下します。

接続性タスクでは、GITA-7B (ビジョン + テキスト) と GITA-13B (ビジョン + テキスト) は、3 つのチャレンジ レベルすべてで同等のパフォーマンスを示します。

ただし、GPT-4V (Vision+Text) ではこの一貫したパターンは見られず、難易度が上がるにつれてパフォーマンスが低下します。

実験3: 視覚イメージ強化戦略とスタイルの好み

研究チームは、モデルを微調整する際に特定のデータ拡張戦略の効果についても調査しました。

研究者は、さまざまな強化戦略に基づいて、GITQA-Aug データセットを、レイアウト強化データセット、ノード形状強化データセット、エッジ幅強化データセット、ノード スタイル強化データセットの 4 つの強化サブセットに分割しました。

写真

研究者らは、視覚的なグラフ情報のみを使用して、LLaVA-7B モデル上で 4 つの拡張サブセットすべてを個別に微調整し、データ拡張前の推論パフォーマンスとの比較を表 4 に示します。

レイアウト拡張データセットでの困難なタスクに対するモデルの推論能力が劇的に向上したことがはっきりとわかります (SP は 64.8% 増加し、HP は 69.63% 増加しました)。

他の 3 つのデータ拡張戦略はパフォーマンスの低下につながります。

具体的には、当社のモデルはレイアウト拡張セットで優れた結果を達成し、GITQA-Base セットを 11% 以上上回りました。比較すると、他の拡張セットの 8 つのタスクの平均結果は、基本セットの結果よりも約 5% 低くなります。

写真

これらの調査結果は、レイアウトベースのデータ拡張がグラフ推論に対してより効果的な視覚的視点を提供することを示唆しています。さらに、研究者らは、表 5 に示すように、さまざまな強化戦略の下で、同じグループ内の各スタイルに基づくビジュアル グラフ推論のパフォーマンスもテストし、モデルに明らかなスタイルの好みがないことを実証しました。

<<:  53ページのPDFがOpenAIの「AGIタイムライン」を公開、内部告発者:マスクの訴訟が状況を混乱させた

>>: 

ブログ    
ブログ    

推薦する

...

AIが自動化に適した日常的なITタスク3つ

AIで自動化できる3つのITタスク幸いなことに、人工知能が役に立ちます。ここでは、AI が手動で実行...

ディープフェイクを生成して癌を診断できる?GANは決して悪ではない

[[270043]]ビッグデータダイジェスト制作出典: floydhub編纂者:Luan Hongy...

...

GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している

皆さん、GPT-4 のパラメータは 1 兆を超える可能性があります。最近、アメリカの有名なハッカーで...

5分でPythonのランダムヒルクライミングアルゴリズムをマスターする

ランダム化ヒルクライミングは最適化アルゴリズムです。検索プロセスの一部としてランダム性を使用します。...

AIを信頼していない経営者は何を考えているのか?

経営幹部は長い間、より高度な意思決定にデータ分析を使用することに抵抗し、AI 支援による意思決定より...

人工知能産業の急速な発展の背後にある4つの大きな無駄

[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...

AI、機械学習、ディープラーニングの解放

【51CTO.com クイック翻訳】 [[393512]] AI、機械学習、ディープラーニングの発展...

...

...

AI+医療がさらに一歩前進:免疫療法と精密医療の推進

免疫療法はがんの診断と治療に革命をもたらしていますが、まだ少数の患者(20%~30%)にしか効果があ...

従来のデータを超えて、インテリジェンスへの道はどこにあるのでしょうか?

AI がビジネスの世界に導入されたとき、AI は顧客体験に革命をもたらすなど、顧客のニーズをよりよ...

人工知能(AI)と機械学習(ML)の最新動向

[[422288]]人工知能 (AI) には、分析モデルの構築を自動化する機械学習 (ML) を含む...