7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

7BモデルはGPT4-Vを超えます! HKUST などが「グラフ推論質問回答」データセットを公開 GITQA: 視覚的なグラフは推論能力を向上させることができます

グラフ ニューラル ネットワーク (GNN) は、グラフの構造情報を推論に活用するのに優れていますが、通常、最高のパフォーマンスを達成するにはドメイン固有の調整が必要であり、さまざまなタスク間での一般化を妨げます。

対照的に、大規模言語モデル (LLM) に基づくグラフ推論は、クロスタスク機能と一般化機能が強力ですが、特定のタスクでのパフォーマンスは専用のグラフ ニューラル ネットワーク モデルよりも劣ることがよくあります。

グラフニューラルネットワークによって表現される従来のグラフ推論であれ、大規模言語モデルに基づく新しいグラフ推論であれ、グラフ推論に関する現在の研究では、視覚モダリティのグラフ情報は無視されてきました。

しかし、人間は、グラフにサイクルがあるかどうかを判断するなどの視覚的な特徴を通じて、グラフタスクを効率的かつ正確に完了することができます。

したがって、グラフ推論における視覚グラフ情報の役割を探ることは非常に重要です。

もっと具体的に言うと、グラフを画像として描画することで、モデルに特別な推論機能を与えることができるのでしょうか?これらの画像 (ビジュアル グラフと呼ばれる) は、他のモダリティに基づく既存のグラフ推論モデルを強化できますか?

これらの疑問に答えるために、香港科技大学と南方科技大学の研究チームは、ビジュアルグラフを含む初の推論質問応答データセットGITQAを構築し、GPT-4 turbo、GPT-4VなどのオープンソースモデルとVicunaやLLaVAなどのクローズドソースモデルで広範な実験を実施し、グラフ推論におけるビジュアルグラフの役割と、テキストモダリティとどのように相互に強化できるかを確認しました。

写真

論文アドレス: https://arxiv.org/abs/2402.02130

プロジェクトホームページ: https://v-graph.github.io/

GITQAテストベンチマークでは、LLaVA-7B/13Bをベースに微調整されたマルチモーダルモデルGITA-7B/13Bが、GPT-4Vを上回るグラフ推論性能を発揮しました。

GITQA マルチモーダルグラフ推論質問応答データセット

研究チームは、グラフ構造をさまざまなスタイルの視覚画像に描画することで、GITQA データセットとそれに対応するテスト ベンチマークを確立しました。GITQA データセットには 423,000 を超える質問応答インスタンスが含まれており、それぞれに対応するグラフ構造、テキスト、視覚情報、および対応する質問と回答のペアが含まれています。

GITQA データセットには、GITQA-Base と GITQA-Aug の 2 つのバージョンが含まれており、GITQA-Base には単一のスタイルの視覚イメージのみが含まれています。

GITQA-Aug はさらに豊富です。レイアウト、ポイントの形状、エッジの幅、ポイントのスタイルの変更など、ビジュアル グラフ上でさまざまなデータ拡張プロセスを実行し、より多様なビジュアル グラフ表現を提供します。

写真

図 1 に示すように、GITQA テスト ベンチマークには、Connectivity (グラフ内の 2 つのポイントが接続されているかどうかを判断)、Cycle (グラフにサイクルがあるかどうかを判断)、TS (グラフのトポロジカル順序を見つける)、SP (グラフ内の 2 つのポイント間の最短パスを見つける)、MaxFlow (グラフ内の 2 つのポイント間の最大フロー計算)、BGM (2 部グラフの最大マッチング計算)、HP (グラフ内のハミルトン パスを見つける)、および GNN (GNN メッセージ パッシングのシミュレート) という 8 つの代表的なグラフ推論タスクが含まれています。

写真

各タスクに対応するデータセットは、グラフ構造の複雑さに応じて、異なる難易度のサブセットに分割されます (関連する統計は表 1 に示されています)。

実験と結果

実験1: 異なるモーダルグラフ情報に基づくモデルのグラフ推論能力の比較

研究チームは、テキストのみ (T-Only)、ビジョンのみ (V-Only)、テキストとビジョン (V+T) を含むさまざまなモーダルグラフ入力タイプに基づいて、GITQA-Base データセットで一般的なクローズドソースおよびオープンソースの大規模言語モデル (GPT-4 turbo や Vicuna-7B/13B など) と大規模マルチモーダル言語モデル (GPT-4V や LLaVA-7B/13B など) のパフォーマンスを評価しました。図2に示すように。

写真

具体的には、クローズドソースモデルのGPT-4とGPT-4Vはゼロショット推論を実行しますが、オープンソースモデルのVicunaとLLaVAについては、バックボーンモデルのパラメータを変更せずにプロジェクターとLoRA部分のみをトレーニングすることで微調整されます(特に、ビジュアル+テキストバイモーダル微調整後のLLaVAモデルは、研究者によってGITAと名付けられています)。

表 2 は、8 つのグラフ推論タスクすべてのテスト結果をまとめたものです。

写真

視覚的モダリティとテキスト的モダリティ

表 2 からわかるように、視覚モダリティは、Cycle タスクと BGM タスクではテキスト モダリティよりもパフォーマンスが優れていますが、他の 5 つのタスクではテキスト モダリティよりもパフォーマンスが劣っています。これは、視覚とテキストがそれぞれ特定の種類のグラフ推論タスクを処理する上で独自の強みを持っていることを示しています。視覚とテキストのモダリティの相互強化

クローズドソースモデルの場合、GPT-4V (V+T) は、8 つのタスクで GPT-4 Turbo (T のみ) および GPT-4V (V のみ) よりも平均精度がはるかに高くなります。

オープンソース モデル (7B、13B) の場合も、バイモーダル データを使用してトレーニングされた GITA モデルが平均して最高のパフォーマンスを発揮します。これらの観察により、視覚情報とテキスト情報の両方を使用すると、モデルのグラフ推論機能が強化され、単一モーダル モデルよりも優れたパフォーマンスを実現できることが証明されました。

具体的には、GITA-7B (V+T) は、ほぼすべてのタスクにおいて LLaVA-7B (V-only) および Vicuna-7B (T-only) よりも優れたパフォーマンスを発揮します。クローズドソース モデルの場合、バイモダリティを使用すると、8 つのタスクのうち 5 つで最高の精度が達成されます。微調整されたLLaVAモデルはGPT-4Vを上回る性能を発揮する

表 2 と図 3 に示すように、GITA-7B および GITA-13B モデル、つまりバイモーダル微調整された LLaVA-7B/13B モデルは、GPT-4V に比べて 13% を超える大幅なパフォーマンス向上を示しています。この大幅な改善は、微調整された GITA モデルが GITQA データセットから優れたグラフ推論機能を効果的に学習できることを示しています。

写真

実験2: グラフ課題における難易度の影響

表 3 には、さまざまな難易度レベルでのモデルのテスト精度も示されています (GNN タスクはすべてのモデルにとって難しすぎるため省略されています)。

すべての難易度のサイクル タスクと BGM タスクの両方において、視覚モダリティのみを使用するとテキスト モダリティよりもパフォーマンスが優れており、両方のモダリティを使用する場合と同等です。

ただし、他のタスクでは、難易度が簡単から中程度または困難に増加すると、視覚モダリティのみを使用するモデルのパフォーマンスが大幅に低下します。

写真

同様に、テキスト モダリティのみを使用するモデルや、ビジュアル + テキスト モダリティを使用するモデルでも、難易度が増すにつれてこれらのタスクでパフォーマンスが大幅に低下します。

接続性タスクでは、GITA-7B (ビジョン + テキスト) と GITA-13B (ビジョン + テキスト) は、3 つのチャレンジ レベルすべてで同等のパフォーマンスを示します。

ただし、GPT-4V (Vision+Text) ではこの一貫したパターンは見られず、難易度が上がるにつれてパフォーマンスが低下します。

実験3: 視覚イメージ強化戦略とスタイルの好み

研究チームは、モデルを微調整する際に特定のデータ拡張戦略の効果についても調査しました。

研究者は、さまざまな強化戦略に基づいて、GITQA-Aug データセットを、レイアウト強化データセット、ノード形状強化データセット、エッジ幅強化データセット、ノード スタイル強化データセットの 4 つの強化サブセットに分割しました。

写真

研究者らは、視覚的なグラフ情報のみを使用して、LLaVA-7B モデル上で 4 つの拡張サブセットすべてを個別に微調整し、データ拡張前の推論パフォーマンスとの比較を表 4 に示します。

レイアウト拡張データセットでの困難なタスクに対するモデルの推論能力が劇的に向上したことがはっきりとわかります (SP は 64.8% 増加し、HP は 69.63% 増加しました)。

他の 3 つのデータ拡張戦略はパフォーマンスの低下につながります。

具体的には、当社のモデルはレイアウト拡張セットで優れた結果を達成し、GITQA-Base セットを 11% 以上上回りました。比較すると、他の拡張セットの 8 つのタスクの平均結果は、基本セットの結果よりも約 5% 低くなります。

写真

これらの調査結果は、レイアウトベースのデータ拡張がグラフ推論に対してより効果的な視覚的視点を提供することを示唆しています。さらに、研究者らは、表 5 に示すように、さまざまな強化戦略の下で、同じグループ内の各スタイルに基づくビジュアル グラフ推論のパフォーマンスもテストし、モデルに明らかなスタイルの好みがないことを実証しました。

<<:  53ページのPDFがOpenAIの「AGIタイムライン」を公開、内部告発者:マスクの訴訟が状況を混乱させた

>>: 

ブログ    
ブログ    

推薦する

近年の機械学習の奇妙な状況

翻訳者注:人工知能分野の発展は学者の貢献と切り離せないものです。しかし、研究が進むにつれて、「クリッ...

ガートナーが中国のAIスタートアップに関するレポートを発表:ほとんどの企業がこれら3つの技術に注目

最近、著名な国際データ調査機関であるガートナーが「市場ガイド:中国AIスタートアップ」調査レポートを...

キャラクター AI は私たちのやり取りの方法をどのように変えるのでしょうか?

Persona AI は、人々がチャットボットと対話する方法に革命をもたらします。ニューラル言語モ...

将来、人工知能は冷酷な大量虐殺者になるのでしょうか?

人類の将来に対する最も永続的な恐怖の一つは、人工知能が人間の制御を逃れ、人類を絶滅させる可能性がある...

ロボットが医療に力を与える!しかし、医療ロボットがブレイクするまでには、まだ4歩の道のりがある。

今回の流行期間中、病院や最前線の防疫現場では、体温測定ロボット、消毒ロボット、検査ロボット、咽頭ぬぐ...

内部テスト中です! Word、Excel、Outlookに機械学習が搭載される

マイクロソフトは、機械学習を使用して人々がより効率的に仕事を遂行できるよう支援する、多数の新機能を ...

21 人の専門家が語る: 2017 年の人工知能の展望

2016年はボットにとって歴史的な年でした。Facebookなどの主要プラットフォームがMessen...

量子コンピューティングの画期的な論文3本がネイチャーの表紙に登場:忠実度は99%を超え、実用レベルに到達

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

地球全体をシミュレート: Nvidia の Earth-2 スーパーコンピューターが間もなくオンラインになります

「未来を今日どのように実現するか。その答えはシミュレーションだ」と、NVIDIAの創業者兼CEOのジ...

人工知能に適した9つのプログラミング言語

[[436583]] [51CTO.com クイック翻訳]人工知能という用語は、20 世紀半ばに生ま...

AIとIoTはどのように連携するのでしょうか?

人工知能 (AI) とモノのインターネット (IoT) の統合により、技術革新と機能の新しい時代が到...

人工知能は法曹界に新たな形を与えています。法務テクノロジー企業はどのようにしてクライアントにグローバルなサービスを提供できるのでしょうか?

法務テクノロジーには、弁護士とそのサポートスタッフが顧客に法務サービスを提供するのに役立つソフトウェ...