HKU などが GraphGPT をリリース: パラメータを 1/50 に微調整し、精度を 10 倍向上! LLMは長いトークンなしでグラフ構造を理解できる

グラフニューラルネットワークは、グラフ構造のデータを分析および学習するための強力なフレームワークとなり、ソーシャルネットワーク分析、レコメンデーションシステム、生物学的ネットワーク分析など、多くの分野で進歩を促進しています。

グラフニューラルネットワークの主な利点は、グラフデータに固有の構造情報と依存関係をキャプチャできることです。グラフニューラルネットワークは、メッセージの受け渡しと集約メカニズムを利用して、グラフ内の情報を効果的に伝播および結合し、複雑な関係をモデル化して正確な予測を行うことができます。

近年、さまざまなグラフニューラルネットワークアーキテクチャにより、グラフノード間の情報交換と集約にさまざまな革新が導入されています。たとえば、グラフ畳み込みネットワークは、畳み込み演算をグラフ構造データに移行して、効果的なグラフ構造の特徴表現を実現します。

グラフアテンションネットワークは、アテンションメカニズムを使用して、隣接するノードに異なる重みを割り当て、よりきめ細かい情報集約を実現します。

しかし、多くのグラフニューラルネットワーク手法の大きな制限は、教師あり学習に過度に依存していることであり、これにより、まばらでノイズの多いデータに対しては堅牢性と一般化能力が不十分になる可能性があります。グラフニューラルネットワークの一般化能力を高めるために、自己教師学習はグラフ表現学習における有望な方法となっている。

これらの方法は、さまざまな下流タスクに一般化できるグラフ表現を生成することを目的としていますが、下流のグラフ学習シナリオのラベルを使用して微調整する必要があります。ただし、下流のタスクでラベル付きデータに依存すると、特に高品質のラベルを取得するのが難しい場合、実際の状況では一般化能力が制限される可能性があります。

したがって、この研究の目的は、現実世界の困難なゼロショット学習シナリオに対処することで、グラフィカルモデルの一般化能力を向上させることです。この記事では、自然言語処理タスクにおける大規模言語モデルの大きな成功に触発され、香港大学のデータインテリジェンス研究所と Baidu が提案したグラフ構造大規模言語モデル (GraphGPT) を紹介します。このモデルは、さまざまな下流のデータセットとタスクで高度な一般化を実現できます。

論文リンク: https://arxiv.org/abs/2310.13023

コードリンク: https://github.com/HKUDS/GraphGPT

プロジェクトウェブサイト: https://graphgpt.github.io/

GraphGPT がより多くのオープンソースコミュニティ開発者を引き付け、議論や実践に参加してもらい、グラフ構造化データマイニングの分野における新たな章を共同で探求できることを願っています。

概要

一般的に、大規模な言語モデルとグラフ学習を組み合わせることは大きな課題です。

まず、グラフの構造情報と言語空間との間の適切な整合を達成するには、さらなる研究が必要です。

同時に、大規模言語モデルがグラフの構造情報を効果的に理解できるように導く方法と、大規模言語モデルにグラフ学習の下流タスクについて段階的に推論する能力を与える方法の両方が、現在直面している重要な課題です。

大規模言語モデルのグラフ構造をモデル化するためにプレーンテキストプロンプトを直接使用することの限界をより深く理解するために、この論文では、図 1 に示すように、一連の実験と比較を実施しました。

これらの実験により、グラフ構造をモデル化するためにテキストの手がかりのみに依存する場合に発生する可能性のある潜在的な問題が明らかになりました。

対照的に、新しいフレームワーク GraphGPT は、グラフの構造情報を保持して利用することで、これらの問題を効果的に解決し、記事カテゴリの正確な識別を実現します。

さらに、テキストベースのグラフ構造化ヒントを使用すると、入力トークンの数が増加し、実際のアプリケーションでは課題が生じます。

トークンシーケンスが長いと、計算コストとメモリコストが高くなり、実際のアプリケーションでは実現可能性が低くなります。

一方、既存の大規模言語モデルには入力の長さの制限があり、長いテキストプロンプトを使用した大規模グラフ構造モデリングの適用性がさらに制限されます。

これらの課題に対処するために、本論文では、慎重に設計されたグラフ指向の微調整パラダイムを使用して、大規模な言語モデルをグラフ構造に合わせることを目的とした GraphGPT と呼ばれる新しいフレームワークを提案します。

GraphGPT は、最初のステップとしてテキストグラフ構造のアライメントパラダイムを導入し、テキスト情報を対照的な方法で組み合わせて、グラフエンコーダーでのテキストセマンティクスの効果的なアライメントを実現します。

さらに、2 段階のグラフ指示微調整パラダイムを提案します。第 1 段階では、ラベルなしのグラフ構造データを使用して、大規模言語モデルが自己教師ありグラフマッチングタスクを通じてグラフデータに関連する構造知識を獲得するように誘導し、グラフ構造の理解を強化します。

第 2 段階では、さまざまな下流のグラフ学習タスクにおける大規模言語モデルの推論動作をさらにカスタマイズするために、タスク固有のグラフデータ命令を使用して大規模言語モデルを微調整し、モデルの適応性を向上させます。

最後に、クローズドソースの大規模言語モデル（ChatGPTなど）が抽出され、Chain-of-Thoughtを通じてGraphGPTに統合されます。これにより、段階的な推論機能が強化され、分布シフトによって引き起こされるパフォーマンスの低下が大幅に改善されます。

この研究の主な貢献は次のとおりです。

グラフのドメイン固有の構造知識を大規模言語モデルの推論機能と連携させて、グラフ学習の一般化を改善します。
提案された方法は、グラフ指示の微調整パラダイムを介して、大規模な言語モデルをグラフ構造データと整合させることを目的としています。このパラダイムは、自己教師ありの指示の微調整を組み合わせて、グラフ構造化知識に基づく大規模言語モデルの理解と推論の機能を強化します。さらに、さまざまなグラフ学習タスクにおけるモデルの適応性を向上させるために、タスク固有の命令の微調整が導入されています。
実験では、教師ありおよびゼロショットのグラフ学習タスクにおける GraphGPT のパフォーマンスを評価します。最先端のベースラインと比較することで、GraphGPT はさまざまな設定で優れた一般化機能を実証します。

方法

このセクションでは、GraphGPT グラフ命令微調整パラダイムの技術的な詳細について説明します。全体的なフレームワークを図 2 に示します。

テキストグラフの配置による構造情報のエンコード

GraphGPT でのグラフ構造エンコーダーの選択は非常に柔軟であり、複数のグラフ事前トレーニングパラダイムから取得されたさまざまな基本 GNN アーキテクチャを活用できます。

大規模言語モデルをグラフ構造とより効果的に整合させるために、このセクションでは、大規模言語モデルで適切に機能するグラフ構造のエンコード方法について説明します。

この論文では、以前の研究に触発されて、対照的な方法でテキスト情報をグラフ構造のエンコードプロセスに組み込んでいます。この論文では、事前トレーニング済みのパラメータを備えたグラフエンコーダーを GraphGPT モデルフレームワークに直接統合し、それによってグラフエンコーダーの機能をシームレスに統合します。

具体的には、グラフが元のテキストコンテンツに対応し、がノードの数を表し、が i 番目のノードのテキストの長さを表すものとします。エンコードされたグラフ表現とテキスト表現は、任意のグラフエンコーダー (グラフトランスフォーマーなど) とテキストエンコーダー (通常のトランスフォーマーなど) を通じて取得されます。

次に、対照学習を使用して、さまざまな次元でテキストと画像の位置合わせを実行します。

ここで、は比較ラベルであり、は異なる比較戦略の変換関数です。

2段階グラフ命令の微調整

1. 自己教師あり指導の微調整

グラフ命令微調整パラダイムの最初のフェーズでは、自己教師あり命令微調整メカニズムが導入され、グラフドメイン固有の構造知識が言語モデルに注入され、推論能力が向上し、グラフ構造内のコンテキスト情報を効果的に理解できるようになります。

具体的には、この論文では、言語モデルが自然言語タグを使用して異なるグラフノードを区別できるようにするための構造を考慮したグラフマッチングタスクを設計しています。この指示タスクは、グラフノードを対応するテキスト記述に正確に関連付ける上で重要な役割を果たし、それによってモデルのグラフ構造化データの理解を深めます。

指導設計

グラフマッチングタスクの指示は、i) グラフ情報、ii) 人間の質問、iii) GraphGPT の応答の 3 つの部分で構成されます。このタスクでは、グラフ内の各ノードが中心ノードと見なされ、h ホップのランダム近傍サンプリングが実行され、サブグラフ構造が取得されます。大規模言語モデルに対する自然言語入力は人間の問題です。

グラフマッチングタスクのコンテキストでは、コマンドはインジケータートークン<graph>とノードテキスト情報のシャッフルされたリストで構成されます。たとえば、論文引用グラフでは、ノードのテキスト情報は論文のタイトルに対応します。

グラフマッチングタスクにおける大規模言語モデルの目標は、各グラフノードトークンを対応するノードテキスト情報に揃えることです。これには、グラフノードトークンの順序に従ってノードテキスト情報リストを並べ替え、各グラフノードトークンを関連するテキスト記述に効果的に関連付ける必要があります。

戦略を微調整する

微調整プロセスを効率的に最適化するために、本論文では軽量なアライメント投影戦略を提案します。トレーニング中は、大規模言語モデルとグラフエンコーダーのパラメータは固定され、プロジェクターのパラメータのみが最適化されます。

トレーニング後、プロジェクターはエンコードされたグラフ表現をグラフノードトークンにマッピングすることを正常に学習し、大規模言語モデルはこれらのグラフノードトークンをさまざまなノードテキスト情報と調整することに優れていると想定されます。グラフノードトークンを自然言語トークンに合わせるためにプロジェクターが使用されますが、これは単一の線形レイヤーを実装するのと同じくらい簡単です。

このプロジェクターは、グラフノードトークンと自然言語トークン間の対応を確立します。元の自然言語トークンシーケンス内のインジケータートークン<graph>を、整列されたグラフノードトークンシーケンス { <graph_begin> 、 <graph_token>1 、...、 <graph_token>n 、 <graph_end> } に置き換えることで、大規模言語モデルの入力トークンシーケンスが得られます。

グラフマッチングプロセスは教師なしであることを考慮すると、さまざまなドメインからの大量のラベルなしグラフデータを活用して、学習済みプロジェクターの一般化能力を強化する機会があります。

2. 特定のタスク指示の微調整

第 2 段階では、ノード分類やリンク予測など、さまざまなグラフ学習タスクの特定の制約と要件を満たすようにモデルの推論動作を調整することを目的とした、タスク固有の命令の微調整を提案します。

タスク固有のグラフ指示を使用して大規模言語モデルを微調整することにより、モデルが現在のグラフ学習タスクにより適した応答を生成するように誘導し、さまざまなグラフ学習タスクを処理する際のモデルの適応性とパフォーマンスをさらに向上させます。

指導設計

各ノードのグラフ情報を生成するために、第 1 段階と同じ近傍サンプリング方式が採用されます。ノード分類タスクの場合、人間の質問指示には、インジケータートークン<graph>と中央ノードに関する特定のテキスト情報が含まれます。

この指示は、グラフ構造データと付随するテキスト情報に基づいて、言語モデルに中心ノードのカテゴリを予測するように指示します。図 3 では、さまざまなタスクの指示データのテンプレートを確認できます。

戦略を微調整する

トレーニングの第 2 段階では、トレーニングの第 1 段階で取得した構造認識プロジェクターのパラメータを初期状態として使用します。トレーニングプロセス中、大規模言語モデルとグラフエンコーダのパラメータは変更されず、前の段階でプロジェクターのパラメータを最適化することにのみ重点が置かれ、大規模言語モデルが下流のタスクとさらに整合し、グラフ構造を理解して解釈する能力が強化されます。

上記の 2 つのトレーニング段階を完了すると、GraphGPT は指定されたグラフ構造を理解し、提供されたグラフ上でさまざまなダウンストリームタスクを実行する機能を獲得します。

3. 思考連鎖の蒸留

多様なグラフデータに直面すると、言語モデルは新しい、または馴染みのないパターンや構造に遭遇する可能性があります。この分布の変化は、特にグラフデータの種類によってノードクラスの数が変わる場合に、正確で一貫性のある応答を生成する上で課題となる可能性があります。

この課題に対処し、分布の変化がある場合の精度を向上させるには、GraphGPT に段階的な推論機能を装備することが重要です。 Chain-of-Thought 技術にヒントを得て、Chain-of-Thought 技術を統合することで、GraphGPT によって生成されるテキストの一貫性と整合性を向上させ、モデルが思考の論理的展開に従い、与えられたグラフデータを理解して推論する能力をさらに強化できるようにすることを提案します。

しかし、思考連鎖技術のゲインはモデルパラメータの規模と大きく関係するため、より小さなモデルパラメータの下で思考連鎖技術のゲインを最大化する方法がどのように重要になります。

これを克服するために、私たちは過去の研究からインスピレーションを得て、クローズドソースの強力な言語モデル（2000億を超えるパラメータを持つGPT-3.5など）から思考連鎖推論機能を抽出し、GraphGPTが高品質で正確な回答を生成し、パラメータの増加を避けながらモデルの段階的な推論機能を強化できるようにしました。

引用グラフのノード分類タスクでは、ノードで表される論文の要約、タイトル、分類タスクの説明を入力の一部として取り込み、GPT-3.5言語モデルを使用して段階的な推論を行い、順次思考プロセスを通じて最終的な答えを導き出します。

生成された出力では、ビッグ言語モデルはノードクラスの予測を提供するだけでなく、各予測の詳細な説明も提供するため、モデルの推論と意思決定プロセスが透明で理解しやすいものになります。

さらにパフォーマンスを向上させるために、生成された思考チェーン命令データは、タスク固有の命令微調整段階用に以前に設計された命令と統合され、グラフ命令の微調整を実行します。

実験

1. 全体的なパフォーマンス

観察 1 全体的なパフォーマンスの優位性: GraphGPT は、教師ありシナリオとゼロショットシナリオの両方で、さまざまな最先端のベースラインモデルを一貫して上回ります。

特に、NodeFormer、DIFFormer、GKD などの最近開発された強力な GNN ベースのモデルは、教師あり設定で優れた構造モデリング機能を実証していますが、追加のトレーニングを行わずに新しいデータセットに転送すると、パフォーマンスが大幅に低下します。

対照的に、GraphGPT は、教師ありタスクにおける最先端の方法をすべて上回るだけでなく、ゼロショットグラフ学習シナリオで 2 ～ 10 倍の大幅な精度向上も達成します。

さらに、Baichuan-7B や Vicuna-7B などの大規模言語モデルに基づくソリューションは、さまざまなデータセットで安定したパフォーマンスを維持します。ただし、テキスト情報に基づいて予測を行うことに限定されています。

対照的に、GraphGPT はグラフ構造情報を効果的に保存し、グラフ学習タスクに対してより包括的なソリューションを提供します。

Obs.2 構造を考慮したグラフマッチングタスク:第一段階の命令の微調整の自己教師付きグラフマッチングタスクは、GraphGPT のゼロショット移行機能を強化する上で重要な役割を果たします。最初の段階では、豊富な構造情報をエンコードするグラフノードトークンを言語トークンと整合させることに重点が置かれます。

この調整により、モデルはグラフデータの固有の構造プロパティをより深く理解できるようになります。最初の段階がなければ、モデルはタスク固有の指示の微調整の 2 番目の段階のみを実行し、モデルは特定のデータセットに過剰適合する傾向が強くなります。

この場合、モデルのパフォーマンスは、基礎となるグラフ構造の真の理解ではなく、データセット固有のパターンと機能に大きく依存する可能性があります。これにより、モデルを新しい未知のデータセットに一般化する能力が制限される可能性があります。

Obs.3 思考連鎖蒸留: 「-std」および「-cot」バリアントは、思考連鎖蒸留を使用すると、より複雑なグラフ学習タスクに非常に役立つことを示しています。

標準の指示データセットを使用して微調整されたモデルは、3 つのクラスのみを含む PubMed データセットなどのより単純なタスクに転送されたときに、Arxiv-PubMed で 0.7011 の精度など、顕著な結果を達成しました。ただし、70 クラスの Cora データセットなどの複雑なタスクに適用すると、パフォーマンスは平凡なものになることがよくあります。

思考連鎖蒸留を通じてクローズドソースモデル (GPT-3.5) の強力な推論機能を活用することで、モデルはこの知識と推論機能を統合し、複雑なグラフタスクでのパフォーマンスを大幅に向上させることができます。

2. 一般化能力の探究

データが多いほど転送能力が強化されます。このセクションでは、まず、表 1 の「(Arxiv + PubMed)-Cora」列に示されているように、データ量が GraphGPT の転送能力に与える影響を調べます。

この実験では、Arxiv と PubMed のデータセットの組み合わせを使用してモデルをトレーニングし、Cora データセットでゼロショットテストを実施しました。

結果は、比較的小さな PubMed データセット (20,000 以上の項目を含む) を組み合わせることで、Cora 上の GraphGPT の転送パフォーマンスが大幅に向上することを示しています。対照的に、Arxiv と PubMed のみでトレーニングされた GNN ベースのモデルの転送パフォーマンスは低下します。

データは増えても忘れることはありません:このセクションでは、表 1 の「(Arxiv + PubMed)-Arxiv」列に示すように、元の Arxiv データに Arxiv と PubMed の指示データを組み合わせた場合のパフォーマンスをさらに検証します。

結果は、Arxiv 上のほとんどの従来の GNN ベースの方法のパフォーマンスが反復トレーニング後に大幅に低下することを示しています。対照的に、GraphGPT のパフォーマンスは優れています。

この現象は、GNN ベースのモデルで発生する壊滅的な忘却、つまり、より小さな PubMed データセットでトレーニングされたモデルの構造モデリング能力が損なわれることに起因すると考えられます。

ただし、2 段階のグラフ構造命令の微調整により、モデルはこの問題を効果的に軽減し、一般化されたグラフ構造パターンを保持することで GraphGPT のパフォーマンスを維持または向上させることができます。

一般化可能なマルチタスクグラフ学習者:命令の微調整に関する最近の研究では、異なる命令の微調整データを混合すると、大規模な言語モデルのパフォーマンスがさらに向上することが示されています。

本研究では、標準命令（-std）、思考連鎖命令（-cot）、標準命令（50%）と思考連鎖命令（50%）の混合（-mix）、リンク予測命令（Link）など、命令エントリ数の一貫性を確保しながら、異なるタイプの命令データを混合しました。

結果はそれぞれ表2と表3に示されています。効果的なデータ混合スキームにより、さまざまな設定で GraphGPT のパフォーマンスが大幅に向上することがわかります。

リンク予測命令を追加すると、ノード分類におけるモデルのパフォーマンスが大幅に向上します。ノード分類を追加した後、リンク予測のパフォーマンスも既存のモデルを上回ります。

異なるタスクからの指示を混合した後、モデルはさまざまなグラフ学習タスクを効果的に処理し、その知識を他の未知のデータセットに転送する能力を実証しました。

3. アブレーション実験

グラフ命令の微調整の効果:このセクションでは、「GS なし」のバリアントを使用して、グラフ構造情報を大規模言語モデルに組み込むことの利点を検討します。

このバリアントでは、大規模な言語モデルベース (具体的には Vicuna-7B-v1.5) が直接使用され、グラフ構造情報を組み込むことなく 3 つのデータセットに対してノード分類が実行されます。

結果は、GraphGPT が構造情報が不足している基本モデルよりも大幅に優れていることを示しています。これは、提案されたグラフ指示による微調整パラダイムにより、大規模な言語モデルがグラフ構造情報をより効果的に理解できるようになることを示しています。

重要なのは、このパフォーマンスの向上は、大規模言語モデルの元のパラメータを変更せずに達成されることです。

代わりに、線形投影操作のレイヤーを介してグラフノードトークンと自然言語トークンをアラインメントする軽量のアラインメントプロジェクターを介して完全に実装されます。

大規模言語モデルが意味的推論の強化に与える影響:このセクションでは、教師あり予測とゼロショット予測にデフォルトのグラフエンコーダーのみを使用して、大規模言語モデルが GraphGPT の推論機能に与える影響を評価します。このバリアントは「w/o LR」と呼ばれます。

私たちの結果は、大規模な言語モデルを備えた GraphGPT が、特にゼロショット条件でグラフエンコーダーのパフォーマンスを大幅に向上させることを示しています。これは、大規模な言語モデルによって注入された豊富な意味情報によってパフォーマンスが大幅に向上することを示唆しています。

4. モデル効率研究

トレーニング効率:提案された命令微調整フレームワークは、大規模言語モデルとグラフエンコーダーのパラメーターが固定され、画像とテキストの位置合わせプロジェクターのみが微調整される 2 段階のプロセスに従います。 4 カード 40G Nvidia A100 環境で、大規模言語モデルのパラメータのフリーズと微調整 (それぞれ「-freeze」と「-tune」で示される) を比較しました。

この研究では、トレーニング時間、微調整されたパラメータの数、GPU フットプリント (GPU あたり MiB) の観点から時間と空間の効率を分析します。同じ実験条件下で、大規模な言語モデルパラメータを調整すると、バッチサイズが 1 でも GPU メモリ不足 (OOM) エラーが発生しました。

ただし、提案された微調整戦略を使用すると、バッチサイズが 2 でもトレーニングプロセスは安定したままになります。

さらに、提案された微調整戦略により、大規模な言語モデルを完全に微調整する場合と比較して、パラメータの数が 50 倍以上削減されます。

推論効率:このサブセクションでは、baichuan-7B、vicuna-7B-v1.1、vicuna-7B-v1.5 と比較して、GraphGPT の推論速度と精度をさらに評価します。

この実験では、単一の 40G Nvidia A100 を使用して、Arxiv および Cora の思考連鎖命令データセットでの推論時間 (応答あたりの秒数) を測定しました。結果を図 4 に示します。 GraphGPT は優れた効率性と精度を発揮します。

推論時間が短いことが必ずしもパフォーマンスの向上を意味するわけではないことに注意してください。baichuan-7B は、迅速に回答を提供しますが、多くの場合、不正確または無関係な回答を提供します。一方、vicuna-7B-v1.1 および vicuna-7B-v1.5 では、より良い回答を得るために、より長く複雑な推論手順が必要になります。

対照的に、GraphGPT は短い推論プロセスを通じて正確な予測を実現し、推論効率を向上させます。

5. モデルケーススタディ

このセクションでは、ダウンストリームグラフ学習タスクにおける GraphGPT のパフォーマンスを詳細に分析し、さまざまな種類の命令を使用する従来の大規模言語モデルと比較します。

実験では、Arxiv データプロンプト ChatGPT と GraphGPT を使用し、ノードコンテンツ (タイトルと概要) のみを使用するもの、テキストベースのグラフ構造を持つノードコンテンツを使用するもの、本論文で設計されたグラフ命令を使用するものなど、さまざまな種類の命令が使用されています。

結果は図 5 に示されています。これは、ChatGPT のパラメータ数が膨大であるにもかかわらず (2000 億以上)、ノードのテキスト情報またはテキストベースのグラフ構造を持つノードのコンテンツのみに基づいて正確な予測を行うことが依然として難しいことを明確に示しています。

これは、例に示されているように、機械学習とハードウェアアーキテクチャの交差点など、非常に学際的な性質を持つ論文を扱う場合に特に当てはまります。対照的に、GraphGPT は常に正確な予測を提供し、もっともらしい説明を提供します。

これは、GraphGPT が 103 個のノードを持つサブグラフ構造を受け入れ、隣接ノードの引用関係から豊富な構造情報を抽出して、正確な予測を実現できるためです。

さらに、グラフノードトークンを使用してグラフ構造を大規模言語モデルへの入力として表すと、自然言語ソリューションよりも効率的になります。

103 ノードのサブグラフの場合、GraphGPT では LLM に入力するのに 750 トークンのみが必要ですが、テキストベースのアプローチでは 4649 トークンが必要です。トークン消費量の大幅な削減は、トレーニングと推論のリソース要件の大幅な削減につながります。

まとめと今後の課題

本論文では、グラフ構造モデルの一般化能力を向上させることを目的として、効果的でスケーラブルなグラフ構造大規模言語モデルを提案する。提案されたフレームワーク GraphGPT は、2 段階のグラフ命令微調整パラダイムを介して、グラフドメイン固有の構造知識を大規模言語モデルに注入します。

シンプルでありながら効果的なグラフテキストアライメントプロジェクターを活用することで、言語モデルがグラフ構造を理解して解釈できるようになります。さまざまな設定での広範な評価により、教師ありグラフ学習シナリオとゼロショットグラフ学習シナリオの両方で当社のモデルの有効性が実証されています。

さらに、このモデルは強力な一般化機能を備えているため、壊滅的な忘却に悩まされることなく、さまざまな下流のデータセットやタスクを処理できます。

今後の研究の方向性としては、LLM の冗長なパラメータや重要度の低いパラメータを圧縮する剪定手法を探求し、それによってパフォーマンスを維持しながら全体的なモデルサイズを縮小することです。

もう一つ

グラフ基礎モデルに関する考察:最近、自然言語処理 (NLP) やコンピュータービジョン (CV) の分野で基礎モデルが急成長しており、多くの素晴らしいアプリケーションが登場しています (ChatGPT や Segment Anything など)。

しかし、グラフ学習の分野では、どのように基本モデルを構築するか、またグラフ学習の分野における基本モデルが存在するかどうかは、常に未定でした。これは、異なるグラフ構造の「セマンティクス」がまったく異なるため、統一されたモデルを使用してデータセット間のマルチタスクグラフ構造モデリングを実現することは不可能だからです。

私たちの研究は、大規模言語モデルの強力なセマンティックモデリング機能を活用し、グラフ命令の微調整方法を使用して大規模言語モデルに構造理解機能を持たせることを可能にし、グラフベースモデルの開発方向として役立ちます。

データ中心のグラフ学習に関する考察:基本モデルの開発により、データ中心の人工知能 (データ中心 AI) の有効性と優位性が実証されています。しかし、異なるグラフ構造間の「構造的関係」は、NLP のような統一されたトークン表現や CV のピクセル表現に変換できないため、データ中心のグラフ学習をどのように定義し開発するかについてはまだ合意が得られていません。

私たちの実験では、GraphGPT は複数のデータを混合する場合に、より強力な精度、一般化、およびマルチタスク特性を発揮し、従来のグラフニューラルネットワークの壊滅的な忘却問題を軽減できることがわかりました。

したがって、提案されたグラフ命令の微調整フレームワークは、データ中心のグラフ学習のための優れた研究基盤として役立つと考えています。

<<: 英国の消費者団体が警告：AIチャットボットがオンライン詐欺をよりプロフェッショナル化

>>: