大規模言語モデルと知識グラフに関する共同研究のレビュー：2つの相補的な技術的利点

大規模言語モデル (LLM) はすでに強力ですが、さらに強力になる可能性があります。 LLM は、ナレッジグラフと組み合わせることで、事実知識の欠如、幻覚、説明可能性などの多くの問題を解決できると期待されています。また、LLM はナレッジグラフを支援し、強力なテキストおよび言語理解機能を提供することもできます。そして、この 2 つを完全に統合できれば、さらに多用途な人工知能を実現できるかもしれません。

本日は、LLMとナレッジグラフの連携に関する研究をレビューした論文を紹介します。ナレッジグラフによるLLMの強化に関する研究の進捗、ナレッジグラフによるLLMの強化に関する研究成果、LLMとナレッジグラフの連携に関する最新の成果などが紹介されています。この記事で紹介されている一般的な枠組みは、読者が参照するのに非常に便利です。

写真

論文: https://arxiv.org/abs/2306.08302v1

BERT、RoBERTA、T5 などの大規模コーパスで事前トレーニングされた大規模言語モデル (LLM) は、質問応答、機械翻訳、テキスト生成などのさまざまな自然言語処理 (NLP) タスクで非常に優れたパフォーマンスを発揮します。最近、モデルのサイズが劇的に拡大するにつれて、LLM はさらに新たな機能を獲得し、LLM を汎用人工知能 (AGI) として使用する道が開かれました。 ChatGPT や PaLM2 などの最先端の LLM には、数百億から数千億のパラメータがあり、教育、コード生成、推奨などの多くの複雑な実用的なタスクを解決する可能性があります。

LLM には多くの成功したアプリケーションがありますが、事実に関する知識の欠如により批判されてきました。具体的には、LLM はトレーニングコーパスに含まれる事実と知識を記憶します。しかし、さらなる研究により、LLM は事実を思い出すことができず、幻覚、つまり誤った事実に基づく発言を生成する問題を抱えていることが多いことが分かりました。たとえば、LLM に「アインシュタインはいつ重力を発見したのですか?」と質問すると、「アインシュタインは 1687 年に重力を発見しました」と答えるかもしれません。しかし、実際には、重力の理論を提唱したのはアイザックニュートンです。この種の問題は、LLM の信頼性に重大な損害を与える可能性があります。

LLM は解釈可能性に欠けるブラックボックスモデルであり、批判されてきました。 LLM はパラメータを通じて暗黙的に知識を表します。そのため、LLM によって得られた知識を解釈し、検証することは困難です。さらに、LLM は確率モデルを介して推論を実行しますが、これは決定的なプロセスではありません。 LLM が予測や決定を下すために使用する特定のパターンや機能の詳細や解釈に人間が直接アクセスするのは困難です。一部の法学修士課程の学生は思考の連鎖を利用して独自の予測を説明することができますが、彼らが推論する説明には依然として錯覚の問題が残ります。これは、医療診断や法的判断など、リスクの高いシナリオにおける LLM の適用に重大な影響を及ぼすでしょう。たとえば、医療診断のシナリオでは、LLM が誤診し、医学的常識に反する説明を行う可能性があります。これにより、別の問題が発生します。一般的なコーパスでトレーニングされた LLM は、ドメイン固有の知識や新しいトレーニングデータが不足しているため、特定のドメインや新しい知識にうまく一般化できない可能性があります。

上記の問題を解決するには、知識グラフ (KG) を LLM に統合することが潜在的な解決策となります。ナレッジグラフは、大量の事実をトリプル (ヘッドエンティティ、リレーションシップ、テールエンティティ) の形式で保存できます。したがって、ナレッジグラフは構造化された決定的な形式の知識表現です。例としては、Wikidata、YAGO、NELL などがあります。ナレッジグラフは正確で明確な知識を提供するため、さまざまなアプリケーションにとって重要です。また、解釈可能な結果を生み出すことができる優れた記号推論能力を備えていることでも知られています。ナレッジグラフは、新しい知識が継続的に入力されることで、積極的に進化することもできます。さらに、専門家が特定の分野でナレッジグラフを構築できるようにすることで、特定の分野における正確で信頼性の高い知識を提供できるようになります。

しかし、ナレッジグラフの構築は難しく、現実世界のナレッジグラフは不完全で動的に変化することが多いため、現在のナレッジグラフ手法では対処が困難です。これらの方法では、目に見えないエンティティを効果的にモデル化し、新しい知識を表現することができません。さらに、ナレッジグラフ内の豊富なテキスト情報は見落とされがちです。さらに、既存のナレッジグラフの方法は、特定のナレッジグラフまたはタスクに合わせてカスタマイズされることが多く、一般化機能が欠けています。したがって、ナレッジグラフが直面する課題に対処するには、LLM を使用する必要があります。図 1 は、LLM とナレッジグラフの利点と欠点をまとめたものです。

写真

図 1: LLM とナレッジグラフの利点と欠点のまとめ。

図に示すように、LLMの利点は、一般知識、言語処理、一般化能力です。 LLM の欠点: 暗黙の知識、錯覚問題、決定不可能な問題、ブラックボックス、ドメイン固有の知識と新しい知識の欠如。ナレッジグラフの利点: 構造化された知識、正確性、意思決定能力、説明可能性、ドメイン固有の知識、知識の進化。ナレッジグラフの欠点: 不完全性、言語理解の欠如、目に見えない知識。

最近、LLM とナレッジグラフを組み合わせる可能性が、研究者や実務家からますます注目を集めています。 LLM とナレッジグラフは本質的に相互に関連しており、相互に強化することができます。 LLM がナレッジグラフで強化されると、ナレッジグラフは LLM の事前トレーニングおよび推論段階に統合されて外部知識を提供できるだけでなく、LLM を分析して説明可能性を提供するためにも使用できます。 LLM を使用してナレッジグラフを強化するという点では、LLM は、ナレッジグラフの埋め込み、ナレッジグラフの補完、ナレッジグラフの構築、ナレッジグラフからテキストの生成、ナレッジグラフの質問と回答など、さまざまなナレッジグラフ関連のアプリケーションで使用されてきました。 LLM はナレッジグラフのパフォーマンスを向上させ、そのアプリケーションにメリットをもたらします。 LLM とナレッジグラフの連携に関する関連研究では、研究者は LLM とナレッジグラフの利点を組み合わせて、知識の表現と推論の機能が相互に促進されるようにしました。

この論文では、LLM とナレッジグラフを組み合わせるための将来的なロードマップを提供し、読者がそれぞれの利点を活用し、さまざまな下流タスクにおけるそれぞれの制限を克服する方法を理解するのに役立ちます。詳細な分類と包括的な概要が含まれており、急速に発展しているこれらの分野の新たな方向性を指摘しています。この論文の主な貢献は次のとおりです。

1. ロードマップ: この論文では、LLM とナレッジグラフの統合に関する将来的なロードマップを示します。このロードマップには、LLM とナレッジグラフを組み合わせるための 3 つの一般的なフレームワーク (ナレッジグラフによる LLM の強化、ナレッジグラフによる LLM の強化、ナレッジグラフによる LLM の連携) が含まれています。これら 2 つの異なるが補完的な手法を統合するためのガイドラインを提供することができます。

2. 分類と概要評価: このロードマップの各統合モードについて、詳細な分類と新しい分類法が提供されます。各カテゴリについて、さまざまな統合戦略とタスクの観点から関連する研究作業を要約して評価し、各フレームワークに関するより多くの洞察を提供します。

3. 新しい進歩のカバー: この論文では、LLM と知識グラフの高度な技術をカバーしています。 ChatGPT や GPT-4 などの現在最も先進的な LLM や、マルチモーダルナレッジグラフなどの新しいナレッジグラフテクノロジについて説明します。

4. 課題と将来の方向性: 本論文では、現在の研究が直面している課題についても説明し、将来の研究の方向性の可能性についても示します。

LLMとナレッジグラフの基礎

大規模言語モデル (LLM)

大規模コーパスで事前トレーニングされた LLM は、さまざまな NLP タスクを解決でき、大きな可能性を秘めています。図 3 に示すように、ほとんどの LLM は、エンコーダーモジュールとデコーダーモジュールを含み、自己注意メカニズムを採用した Transformer 設計から派生しています。 LLM は、アーキテクチャの違いにより、エンコーダーのみの LLM、エンコーダーとデコーダーの LLM、デコーダーのみの LLM の 3 つのカテゴリに分類できます。図 2 は、さまざまなアーキテクチャ、モデルサイズ、オープンソースであるかどうかなど、いくつかの代表的な LLM をまとめたものです。

写真

図2: 近年の代表的なLLM。実線のボックスはオープンソースモデルを表し、白抜きのボックスはクローズドソースモデルを表します。

写真

図 3: Transformer をベースにし、自己注意メカニズムを使用した LLM の概略図。

迅速なエンジニアリング設計

プロンプトエンジニアリングは、LLM がさまざまなアプリケーションや研究分野で最も効果を発揮できるように、プロンプトの作成と最適化に重点を置いた新しい分野です。図 4 に示すように、プロンプトは LLM の自然言語入力シーケンスであり、特定のタスク (感情分類など) 用に作成する必要があります。プロンプトには、指示、背景情報、入力テキストなど、複数の要素を含めることができます。指示は、モデルに特定のタスクを実行するように指示する短い文です。コンテキストは、入力テキストまたは少量学習に関連する情報を提供します。入力テキストは、モデルによって処理される必要があるテキストです。

写真

図4: 感情分類プロンプトの例

プロンプトエンジニアリングデザインの目標は、質問への回答、感情の分類、常識的な推論など、多様で複雑なタスクに対処する LLM の能力を向上させることです。 Chain of Thought (CoT) プロンプトは、中間の推論ステップを通じて複雑な推論を可能にします。もう 1 つのアプローチは、外部の知識を統合して、より優れた知識強化プロンプトを設計することです。自動プロンプトエンジニアリング (APE) は、LLM のパフォーマンスを向上できるプロンプトの自動生成方法です。 prompt を使用すると、LLM を微調整することなくその潜在能力を最大限に活用できます。プロンプトエンジニアリングデザインを習得すると、LLM の利点と欠点をよりよく理解できるようになります。

ナレッジグラフ (KG)

ナレッジグラフは、構造化された知識を (エンティティ、リレーションシップ、エンティティ) の 3 つの要素のセットとして保存します。保存されている情報に応じて、既存のナレッジグラフは、百科事典ナレッジグラフ、常識ナレッジグラフ、ドメイン固有のナレッジグラフ、マルチモーダルナレッジグラフの 4 つのカテゴリに分類できます。図 5 は、さまざまなカテゴリのナレッジグラフの例を示しています。

写真

図 5: さまざまなカテゴリのナレッジグラフの例。

応用

LLM とナレッジグラフはどちらも幅広い用途があります。表 1 は、LLM とナレッジグラフの代表的なアプリケーションをまとめたものです。

写真

表 1: LLM とナレッジグラフの代表的なアプリケーション。

ロードマップと分類

以下では、まず LLM とナレッジグラフを組み合わせるためのフレームワークを示すロードマップを示し、次に関連する研究を分類します。

ロードマップ

図 6 は、LLM とナレッジグラフを組み合わせるためのロードマップを示しています。このロードマップには、LLM とナレッジグラフを組み合わせるための 3 つのフレームワーク (ナレッジグラフによる LLM の強化、ナレッジグラフによる LLM の強化、ナレッジグラフによる LLM の連携) が含まれています。

写真

図 6: ナレッジグラフと LLM を組み合わせる一般的なロードマップ。

写真

図 7: LLM とナレッジグラフコラボレーションの一般的なフレームワーク。データ、コラボレーションモデル、テクノロジ、アプリケーションの 4 つのレイヤーが含まれます。

分類

共同 LLM とナレッジグラフに関する研究をより深く理解するために、この論文では各フレームワークの詳細な分類も提供しています。具体的には、ここでは、LLM とナレッジグラフを統合するさまざまな方法、つまり、ナレッジグラフによる LLM の強化、LLM によるナレッジグラフの強化、および LLM とナレッジグラフ間の連携に焦点を当てています。図8は関連研究を細かく分類したものです。

写真

図8: LLMとナレッジグラフを組み合わせた関連研究の分類。

ナレッジグラフによる LLM の強化

大規模言語モデルは、多くの自然言語処理タスクで優れたパフォーマンスを発揮します。しかし、LLM は実践的な知識が不足しており、推論において事実誤認が頻繁に起こると批判されています。この問題に対処する 1 つの方法は、ナレッジグラフを使用して LLM を強化することです。

具体的な方法はいくつかあります。1 つは、知識グラフを使用して LLM 事前トレーニングを強化することです。その目的は、事前トレーニング段階で LLM に知識を注入することです。 2 つ目は、知識グラフを使用して LLM 推論を強化することです。これにより、LLM は文を生成するときに最新の知識を考慮できるようになります。 3 つ目は、ナレッジグラフを使用して LLM の解釈可能性を高め、LLM の動作をより深く理解できるようにすることです。表 2 は、知識グラフを使用して LLM を強化するための一般的な方法をまとめたものです。

写真

表 2: ナレッジグラフを使用して LLM を強化する方法。

ナレッジグラフでLLM事前トレーニングを強化する

既存の LLM は主に、大規模なコーパスに対する教師なしトレーニングに依存しています。これらのモデルは下流のタスクでは優れたパフォーマンスを発揮しますが、現実世界に関連する実用的な知識が欠けています。知識グラフを LLM に統合するという点では、これまでの研究は、知識グラフをトレーニング目標に統合する、知識グラフを LLM の入力に統合する、知識グラフを追加の融合モジュールに統合する、という 3 つのカテゴリに分けられます。

写真

図 9: テキスト知識アライメント損失を通じて知識グラフ情報を LLM のトレーニング目標に注入します。ここで、h は LLM によって生成された潜在表現を表します。

写真

図 10: グラフ構造を使用して知識グラフ情報を LLM の入力に注入します。

写真

図 11: 追加の融合モジュールを介して知識グラフを LLM に統合します。

ナレッジグラフによる LLM 推論の強化

上記の方法により、知識を LLM のテキスト表現と効果的に統合できます。しかし、現実世界の知識は変化するため、これらの方法には、モデルを再トレーニングしない限り、組み込まれた知識を更新できないという制限があります。したがって、推論中に目に見えない知識にうまく一般化できない可能性があります。

いくつかの研究では、知識空間をテキスト空間から分離し、推論に知識を注入することに焦点を当てています。これらの方法は主に質問応答 (QA) タスクに焦点を当てています。QA では、モデルがテキストの意味と最新の現実世界の知識の両方をキャプチャする必要があるためです。

写真

図 12: LLM 推論のための動的知識グラフ融合。

写真

図 13: 外部知識を取得して LLM 生成を強化する。

ナレッジグラフによる LLM の解釈可能性の向上

LLM は多くの NLP タスクで優れたパフォーマンスを発揮していますが、解釈可能性に欠けるという批判が依然としてあります。 LLM の解釈可能性とは、大規模言語モデルの内部動作と意思決定プロセスを理解し、説明することを意味します。これにより、LLM の信頼性が高まり、医療診断や法的裁定などの重要なシナリオでの LLM の応用が促進されます。ナレッジグラフは知識を構造化された方法で表現するため、推論結果の優れた説明可能性を提供できます。したがって、研究者は必然的に知識グラフを使用して LLM の解釈可能性を向上させようとします。関連する研究は、言語モデル検出のための知識グラフと言語モデル分析のための知識グラフの 2 つのカテゴリに大別できます。

写真

図 14: 知識グラフを使用した言語モデル検出の一般的なフレームワーク。

写真

図 15: 知識グラフを使用した言語モデル分析の一般的なフレームワーク。

LLM によるナレッジグラフの強化

ナレッジグラフの最も注目すべき特徴は、構造化された知識表現です。これらは、質問への回答、推奨、Web 検索など、多くの下流タスクに適用できます。しかし、従来のナレッジグラフは不完全であることが多く、既存の方法ではテキスト情報が考慮されないことがよくあります。

これらの問題を解決するために、一部の研究者は、LLM を使用して知識グラフを強化し、テキスト情報を考慮できるようにして、下流のタスクのパフォーマンスを向上させることを検討しました。表3に代表的な研究成果をまとめた。これには、ナレッジグラフの埋め込み、ナレッジグラフの補完、ナレッジグラフからテキストの生成、ナレッジグラフの質問と回答など、LLM を使用してナレッジグラフを強化するさまざまな方法が含まれます。

写真

表 3: LLM を使用してナレッジグラフを強化するための代表的な方法。

LLM によるナレッジグラフの埋め込みの強化

ナレッジグラフエンベディング (KGE) の目標は、各エンティティと関係を低次元のベクトル (エンベディング) 空間にマッピングすることです。これらの埋め込みには、ナレッジグラフの意味情報と構造情報の両方が含まれており、質問への回答、推論、推奨などのさまざまなタスクに使用できます。従来のナレッジグラフ埋め込み方法は、主にナレッジグラフの構造情報に依存して、埋め込みで定義されたスコアリング関数を最適化します (TransE や DisMult など)。しかし、これらの方法では、構造的な接続性が限られているため、目に見えないエンティティやロングテールの関係を表現することが困難です。

図 16 は最近の研究を示しています。この問題に対処するために、この方法では LLM を使用してエンティティと関係のテキスト記述をエンコードし、知識グラフの表現を充実させます。

写真

図 16: ナレッジグラフ埋め込み用のテキストエンコーダーとして LLM を使用する。

写真

図 17: テキストと知識グラフの共同埋め込みのための LLM。

LLM によるナレッジグラフの補完の強化

ナレッジグラフ補完 (KGC) タスクの目的は、特定のナレッジグラフ内の欠落している事実を推測することです。 KGE と同様に、従来の KGC 手法は、広範なテキスト情報を考慮せずに、主に知識グラフの構造に焦点を当てています。

しかし、最近の研究では、LLM を KGC 方式に統合してテキストをエンコードしたり事実を生成したりすることで、より優れた KGC パフォーマンスを実現しています。これらの方法は、使用方法に基づいて、LLM をエンコーダーとして使用する (PaE) 方法と、LLM をジェネレーターとして使用する (PaG) 方法の 2 つのカテゴリに分類されます。

写真

図 18: LLM をエンコーダーとして使用して知識グラフを完成させるための一般的なフレームワーク (PaE)。

写真

図 19: LLM をジェネレーター (PaG) として使用して知識グラフを完成させる一般的なフレームワーク。En. と De. はそれぞれエンコーダーとデコーダーを表します。

写真

図 20: プロンプトベースの PaG を使用して知識グラフを完成させるためのフレームワーク。

LLM を使用した知識グラフ構築の強化

ナレッジグラフの構築には、特定のドメインにおける知識の構造化された表現の作成が含まれます。これには、エンティティの識別とエンティティ間の関係の識別が含まれます。ナレッジグラフの構築プロセスには通常、エンティティの検出、共参照の解決、関係の抽出など、複数の段階が含まれます。図 21 は、ナレッジグラフ構築のさまざまな段階で LLM を使用する一般的なフレームワークを示しています。最近の研究では、エンドツーエンドの知識グラフ構築（1 ステップで完全な知識グラフを構築する）と、LLM から直接知識グラフを抽出することも検討されています。

写真

図 21: LLM に基づいてナレッジグラフを構築するための一般的なフレームワーク。

写真

図 22: LLM から知識グラフを抽出するための一般的なフレームワーク。

LLM を使用して知識グラフをテキスト生成に拡張する

ナレッジグラフからテキスト (KG からテキスト) の生成の目標は、入力されたナレッジグラフ情報を正確かつ一貫して記述できる高品質のテキストを生成することです。ナレッジグラフからテキスト生成への変換では、ナレッジグラフをテキストに接続します。これにより、ストーリー作成や知識ベースの会話など、より現実的な自然言語生成シナリオでナレッジグラフの使いやすさが大幅に向上します。しかし、大量のナレッジグラフとテキストの並列データを収集することは困難でコストもかかるため、トレーニングが不十分になり、生成品質が低下する可能性があります。

そのため、LLM の知識をどのように活用するかという問題を解決するために多くの研究が行われてきました。この問題を解決するために、大規模な弱教師付き知識グラフテキストコーパスを構築するにはどうすればよいでしょうか?

写真

図 23: ナレッジグラフからテキストを生成するための一般的なフレームワーク。

LLM によるナレッジグラフの質問応答の強化

ナレッジグラフ質問応答 (KGQA) の目標は、ナレッジグラフに保存された構造化された事実に基づいて、自然言語の質問に対する回答を見つけることです。 KGQA には、関連する事実を取得し、ナレッジグラフの推論の利点を質問応答タスクに拡張するという避けられない課題があります。そのため、最近の研究では、自然言語の質問と構造化された知識グラフの間のギャップを埋めるために LLM が採用されています。

図 24 は、KGQA に LLM を使用する一般的なフレームワークを示しています。ここで、LLM は、エンティティ/関係抽出器および回答推論器として使用できます。

写真

図 24: ナレッジグラフの質問応答に LLM を使用するための一般的なフレームワーク。

LLMとナレッジグラフのコラボレーション

LLM とナレッジグラフの連携は近年大きな注目を集めています。この方法は、LLM とナレッジグラフの利点を統合して、さまざまな下流のタスクにより適切に対応できます。たとえば、LLM は自然言語を理解するために使用でき、ナレッジグラフは事実の知識を提供するための知識ベースとして使用できます。 LLM とナレッジグラフを組み合わせることで、知識の表現と推論を実行するための強力なモデルを作成できます。

ここでは、知識表現と推論という 2 つの側面から、LLM と知識グラフの連携に焦点を当てます。表4に代表的な研究成果をまとめた。

写真

表 4: LLM とナレッジグラフの共同手法の概要。

知識表現

テキストコーパスとナレッジグラフの両方に大量の知識が含まれています。ただし、テキストコーパス内の知識は通常は暗黙的かつ非構造化であるのに対し、ナレッジグラフ内の知識は明示的かつ構造化されています。したがって、この知識を統一的に表現するためには、テキストコーパスとナレッジグラフ内の知識を整合させる必要があります。図25は、知識表現タスクのためにLLMと知識グラフを統合する一般的なフレームワークを示しています。

写真

図 25: 知識表現タスクのために LLM と知識グラフを統合するための一般的なフレームワーク。

KEPLER は、知識の埋め込みと事前トレーニング済みの言語表現のための統合モデルです。 KEPLER は LLM を使用してテキストエンティティの説明を埋め込みにエンコードし、知識の埋め込みと言語モデリングの目的を共同で最適化します。 JointGT は、知識グラフとテキストの表現を一致させるために 3 つの事前トレーニングタスクが提案される、知識グラフとテキストの共同表現学習モデルを提案します。 DRAGON は、テキストと知識グラフに基づいて言語と知識の結合基本モデルを事前トレーニングできる自己教師あり方式を提供します。入力はテキストスニペットと関連するナレッジグラフサブグラフであり、これら 2 つのモダリティからの情報を双方向に融合します。次に、DRAGON は、マスク言語モデリングと知識グラフリンク予測という 2 つの自己教師あり推論タスクを使用して、モデルのパラメータを最適化します。 HKLM は、知識グラフを統合してドメイン固有の知識の表現を学習する共同 LLM を導入します。

推論

LLM とナレッジグラフの利点を同時に活用するために、研究者は LLM とナレッジグラフを使用して、さまざまなアプリケーションの推論タスクも実行します。質問応答タスクでは、QA-GNN は最初に LLM を使用してテキスト質問を処理し、次に知識グラフの推論ステップをガイドします。これにより、テキストと構造化された情報の間に橋が架けられ、推論プロセスの説明が提供されます。

知識グラフ推論タスクでは、LARK は LLM によってガイドされる論理的推論方法を提案します。まず、従来の論理ルールを言語シーケンスに変換し、次に LLM を使用して最終出力を推論します。さらに、Siyuan らは、統一されたフレームワークを通じて構造推論と言語モデルの事前トレーニングを統合しました。テキスト入力が与えられると、LLM を採用して論理クエリを生成し、それをナレッジグラフ上で実行して構造化されたコンテキスト情報を取得できます。最後に、この構造化されたコンテキストがテキスト情報と融合され、最終的な出力が生成されます。

RecInDial はナレッジグラフと LLM を組み合わせて、対話システムでパーソナライズされた推奨事項を提供します。 KnowledgeDA は、ドメイン知識グラフを使用して特定のタスクのトレーニングプロセスを強化する、統合されたドメイン言語モデル開発プロセスを提案します。