ChatGPT のパフォーマンスが最大 214% 向上し、7 つのグラフが更新されました。 IDEA、HKUST GuazhouなどがToG思考マップを提案

大きなモデルは良いですが、「深刻なナンセンス」の問題をどのように解決するのでしょうか?

金融、法律、医学などの重要な分野では、幻覚の問題が常に大規模モデルの実用化を制限する主なボトルネックとなってきました。

これらの欠点を補い、より多くの業界が新しい生産性変化の探求に迅速に参加できるようにする方法は、現在のAI研究における重要なテーマです。その中でも、大規模モデル（LLM）と知識グラフ（KG）を統合して前者の欠点を補うことは、多くの注目を集めている研究方向です。

最近、IDEA 研究所、Microsoft Research Asia、香港科技大学、香港科技大学 (広州)、厦門大学、南カリフォルニア大学の研究チームが Think-on-Graph テクノロジーを発表しました。LLM と KG の緊密に連携した相互作用により、LLM エージェントは知識グラフ上で「考える」ようになり、徐々に最適な答えを検索して推論します。

写真

論文アドレス: https://arxiv.org/abs/2307.07697

コードリンク: https://github.com/IDEA-FinAI/ToG

次に、Think-on-Graph の「脳回路」を理解するために、難しい質問をしてみましょう。Duan Yu と Hong Qigong のどちらの武術スキルが優れているかを客観的に評価するにはどうすればよいでしょうか。（段羽は『半神半魔』、洪気功は『射雁英雄伝』の登場人物です。この二人は同じ作品には登場しません。）

まず、地球上で最も強力なモデルである GPT-4 が何を言っているかを見てみましょう。

写真

LLM は大量の断片化されたコーパスを使用してトレーニングされるため、この種の手がかり分析に基づく推論問題は、LLM にとって非常に困難です。回答から、幻覚の出現に加えて、2 人のキャラクターの武術レベルを比較する際に、GPT-4 は表現上の事実を列挙することに重点を置いており、詳細な論理的分析が欠けていることが容易にわかります。では、Think-on-Graph はどのように問題を解決するのでしょうか?

写真

まず、地図帳の知識によると、六経神剣は大理段家の最も強力な武術であり、太陽一指は大理段家の常用武術です。そのため、大模型は「六経神剣」が「太陽一指」よりも強いと判断し、さらに段羽の武術は太陽一指を持ち武術界の最高峰である易登師匠よりも強いと推論します。そして、地図帳に記された「易登師と洪気功師はともに『華山四大師』の一員である」という情報に基づき、二人の武術の腕は同等であると推論された。結局、段羽＞易登師匠、易登師匠＝洪気功となり、段羽の方が武術に優れていると結論付けることができます。構造化された知識と大規模モデル推論機能を組み合わせた Think-on-Graph は、整理されているだけでなく、追跡可能な推論チェーンも提供していることがわかります。 LLM が「翻訳者」から「ランナー」に変わり、KG と緊密に連携して深い推論を実現していることはよく知られています。大規模モデルは理解、推論、生成、学習に優れています。ナレッジグラフは、構造化された知識保存方法により、論理チェーン推論でより優れたパフォーマンスを発揮し、推論の透明性と信頼性が向上します。この2つは、非常に高い補完性を持つ良い組み合わせです。鍵となるのは、この2つをうまく組み合わせる方法を見つけられるかどうかです。研究者によると、現在は2つの方法が主流だそうです。 1 つ目のタイプは、モデルの事前トレーニングまたは微調整段階で知識グラフを高次元ベクトル空間に埋め込み、それを大規模モデルの埋め込みベクトルとマージすることです。しかし、このような方法は時間がかかり、計算量も多くなるだけでなく、ナレッジグラフの本来の利点の多く (リアルタイムのナレッジ更新、説明可能性、推論の追跡可能性など) を引き出すことができません。 2 番目のパスは、ナレッジグラフの知識構造を使用し、プロンプトエンジニアリングを通じて 2 つを統合します。プロンプトエンジニアリングは、疎結合と密結合の 2 つのパラダイムに分かれています。

写真

疎結合パラダイムにおける LLM は「翻訳者」に相当します。ユーザーの自然言語入力を理解した後、それをナレッジグラフ内のクエリ言語に翻訳し、KG 上の検索結果をユーザーに逆翻訳します。このパラダイムでは、ナレッジグラフ自体の品質と完全性に対する要件が非常に高く、大規模モデルの固有の知識と推論能力は無視されます。

写真

Think-on-Graph によって表される密結合パラダイムでは、LLM は「ランナー」となり、KG の関連エンティティ上で最適な答えを段階的に検索して推論するエージェントとして機能します。したがって、LLM は推論のあらゆるステップに個人的に関与し、知識グラフを補完します。研究では、チームは次の例で密結合パラダイムの利点を実証しました。キャンベラが位置する国で現在多数派を占めている政党はどれでしょうか?

写真

上記の例からわかるように、ChatGPT は情報の遅れにより間違った回答をしました。疎結合パラダイムでは、最新情報を含むKGが導入されたにもかかわらず、「多数党」の情報が不足していたため推論を完了できませんでしたが、密結合パラダイムでは、LLMが独自に「議会制国家の政府首脳は通常、多数党の党首でもある」と推論し、KGの不足情報を補い、回りくどい方法で正解を推論しました。効率的なタイトカップリングの新しいパラダイム、Think-on-Graph 研究チームによると、Think-on-Graph は Transformer のビーム検索アルゴリズムのアイデアを活用しています。このアルゴリズムは循環的な反復プロセスであり、各サイクルでは検索の削減と推論の意思決定という 2 つのタスクを順番に完了する必要があります。検索プルーニングは、正解になる可能性が最も高い推論パスを見つけるために使用され、推論決定タスクは LLM を使用して、既存の候補推論パスが質問に答えるのに十分かどうかを判断します。判断結果が「いいえ」の場合は、次のサイクルに繰り返し進みます。「キャンベラがある国で現在多数派を占めている政党はどれか」という例を使って説明しましょう。

写真

ケース: 検索幅 N=2 のビーム検索を使用して Think-on-Graph 推論を実装します。検索プルーニングタスクでは、大規模モデルはキーワード Canberra から開始し、ナレッジグラフ内の最も近い (または一貫性のある) エンティティを一致させ、5 つの「関係→エンティティ」ペアを検索してスコアを付けます (スコアが高いほど、推論パスに追加されたときにこの新しいエンティティが質問に正しく回答する能力が高くなります)。

写真

LLM は、スコアを高いものから低いものの順に並べ替えた後、スコアが最も高い 2 つを保持して 2 つの候補推論パスを形成します。次に、LLM は候補推論パスを評価し、その結果を Yes/No の形式でアルゴリズムにフィードバックします。このケースからわかるように、LLM は 2 ラウンド連続で候補パスを拒否しました。LLM が質問に答えるのに十分な情報を得たと判断するのは、反復の 3 ラウンド目になってからでした。そのため、LLM はアルゴリズムの反復を停止し、ユーザーに回答 (実際に正解) を出力しました。

写真

大規模モデル推論の信頼性を高めるにはどうすればよいでしょうか?説明可能、追跡可能、修正可能な研究チームは、Think-on-Graph アルゴリズムによって大規模モデル推論の説明可能性も効果的に向上し、知識の追跡可能、修正可能、訂正可能も実現したと述べています。特に、手動フィードバックと LLM 推論機能の助けを借りて、ナレッジグラフ内の誤った情報を検出して修正することができ、LLM トレーニング時間が長く、知識の更新が遅いという欠点を補うことができます。この能力をテストするために、私たちは実験を設計しました。前述の「段羽と洪気功の武術比較」ケースの知識グラフに、「大理段家の最強の武術は易陽指であり、一般的な武術は六経神剣である」という誤った情報を意図的に追加しました。

写真

Think-on-Graph は、不正確な知識に基づいて間違った答えを得ますが、アルゴリズムに組み込まれた「自己反省」機能により、答えが十分に信頼できないと判断された場合、自動的に知識グラフ上の推論パスをバックトラックし、パス内のすべてのトリプルをチェックすることがわかります。この時点で、LLM は独自の知識を使用して、間違っていると疑われるトリプレットを選択し、フィードバック分析と修正提案をユーザーに提供します。

写真

7 つの新しい SOTA により、ChatGPT と比較して深い推論が最大 214% 向上しました。この研究では、4 種類の知識集約型タスク (KBQA、オープンドメイン QA、スロット充填、ファクトチェック) の 9 つのデータセットで Think-on-Graph のパフォーマンスを評価しました。

写真

IO、CoT、CoT-SC などのさまざまなプロンプト戦略の下での ChatGPT (GPT-3.5) と比較すると、Think-on-Graph はすべてのデータセットで大幅に優れたパフォーマンスを発揮します。 Zeroshot-RE データセットでの比較を例にとると、CoT に基づく ChatGPT の精度は 28.8% ですが、同じベースの Think-on-Graph の精度は 88% です。ベースモデルを GPT-4 にアップグレードすると、Think-on-Graph の推論精度も大幅に向上し、7 つのデータセットで SOTA を達成し、残りのデータセットでも CWQ の SOTA に非常に近くなります。注目すべきは、Think-on-Graph が上記のテストデータセットのいずれに対しても、教師あり学習の性質を持つ増分トレーニングや増分微調整を実行していないことです。これは、その優れたプラグアンドプレイ機能を実証しています。さらに研究者らは、小規模なベースモデル（LLAMA2-70Bなど）を置き換えた場合でも、Think-on-Graphは複数のデータセットでChatGPTを上回ることができることを発見しました。これにより、大規模モデルのユーザーに、計算能力要件が低い技術的なルートオプションを提供できる可能性があります。

参考文献:

https://arxiv.org/abs/2307.07697

https://github.com/IDEA-FinAI/ToG

<<:

>>: