大規模言語モデル (LLM) は、非常に流暢で一貫性のあるテキストを短時間で生成できるため、AI 会話、クリエイティブ ライティング、その他の幅広いアプリケーションに新たな可能性をもたらします。ただし、LLM にはいくつかの重要な制限もあります。彼らの知識はトレーニング データから認識したパターンに限定されており、つまり世界に対する真の理解が欠けているということです。同時に、推論能力は限られており、論理的推論を実行したり、複数のデータ ソースから事実を統合したりすることができません。より複雑で答えの出ない質問に直面すると、答えは不合理または矛盾したものになり始め、それは婉曲的に「幻覚」と呼ばれます。 これらのギャップを埋めるために、外部ソースから関連知識を検索し、LLM がよりインテリジェントな応答を行うためのコンテキストを提供するという基本的な考え方を持つ、検索拡張生成 (RAG) システムが登場し始めています。既存のシステムのほとんどは、段落を取得するためにベクトル埋め込みの意味的類似性を使用しています。ただし、このアプローチには、真の相関関係が欠如している、事実を集約できない、推論の連鎖がないなどの欠点があります。これはまさにナレッジグラフの応用領域です。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現したものです。グラフ検索は、コンテキスト事実間の相互接続をエンコードすることで純粋なベクトル検索の欠点を克服し、複数の情報ソースにわたって複雑なマルチレベル推論を実行できます。 ベクトル埋め込みとナレッジグラフを組み合わせることで、より高いレベルの推論機能を実現し、LLM の精度と解釈可能性を向上させることができます。この連携により、表面的な意味論と構造化された知識および論理が完璧に融合され、LLM では統計的学習と記号表現の両方が必要になります。 写真 1. ベクトル探索の限界ほとんどの RAG システムは、ドキュメント コレクション内の段落のベクトルを検索して、LLM に関連するコンテキストを見つけるプロセスに依存しています。このプロセスにはいくつかの重要なステップがあります。
このパイプラインにはいくつかの大きな制限があります。
クエリが複雑になるにつれて、取得したコンテンツを推論できないという点でこれらの制限がより顕著になります。 2. ナレッジグラフを統合するナレッジ グラフは、相互接続されたネットワーク内のエンティティと関係に関する情報を表し、コンテンツ全体にわたる複雑な推論を可能にして、検索機能を強化します。
ナレッジ グラフは孤立した一致ではなく、グラフ トラバーサルのプロセスを通じて、クエリに関連する相互に関連するコンテキスト ファクトを収集できます。説明可能なランキングはグラフのトポロジ構造に基づいており、構造化された事実、関係、コンテキストをエンコードすることで検索機能を強化し、正確なマルチステップ推論を可能にします。これにより、ベクトルのみの検索よりも関連性と説明力が高まります。 3. シンプルな制約を使用したナレッジグラフ埋め込みの改善連続ベクトル空間に知識グラフを埋め込むことは、現在注目されている研究分野です。ナレッジ グラフは、数学的演算をサポートするためにエンティティと関係をベクトル埋め込みとして表現することができ、追加の制約によって表現をさらに最適化できます。次に例を示します。
ナレッジ グラフの埋め込みにシンプルで一般的な制約が追加され、より最適で解釈が容易で、論理的に互換性のある表現が実現します。埋め込みは、現実世界の構造と規則性を模倣する帰納的バイアスを獲得しますが、より正確で説明可能な推論のためにそれほど追加の複雑さは導入されません。 4. 複数の推論フレームワークを統合するナレッジ グラフでは、新しい事実を導き出し、質問に答え、予測を行うための推論が必要であり、さまざまなテクノロジが互いに補完し合う強みを持っています。 論理ルールは知識を論理公理およびオントロジーとして表現し、定理証明を通じて合理的かつ完全な推論を可能にして、限定された不確実性の処理を実現します。グラフ埋め込みでは、ベクトル空間演算に埋め込まれた知識グラフ構造を使用します。これは不確実性に対処できますが、表現力に欠けます。ベクトル検索と組み合わせたニューラル ネットワークは適応的ですが、その推論は不明瞭です。グラフ構造とデータの統計分析を通じてルールを自動的に作成することは可能ですが、その品質は不確かです。ハイブリッド パイプラインは、論理ルールを通じて明示的な制約をエンコードし、埋め込みによってベクトル空間演算が提供され、ニューラル ネットワークは共同トレーニングを通じて収束の利点を得ます。ケースベース、ファジー、または確率論的ロジックのアプローチを使用して、透明性を高め、ルールの不確実性と信頼性を表現します。推論された事実と学習したルールをグラフに外部化することで知識を拡張し、フィードバック ループを実現します。 重要なのは、必要な推論の種類を特定し、適切な手法にマッピングすることです。論理形式、ベクトル表現、ニューロン コンポーネントの構成可能なパイプラインを組み合わせることで、堅牢性と解釈可能性の両方が実現します。 4.1 LLM情報フローの維持LLM のナレッジ グラフで事実を取得すると、情報のボトルネックが発生するため、設計上関連性を保つ必要があります。コンテンツを小さなチャンクに分割すると分離性は向上しますが、周囲のコンテキストが失われ、チャンク間の推論が妨げられます。生成されたチャンクの要約により、重要な詳細が圧縮されて意味が強調され、より簡潔なコンテキストを提供できます。ソース コンテンツのコンテキストを維持するために、要約、タイトル、タグなどをメタデータとして追加します。元のクエリを、LLM のニーズをより適切にターゲットとするより詳細なバージョンに書き直します。ナレッジ グラフのトラバーサル機能は、事実間の接続を維持し、コンテキストを維持します。時間または関連性で並べ替えると、LLM の情報構造を最適化でき、暗黙の知識を LLM に対して明示された事実に変換することで推論が容易になります。 目標は、取得した知識の関連性、コンテキスト、構造、および明示的な表現を最適化して、推論能力を最大化することです。粒度と凝集性の間にはバランスが必要です。ナレッジ グラフの関係は、分離された事実のコンテキストを構築するのに役立ちます。 4.2 推論能力の解放ナレッジグラフと組み込みテクノロジーを組み合わせることで、お互いの弱点を克服する利点が得られます。 ナレッジ グラフは、エンティティと関係の構造化された表現を提供します。トラバーサル機能は、複雑な推論機能を強化し、多段階の推論を処理するために使用されます。埋め込みは、ベクトル空間での類似性ベースの操作のための情報をエンコードし、特定のスケールでの効果的な近似検索をサポートし、潜在的なパターンを表面化します。ジョイントエンコーディングは、ナレッジグラフ内のエンティティと関係の埋め込みを生成します。グラフ ニューラル ネットワークは、微分可能なメッセージの受け渡しを介してグラフ構造と埋め込み要素を操作します。 ナレッジ グラフは、まず構造化された知識を収集し、次に関連コンテンツに重点を置いた検索と取得を組み込みます。明示的なナレッジ グラフの関係により、推論プロセスの説明可能性が提供されます。推論された知識はグラフに拡張でき、GNN は連続表現の学習を提供します。 このパートナーシップはパターン認識可能です!力とニューラル ネットワークのスケーラビリティにより、構造化された知識の表現が強化されます。これは、言語人工知能に必要な統計学習と記号論理を進歩させる鍵です。 4.3 協調フィルタリングによる検索の改善協調フィルタリングでは、エンティティ間の接続を使用して検索を強化します。一般的なプロセスは次のとおりです。
写真 5. RAG エンジンの燃料供給 – データ フライホイール継続的に改善される高性能な検索拡張生成 (RAG) システムを構築するには、データ フライホイールの実装が必要になる場合があります。ナレッジグラフは、構造化された世界の知識を提供することで、言語モデルの新しい推論機能を実現します。しかし、高品質のアトラスを構築することは依然として困難です。ここでデータ フライホイールが登場し、システムの相互作用を分析することでナレッジ グラフを継続的に改善します。 すべてのシステムクエリ、応答、スコア、ユーザーアクションなどのデータを記録し、ナレッジグラフの使用方法を可視化し、データ集約を使用して不適切な応答を明らかにし、これらの応答をクラスター化して分析し、知識のギャップを示すパターンを特定します。人間は問題のあるシステム応答を確認し、グラフ内の欠落または不正確な事実まで問題を遡って追跡します。次に、チャートを直接変更して、不足している事実を追加したり、構造を改善したり、明確さを高めたりします。上記の手順は何度も繰り返され、各反復ごとにナレッジ グラフがさらに強化されます。 ニュースやソーシャル メディアなどのリアルタイム データ ソースのストリーミングにより、新しい情報が継続的に提供され、ナレッジ グラフが最新の状態に保たれます。クエリ生成を使用して重要な知識のギャップを特定し、埋めることは、ストリームが提供する範囲を超えています。グラフの穴を見つけ、質問し、不足している事実を取得して、それを追加します。各サイクルで、使用パターンを分析し、データの問題を修正することでナレッジ グラフが徐々に強化され、改善されたグラフによってシステムのパフォーマンスが向上します。 このフライホイール プロセスにより、実際の使用状況からのフィードバックに基づいて、ナレッジ グラフと言語モデルが共進化できるようになります。アトラスはモデルのニーズに合わせて積極的に変更されます。 要約すると、データ フライホイールは、システムの相互作用を分析することによって、ナレッジ グラフを継続的かつ自動的に改善するための足場を提供します。これにより、グラフ依存型言語モデルの精度、関連性、適応性が向上します。 6. まとめ人工知能は外部の知識や推論と組み合わせる必要があり、ここでナレッジグラフが役立ちます。ナレッジ グラフは、現実世界のエンティティと関係を構造化して表現し、世界に関する事実とそれらの間のつながりをエンコードします。これにより、相互に関連する事実を横断することで、複数のステップにわたる複雑な論理的推論が可能になります。 ただし、ナレッジ グラフには、スパース性や不確実性の処理の欠如などの独自の制限があり、そこでグラフ埋め込みが役立ちます。知識グラフ要素をベクトル空間にエンコードすることにより、埋め込みにより大規模なコーパスからの潜在パターン表現の統計的学習が可能になり、効率的な類似性ベースの操作もサポートされます。 ナレッジ グラフもベクトル埋め込みも、それ自体では人間のような言語知能を形成するのに十分ではありませんが、これらを組み合わせることで、構造化された知識表現、論理的推論、統計的学習の効果的な組み合わせが実現します。一方、ナレッジ グラフは、ニューラル ネットワークのパターン認識機能の上に記号論理と関係性を重ね合わせ、グラフ ニューラル ネットワークなどのテクノロジは、情報転送グラフ構造と埋め込みを通じてこれらのアプローチをさらに統合します。この共生関係により、システムは統計学習と記号論理の両方を活用し、ニューラル ネットワークと構造化された知識表現の長所を組み合わせることができます。 高品質なナレッジグラフの構築、ベンチマーク、ノイズ処理などには依然として課題が残っています。しかし、シンボリック ネットワークとニューラル ネットワークにまたがるハイブリッド技術は、依然として有望です。ナレッジグラフと言語モデルが開発され続けるにつれて、それらの統合により説明可能な AI の新しい分野が開拓されるでしょう。 |
>>: Apple: 画像モデルの事前トレーニングに言語モデルの自己回帰アプローチを使用する
【51CTO.comオリジナル記事】 [51CTO オリジナル記事、パートナーサイトに転載する場合は...
Google サービスには 20 億行のコードが含まれており、自動車システムには 1 億行のコードが...
世界の人口の58%が5Gネットワークにアクセスできるようになり、14%の家庭に「ロボット執事」が...
7月6日、本日開幕した世界人工知能会議で、マスク氏は会議に直接出席しなかったものの、インターネット...
Googleのプロモーションビデオは実は偽物だった?昨日Googleが公開したGeminiのプロモ...
人工知能 (AI): 私たちの日常生活、生き方、他者との関わり方に根本的な変化がもたらされるのは、第...
大規模モデルに向けて、テクノロジー大手はより大規模なモデルをトレーニングしており、学界はそれらを最適...
[[270417]]ニール・ガーシェンフェルド(出典:MIT産業連携プログラム) 「世界中のすべて...
今日、AI クラウド サービスは、データ サイエンティストや開発者を惹きつけ、自社のプラットフォーム...
人工知能の発達により、数十年、あるいは12年後には、人々は介護者やロボットを使って高齢者の世話をする...
著者: ミシェル・ゾウ翻訳:李睿企画丨孫淑娊[51CTO.com クイック翻訳]事前に構築された A...
ディープフィードフォワードネットワーク統計学から始めると、自然に関数 f を定義し、データサンプルは...