何も知らない状態から、3分で「ナレッジグラフ」を素早く理解するまで

[51CTO.com からのオリジナル記事] ナレッジグラフは、インテリジェントマシンの脳を解き放つ鍵であり、Web 3.0 時代の知識の宝庫を開くことができます。この記事では、概念、アーキテクチャ、主要なテクノロジ、アプリケーション分野、注意が必要ないくつかの問題の観点から、ナレッジグラフの世界を紹介します。

ナレッジグラフとは何ですか?

ナレッジグラフは、相互接続された型指定されたエンティティとその属性のセットで構成されます。

ナレッジグラフは本質的にはセマンティックネットワークであり、ノード (ポイント) とエッジ (エッジ) で構成されるグラフベースのデータ構造です。ナレッジグラフでは、各ノードは現実世界に存在する「エンティティ」を表し、各エッジはエンティティ間の「関係」を表します。ナレッジグラフは関係性を表現する最も効果的な方法です。

簡単に言えば、ナレッジグラフとは、さまざまな種類の情報 (異種情報) をすべて結び付けるリレーショナルネットワークです。ナレッジグラフは、「関係」の観点から問題を分析する機能を提供します。

ナレッジグラフの概念は最初に Google によって提案され、主に既存の検索エンジンを最適化するために使用されました。キーワード検索に基づく従来の検索エンジンとは異なり、ナレッジグラフを使用すると、複雑な関連情報をより適切に照会し、意味レベルからユーザーの意図を理解し、検索品質を向上させることができます。例えば、Googleの検索ボックスに「Kobe」と入力すると、検索結果ページの右側に生年月日や家族の状況など、Kobeに関連する情報が表示されます。

ナレッジグラフでは、通常、グラフ内のノードを表すために「エンティティ」を使用し、グラフ内の「エッジ」を表すために「リレーション」を使用します。エンティティは、人、場所、概念、会社など、現実世界のものを指します。一方、リレーションシップは、人々が北京に「住んでいる」、張三と李思が「友達」であるなど、異なるエンティティ間の特定のつながりを表現するために使用されます。

上記の例を通して、読者はナレッジグラフの予備的な印象を持つはずです。その本質は知識を表現することです。実際の応用の観点から、ナレッジグラフは単純にマルチリレーショナルグラフとして理解できます。

ナレッジグラフの表現

では、マルチリレーションシップグラフとは何でしょうか? グラフはノード (頂点) とエッジ (エッジ) で構成されますが、これらのグラフには通常、1 種類のノードとエッジのみが含まれます。しかし、逆に、マルチリレーショングラフには通常、複数の種類のノードと複数の種類のエッジが含まれます。たとえば、次の図には複数の種類のノードとエッジが含まれています。これらのタイプは異なる色でマークされます。

ナレッジグラフに属性がある場合は、プロパティグラフで表現できます。上の図に示すように、Kobe と Vanessa はカップルです。2 人は 2001 年から 2020 年まで結婚しており、結婚時期は関係の属性として使用できます。同様に、Kobe にも性別、生年月日などの独自の属性があります。このタイプの属性グラフ表現は、実際のシナリオに非常に近いため、ビジネスに含まれるロジックを適切に記述することもできます。

プロパティグラフに加えて、ナレッジグラフは、多数のトリプルで構成される RDF で表現することもできます。 RDF の主な設計上の特徴は、データの公開と共有が容易なことですが、属性を持つエンティティや関係はサポートされていません。属性を追加する必要がある場合は、設計にいくつかの変更を加える必要があります。現在、RDF は主に学術的なシナリオで使用されています。業界では、グラフデータベース (たとえば、プロパティグラフの保存用) が依然としてよく使用されています。

ナレッジグラフを保存するには、主に 2 つの方法があります。1 つは RDF に基づく方法、もう 1 つはグラフデータベースに基づく方法です。 RDF の重要な設計原則はデータの容易な公開と共有ですが、グラフデータベースは効率的なグラフクエリと検索に重点を置いています。第二に、RDF はトリプル形式でデータを保存し、属性情報は含まれませんが、グラフデータベースは一般的に属性グラフを基本的な表現形式として使用するため、エンティティとリレーションシップに属性を含めることができ、実際のビジネスシナリオを表現しやすくなります。

知識抽出

ナレッジグラフのアーキテクチャとは、次の図に示すように、その構築モデル構造を指します。ナレッジグラフを構築するプロセスは、人間の認知能力に応じて継続的に更新および反復する必要があります。

いわゆる静的関係グラフとは、時間の経過に伴うグラフ構造自体の変化を考慮せず、現在の知識グラフ構造のみに焦点を当てることを意味します。ただし、グラフの構造は時間の経過とともに変化することもわかっています。

下の図は、時刻 T と時刻 T+1 におけるナレッジグラフの構造を示しています。この 2 つの時間の間にグラフ構造 (または構造の一部) が大きく変化したことが簡単にわかります。では、これらの構造的変化をどのように判断すればよいのでしょうか。興味のある読者はフォローしてください。ナレッジグラフ関連のテクノロジースタックについては、後ほど更新していきます。この記事では詳細には触れません。

ナレッジグラフアーキテクチャの図に戻ると、ナレッジグラフの構築は後続のアプリケーションの基礎となり、構築の前提はさまざまなデータソースからデータを抽出する必要があることです。垂直分野のナレッジグラフの場合、データソースは主に 2 つのチャネルから取得されます。1 つはビジネス自体のデータで、通常は社内のデータベーステーブルに含まれ、構造化された形式で保存されます。もう 1 つは、インターネット上で公開され、クロールされるデータです。このデータは通常、Web ページの形式で存在するため、半構造化/非構造化データです。

前者は通常、後続の AI システムの入力として使用できるようになるまでに簡単な前処理のみが必要ですが、後者は通常、構造化された情報を抽出するために自然言語処理などのテクノロジを使用する必要があります。たとえば、上記の検索例では、Wikipedia やその他のデータソースなどの非構造化データから Kobe と Vanessa の関係を抽出できます。

情報抽出の難しさは、非構造化データの処理にあります。構造化されていないテキストから、エンティティ、関係、属性を抽出する必要があります。例えば、次の図はWikipediaから取得したKobeのテキスト情報です。

膨大な量のテキストからこの記事の冒頭のようなナレッジグラフを構築するには、自然言語処理テクノロジのいくつかの側面が必要です。

名前エンティティ認識
関係抽出
エンティティ解決
共参照解決

1 つ目はエンティティ命名認識です。これは、テキストからエンティティを抽出し、各エンティティを分類/ラベル付けするものです。たとえば、上記のテキストから「Kobe Bryant」というエンティティを抽出し、エンティティタイプを「人物」としてマークできます。また、そこから「Philadelphia, Pennsylvania」を抽出し、エンティティタイプを「場所」としてマークすることもできます。

このプロセスはエンティティ命名認識と呼ばれ、比較的成熟したテクノロジであり、これを実行するために使用できる既製のツールがいくつかあります。次に、関係抽出技術を使用して、テキストからエンティティ間の関係を抽出します。たとえば、「Kobe」と「Philadelphia, Pennsylvania」というエンティティ間の関係は「born in」などです。

さらに、エンティティの命名認識と関係抽出のプロセスには、さらに 2 つの難しい問題があります。1 つはエンティティの統一です。つまり、一部のエンティティは異なって記述されていますが、実際には同じエンティティを参照しています。たとえば、「Kobe Bean Bryant」と「Kobe」は表面上は異なる文字列ですが、実際には Kobe を指しているため、結合する必要があります。

エンティティの統合により、エンティティの種類が削減されるだけでなく、グラフのスパース性も削減されます。もう 1 つの問題は参照解決です。これは、テキスト内に表示される「彼」、「それ」、「彼女」という単語が実際にどのエンティティを参照するかという問題です。

エンティティの統合と参照解決の問題は、最初の 2 つの問題よりも困難です。

大規模な知識ベースの構築と応用には、さまざまなインテリジェントな情報処理技術のサポートが必要です。知識抽出テクノロジーにより、公開されている半構造化データや非構造化データから、エンティティ、関係性、属性などの知識要素を抽出できます。

知識の融合により、エンティティ、関係、属性、事実上のオブジェクトなどの参照項目間の曖昧さが排除され、高品質の知識ベースが形成されます。知識推論とは、既存の知識ベースに基づいて暗黙の知識をさらに探求し、それによって知識ベースを充実させ、拡張することです。分散知識表現によって形成される包括的なベクトルは、知識ベースの構築、推論、融合、および応用にとって非常に重要です。

この記事は、科学一般向けの記事として、読者の皆様に入門していただくことを目的としています。ナレッジグラフのより詳細な知識抽出、知識表現、知識融合、知識推論技術については、スペースの都合上、次の記事で重点的に取り上げますので、ご参照ください。

ナレッジグラフの構築

まず最初に説明する必要があるのは、ナレッジグラフシステムを構築する上で最も重要な核心は、ビジネスに対する理解とナレッジグラフ自体の設計にあるということです。これは、ビジネスシステムにとってデータベーステーブルの設計が特に重要であり、この設計がビジネスの詳細な理解とビジネスシナリオの将来の変化の予測と切り離せないものであるという事実に似ています。もちろん、ここではデータの重要性については議論しません。

完全なナレッジグラフの構築には、次の手順が含まれます。

具体的なビジネス上の問題を定義する
データ収集と前処理
ナレッジグラフの設計
ナレッジグラフにデータを保存する
上位アプリケーションの開発とシステムの評価。

特定のビジネス上の問題を定義するときに明確にする必要があることの 1 つは、独自のビジネス上の問題にナレッジグラフシステムのサポートが必要かどうかです。実際の多くのシナリオでは、関係性分析に対する一定の需要があったとしても、実際には従来のデータベースを使用して完了することができるからです。したがって、ナレッジグラフの使用を避け、ナレッジグラフを選択し、より良いテクノロジを選択するために、以下に参考となるいくつかの概要を示します。

次のステップは、データソースを決定し、必要なデータ前処理を行うことです。ここで私が指摘したい唯一の点は、すべての関連データをナレッジグラフに含める必要はないということです。この分野における意思決定の原則については、今後の記事で詳しく紹介します。

ナレッジグラフの設計は芸術です。プログラマーとしては、より専門的な人々に任せます。ストレージに関しては、ストレージシステムを選択する必要がありますが、設計したナレッジグラフには属性があるため、グラフデータベースが第一の選択肢になります。ただし、グラフデータベースの選択は、ビジネスの規模と効率性の要件によっても異なります。

データ量が特に多い場合、Neo4j ではビジネスニーズを満たせない可能性があります。この場合は、OrientDB、JanusGraph などの準分散コンピューティングをサポートするシステムを選択するか、効率性と冗長性の原則に基づいて従来のデータベースに情報を保存し、ナレッジグラフが運ぶ情報量を減らす必要があります。一般的に言えば、10 億ノード未満のグラフには Neo4j で十分です。

これらすべてを実行した後、最も慣れている部分に到達して、アプリケーションを開発 (コードを記述) できます。

ナレッジグラフの応用

ナレッジグラフアプリケーションの前提は、ナレッジグラフが構築されていることであり、これはナレッジベースとも考えられます。検索を実行すると、キーワードの抽出とナレッジベースでのマッチングを通じて最終的な回答を直接得ることができます。

この検索方法は、従来の検索エンジンとは異なります。従来の検索エンジンは最終的な回答ではなく Web ページを返すため、ユーザーが自分で情報を選別してフィルタリングする追加のプロセスがあります。

ナレッジグラフの応用は、主に検索と推奨の分野に集中しています。

セマンティック検索の分野では、ナレッジグラフ検索は従来の検索とは異なります。従来の検索は、キーワードに基づいて対応するWebページセットを見つけ、ページランクなどのアルゴリズムを通じてWebページセット内のWebページをランク付けしてから、ユーザーに表示します。一方、ナレッジグラフベースの検索は、既存のグラフ知識ベース内の知識をトラバースし、照会された知識をユーザーに返します。通常、パスが正しければ、1つまたはいくつかの知識のみが照会されるため、非常に正確です。

質問応答システムに関しては、システムはまずナレッジグラフの助けを借りて、ユーザーが自然言語で尋ねた質問の意味と文法の分析を実行し、次にそれらを構造化されたクエリステートメントに変換し、ナレッジグラフで回答を検索します。

実用的な提案

まず、ナレッジグラフは比較的新しいツールであり、その主な機能は関係性、特に深い関係性を分析することです。したがって、ビジネスにおいては、まずその必要性を確かめなければなりません。実際、多くの問題は、ナレッジグラフ以外の手法を使って解決することができます。

ナレッジグラフの分野で最も重要なトピックの 1 つは、知識推論です。さらに、知識の推論こそが強力な人工知能を実現する唯一の方法です。残念ながら、現在セマンティックネットワークの観点から議論されている推論テクノロジの多く (ディープラーニングや確率統計に基づくものなど) は、実際の垂直アプリケーションに実装するのが困難です。実際、非常に大きなデータセットがない限り、現時点で最も効果的な方法は、依然として何らかのルールベースの方法論に基づいています。

最後に、ナレッジグラフプロジェクト自体は依然としてビジネス重視かつデータ中心であることを強調することが重要です。ビジネスとデータの重要性を過小評価しないでください。この記事がお役に立てば、ぜひ高評価を押してお互いを励まし合いましょう！

参照:

Xu Zenglin、Sheng Yongpan、He Lirong、Wang Yafangによるナレッジグラフテクノロジーのレビュー
ナレッジグラフの基礎（I） - ナレッジグラフとは何か
これはナレッジグラフ技術とアプリケーションについてのわかりやすいガイドです

著者: 臧元慧

簡単な自己紹介: 中国科学技術星図有限公司（北京）のR&D部門のバックエンド技術グループに勤務。私は Python/Java 開発が得意で、フロントエンドの基礎を理解しています。MySQL、MongoDB に精通しており、Redis を理解しています。Linux 開発環境に精通しており、Shell プログラミングをマスターし、Git ソースコード管理の習慣があります。Nginx、Flask、Swagger 開発フレームワークに精通しており、Docker+Kubernetes クラウドサービス開発の経験があります。人工知能とクラウドネイティブテクノロジーに大きな関心を持っています。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: ムスク・ニューラリンクに挑戦！スタンフォード大学の新しい脳コンピューターインターフェースは脳とシリコンベースのチップを直接接続する

>>: ハン・ソン、チュー・ジュンヤンらがGAN圧縮方式を提案：計算電力消費は1/9以下、オープンソース化