ナレッジグラフリテラシー

過去 2 年間で、Linking Open Data などのプロジェクトの本格的な開発により、セマンティック Web データソースの数は劇的に増加し、大量の RDF データが公開されました。インターネットは、Web ページとそれらの間のハイパーリンクのみで構成されるドキュメント Web から、さまざまなエンティティとそれらの間の豊富な関係を記述する大量の情報で構成されるデータ Web へと変化しています。このような状況において、Google、Baidu、Sogou などの検索エンジン企業は、検索品質を向上させるために、これに基づいて Knowledge Graph、Zhixin、Zhilifang などのナレッジグラフを構築し、セマンティック検索への序章を開きました。

ナレッジグラフの表現と性質

Google の Singh 博士がナレッジグラフを紹介した際に述べたように、「世界は文字列で構成されているのではなく、物で構成されている」のです。ナレッジグラフは、現実世界に存在するさまざまなエンティティや概念を記述することを目的としています。これらのうち、各エンティティまたは概念は、識別子と呼ばれるグローバルに一意の ID によって識別されます。各属性値ペア (AVP) はエンティティの固有の特性を表すために使用され、リレーションは 2 つのエンティティを接続し、それらの間の関係を表すために使用されます。ナレッジグラフは、ノードがエンティティまたは概念を表し、エッジが属性または関係で構成される巨大なグラフとして表示することもできます。上記のグラフモデルは、W3Cが提案するリソース記述フレームワーク（RDF）[2]またはプロパティグラフで表現することができます。ナレッジグラフは、検索の品質を向上させるために Google によって最初に提案されました。

ナレッジグラフは本質的にはセマンティックネットワークであり、ノード (ポイント) とエッジ (エッジ) で構成されるグラフベースのデータ構造です。ナレッジグラフでは、各ノードは現実世界に存在する「エンティティ」を表し、各エッジはエンティティ間の「関係」を表します。ナレッジグラフは関係性を表現する最も効果的な方法です。簡単に言えば、ナレッジグラフとは、さまざまな種類の情報 (異種情報) をすべて結び付けるリレーショナルネットワークです。ナレッジグラフは、「関係」の観点から問題を分析する機能を提供します。

ナレッジグラフの役割

ユーザーが新しい情報や知識をより速く、より簡単に発見できるように、Google 検索は「ナレッジグラフ」をリリースします。これは、検索結果を体系化し、あらゆるキーワードで完全な知識体系を取得できるようにするものです。

たとえば、「Amazon」を検索すると、一般的な検索結果に Amazon に関する最も関連性の高い情報が表示されます。たとえば、Amazon の Web サイトにはインターネット上で最も多くの情報が掲載されていますが、Amazon は単なる Web サイトではなく、世界最大のトラフィックを誇るアマゾン川でもあります。歴史を遡ると、ギリシャの女性戦士のグループのニックネームだった可能性もあります。今後、これらの結果は Google 検索の「ナレッジグラフ」に表示されるようになります。

ユーザーが検索するキーワードがランドマーク、有名人、都市、チーム名、映画、専門用語、料理のレシピなど何であっても、Google の「ナレッジグラフ」は検索結果の知識システムを完全に提示できます。

以前の検索結果と比較すると、「ナレッジグラフ」により、Google 検索の最終的な効果が 3 つの点で大幅に向上します。

1 正しい結果を見つけます。キーワードは複数の意味を表すことがあるため、ナレッジグラフには最も包括的な情報が表示され、ユーザーは最も必要な意味を見つけることができます。

2 最高の要約。ナレッジグラフを使用すると、Google はユーザーが検索する情報をより適切に理解し、関連するコンテンツやトピックを要約できます。「マリー・キュリー」を検索すると、このキーワードに関連するすべてのコンテンツを取得できるだけでなく、キュリー夫人の生涯の詳細な紹介も得られます。

3 より深く、より広く。「ナレッジグラフ」は検索結果に完全な知識システムを提供するため、ユーザーは知らない事柄（知識）を多く発見することがよくあります。旅行しようとしている場所を検索すると、その名前のレストランや、映画化されたその名前の小説が見つかるかもしれません。

Google の「ナレッジグラフ」は、Freebase、Wikipedia、Global Overview から専門的な情報を取得するだけでなく、大規模な情報検索分析を通じて検索結果の深さと幅を向上させます。 Google データベースには現在、5 億を超える項目と、さまざまな項目間の 35 億を超える関係が含まれています。同時に、検索する人が増えれば増えるほど、Google が取得する情報はより包括的になり、ナレッジグラフ全体でより良い結果が得られます。

ナレッジグラフの構築

1. ナレッジグラフの規模

不完全な統計によると、Google ナレッジグラフには現在、5 億のエンティティと 35 億のファクト (エンティティ-属性-値、およびエンティティ-リレーションシップ-エンティティの形式) が含まれています。ナレッジグラフの範囲はグローバルであるため、エンティティと関連する事実の多言語の説明が含まれています。しかし、支配的な英語と比較すると、他の言語（中国語など）のみを含むナレッジグラフの規模ははるかに小さくなります。一方、百度や捜狗は中国語検索をメインにナレッジグラフを展開しており、ナレッジベース内の知識も主に中国語で記述されている。規模はGoogleよりやや小さい。

2. ナレッジグラフの表現

ナレッジグラフを使用して、「張三は李思の父親である」という事実を記述するとします。ここでのエンティティは Zhang San と Li Si であり、関係は「父」(is_father_of) です。もちろん、張三と李斯は他の人々とも何らかの関係を持っている可能性もあります（現時点では考慮されていません）。電話番号をナレッジグラフにノードとして追加すると (電話番号もエンティティです)、人と電話の間に has_phone という関係を定義することもできます。これは、特定の電話番号が特定の人に属していることを意味します。

さらに、電話番号がアクティブ化された時刻を示すために、has_phone 関係にプロパティとして時間を追加することもできます。この種の属性は、リレーションシップだけでなくエンティティにも追加できます。このすべての情報をリレーションシップまたはエンティティの属性として追加すると、結果として得られるグラフはプロパティグラフと呼ばれます。プロパティグラフと従来の RDF 形式はどちらも、ナレッジグラフの表現および保存方法として使用できます。

3. ナレッジグラフの保存

ナレッジグラフはグラフベースのデータ構造であり、そのストレージには主に RDF ストレージ形式とグラフデータベースの 2 つの形式があります。

DB-Engines ランキングによると、neo4j はグラフストレージ分野全体で第 1 位にランクされており、Jena は依然として RDF 分野で最も人気のあるストレージフレームワークです。

もちろん、設計するナレッジグラフが非常に単純で、クエリに複数度の関連クエリが含まれていない場合は、リレーショナルデータストレージ形式を使用してナレッジグラフを保存することもできます。ただし、やや複雑な関係ネットワーク (実生活におけるエンティティと関係は一般的にもっと複雑です) の場合、ナレッジグラフの利点は依然として非常に明白です。まず、従来の保存方法と比較して、関連クエリの効率が大幅に向上します。 2 次および 3 次関連クエリの場合、ナレッジグラフに基づくクエリ効率は数千倍、あるいは数百万倍も高くなります。第二に、グラフベースのストレージは設計が非常に柔軟であり、通常はローカルの変更のみが必要です。たとえば、新しいデータソースがある場合は、それを既存のグラフに挿入するだけで済みます。対照的に、リレーショナルストレージ方式は柔軟性が低く、すべてのスキーマが事前に定義されており、後で変更する必要がある場合はコストが非常に高くなります。最後に、エンティティとリレーションシップをグラフデータ構造に格納することが、全体的なストーリーロジックに適合する最良の方法です。

4. ナレッジグラフのデータソース

検索品質を向上させ、特に会話型検索や複雑な質疑応答などの新しい検索エクスペリエンスを提供するには、ナレッジグラフに大量の高品質な常識的知識が含まれているだけでなく、新しい知識をタイムリーに発見して追加できることも必要です。この文脈において、ナレッジグラフは、百科事典サイトやさまざまな垂直サイトから構造化データを収集することで、常識的な知識のほとんどをカバーします。これらのデータは一般的に高品質であり、比較的ゆっくりと更新されます。一方、ナレッジグラフは、さまざまな半構造化データ (HTML テーブルなど) から関連するエンティティの属性と値のペアを抽出することで、エンティティの説明を充実させます。さらに、クエリログを通じて新しいエンティティまたは新しいエンティティ属性が検出され、ナレッジグラフの範囲が継続的に拡大されます。高品質の常識的知識と比較すると、データマイニングを通じて抽出された知識データはより大きく、現在のユーザーのクエリニーズをよりよく反映し、最新のエンティティまたは事実をタイムリーに発見できますが、その品質は比較的低く、特定のエラーが含まれています。この知識は、インターネットの冗長性を利用して、その後のマイニングで投票やその他の集約アルゴリズムを通じて信頼性を評価し、手動レビューを通じて知識グラフに追加されます。

a) 百科事典データ

Wikipedia は共同編集を通じて、ブリタニカ百科事典に匹敵する品質を持つ最大のオンライン百科事典になりました。必要なコンテンツは、次の方法で Wikipedia から取得できます。記事ページからさまざまなエンティティを抽出します。リダイレクトページからこれらのエンティティの同義語 (シノニムとも呼ばれます) を取得します。曖昧さ回避ページと内部リンクアンカーテキストから同義語 (ホモニムとも呼ばれます) を取得します。概念ページからさまざまな概念とその階層 (サブクラス) 関係を取得します。記事ページに関連付けられたオープン分類からエンティティに対応するカテゴリを抽出します。情報ボックスからエンティティに対応する属性と値のペアおよび関係とエンティティのペアを抽出します。同様に、Wikipedia の中国語データの不足を補うために、百度百科事典や滬東百科事典からさまざまな中国語の知識が抽出されています。さらに、Freebase[5]はもう一つの重要な百科事典データソースであり、3,900万以上のエンティティ（トピックと呼ばれる）と18億の事実が含まれており、これはWikipediaよりもはるかに大きいです。前述のナレッジグラフの規模を比較すると、Freebase だけで Google のナレッジグラフの半分を占めていることがわかりました。さらに重要なのは、Wikipedia は記事の形式で提示され、さまざまな半構造化情報を含むさまざまなエントリを編集するため、事前に確立されたルールを通じて知識を抽出する必要があるのに対し、Freebase はエンティティとその属性や関係、およびエンティティの種類などの構造化情報を含む知識を直接編集することです。したがって、抽出ルールなしでも高品質の知識を得ることができます。 Freebase を開発した親会社である MetaWeb は 2010 年に Google に買収されましたが、Freebase は現在もオープンな知識管理プラットフォームとして独立して運営されています。そこで、Baidu と Sogou も Freebase をナレッジグラフに追加しました。

b) 構造化データ

大手検索エンジン企業は、ナレッジグラフを構築する際に、百科事典データに加えて、他の構造化データも考慮します。その中で、LOD プロジェクトは、さまざまなセマンティックデータを公開する際に、新しく公開されたセマンティックデータに含まれるエンティティを、owl:sameAs を通じて LOD 内の既存のデータソースに含まれる潜在的に同一のエンティティに関連付け、手動でのエンティティの調整を実現します。 LODには、DBpedia[6]やYAGO[7]などの一般的なセマンティックデータセットだけでなく、MusicBrainzやDrugBankなどのドメイン固有の知識ベースも含まれています。そのため、Google などは、LOD に（部分的な）セマンティックデータを統合することで、知識、特に垂直分野のさまざまな知識のカバレッジを向上させています。また、Web上には高品質な垂直型サイト（電子商取引サイト、レビューサイトなど）が多数存在し、これらはディープウェブと呼ばれています[10]。動的 Web ページテクノロジを使用して、データベースに保存されているさまざまなフィールド関連の構造化データを HTML テーブルの形式でユーザーに提示します。大手検索エンジン企業は、これらのサイトを買収したり、データを購入したりすることで、特定の分野におけるナレッジグラフをさらに拡大しています。これを行う理由は 3 つあります。第 1 に、これらのサイトから大量のデータをクロールすると、大量の帯域幅が消費され、これらのサイトにアクセスできなくなります。第 2 に、サイト全体のデータをクロールすると、知的財産権に関する紛争が発生する場合があります。最後に、静的 Web ページのクロールと比較して、ディープ Web クローラーはフォーム入力テクノロジを使用して関連コンテンツを取得する必要があり、これらのページに含まれる構造化情報を解析するには、次のセクションで説明する追加の自動抽出アルゴリズムが必要です。

c) 半構造化データマイニングAVP

ディープウェブからデータをクロールし、そこに含まれる構造化情報を解析することは大きな課題に直面していますが、大手検索エンジン企業は依然としてこの点に多大な労力を費やしています。一方、Web 上にはロングテール構造化サイトが多数存在します。これらのサイトが提供するデータは、関連分野の主流サイトが提供するコンテンツと高い補完性があります。そのため、これらのロングテールサイトからの大規模な情報抽出 (特にエンティティ関連の属性値ペアの抽出) は、ナレッジグラフに含まれるコンテンツを拡張する上で非常に価値があります。一方、中国の百科事典サイト（百度百科事典など）は、Wikipedia に比べて構造化がはるかに劣っています。情報ボックスを通じて AVP を取得できるエンティティは非常に少なく、一部のリストや表には多数の属性値ペアが隠されています。実用的なアプローチの 1 つは、サイト固有のラッパーを構築することです。その基本的な考え方は、ディープウェブサイト内のさまざまなページが統一されたプログラムによって動的に生成され、同様のレイアウトと構造を持つというものです。これを利用すると、抽出する現在のサイトからいくつかの典型的な詳細ページをサンプリングして注釈を付け、これらのページを使用してパターン学習アルゴリズムを通じて 1 つ以上の Xpath のようなパターンを自動的に構築し、それをサイトの他の詳細ページに適用して自動 AVP 抽出を実現するだけで済みます。百科事典サイトの場合、同じカテゴリのページを「仮想」サイトとして扱い、同様の方法を使用してエンティティ AVP を抽出できます。自動学習によって取得されたパターンは完璧ではなく、いくつかの重要な属性が欠落したり、間違った抽出結果が生成されたりする可能性があります。この問題に対処するために、検索エンジン企業はこれらのパターンを視覚化し、抽出のために適切なパターンを手動で調整または追加するツールを構築することがよくあります。さらに、抽出結果を手動で評価することで、抽出結果が不十分な典型的なページに再ラベル付けしてトレーニングサンプルを更新し、アクティブラーニングの目的を達成します。

d) ログを検索してエンティティとエンティティ属性をマイニングする

検索ログは検索エンジン企業が蓄積する貴重な資産です。検索ログは、<クエリ、クリックしたページリンク、タイムスタンプ> の形式になります。検索ログをマイニングすることで、最新のエンティティとその属性を発見できることが多く、それによってナレッジグラフのリアルタイム性が保証されます。ここでは、クエリのキーワードフレーズとクリックされたページに対応するタイトルからエンティティとその属性を抽出することに焦点を当てます。抽出対象としてクエリを選択することの重要性は、それがユーザーの最新かつ最も広範なニーズを反映し、そこからユーザーが興味を持っているエンティティとエンティティの対応する属性をマイニングできることです。ページタイトルを抽出対象として選択する意義は、タイトルはページ全体の要約であることが多く、最も重要な情報が含まれていることです。 Baidu の研究者の統計によると、エンティティの 90% 以上が Web ページのタイトルに含まれています。上記の抽出タスクを完了するための一般的なアプローチは、各カテゴリに対して、そのカテゴリに属するいくつかのエンティティ (および関連属性) をシードとして選択し、これらのシードを含むクエリとページタイトルを見つけて、正規表現または文法パターンを形成することです。これらのパターンは、クエリとページタイトルに表示される他のエンティティとその属性を抽出するために使用されます。現在抽出されたエンティティがナレッジグラフに含まれていない場合、そのエンティティは新しい候補エンティティになります。同様に、現在抽出された属性がナレッジグラフに表示されない場合は、この属性が新しい候補属性になります。ここでは、高い信頼性を持つエンティティとその属性のみを保持し、新しく追加されたエンティティと属性は、新しいパターンを発見するための新しいシードとして使用されます。このプロセスは、新しいシードを追加できなくなるか、すべてのパターンが見つかり一般化が不可能になるまで繰り返されます。パターンの品質を決定する際に使用される基本原則は、現在のカテゴリに属するエンティティと対応する属性をできるだけ多く検出し、他のカテゴリに属するエンティティと属性をできるだけ少なく抽出することです。上記の方法は、ブートストラップに基づくマルチカテゴリ協調パターン学習と呼ばれます。

5. 抽出グラフからナレッジグラフへ

上記で紹介した方法では、さまざまな種類のデータソースからナレッジグラフを構築するために必要なさまざまな候補エンティティ (概念) とその属性の関連付けのみを抽出し、分離された抽出グラフを形成します。真のナレッジグラフを形成するには、これらの情報アイランドを統合する必要があります。

a) エンティティの配置

オブジェクトアライメントは、異なる ID を持ちながらも現実世界で同じオブジェクトを表すエンティティを検出し、これらのエンティティをグローバルに一意の識別子を持つエンティティオブジェクトにマージして、ナレッジグラフに追加することを目的としています。エンティティアライメントはデータベース分野で広く研究されてきましたが、これほど多くの異種データソースに対して Web 規模のエンティティアライメントを実行するのは初めての試みです。大手検索エンジン会社が一般的に使用している手法はクラスタリングです。クラスタリングの鍵は、適切な類似度の尺度を定義することです。これらの類似度の尺度は、次の観察に従います: 同じ説明を持つエンティティは同じエンティティを表す可能性が高い (文字の類似度)、同じ属性値を持つエンティティは同じオブジェクトを表す可能性が高い (属性の類似度)、同じ隣接を持つエンティティは同じオブジェクトを参照する可能性が高い (構造の類似度)。これを基に、大規模なエンティティアライメントの効率問題を解決するために、データの分割またはセグメンテーションに基づくさまざまなアルゴリズムが提案され、エンティティをサブセットに分割し、これらのサブセットに対してより複雑な類似性計算に基づくクラスタリングを使用して、潜在的に同一のオブジェクトを並列に検出します。さらに、LOD からの既存の整列された注釈データ (owl:sameAs を使用して 2 つのエンティティを関連付ける) をトレーニングデータとして使用し、それをラベル伝播などのグラフベースの半教師あり学習アルゴリズムを使用した類似度計算と組み合わせて、より多くの同一エンティティペアを検出します。自動化された方法では 100% の精度を保証することはできないため、これらの方法の出力は、さらに手動でレビューおよびフィルタリングするための候補として使用されます。

b) ナレッジグラフスキーマの構築

前回の技術紹介では、内容の大部分がナレッジグラフ内のデータ層 (データレベル) の構築に費やされ、スキーマ層 (スキーマレベル) についてはあまり触れられていませんでした。実際、モデルは知識の凝縮であり、事前に与えられたスキーマに従うことで知識を標準化し、クエリなどの後続の処理を容易にするのに役立ちます。ナレッジグラフのスキーマを構築することは、ナレッジグラフのオントロジーを確立することと同じです。最も基本的なオントロジーには、概念、概念階層、属性、属性値タイプ、関係、関係ドメイン概念セット、関係範囲概念セットが含まれます。これを基に、モデル層でより複雑な制約を表現するために追加のルールや公理を追加できます。このように大規模かつドメインに依存しない知識ベースに直面すると、最も基本的なオントロジーを構築することさえ非常に困難です。 Google などの企業で一般的に使用されている方法は、トップダウンとボトムアップのアプローチを組み合わせたものです。ここで、トップダウンアプローチとは、オントロジーエディターを通じてオントロジーを事前に構築することを指します。もちろん、ここでのオントロジー構築はゼロからのプロセスではなく、百科事典や構造化データから得られた高品質の知識から抽出されたパターン情報に依存しています。さらに注目すべきは、Google Knowledge Graph のスキーマが、同社が買収した Freebase のスキーマに基づいて変更されたことです。 Freebase スキーマは、ドメイン、タイプ、トピック (エンティティ) を定義します。各ドメインには複数のタイプがあります。各タイプには複数のトピックが含まれ、複数のプロパティに関連付けられています。これらのプロパティは、現在のタイプに属するトピックに含める必要がある属性と関係を指定します。定義されたパターンを使用して、特定のタイプに属する、または特定のプロパティを満たす新しいエンティティ (またはエンティティペア) を抽出できます。一方、ボトムアップアプローチでは、上記で紹介したさまざまな抽出手法、特に検索ログと Web テーブル抽出を使用してカテゴリ、属性、関係性を検出し、これらの信頼性の高いパターンをナレッジグラフにマージします。マージプロセスでは、エンティティの配置に似た配置アルゴリズムが使用されます。元のナレッジグラフのパターンと一致しないカテゴリ、属性、関係は、手動フィルタリング用の新しいパターンとしてナレッジグラフに追加されます。トップダウンアプローチは新しいインスタンスを抽出し、抽出品質を確保するのに役立ち、ボトムアップアプローチは新しいパターンを発見できます。この2つは相互に補完し合っています。

c) 矛盾の解決

異なるデータソースからの情報を統合してナレッジグラフを形成する場合、一部のエンティティは相互に排他的な2つのカテゴリ（男性と女性など）に属したり、エンティティに対応するプロパティ[11]（性別など）が複数の値に対応したりすることがあります。これにより矛盾が生じます。これらの相互に排他的なカテゴリペアと機能プロパティは、パターンレベルの知識と見なすことができます。パターンレベルの知識は通常それほど大きくなく、手動でルールを指定して定義できます。ただし、不整合の検出では多数のエンティティと関連する事実を処理する必要があるため、完全に手動のアプローチはもはや実行可能ではありません。シンプルで効果的な方法では、データソースの信頼性と各データソース内のさまざまな情報の発生頻度を十分に考慮して、最終的にどのカテゴリまたは属性値を使用するかを決定します。つまり、信頼性の高いデータソース（百科事典や構造化データなど）から抽出された事実を優先します。さらに、エンティティが複数のデータソースで特定のカテゴリのインスタンスとして識別される場合、またはエンティティの機能プロパティが複数のデータソースで同じ値に対応する場合、最終的にそのカテゴリと値を選択する傾向があります。注: データソース内のカテゴリの頻度をカウントする前に、カテゴリの配置計算を完了する必要があります。同様に、数値属性値についても、使用する単位を統一する必要があります。

6. ナレッジグラフのマイニング

さまざまな情報抽出およびデータ統合技術を通じて、Web 規模のナレッジグラフを構築できるようになりました。グラフの知識範囲をさらに拡大するには、知識グラフ上でのさらなるマイニングが必要です。以下に、いくつかの重要なナレッジグラフベースのマイニング技術を紹介します。

a) 推論

推論（または推測）は暗黙の知識を発見するために広く使用されています。推論機能は通常、拡張可能なルールエンジンを通じて実行されます。ナレッジグラフのルールは、一般的に 2 つのカテゴリに分類されます。 1 つは属性用で、数値計算によって属性値を取得します。たとえば、ナレッジグラフに人物の生年月日が含まれている場合、現在の日付から生年月日を引くことで年齢を取得できます。このタイプのルールは、属性値が時間の経過やその他の要因によって変化する場合に特に役立ちます。もう 1 つのタイプは関係指向で、(チェーン) ルールを通じてエンティティ間の暗黙的な関係を検出します。たとえば、「義父は妻の父親である」というルールを定義できます。このルールを使用すると、ヤオミンの妻（イェ・リー）とイェ・リーの父（イェ・ファ）がわかっている場合、ヤオミンの義父はイェ・ファであると推測できます。

b) エンティティの重要度ランキング

検索エンジンは、ユーザーのクエリに記載されているエンティティを識別し、ナレッジカードを通じてエンティティの構造化された概要を表示します。クエリに複数のエンティティが含まれる場合、検索エンジンはクエリに対してより関連性が高く重要なエンティティを表示することを選択します。エンティティの関連性の尺度はクエリ時にオンラインで計算する必要がありますが、エンティティの重要度はクエリとは独立しており、オフラインで計算できます。検索エンジン企業は、エンティティの重要性を計算するために、ナレッジグラフにPageRankアルゴリズム[12]を適用します。従来の Web グラフと比較すると、ナレッジグラフ内のノードは単一の Web ページからさまざまな種類のエンティティに変わり、グラフ内のエッジも Web ページを接続するハイパーリンクから多種多様な意味関係に変わりました。エンティティと意味関係によって人気度と抽出信頼度が異なり、これらの要因がエンティティの重要度の最終的な計算結果に影響を与えるため、大手検索エンジン企業はこれらの要因を組み込み、エンティティと意味関係の初期重要度を特徴付け、それによって偏りのある PageRank アルゴリズムを使用しています。

c) 関連エンティティのマイニング

同じクエリ内で共起するエンティティ、または同じクエリセッションで言及される他のエンティティは、関連エンティティと呼ばれます。一般的なアプローチは、これらのクエリまたはセッションを仮想ドキュメントと見なし、それらに表示されるエンティティをドキュメント内の用語として扱い、トピックモデル (LDA など) を使用して仮想ドキュメントセット内のトピック分布を検出することです。各トピックには 1 つ以上のエンティティが含まれており、同じトピック内のこれらのエンティティは関連エンティティです。ユーザーがクエリを入力すると、検索エンジンはクエリのトピック分布を分析し、最も関連性の高いトピックを選択します。同時に、検索エンジンは、ナレッジカードに表示されているエンティティに最も関連性の高いトピック内のエンティティを、「他のユーザーも検索した」という推奨結果として提供します。

7. ナレッジグラフの更新とメンテナンス

a) タイプとコレクションの関係

品質を保証するために、ナレッジグラフスキーマは専門チームによってレビューおよび保守されます。 Google Knowledge Graph を例にとると、現在定義されているタイプの数は 103 ～ 104 程度です。検索エンジン企業は、ナレッジグラフのカバレッジを向上させるために、自動化されたアルゴリズムを使用して、さまざまなデータソースから新しいタイプの情報 (関連するプロパティ情報を含む) を抽出します。このタイプの情報は、コレクションと呼ばれるデータ構造に保存されます。これらはナレッジグラフスキーマにすぐには追加されません。今日生成されて翌日削除されるものもあれば、コレクションに長期間保存できるものもあります。コレクション内の特定のタイプが長期間保存できる場合、ある程度まで発展した後、専門家によって決定され、名前が付けられ、最終的に新しいタイプになります。

b) 構造化サイトラッパーのメンテナンス

サイトの更新により、元のモデルが無効になることがよくあります。検索エンジンは定期的にサイトの更新をチェックします。既存のページ（以前にクロールされたページ）の変更が検出されると、検索エンジンはこれらのページの変更量を確認し、最新のサイトラッパーを使用して AVP 抽出を実行します。変更量が事前に設定されたしきい値を超え、抽出された結果が最初にマークされた回答と大幅に異なる場合、既存のサイトラッパーが無効であることを示します。この場合、最新のページに再度注釈を付け、新しいパターンを学習して更新されたラッパーを構築する必要があります。

c) ナレッジグラフの更新頻度

ナレッジグラフに追加されるデータは静的ではありません。 Type に対応するインスタンスは動的に変更されることが多いです。たとえば、アメリカ合衆国大統領は、時間の経過とともにさまざまな人物に対応する可能性があります。データレイヤーの規模と更新頻度はスキーマレイヤーをはるかに上回っているため、検索エンジン企業は強力なコンピューティング能力を活用して、グラフが毎日 3 時間以内に更新され、リアルタイムのホットスポットがイベントから 6 時間以内に検索結果に反映されるようにしています。

d) クラウドソーシングフィードバックメカニズム

検索エンジン企業では、構築されたナレッジグラフをレビューして保守する専門チームに加えて、グラフの改善にユーザーの協力も求めています。具体的には、ユーザーは検索結果に表示されるナレッジカードにリストされているエンティティに関連する事実を修正できます。多くのユーザーがエラーを指摘すると、検索エンジンはそれを採用して修正します。集合知を活用したこの共同知識編集は、専門チームによる集中管理を補完します。

検索におけるナレッジグラフの応用

1. クエリの理解

検索エンジンはナレッジグラフを使用して、クエリに含まれるエンティティ (概念) とその属性を識別し、エンティティの重要度に基づいて対応するナレッジカードを表示します。検索エンジンはエンティティのすべての属性を表示するのではなく、入力された現在のクエリに基づいて、最も関連性の高い属性と属性値を自動的に選択して表示します。さらに、検索エンジンは、関連する知識の正確度が非常に高い場合（通常は 95% 以上、最大 99%）のみにナレッジカードを表示します。表示するエンティティが選択された後、関連エンティティマイニングを使用して、ユーザーがさらに閲覧するために興味を持つ可能性のある他のエンティティが推奨されます。

2. 質問応答

クエリに関連するナレッジカードを表示することに加えて、ナレッジグラフが検索にもたらすもう 1 つの革新は、ドキュメントのランク付けされたリストではなく、回答を直接返すことです。自動質問システムを実現するには、検索エンジンは、クエリに含まれるエンティティとその属性を理解するだけでなく、クエリに対応するセマンティック情報も理解する必要があります。検索エンジンは、効率的なグラフ検索を使用して、知識グラフでこれらのエンティティと属性を接続するサブグラフを見つけ、それらを対応するグラフクエリ（SPARQLなど）に変換します。これらの翻訳されたグラフクエリは、対応する回答に応答して返信するために、さらにグラフデータベースに送信されます。

インターネットファイナンスにおける知識グラフの適用

不正行為防止

アンチフラードは、リスク制御の非常に重要な部分です。ビッグデータに基づくアンチフラードの難しさは、さまざまなソース（構造化および非構造化）からのデータを統合し、詐欺ケース（ID詐欺、グループ詐欺、代理店パッケージなど）を効果的に特定するためのアンチフラードエンジンを構築する方法にあります。さらに、多くの詐欺事件には、複雑な関係のネットワークが含まれており、これは詐欺監査に新たな課題をもたらします。知識グラフは、関係の直接的な表現として、これら2つの問題をうまく解決できます。まず、知識グラフは、前述のように、新しいデータソースを追加するための非常に便利な方法を提供します。第二に、知識グラフ自体は、この直感的な表現方法を表すために使用されます。

アンチフラードの中核は、最初に、借り手に関連するすべてのデータソースを接続し、複数のデータソースを含む知識グラフを構築する必要があります。ここでは、借り手の基本情報（適用時に記入された情報など）を統合するだけでなく、借り手の消費記録、行動記録、オンライン閲覧記録などを分析と予測のために知識グラフ全体に統合することもできます。ここでの困難の1つは、多くのデータがインターネットから取得されている構造化されていないデータであり、機械学習と自然言語処理技術を使用してこのデータを構造化されたデータに変換する必要があることです。

矛盾の検証

矛盾の検証を使用して、交差検証に似た借り手の詐欺リスクを決定できます。たとえば、ボロワーのZhang SanとBorrower Li Siは同じ会社の電話番号を記入しましたが、Zhang Sanが埋め、Li Siが満たした会社は完全に異なり、監査人に特別な注意を払う必要があります。

たとえば、借り手は、彼がチャン・サンと友達であり、李Siの父であると言います。借り手の情報をナレッジグラフに追加しようとすると、「一貫性検証」エンジンがトリガーされます。エンジンは、最初にZhang SanとLi Siの関係を読み取り、この「三角関係」が正しいかどうかを確認します。明らかに、友人の友人は父と息子ではないので、明らかな矛盾があります。

矛盾の検証には、知識に関する推論が含まれます。素人の用語では、知識の推論は「リンク予測」として理解できます。これは、既存の関係グラフから新しい関係やリンクを導き出すことです。たとえば、上記の例では、Zhang SanとLi Siが友達であり、Zhang SanとThe Borrowerも友人であると仮定すると、借り手とLi Siも友人であると推測できます。

グループ詐欺

誤ったアイデンティティの識別と比較して、グループ詐欺を検出することはより困難です。この種の組織は、非常に複雑な関係のネットワークに隠されており、発見するのは簡単ではありません。関係の暗黙のネットワークを明確に整理した場合にのみ、潜在的なリスクを分析して発見できます。ナチュラルリレーションシップネットワーク分析ツールとしての知識グラフは、このような潜在的なリスクをより簡単に特定するのに役立ちます。簡単な例を挙げると、詐欺グループの一部のメンバーは誤ったアイデンティティを使用してローンを申請しますが、一部の情報は共有されています。次の図は、この状況を大まかに示しています。図から、Zhang San、Li Si、Wang Wuの間に直接的な関係はないことがわかりますが、関係ネットワークを通じて、これらの3人がいくつかの情報を共有していることがわかります。グループ詐欺には多くの形式がありますが、1つ確かなことがあります。知識グラフは、他のどのツールよりも便利な分析方法を確実に提供します。

異常検出

異常分析は、データマイニング研究の分野で重要なトピックです。指定されたデータから「異常な」ポイントを見つけると単純に理解できます。当社のアプリケーションでは、これらの「異常」が詐欺に関連付けられている可能性があります。ナレッジグラフはグラフと見なすことができるため、知識グラフの異常分析は主にグラフ構造に基づいています。知識グラフ内のエンティティの種類と関係タイプが異なるため、Anomaly分析もこの追加情報を考慮する必要があります。ほとんどのグラフベースの異常分析方法には多くの計算が必要なため、オフラインのコンピューティングを選択できます。アプリケーションフレームワークでは、例外分析は、静的分析と動的分析の2つのカテゴリに分けることができます。これについては、後で1つずつ説明します。

- 静的分析

いわゆる静的解析とは、グラフ構造と特定の時点を与えられた場合、そこからいくつかの異常なポイント（異常なサブグラフなど）が見つかることを意味します。下の図では、5つのポイントが互いに非常に密接に関連していることが明確にわかります。これは不正な組織である可能性があります。したがって、これらの異常な構造についてさらに分析することができます。

- 動的分析

いわゆる動的分析とは、時間とともに変化する構造の傾向を分析することを指します。私たちの仮定は、ナレッジグラフ構造が短期間であまり変化しないことを意味します。構造が時間の経過とともにどのように変化するかを分析するには、タイミング分析技術とグラフの類似性計算技術が含まれます。

顧客管理を失いました

ローン前のリスク制御に加えて、知識グラフはローン後に強力な役割を果たすこともできます。たとえば、ローン後の行方不明の顧客の管理に関しては、知識グラフは、より潜在的な新しい連絡先を発見し、それによって収集の成功率を高めるのに役立ちます。

現実には、多くの借り手はローンを成功させた後、ローンを返済せず、「隠れか」をプレイし、自分自身に連絡することはできません。借り手が提供した他の連絡先に連絡しようとしたとしても、私はまだ私に連絡することはできません。これにより、いわゆる「失われた接触」状態に入り、借金収集者が開始することは不可能になりました。次の質問は、連絡先を失った場合、借り手との関係を持つ新しい連絡先を発見する方法はありますか？より潜在的な新しい連絡先を活用できれば、コレクションの成功率が大幅に向上します。たとえば、以下の関係図では、借り手はLi Siと直接的な関係を持っていますが、Li Siに連絡することはできません。どのLi Siの接触が2度関係の分析を通じて借り手を知っているかを予測し、判断することは可能ですか？これには、グラフ構造の分析が含まれます。

インテリジェントな検索とビジュアルディスプレイ

ナレッジグラフに基づいて、インテリジェントな検索とデータの視覚化のためのサービスを提供することもできます。スマート検索の機能は、GoogleおよびBaiduでの知識グラフのアプリケーションに似ています。つまり、各検索キーワードについて、知識グラフを通じてより豊かで包括的な情報を返すことができます。たとえば、個人のID番号を検索すると、スマート検索エンジンは、すべての過去のローン記録、連絡先情報、行動特性、および各エンティティ（ブラックリスト、ピアなど）のラベルを返すことができます。さらに、視覚化の利点は視覚化を通じて、非常に直感的な方法で提示されているため、隠された情報の内側と外れを明確にします。

正確なマーケティング

スマートビジネスは、競合他社よりも効率的な方法で潜在的な顧客を活用できます。インターネット時代には多くのマーケティング方法がありますが、どのような方法があるとしても、ユーザーを分析し、ユーザーを理解するという1つのコアとは分離できません。ナレッジグラフは、複数のデータソースを組み合わせてエンティティ間の関係を分析し、ユーザーの動作をよりよく理解することができます。たとえば、企業のマーケティングマネージャーは知識グラフを使用してユーザー間の関係を分析し、組織の共通の好みを発見して、特定のタイプの人口のターゲットマーケティング戦略を策定できるようにします。ユーザーのニーズをより良くより深く理解できる場合にのみ、マーケティングをよりよく行うことができます。

[この記事は51CTOコラムニスト「ビッグデータとクラウドコンピューティング」によるオリジナル記事です。転載する場合はWeChatパブリックアカウントを通じて連絡し、許可を得てください。]

この著者の他の記事を読むにはここをクリックしてください

<<: ディープラーニングを理解する

>>: ディープラーニングの本質を探りますか?