ついに誰かがナレッジグラフをわかりやすく説明してくれた

[[382731]]

この記事は、劉宇、趙紅宇らが執筆したWeChatパブリックアカウント「ビッグデータDT」から転載したものです。この記事を転載する場合は、Big Data DT パブリックアカウントにご連絡ください。

01 ナレッジグラフとは何か

ナレッジグラフの概念をさまざまな観点から検討することができます。

Web の観点から見ると、ナレッジグラフは単純なテキスト間のハイパーリンクのようなものです。データ間のセマンティックリンクを確立することで、セマンティック検索をサポートします。
自然言語処理の観点から見ると、ナレッジグラフはテキストから意味的かつ構造化されたデータを抽出することです。
知識表現の観点から見ると、ナレッジグラフはコンピュータシンボルを使用して知識を表現および処理する方法です。
人工知能の観点から見ると、ナレッジグラフは知識ベースを使用して人間の言語の理解を支援するツールです。
データベースの観点から見ると、ナレッジグラフは知識をグラフの形式で保存する方法です。

現時点では、学術界ではナレッジグラフの統一された定義は与えられていません。 Google が公開したドキュメントには、ナレッジグラフはグラフモデルを使用して知識を記述し、世界中のあらゆるものの関係性をモデル化する技術的な方法であると明確に説明されています。

ナレッジグラフは、意味的知識を記述するための比較的一般的な形式的なフレームワークです。図 3-1 に示すように、ノードを使用して意味的シンボルを表し、エッジを使用して意味間の関係を表します。ナレッジグラフでは、人、物、オブジェクトは通常、エンティティまたはオントロジーと呼ばれます。

▲図3-1 ナレッジグラフの例

ナレッジグラフの 3 つのコンポーネントには、エンティティ、リレーションシップ、属性が含まれます。

エンティティ: オントロジーとも呼ばれ、客観的に存在し、互いに区別できるものを指します。特定の人物、物、オブジェクトの場合もあれば、抽象的な概念やつながりの場合もあります。エンティティはナレッジグラフの最も基本的な要素です。
関係: ナレッジグラフでは、エッジはナレッジグラフ内の関係を表し、異なるエンティティ間の特定の接続を表すために使用されます。図3-1に示すように、チューリングと人工知能の関係、ナレッジグラフとGoogleの関係、Googleとディープラーニングの関係があります。
属性: ナレッジグラフ内のエンティティとリレーションシップには、図 3-2 に示すように、独自の属性を設定できます。

▲図3-2 ナレッジグラフの属性

ナレッジグラフの構築には、知識モデリング、関係抽出、グラフストレージ、関係推論、エンティティ融合などの多くのテクノロジが関係します。ナレッジグラフの応用は、セマンティック検索、インテリジェントな質問と回答、言語理解、意思決定分析など、多くの分野に反映されています。

02 ナレッジグラフの価値

ナレッジグラフは、最初に検索エンジンで使用されました。一方では、推論による概念検索を実現し、他方では、分類され整理された構造化された知識をグラフィカルな方法でユーザーに表示することで、回答を見つけるために手動で Web ページをフィルタリングするモードから人々を解放します。インテリジェントな質問と回答、自然言語理解、推奨などの側面に適用できます。

ナレッジグラフの開発は、Web テクノロジの発展の恩恵を受けており、KR、NLP、Web、AI の影響を受けています。ナレッジグラフの価値は、最終的には AI をよりスマートにすることにあります。

1. 検索を支援する

検索の目的は、相互接続されたネットワーク内で人々が何かを簡単に素早く見つけられるようにすることです。現在、私たちの検索習慣や検索行動は依然としてキーワードに基づいています。ナレッジグラフの出現により、この検索行動パターンは完全に変化する可能性があります。

ナレッジグラフが検索エンジンに適用される前は、検索プロセスでは、多数の URL からクエリに最も一致する URL を見つけ、クエリ結果に基づいて最も高いランキングスコアを持つ結果をユーザーに返していました。検索エンジンは、プロセス全体を通じて、ユーザーが入力した内容を知る必要がない場合があります。これは、システムには推論する能力がなく、正確な検索が少し欠けているためです。

ナレッジグラフベースの検索は、ユーザーの質問に直接答えることができるだけでなく、一定の意味的推論機能も備えているため、検索の精度が大幅に向上します。図3-3はナレッジグラフ支援検索の概略図を示しています。

▲図3-3 ナレッジグラフは検索を容易にする

2. 推奨事項の支援

推奨技術は検索技術と非常に似ていますが、わずかな違いもあります。検索技術は情報プル方式を採用していますが、推奨技術は情報プッシュ方式を採用しているため、推奨技術にはコールドスタートやデータスパース性の問題などいくつかの問題があります。

本稿では、電子商取引の推奨を例に、推奨におけるナレッジグラフの応用について紹介します。私が携帯電話を購入し、その携帯電話の強い従属関係が携帯電話ケースであると仮定すると、システムは私に携帯電話ケースを推奨することができ、類似または補完的なエンティティも推奨できます。図3-4はナレッジグラフを活用した推奨の概略図である。

▲図3-4 ナレッジグラフが推薦に役立つ

3. Q&Aのサポート

質問応答および対話システムは常に、人工知能実装の分野における NLP の重要なシンボルの 1 つです。ナレッジグラフは、質問応答および対話システムに背景知識ベースを追加することと同じです。

質問応答および対話システムやチャットボットの場合、エンティティ知識グラフや興味知識グラフなどのオープンフィールドのスパースな大規模グラフに加えて、ロボットやユーザー向けにパーソナライズされた密な小規模グラフも必要です。同時に、ナレッジグラフを動的に更新する必要があります。図3-5はナレッジグラフを活用した質問と回答の概略図です。

▲図3-5 ナレッジグラフがQ&Aに役立つ

03 ナレッジグラフアーキテクチャ

ナレッジグラフのアーキテクチャには、知識の表現、知識の獲得、知識の処理、知識の活用など、複数の側面が含まれます。

一般的に言えば、ナレッジグラフを構築するプロセスは次のとおりです。まず、知識表現モデルを決定し、次にさまざまなデータソースに基づいてさまざまな知識獲得方法を選択して関連する知識をインポートし、次に知識推論、知識融合、知識マイニングなどのテクノロジを使用して対応するナレッジグラフを構築し、最後に、セマンティック検索、インテリジェント推奨、インテリジェントな質疑応答などのさまざまなアプリケーションシナリオに従ってナレッジグラフの表示方法を設計します。

論理的には、ナレッジグラフをデータレイヤーとモデルレイヤーの 2 つのレベルに分割できます。データレイヤーは、ファクトをユニットとして保存するデータベースになります。使用できるグラフデータベースには、RDF4j、Virtuoso、Neo4j、その他のトリプルが含まれます。

<エンティティ、リレーションシップ、エンティティ> または <エンティティ、属性、属性値> を基本式として使用し、グラフデータベースに保存できます。モデル層はデータ層上に構築され、ナレッジグラフの中核となります。通常、データ層はオントロジーライブラリを通じて管理され、オントロジーライブラリの概念はオブジェクト内の「クラス」の概念に相当します。オントロジーライブラリの助けを借りて、公理、ルール、制約を管理し、エンティティ、関係、属性などの特定のオブジェクト間の関係を標準化できます。

ナレッジグラフを構築するには、トップダウンとボトムアップの 2 つの方法があります。トップダウン構築とは、百科事典データソースを利用してオントロジーとパターン情報を抽出し、それを知識ベースに追加することを意味します。ボトムアップ構築とは、特定の技術的手段を利用して公開データからリソースを抽出し、より信頼性の高い情報を選択し、手動でレビューした後で知識ベースに追加することを意味します。

ナレッジグラフの開発の初期段階では、ほとんどの企業や機関がトップダウンアプローチを使用してナレッジグラフを構築していました。現在では、ほとんどの企業がボトムアップアプローチを使用してナレッジグラフを構築しています。

ナレッジグラフのアーキテクチャを図 3-6 に示します。

▲図3-6 ナレッジグラフのアーキテクチャ

知識ソース: 構造化データ、非構造化データ、半構造化データが含まれます。
情報抽出: さまざまな種類のデータソースからエンティティ、属性、エンティティ間の関係を抽出し、これに基づいてオントロジーの知識表現を形成します。ナレッジグラフを構築するプロセスでは、大量の非構造化データまたは半構造化データが存在し、これらのデータはナレッジグラフの構築中に自然言語処理手法によって抽出する必要があります。このデータから、エンティティ、関係、属性を抽出できます。
知識の融合: 主なタスクは、構造化されたデータや情報、さらにはサードパーティの知識ベースから抽出されたエンティティ情報を整合し、曖昧さを解消することです。この段階の出力は、さまざまなデータソースから融合されたさまざまなオントロジー情報になります。
知識処理: 知識処理段階は図 3-6 に示されています。知識推論における重要なタスクは、知識グラフを完成させることです。一般的に使用されるナレッジグラフ補完方法には、オントロジー推論に基づく補完方法、関連する推論メカニズムの実装、グラフ構造と関係パス機能に基づく補完方法などがあります。

著者について: 劉宇は清華大学で修士号を取得し、現在は越境電子商取引会社でテクニカルディレクターとして勤務しており、主に同社の検索推奨ビジネスと広告関連の技術開発を担当しています。現在、研究の焦点は、検索システム、推奨システム、対話システムなどの特定のビジネスシナリオへのランディングアルゴリズムの適用にあります。機械学習、ディープラーニング、ビッグデータの応用と開発などについて幅広い研究を行っています。彼は『チャットボット：入門、上級、実践』という本の共著者です。

趙紅宇は、ノースイースタン大学で学士号を取得し、RITでAIを専攻して修士号を取得しました。現在はliepin.comに勤務しており、主にliepin.comのおすすめランキングに関わる業務を担当しています。

劉樹斌氏はノースイースタン大学を卒業し、学士号を取得しており、現在は美団でシニアシステム開発エンジニアとして働いています。かつてはVipshopに勤務し、主に検索エンジニアリングのアーキテクチャ設計と実装、その他関連業務を担当していました。Elasticsearchのエンジニアリング実務経験が豊富です。

南京航空航天大学で修士号を取得した Sun Mingzhu 氏は、現在 Liepin.com でシニアアルゴリズムエンジニアとして勤務しており、クエリの理解、解析、拡張などの NLP 関連の作業を担当しています。

この記事は「インテリジェント検索および推奨システム: 原理、アルゴリズム、アプリケーション」から抜粋したもので、出版社の許可を得ています。

<<: 自動運転・ホログラム投影！映画に出てくるブラックテクノロジーは私たちからどれくらい遠いのでしょうか？

>>: MITは液体のような動的変化に適応できるLiquid機械学習システムを提案