ついに誰かがナレッジグラフをわかりやすく説明してくれた

ついに誰かがナレッジグラフをわかりやすく説明してくれた

[[382731]]

この記事は、劉宇、趙紅宇らが執筆したWeChatパブリックアカウント「ビッグデータDT」から転載したものです。この記事を転載する場合は、Big Data DT パブリックアカウントにご連絡ください。

01 ナレッジグラフとは何か

ナレッジグラフの概念をさまざまな観点から検討することができます。

  • Web の観点から見ると、ナレッジ グラフは単純なテキスト間のハイパーリンクのようなものです。データ間のセマンティック リンクを確立することで、セマンティック検索をサポートします。
  • 自然言語処理の観点から見ると、ナレッジグラフはテキストから意味的かつ構造化されたデータを抽出することです。
  • 知識表現の観点から見ると、ナレッジグラフはコンピュータシンボルを使用して知識を表現および処理する方法です。
  • 人工知能の観点から見ると、ナレッジグラフは知識ベースを使用して人間の言語の理解を支援するツールです。
  • データベースの観点から見ると、ナレッジグラフは知識をグラフの形式で保存する方法です。

現時点では、学術界ではナレッジグラフの統一された定義は与えられていません。 Google が公開したドキュメントには、ナレッジ グラフはグラフ モデルを使用して知識を記述し、世界中のあらゆるものの関係性をモデル化する技術的な方法であると明確に説明されています。

ナレッジ グラフは、意味的知識を記述するための比較的一般的な形式的なフレームワークです。図 3-1 に示すように、ノードを使用して意味的シンボルを表し、エッジを使用して意味間の関係を表します。ナレッジ グラフでは、人、物、オブジェクトは通常、エンティティまたはオントロジーと呼ばれます。

▲図3-1 ナレッジグラフの例

ナレッジ グラフの 3 つのコンポーネントには、エンティティ、リレーションシップ、属性が含まれます。

  • エンティティ: オントロジーとも呼ばれ、客観的に存在し、互いに区別できるものを指します。特定の人物、物、オブジェクトの場合もあれば、抽象的な概念やつながりの場合もあります。エンティティはナレッジ グラフの最も基本的な要素です。
  • 関係: ナレッジ グラフでは、エッジはナレッジ グラフ内の関係を表し、異なるエンティティ間の特定の接続を表すために使用されます。図3-1に示すように、チューリングと人工知能の関係、ナレッジグラフとGoogleの関係、Googleとディープラーニングの関係があります。
  • 属性: ナレッジ グラフ内のエンティティとリレーションシップには、図 3-2 に示すように、独自の属性を設定できます。

▲図3-2 ナレッジグラフの属性

ナレッジ グラフの構築には、知識モデリング、関係抽出、グラフ ストレージ、関係推論、エンティティ融合などの多くのテクノロジが関係します。ナレッジグラフの応用は、セマンティック検索、インテリジェントな質問と回答、言語理解、意思決定分析など、多くの分野に反映されています。

02 ナレッジグラフの価値

ナレッジ グラフは、最初に検索エンジンで使用されました。一方では、推論による概念検索を実現し、他方では、分類され整理された構造化された知識をグラフィカルな方法でユーザーに表示することで、回答を見つけるために手動で Web ページをフィルタリングするモードから人々を解放します。インテリジェントな質問と回答、自然言語理解、推奨などの側面に適用できます。

ナレッジグラフの開発は、Web テクノロジの発展の恩恵を受けており、KR、NLP、Web、AI の影響を受けています。ナレッジグラフの価値は、最終的には AI をよりスマートにすることにあります。

1. 検索を支援する

検索の目的は、相互接続されたネットワーク内で人々が何かを簡単に素早く見つけられるようにすることです。現在、私たちの検索習慣や検索行動は依然としてキーワードに基づいています。ナレッジグラフの出現により、この検索行動パターンは完全に変化する可能性があります。

ナレッジ グラフが検索エンジンに適用される前は、検索プロセスでは、多数の URL からクエリに最も一致する URL を見つけ、クエリ結果に基づいて最も高いランキング スコアを持つ結果をユーザーに返していました。検索エンジンは、プロセス全体を通じて、ユーザーが入力した内容を知る必要がない場合があります。これは、システムには推論する能力がなく、正確な検索が少し欠けているためです。

ナレッジグラフベースの検索は、ユーザーの質問に直接答えることができるだけでなく、一定の意味的推論機能も備えているため、検索の精度が大幅に向上します。図3-3はナレッジグラフ支援検索の概略図を示しています。

▲図3-3 ナレッジグラフは検索を容易にする

2. 推奨事項の支援

推奨技術は検索技術と非常に似ていますが、わずかな違いもあります。検索技術は情報プル方式を採用していますが、推奨技術は情報プッシュ方式を採用しているため、推奨技術にはコールドスタートやデータスパース性の問題などいくつかの問題があります。

本稿では、電子商取引の推奨を例に、推奨におけるナレッジグラフの応用について紹介します。私が携帯電話を購入し、その携帯電話の強い従属関係が携帯電話ケースであると仮定すると、システムは私に携帯電話ケースを推奨することができ、類似または補完的なエンティティも推奨できます。図3-4はナレッジグラフを活用した推奨の概略図である。

▲図3-4 ナレッジグラフが推薦に役立つ

3. Q&Aのサポート

質問応答および対話システムは常に、人工知能実装の分野における NLP の重要なシンボルの 1 つです。ナレッジ グラフは、質問応答および対話システムに背景知識ベースを追加することと同じです。

質問応答および対話システムやチャットボットの場合、エンティティ知識グラフや興味知識グラフなどのオープンフィールドのスパースな大規模グラフに加えて、ロボットやユーザー向けにパーソナライズされた密な小規模グラフも必要です。同時に、ナレッジグラフを動的に更新する必要があります。図3-5はナレッジグラフを活用した質問と回答の概略図です。

▲図3-5 ナレッジグラフがQ&Aに役立つ

03 ナレッジグラフアーキテクチャ

ナレッジ グラフのアーキテクチャには、知識の表現、知識の獲得、知識の処理、知識の活用など、複数の側面が含まれます。

一般的に言えば、ナレッジ グラフを構築するプロセスは次のとおりです。まず、知識表現モデルを決定し、次にさまざまなデータ ソースに基づいてさまざまな知識獲得方法を選択して関連する知識をインポートし、次に知識推論、知識融合、知識マイニングなどのテクノロジを使用して対応するナレッジ グラフを構築し、最後に、セマンティック検索、インテリジェント推奨、インテリジェントな質疑応答などのさまざまなアプリケーション シナリオに従ってナレッジ グラフの表示方法を設計します。

論理的には、ナレッジ グラフをデータ レイヤーとモデル レイヤーの 2 つのレベルに分割できます。データ レイヤーは、ファクトをユニットとして保存するデータベースになります。使用できるグラフ データベースには、RDF4j、Virtuoso、Neo4j、その他のトリプルが含まれます。

<エンティティ、リレーションシップ、エンティティ> または <エンティティ、属性、属性値> を基本式として使用し、グラフ データベースに保存できます。モデル層はデータ層上に構築され、ナレッジグラフの中核となります。通常、データ層はオントロジー ライブラリを通じて管理され、オントロジー ライブラリの概念はオブジェクト内の「クラス」の概念に相当します。オントロジー ライブラリの助けを借りて、公理、ルール、制約を管理し、エンティティ、関係、属性などの特定のオブジェクト間の関係を標準化できます。

ナレッジ グラフを構築するには、トップダウンとボトムアップの 2 つの方法があります。トップダウン構築とは、百科事典データソースを利用してオントロジーとパターン情報を抽出し、それを知識ベースに追加することを意味します。ボトムアップ構築とは、特定の技術的手段を利用して公開データからリソースを抽出し、より信頼性の高い情報を選択し、手動でレビューした後で知識ベースに追加することを意味します。

ナレッジ グラフの開発の初期段階では、ほとんどの企業や機関がトップダウン アプローチを使用してナレッジ グラフを構築していました。現在では、ほとんどの企業がボトムアップ アプローチを使用してナレッジ グラフを構築しています。

ナレッジグラフのアーキテクチャを図 3-6 に示します。

▲図3-6 ナレッジグラフのアーキテクチャ

  • 知識ソース: 構造化データ、非構造化データ、半構造化データが含まれます。
  • 情報抽出: さまざまな種類のデータ ソースからエンティティ、属性、エンティティ間の関係を抽出し、これに基づいてオントロジーの知識表現を形成します。ナレッジ グラフを構築するプロセスでは、大量の非構造化データまたは半構造化データが存在し、これらのデータはナレッジ グラフの構築中に自然言語処理手法によって抽出する必要があります。このデータから、エンティティ、関係、属性を抽出できます。
  • 知識の融合: 主なタスクは、構造化されたデータや情報、さらにはサードパーティの知識ベースから抽出されたエンティティ情報を整合し、曖昧さを解消することです。この段階の出力は、さまざまなデータ ソースから融合されたさまざまなオントロジー情報になります。
  • 知識処理: 知識処理段階は図 3-6 に示されています。知識推論における重要なタスクは、知識グラフを完成させることです。一般的に使用されるナレッジ グラフ補完方法には、オントロジー推論に基づく補完方法、関連する推論メカニズムの実装、グラフ構造と関係パス機能に基づく補完方法などがあります。

著者について: 劉宇は清華大学で修士号を取得し、現在は越境電子商取引会社でテクニカルディレクターとして勤務しており、主に同社の検索推奨ビジネスと広告関連の技術開発を担当しています。現在、研究の焦点は、検索システム、推奨システム、対話システムなどの特定のビジネス シナリオへのランディング アルゴリズムの適用にあります。機械学習、ディープラーニング、ビッグデータの応用と開発などについて幅広い研究を行っています。彼は『チャットボット:入門、上級、実践』という本の共著者です。

趙紅宇は、ノースイースタン大学で学士号を取得し、RITでAIを専攻して修士号を取得しました。現在はliepin.comに勤務しており、主にliepin.comのおすすめランキングに関わる業務を担当しています。

劉樹斌氏はノースイースタン大学を卒業し、学士号を取得しており、現在は美団でシニアシステム開発エンジニアとして働いています。かつてはVipshopに勤務し、主に検索エンジニアリングのアーキテクチャ設計と実装、その他関連業務を担当していました。Elasticsearchのエンジニアリング実務経験が豊富です。

南京航空航天大学で修士号を取得した Sun Mingzhu 氏は、現在 Liepin.com でシニア アルゴリズム エンジニアとして勤務しており、クエリの理解、解析、拡張などの NLP 関連の作業を担当しています。

この記事は「インテリジェント検索および推奨システム: 原理、アルゴリズム、アプリケーション」から抜粋したもので、出版社の許可を得ています。

<<:  自動運転・ホログラム投影!映画に出てくるブラックテクノロジーは私たちからどれくらい遠いのでしょうか?

>>:  MITは液体のような動的変化に適応できるLiquid機械学習システムを提案

ブログ    
ブログ    

推薦する

フィンテックとAI: 金融におけるAIの活用方法

フィンテックの人工知能と機械学習技術は、大規模なデータセットをリアルタイムで分析し、改善を図るのに役...

人体の中で自由に動くロボット:柔軟でしなやか、毛細血管まで

[[408943]] 7月1日のニュースによると、最近、ヨーロッパの大学の中国の科学者は、シート状の...

GPU ベースの AI を使用して、わずか 36 分で実際の宇宙をシミュレートする

科学者たちはすでに宇宙論の分野で大量のデータを処理するためにスーパーコンピュータを使用することに慣れ...

...

科学者はAIを活用して「スーパーバグ」を殺すことができる強力な新しい抗生物質を発見することに成功した

MITの研究者らは機械学習アルゴリズムを使用して、複数回の実験で強力な殺菌力を示したハリシンと呼ばれ...

...

...

人工知能は怖いものではありません。怖いのは、使い方がわからず淘汰されてしまうことです。

王鵬坤:過去半世紀、人類は人間のようにすべての問題を解決できる機械を発明していません。その代わりに、...

チューリング賞受賞者のヤン・ルカン氏への最新インタビュー: AI は世界を支配するだろうが、人類を征服することはない!

かつての共同研究者であるジェフリー・ヒントン氏とヨシュア・ベンジオ氏がAIの絶滅を宣言したとき、ルカ...

...

...

これらのよく知られた VR 音声テクノロジー ソリューションをご存知ですか?

最近、Oculus は、VR デバイスを使用する際にユーザーがよりインタラクションできるようにするこ...

ニューラルネットワーク: 知っておくべきこと

ニューラル ネットワーク (NN) は、ほぼすべての分野で創造的な方法で問題を解決するのに役立ちます...

...