ナレッジグラフの紹介と応用

ナレッジグラフの紹介と応用

[[376661]]

人間は知識を獲得する過程で、物事の本質にますます注意を払うようになります。人工知能とビッグデータ分析機能の助けを借りて、これに基づいてさまざまなインテリジェントアプリケーションが派生してきましたが、その中でも知識グラフの構築は非常に重要です。

ナレッジグラフを使い始める

1. ナレッジグラフの重要性

AI は知覚知能から認知知能へと移行する必要があります。本質的には、知識が基礎であり、知識に基づいた推論です。偶然にも、ナレッジ グラフには実際にそのような属性があります。

2. 知識工学の歴史

3. 知識とは何でしょうか?

情報: Cover News、China、First Intelligence Mediaなどの外部の客観的事実を指します。

知識:それは外部の客観的な法則の誘導と結論であり、例えば、Cover News は中国初のインテリジェントメディアです。

4. ナレッジグラフとは何ですか?

ナレッジ グラフは本質的にはセマンティック ネットワークであり、ノード (ポイント) とエッジ (エッジ) で構成されるグラフ ベースのデータ構造です。ナレッジグラフでは、各ノードが現実世界に存在する「エンティティ」を表し、各線がエンティティ間の「関係」になります。ナレッジグラフは関係性を表現する最も効果的な方法です。

5. ナレッジグラフの構成

エンティティ:区別可能で独立した存在を持つもの。人、都市、植物、製品など。

概念:国、国民、書籍、コンピューターなど、同じ特性を持つエンティティの集合。

コンテンツ:通常は、エンティティやセマンティック クラスの名前、説明、解説などであり、テキスト、画像、音声、ビデオなどで表現できます。

属性:エンティティからその属性値へのポインター。異なる属性タイプは、異なるタイプの属性を持つエッジに対応します。属性値は主にオブジェクトの指定された属性の値を指します。たとえば、「面積」、「人口」、「首都」はそれぞれ異なる属性です。属性値は主に、960 万平方キロメートルなど、オブジェクトの指定された属性の値を指します。

リレーションシップ:リレーションシップは異なるエンティティを接続し、エンティティ間の接続を指します。ナレッジ グラフ内のノードは、関係ノードを介して接続され、大きなグラフを形成します。

ナレッジグラフの構築

1. データ型

ナレッジ グラフのデータ タイプには、構造化データ (リレーショナル データベース)、半構造化データ (XML、JSON、百科事典など)、非構造化データ (画像、音声、ビデオ、テキストなど) が含まれます。

2. 論理構造

モデル層: モデル層は、主にオントロジー ライブラリを通じてデータ層上に構築され、データ層内の一連のファクト表現を標準化します。オントロジーは、構造化された知識ベースの概念テンプレートです。オントロジー ライブラリを通じて形成された知識ベースは、強力な階層構造を持つだけでなく、冗長性も低くなっています。

データ層: データ層は主に一連の事実で構成され、知識は事実単位で保存されます。事実を表現するために (エンティティ 1、リレーションシップ、エンティティ 2) や (エンティティ、属性、属性値) などのトリプルを使用する場合は、グラフ データベースをストレージ メディアとして選択できます。

3. 保管方法

RDF (リソース記述フレームワーク): その本質はデータ モデルです。エンティティ/リソースを記述するための統一された標準を提供します。簡単に言えば、物事を表現する方法と手段です。

RDF はノードとエッジで構成されます。ノードはエンティティ/リソースと属性を表し、エッジはエンティティ間の関係とエンティティと属性間の関係を表します。

グラフ データベース:ナレッジ グラフの観点から見ると、グラフ データベースはリレーショナル データベースよりもはるかに柔軟です。

データが少ない場合、リレーショナル データベースは問題にならず、効率も低くありません。ただし、ナレッジ グラフがより複雑になるにつれて、グラフ データベースの利点は大幅に増加します。 2 次および 3 次関連クエリに関しては、グラフ データベースの効率はリレーショナル データベースの数千倍、あるいは数百万倍も高くなります。

4. 技術アーキテクチャ

5. ナレッジグラフ構築プロセス

ナレッジグラフアプリケーション

1. 情報検索

セマンティック検索回答検索型

[原理]ユーザーが自然言語で提起した質問に対して意味的および文法的解析を実行し、それを構造化されたクエリ文に変換して、ナレッジグラフで回答を検索します。

[シナリオ]多数のウェブリンクではなく、質問に対する答えを直接見つける

関係検索

[シナリオ] 2つのエンティティ間の関係を迅速かつ正確に照会する

視覚化

[シーン]概念のすべてのインスタンスが明確かつ直感的に提示されます

2. インテリジェントな推奨

推奨システムは、情報のフィルタリングの重要な手段として、情報過多の問題を解決する最も効果的な方法の 1 つであり、ユーザー指向のインターネット製品の中核技術です。

推奨サービスの使用には 2 つの問題があります。

スパース データを使用する:実際のシナリオでは、ユーザーとアイテム間のインタラクション情報は非常にスパースであることが多いです。

コールド スタートの問題:新しく追加されたユーザーまたはアイテムについては、システムには過去のインタラクション情報がないため、正確にモデル化して推奨することができません。

上記の問題を解決する一般的な方法は、推奨アルゴリズムにいくつかの追加の補助情報を導入することです。

(1)ソーシャルネットワーク:ユーザーが商品に興味を持っている場合、そのユーザーの友人もその商品に興味を持っている可能性があります。

(2)ユーザー/アイテム属性:同じ属性を持つユーザーは同じ種類のアイテムに興味を持っている可能性がある。

画像/動画/音声/テキストなどのマルチメディア情報(マルチメディア):製品写真、映画の予告編、音楽、ニュースの見出しなど。

(3)コンテキスト:ユーザーとアイテムのやり取りの時間、場所、現在のセッション情報など。

ナレッジグラフ…

ナレッジ グラフには、エンティティ間の豊富な意味的関連性が含まれており、推奨システムの補助情報の潜在的なソースとなります。ナレッジグラフは、映画、ニュース、アトラクション、レストラン、ショッピングなど、多くの推奨シナリオで使用できる可能性があります。

正確性:ナレッジ グラフはアイテム間のより意味的な関係を導入し、ユーザーの興味を深く発見できます。

多様性:ナレッジ グラフはさまざまな種類の関係接続を提供するため、推奨結果の多様性が促進され、推奨結果が 1 つのタイプに限定されることが回避されます。

説明可能性:ナレッジグラフは、ユーザーの履歴記録と推奨結果を結び付けることができるため、推奨結果に対するユーザーの満足度と受け入れ度が向上し、推奨システムに対するユーザーの信頼が高まります。

3. 不正行為防止

不一致検証:不一致検証は、借り手の詐欺リスクを判断するために使用できます。

例えば、借り手張三と借り手李思は同じ会社の電話番号を記入しましたが、張三が記入した会社と李思が記入した会社はまったく異なります。これはリスクポイントとなり、監査人は特別な注意を払う必要があります。

例えば、借り手は張三と友達であり、李斯の父親であると言います。当然ですが、友人の友人は父と息子ではないので、矛盾が生じます。

4. その他の産業用途

公安犯罪捜査:主体間の関係を分析し、手がかりを得る等

司法援助:事件の判決等を支援するための法律条項の構造化された表現および照会。

電子商取引:ユーザーの購入意向と製品候補セットを正確に一致させるための製品知識グラフを構築します。

医療診断:薬物分析、病気の診断などのための視覚的な知識表現を提供します。

<<:  ジェフ・ディーンの1万語の記事:2020年のGoogleの10大分野におけるAI技術の発展

>>:  知識が求められるポストディープラーニング時代において、知識グラフをいかに効率的かつ自動的に構築できるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

清華大学の博士が「チップレット・アクチュアリー」サミットを提案!ムーアの法則に近づくほど、マルチチップ統合のコスト効率は向上する。

Chiplet は、製品の歩留まり、パッケージの歩留まり、さまざまなコストなどを考慮しながら、大規...

心臓血管画像診断における人工知能の応用の進歩

人工知能(AI)は、人間の知能特性を備えたタスクを実行できるコンピューティングプログラムを指します。...

ドローンを使って「国勢調査」を実施?人だけでなく動物も!

データによれば、我が国の人口は過去 10 年間にわたり緩やかな増加傾向を維持し続けており、我が国は依...

...

「人工知能+教育」はどのような機会と課題をもたらすのでしょうか?

人工知能がどのような新しい形で登場するかが話題になっている一方で、教育分野では新たな一連の変化が起こ...

...

天才か愚か者か: 史上最も物議を醸したニューラル ネットワーク

エクストリームラーニングマシンExtreme Learning Machine は、これまでで最も賢...

...

...

...

キャッシュ、キャッシュ アルゴリズム、キャッシュ フレームワークの概要

導入私たちは皆、キャッシュについて聞いたことがあります。キャッシュとは何かと尋ねると、完璧な答えが返...

100,000 台以上の Vision Transformer を一度にトレーニングするにはどうすればよいでしょうか?

[[413052]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

メタバースがますます熱を帯びる中、開発者はどのような主要テクノロジーを掘り下げていくべきでしょうか?

「メタバース」という概念は昨年、海外で爆発的に広まりました。国内の専門家も、我が国の関連技術の開発...

NetEase はデータ指標の異常をどのように検出し、診断するのでしょうか?

1. 背景指標はビジネスと密接に関係しており、その価値は、問題点やハイライトを発見し、タイムリーに...