何も知らない状態から、3分で「ナレッジグラフ」を素早く理解するまで

何も知らない状態から、3分で「ナレッジグラフ」を素早く理解するまで

[51CTO.com からのオリジナル記事] ナレッジ グラフは、インテリジェント マシンの脳を解き放つ鍵であり、Web 3.0 時代の知識の宝庫を開くことができます。この記事では、概念、アーキテクチャ、主要なテクノロジ、アプリケーション分野、注意が必要ないくつかの問題の観点から、ナレッジグラフの世界を紹介します。

ナレッジグラフとは何ですか?

ナレッジ グラフは、相互接続された型指定されたエンティティとその属性のセットで構成されます。

ナレッジ グラフは本質的にはセマンティック ネットワークであり、ノード (ポイント) とエッジ (エッジ) で構成されるグラフ ベースのデータ構造です。ナレッジ グラフでは、各ノードは現実世界に存在する「エンティティ」を表し、各エッジはエンティティ間の「関係」を表します。ナレッジグラフは関係性を表現する最も効果的な方法です。

簡単に言えば、ナレッジ グラフとは、さまざまな種類の情報 (異種情報) をすべて結び付けるリレーショナル ネットワークです。ナレッジグラフは、「関係」の観点から問題を分析する機能を提供します。

ナレッジグラフの概念は最初に Google によって提案され、主に既存の検索エンジンを最適化するために使用されました。キーワード検索に基づく従来の検索エンジンとは異なり、ナレッジグラフを使用すると、複雑な関連情報をより適切に照会し、意味レベルからユーザーの意図を理解し、検索品質を向上させることができます。例えば、Googleの検索ボックスに「Kobe」と入力すると、検索結果ページの右側に生年月日や家族の状況など、Kobeに関連する情報が表示されます。


ナレッジ グラフでは、通常、グラフ内のノードを表すために「エンティティ」を使用し、グラフ内の「エッジ」を表すために「リレーション」を使用します。エンティティは、人、場所、概念、会社など、現実世界のものを指します。一方、リレーションシップは、人々が北京に「住んでいる」、張三と李思が「友達」であるなど、異なるエンティティ間の特定のつながりを表現するために使用されます。

上記の例を通して、読者はナレッジ グラフの予備的な印象を持つはずです。その本質は知識を表現することです。実際の応用の観点から、ナレッジ グラフは単純にマルチリレーショナル グラフとして理解できます。

ナレッジグラフの表現

では、マルチリレーションシップ グラフとは何でしょうか? グラフはノード (頂点) とエッジ (エッジ) で構成されますが、これらのグラフには通常、1 種類のノードとエッジのみが含まれます。しかし、逆に、マルチリレーショングラフには通常、複数の種類のノードと複数の種類のエッジが含まれます。たとえば、次の図には複数の種類のノードとエッジが含まれています。これらのタイプは異なる色でマークされます。


ナレッジ グラフに属性がある場合は、プロパティ グラフで表現できます。上の図に示すように、Kobe と Vanessa はカップルです。2 人は 2001 年から 2020 年まで結婚しており、結婚時期は関係の属性として使用できます。同様に、Kobe にも性別、生年月日などの独自の属性があります。このタイプの属性グラフ表現は、実際のシナリオに非常に近いため、ビジネスに含まれるロジックを適切に記述することもできます。

プロパティ グラフに加えて、ナレッジ グラフは、多数のトリプルで構成される RDF で表現することもできます。 RDF の主な設計上の特徴は、データの公開と共有が容易なことですが、属性を持つエンティティや関係はサポートされていません。属性を追加する必要がある場合は、設計にいくつかの変更を加える必要があります。現在、RDF は主に学術的なシナリオで使用されています。業界では、グラフ データベース (たとえば、プロパティ グラフの保存用) が依然としてよく使用されています。

ナレッジ グラフを保存するには、主に 2 つの方法があります。1 つは RDF に基づく方法、もう 1 つはグラフ データベースに基づく方法です。 RDF の重要な設計原則はデータの容易な公開と共有ですが、グラフ データベースは効率的なグラフ クエリと検索に重点を置いています。第二に、RDF はトリプル形式でデータを保存し、属性情報は含まれませんが、グラフ データベースは一般的に属性グラフを基本的な表現形式として使用するため、エンティティとリレーションシップに属性を含めることができ、実際のビジネス シナリオを表現しやすくなります。

知識抽出

ナレッジ グラフのアーキテクチャとは、次の図に示すように、その構築モデル構造を指します。ナレッジグラフを構築するプロセスは、人間の認知能力に応じて継続的に更新および反復する必要があります。


いわゆる静的関係グラフとは、時間の経過に伴うグラフ構造自体の変化を考慮せず、現在の知識グラフ構造のみに焦点を当てることを意味します。ただし、グラフの構造は時間の経過とともに変化することもわかっています。

下の図は、時刻 T と時刻 T+1 におけるナレッジ グラフの構造を示しています。この 2 つの時間の間にグラフ構造 (または構造の一部) が大きく変化したことが簡単にわかります。では、これらの構造的変化をどのように判断すればよいのでしょうか。興味のある読者はフォローしてください。ナレッジグラフ関連のテクノロジースタックについては、後ほど更新していきます。この記事では詳細には触れません。


ナレッジ グラフ アーキテクチャの図に戻ると、ナレッジ グラフの構築は後続のアプリケーションの基礎となり、構築の前提はさまざまなデータ ソースからデータを抽出する必要があることです。垂直分野のナレッジ グラフの場合、データ ソースは主に 2 つのチャネルから取得されます。1 つはビジネス自体のデータで、通常は社内のデータベース テーブルに含まれ、構造化された形式で保存されます。もう 1 つは、インターネット上で公開され、クロールされるデータです。このデータは通常、Web ページの形式で存在するため、半構造化/非構造化データです。

前者は通常、後続の AI システムの入力として使用できるようになるまでに簡単な前処理のみが必要ですが、後者は通常、構造化された情報を抽出するために自然言語処理などのテクノロジを使用する必要があります。たとえば、上記の検索例では、Wikipedia やその他のデータ ソースなどの非構造化データから Kobe と Vanessa の関係を抽出できます。

情報抽出の難しさは、非構造化データの処理にあります。構造化されていないテキストから、エンティティ、関係、属性を抽出する必要があります。例えば、次の図はWikipediaから取得したKobeのテキスト情報です。


膨大な量のテキストからこの記事の冒頭のようなナレッジ グラフを構築するには、自然言語処理テクノロジのいくつかの側面が必要です。

  • 名前エンティティ認識
  • 関係抽出
  • エンティティ解決
  • 共参照解決

1 つ目はエンティティ命名認識です。これは、テキストからエンティティを抽出し、各エンティティを分類/ラベル付けするものです。たとえば、上記のテキストから「Kobe Bryant」というエンティティを抽出し、エンティティ タイプを「人物」としてマークできます。また、そこから「Philadelphia, Pennsylvania」を抽出し、エンティティ タイプを「場所」としてマークすることもできます。

このプロセスはエンティティ命名認識と呼ばれ、比較的成熟したテクノロジであり、これを実行するために使用できる既製のツールがいくつかあります。次に、関係抽出技術を使用して、テキストからエンティティ間の関係を抽出します。たとえば、「Kobe」と「Philadelphia, Pennsylvania」というエンティティ間の関係は「born in」などです。

さらに、エンティティの命名認識と関係抽出のプロセスには、さらに 2 つの難しい問題があります。1 つはエンティティの統一です。つまり、一部のエンティティは異なって記述されていますが、実際には同じエンティティを参照しています。たとえば、「Kobe Bean Bryant」と「Kobe」は表面上は異なる文字列ですが、実際には Kobe を指しているため、結合する必要があります。

エンティティの統合により、エンティティの種類が削減されるだけでなく、グラフのスパース性も削減されます。もう 1 つの問題は参照解決です。これは、テキスト内に表示される「彼」、「それ」、「彼女」という単語が実際にどのエンティティを参照するかという問題です。

エンティティの統合と参照解決の問題は、最初の 2 つの問題よりも困難です。

大規模な知識ベースの構築と応用には、さまざまなインテリジェントな情報処理技術のサポートが必要です。知識抽出テクノロジーにより、公開されている半構造化データや非構造化データから、エンティティ、関係性、属性などの知識要素を抽出できます。

知識の融合により、エンティティ、関係、属性、事実上のオブジェクトなどの参照項目間の曖昧さが排除され、高品質の知識ベースが形成されます。知識推論とは、既存の知識ベースに基づいて暗黙の知識をさらに探求し、それによって知識ベースを充実させ、拡張することです。分散知識表現によって形成される包括的なベクトルは、知識ベースの構築、推論、融合、および応用にとって非常に重要です。

この記事は、科学一般向けの記事として、読者の皆様に入門していただくことを目的としています。ナレッジグラフのより詳細な知識抽出、知識表現、知識融合、知識推論技術については、スペースの都合上、次の記事で重点的に取り上げますので、ご参照ください。

ナレッジグラフの構築

まず最初に説明する必要があるのは、ナレッジ グラフ システムを構築する上で最も重要な核心は、ビジネスに対する理解とナレッジ グラフ自体の設計にあるということです。これは、ビジネス システムにとってデータベース テーブルの設計が特に重要であり、この設計がビジネスの詳細な理解とビジネス シナリオの将来の変化の予測と切り離せないものであるという事実に似ています。 もちろん、ここではデータの重要性については議論しません。

完全なナレッジ グラフの構築には、次の手順が含まれます。

  • 具体的なビジネス上の問題を定義する
  • データ収集と前処理
  • ナレッジグラフの設計
  • ナレッジグラフにデータを保存する
  • 上位アプリケーションの開発とシステムの評価。

特定のビジネス上の問題を定義するときに明確にする必要があることの 1 つは、独自のビジネス上の問題にナレッジ グラフ システムのサポートが必要かどうかです。実際の多くのシナリオでは、関係性分析に対する一定の需要があったとしても、実際には従来のデータベースを使用して完了することができるからです。したがって、ナレッジ グラフの使用を避け、ナレッジ グラフを選択し、より良いテクノロジを選択するために、以下に参考となるいくつかの概要を示します。


次のステップは、データ ソースを決定し、必要なデータ前処理を行うことです。ここで私が指摘したい唯一の点は、すべての関連データをナレッジ グラフに含める必要はないということです。この分野における意思決定の原則については、今後の記事で詳しく紹介します。

ナレッジグラフの設計は芸術です。プログラマーとしては、より専門的な人々に任せます。ストレージに関しては、ストレージシステムを選択する必要がありますが、設計したナレッジグラフには属性があるため、グラフデータベースが第一の選択肢になります。ただし、グラフ データベースの選択は、ビジネスの規模と効率性の要件によっても異なります。

データ量が特に多い場合、Neo4j ではビジネス ニーズを満たせない可能性があります。この場合は、OrientDB、JanusGraph などの準分散コンピューティングをサポートするシステムを選択するか、効率性と冗長性の原則に基づいて従来のデータベースに情報を保存し、ナレッジ グラフが運ぶ情報量を減らす必要があります。 一般的に言えば、10 億ノード未満のグラフには Neo4j で十分です。

これらすべてを実行した後、最も慣れている部分に到達して、アプリケーションを開発 (コードを記述) できます。

ナレッジグラフの応用

ナレッジ グラフ アプリケーションの前提は、ナレッジ グラフが構築されていることであり、これはナレッジ ベースとも考えられます。検索を実行すると、キーワードの抽出とナレッジベースでのマッチングを通じて最終的な回答を直接得ることができます。

この検索方法は、従来の検索エンジンとは異なります。従来の検索エンジンは最終的な回答ではなく Web ページを返すため、ユーザーが自分で情報を選別してフィルタリングする追加のプロセスがあります。

ナレッジグラフの応用は、主に検索と推奨の分野に集中しています。


セマンティック検索の分野では、ナレッジグラフ検索は従来の検索とは異なります。従来の検索は、キーワードに基づいて対応するWebページセットを見つけ、ページランクなどのアルゴリズムを通じてWebページセット内のWebページをランク付けしてから、ユーザーに表示します。一方、ナレッジグラフベースの検索は、既存のグラフ知識ベース内の知識をトラバースし、照会された知識をユーザーに返します。通常、パスが正しければ、1つまたはいくつかの知識のみが照会されるため、非常に正確です。

質問応答システムに関しては、システムはまずナレッジグラフの助けを借りて、ユーザーが自然言語で尋ねた質問の意味と文法の分析を実行し、次にそれらを構造化されたクエリステートメントに変換し、ナレッジグラフで回答を検索します。

実用的な提案

まず、ナレッジグラフは比較的新しいツールであり、その主な機能は関係性、特に深い関係性を分析することです。したがって、ビジネスにおいては、まずその必要性を確かめなければなりません。実際、多くの問題は、ナレッジグラフ以外の手法を使って解決することができます。

ナレッジグラフの分野で最も重要なトピックの 1 つは、知識推論です。さらに、知識の推論こそが強力な人工知能を実現する唯一の方法です。残念ながら、現在セマンティック ネットワークの観点から議論されている推論テクノロジの多く (ディープラーニングや確率統計に基づくものなど) は、実際の垂直アプリケーションに実装するのが困難です。実際、非常に大きなデータセットがない限り、現時点で最も効果的な方法は、依然として何らかのルールベースの方法論に基づいています。

最後に、ナレッジ グラフ プロジェクト自体は依然としてビジネス重視かつデータ中心であることを強調することが重要です。ビジネスとデータの重要性を過小評価しないでください。この記事がお役に立てば、ぜひ高評価を押してお互いを励まし合いましょう!

参照:

  • Xu Zenglin、Sheng Yongpan、He Lirong、Wang Yafangによるナレッジグラフテクノロジーのレビュー
  • ナレッジグラフの基礎(I) - ナレッジグラフとは何か
  • これはナレッジグラフ技術とアプリケーションについてのわかりやすいガイドです

著者: 臧元慧

簡単な自己紹介: 中国科学技術星図有限公司(北京)のR&D部門のバックエンド技術グループに勤務。私は Python/Java 開発が得意で、フロントエンドの基礎を理解しています。MySQL、MongoDB に精通しており、Redis を理解しています。Linux 開発環境に精通しており、Shell プログラミングをマスターし、Git ソースコード管理の習慣があります。Nginx、Flask、Swagger 開発フレームワークに精通しており、Docker+Kubernetes クラウド サービス開発の経験があります。人工知能とクラウドネイティブテクノロジーに大きな関心を持っています。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  ムスク・ニューラリンクに挑戦!スタンフォード大学の新しい脳コンピューターインターフェースは脳とシリコンベースのチップを直接接続する

>>:  ハン・ソン、チュー・ジュンヤンらがGAN圧縮方式を提案:計算電力消費は1/9以下、オープンソース化

ブログ    

推薦する

AIとMLがコネクテッドデバイスの成長を促進

COVID-19 パンデミックをきっかけに、ビジネス運営における自動化、リモート監視、制御の必要性が...

焦点: 注目すべき 6 つのスマート セキュリティ トレンド

スマート セキュリティは、新しい AI 機能のおかげで、静的なセキュリティ ビデオ録画からリアルタイ...

ロボットに髪を切らせるという突飛なアイデアを思いついた

一人でいて理髪店に行きたくない場合はどうすればいいでしょうか? YouTube ビデオブロガーの S...

...

Google DeepMind の最新研究: 敵対的攻撃は人間に対しても有効であり、人間も AI も花瓶を猫と間違える!

人間のニューラルネットワーク(脳)と人工ニューラルネットワーク(ANN)の関係は何ですか?ある先生が...

アルゴリズムの法則から法則のアルゴリズムへ、アルゴリズムの時代を巻き起こす

ビッグデータの出現、クラウド コンピューティング テクノロジーの成熟度の向上、ディープラーニング ア...

顔認識メイク落としはアリペイを認識できない:馮潔は范冰冰に似せるために整形手術を受けたが、それでも認識できる

「バン」デザインに加えて、指紋認証の代わりに顔認証を使用していることも、iPhone Xの不満点の1...

グラフのディープラーニングのための 7 つのオープンソース ライブラリ

[51CTO.com クイック翻訳]ディープラーニングの愛好家であれば、強力なディープニューラルネッ...

ノボ ノルディスクとマイクロソフトが提携し、糖尿病に関する質問に答えるロボットを開発

世界有数のバイオ医薬品企業であるノボ ノルディスクとマイクロソフトは、第3回中国国際輸入博覧会で、ノ...

プログラマーが面接でアルゴリズムについて素早く準備する方法

序文短い記事を書こうと決めたので、これがそれです。私がこの記事を書こうと思った理由は、Weibo 上...

ロシアメディア:人工知能は顔認識技術を使って宗教的傾向を判断できる

ロシア新聞は1月19日、「もう隠せないのか?」と題する記事を掲載し、米スタンフォード大学の学者マイケ...

二足歩行ロボット「キャシー」が機械学習を使って5kmのジョギングを完走

ロボット工学の世界では 4 年というのは長い期間ですが、特にオレゴン州立大学 (OSU) が開発した...

深い思考:テイクアウトの背後にある人工知能アルゴリズムの秘密

知識の蓄積は規模の拡大をもたらし、規模の拡大は市場の集中につながります。産業が「組立ライン」の形で固...

バイナリ検索ツリーの検証: インターネット上の古典的なアルゴリズム

[[427951]]この記事はWeChatの公開アカウント「Programmer Bear」から転載...