これはナレッジグラフ技術の応用に関するわかりやすいガイドです

[51CTO.com からのオリジナル記事] オブジェクト指向の時代では、すべてがオブジェクトであるとよく言われます。以前は、個々のオブジェクトのみを分析していました。インターネットとソーシャルネットワークの発展により、オブジェクト間のつながりはますます密になりました。オブジェクトをエンティティと呼びます。

現在、エンティティ間の関係性を分析することが特に重要になっています。ナレッジグラフ関連のテクノロジを使用してエンティティ間の関係性を調査し、その商業的価値を見つけて、独自のナレッジグラフアプリケーションを構築することができます。

2018年11月30日から12月1日まで、51CTO主催のWOTグローバル人工知能技術サミットが北京JWマリオットホテルで開催されました。

今回のサミットのテーマは人工知能です。Kingsoft OfficeのAI分野の専門家である黄紅波氏は、ビジネス実践セッションで「企業におけるナレッジグラフの実装」について基調講演を行い、ゲストと意見を交換しました。

この記事では、企業におけるナレッジグラフの実装を次の 4 つのレベルに分けて紹介します。

ナレッジグラフの定義と実装を含む、ナレッジグラフの開発の展望。
ナレッジグラフの一般的な適用シナリオ (適用方法や具体的な適用シナリオなど)。
選択比較と経験共有を含むナレッジグラフデータベースの選択。
ナレッジグラフの実装には、実装計画の策定とグラフアーキテクチャのゼロからの作成が含まれます。

ナレッジグラフ開発の展望

まずナレッジグラフの開発の歴史を見てみましょう。

1950 年代から 1970 年代にかけて、記号論理、ニューラルネットワーク、LISP (リスト処理言語)、およびいくつかのセマンティックネットワークが登場しましたが、これらは依然として単純で、標準化されていない知識表現の形式です。
1970 年代から 1990 年代にかけて、金融、農業、林業などの限定された分野におけるエキスパートシステムや知識ベースが登場し、その後に登場したスクリプト、フレームワーク、推論もいくつか登場しました。
1990 年代から 2000 年代にかけて、ワールドワイドウェブ、人工の大規模知識ベース、オントロジー概念、インテリジェントエージェントやロボットが登場しました。
2000年から2006年にかけて、セマンティックウェブ、集合知、Wikipedia、百度百科事典、仕事百科事典などのコンテンツが登場しました。
2006年から現在まで、データを構造化してきました。しかし、データと知識の量が増加しており、一般的な知識ベースの数も増加しています。大量の知識を獲得し、整理し、統合する必要があるため、ナレッジグラフが誕生しました。

開発のマイルストーンから：

2010年にマイクロソフトは比較的初期のデータベースであるSatoriとProbaseをリリースしました。当時のグラフサイズは約500億で、主にマイクロソフトの広告や検索事業で利用されていました。
その後、2012 年に Google は、当時のデータサイズが 700 億であった Knowledge Graph を立ち上げました。
その後、Facebook、Alibaba、Amazon はそれぞれ 2013 年、2015 年、2016 年に独自のナレッジグラフとナレッジベースを立ち上げました。これらは主に、知識の理解、インテリジェントな質問への回答、推論、検索に使用されます。

処理されるデータ量に関して言えば、初期のエキスパートシステムの知識量は数万程度でした。その後、Alibaba と Baidu は、数千億、さらには数兆規模の知識グラフシステムを立ち上げました。

上の写真はナレッジグラフの分野で世界的に有名な主要企業を示しています。この分野にはまだまだ多くのプレーヤーがいることがわかります。

上記の左の表は、当社がクライアントのために作成した特定の種類の法的文書の量の変化傾向を反映しています。

2014年にはテキストの数は1500万未満でしたが、2018年には総数は4500万を超えました。

2020 年までに、テキストの数は 1 億件を超えると予測しています (特定のカテゴリ内)。したがって、現在私たちが直面している問題には、膨大な量のデータ、構造化されていないストレージ、履歴データの蓄積などがあります。

これらにより、情報知識やさまざまなエンティティが徐々に拡大していきます。そのため、さまざまな知識をつなげてナレッジグラフを形成する必要があります。

ナレッジグラフの一般的な応用シナリオ

ナレッジグラフは、人々の関係を見つけるために使用できます。上の図に示すように、これはテレビシリーズ「In the Name of People」の登場人物の関係グラフとして理解できます。多くの企業では、ユーザー間の関係を見つけるためにナレッジグラフが使用されています。

ナレッジグラフのもう 1 つの応用シナリオは、エンティティ間の関係を見つけることです。いわゆるエンティティは、初期に言及された「オブジェクト指向」における「オブジェクト」の概念として理解できます。

上図のように、企業間、企業内の子会社や協力会社などの間にはエンティティ関係があり、これがナレッジグラフの核となる概念です。

上の写真は、農業におけるナレッジグラフの応用を示しています。窒素欠乏が広がると、最終的には葉枯れや落果率の低下など、農作物の不作につながることがわかります。

したがって、ナレッジグラフを作成するときは、実際にはさまざまなエンティティ間の接続を見つけて確立する必要があります。

上の図に示すように、ナレッジグラフの研究と実装の観点から、業界は一般的に次の 3 つのカテゴリに分けられます。

インテリジェントなセマンティック検索。たとえば、検索エンジンを使用して、さまざまな知識ポイント、エンティティ、コンテンツを組み合わせて、エンティティ間の関係を形成します。
パーソナライズされた推奨事項。たとえば、オンラインで買い物をしたり、ヘッドラインを閲覧したりすると、次にアプリを開いたときに表示されるコンテンツは、前回検索した関連コンテンツに基づいてシステムによって作成されたパーソナライズされた推奨事項であることがよくあります。
インテリジェントな質問と回答。たとえば、エアコン会社では「知識に関する質問と回答」機能を開始する必要があります。次に、この分野の電気製品に関連する知識を収集する必要があり、また、回路設計、電力設計、エネルギー消費設計、インテリジェンスレベル、電力消費に関する知識を外部から抽出する必要があります。

したがって、推奨や知識の抽出と融合を通じて結果を分散グラフデータベースに保存し、各ポイントまたはエッジ間の関係を発見します。

毎日 2 億人を超えるアクティブユーザーを抱える WPS では、ユーザーノードを確立し、ユーザーの基本情報、属性特性、ドキュメントをリンクして共通データベース (MongoDB など) に保存し、グラフデータベースの関係に変換する必要があります。

同時に、各ユーザーノード間のエッジを整理する必要があります。たとえば、ユーザー A と B が同じ会社のものである場合は、同じエッジを持つ可能性があります。ドキュメントを共有している場合は、別のエッジが生成されます。

したがって、エッジの検出を表現する具体的な方法は 2 つあります。

データを検索することで、同じデータベース内の異なるノードに含まれる共通のフィールドと属性を見つけることができます。
知識と文書内容の意味の統合と発見を通じて、テキストまたはタイトルのコアコンテンツを抽出し、アルゴリズム分析を適用して主題間の比較を採用し、2 人のユーザー間の可能な関係を見つけて、知識本体を確立します。

ナレッジグラフデータベースの選択

[[259692]]

ナレッジグラフに取り組むときに最もよく遭遇する問題は、グラフデータベースの選択です。現在、業界で最も一般的に使用されているグラフデータベースは、Neo4j と Cayley の 2 つです。

一般的に、オンライン情報の豊富さやデータベースの人気ランキングなど、あらゆる面で Neo4j が Cayley よりも優れていると人々は信じているかもしれません。しかし、実際の選択では後者を選択しました。

具体的な理由は次のとおりです。

データの量。当社では 1 日あたり 2 億のアクティブデータポイントがあり、今後も無数のノードが生成され続けるため、大量のデータをサポートできるデータベースを選択する必要があります。
オープンソース属性。現在、Neo4j のエンタープライズバージョンはオープンソースではなくなりました。そして、以前のオープンソースモデルも完全ではありませんでした。コアコンテンツはオープンソースではないため、問題が発生した場合にタイムリーなサポートや支援を受けることが困難です。
配布をサポートするかどうか。前述のエンタープライズ版の制限を考慮して、無料版の導入を提案する人もいます。しかし、分散ストレージとクラスターをサポートしているのは Neo4j のエンタープライズバージョンのみであり、無料バージョンでは当社のデータ量をサポートできないため、その後 Neo4j は検討しませんでした。
着陸時のパフォーマンス。その間、Dgraph と Cayley も比較しました。どちらもオープンソースデータベースであり、配布をサポートしているため、実装時のパフォーマンスという 3 番目の側面を考慮しました。

私たちはかつて、数億のデータポイントを使用して、2 つのデータベースの検索と関係の確立のパフォーマンスをテストしました。

その後、Dgraph 自体のバグにより、エッジの重みの計算のサポートに欠陥があり、エッジ間およびポイント間の計算を実行するときにパフォーマンスの問題が発生することが判明しました。

したがって、総合的に検討した結果、最終的にグラフデータベースとして Cayley を選択しました。もちろん、私たちは調査結果を Dgraph の作者にも提出し、現在のバージョンの Dgraph ではバグが修正されています。

一般的に、企業向けのグラフデータベースを選択する場合、企業自身のデータ量を分析する必要があります。処理するデータと知識の量が非常に多く、速度とパフォーマンスに一定の要件がある場合は、スタンドアロンデータベースを使用することはできませんが、分散データベースを検討する必要があります。

同時に、より重要なのは、アプリケーションシナリオです。当社が 2 つのノード間の関係を計算し、ノード関係に対応するエッジの重みを取得する必要がある場合は、総合的な検討と総合的な比較を行う必要があります。

ここでは、私たちが独自に開発した独自の方法を共有したいと思います。一般的に、ほとんどのグラフデータベース (Neo4j など) には、独自の基盤データベースが付属しています。

実際のモデリングプロセスでは、最下層でグラフデータベースを使用する必要はありません。たとえば、最下層として MongoDB を使用し、その上に最下層データベースが組み込まれていないグラフデータベースをネストすることができます。そして実践により、このようなハイブリッドモデルの方がより柔軟で効率的であることが証明されました。

ナレッジグラフの実装

次に、ナレッジグラフの実装を見てみましょう。上の図に示すように、プロセス全体は 6 つの側面に分かれています。

知識モデルを構築する
知識を得る方法
知識を統合する方法
知識を保存する方法
知識の計算を確実にする方法
知識を効率的に応用する

事前にナレッジグラフモデルを構築し、そのモデルを使用してナレッジコンピューティングを実装することに加えて、上の図には他の 4 つの重要なプロセスが反映されています。これらを 1 つずつ説明しましょう。

知識獲得

これを実現するには、Web クローラーをクロールしたり、イベントを介して抽出したり (CRF や LSTM などの機械学習アルゴリズムを使用)、国内外のオープンソースデータセットを使用したりすることができます。

知識表現

知識を獲得した後は、それを処理して表現する必要があります。論理表現、フレームワーク表現、意味表現、さまざまな語彙、オントロジー構成、意味ネットワーク、テキストおよび意味分類方法を使用できます。

モデル表現が完了したら、さまざまなモデルを構築する必要があります。現在、国内業界で一般的に使用されている方法は、専門家法と帰納法です。もちろん、参照法も使用されます。

いわゆるエキスパート方式は、チーム自身の理解に基づいて、既存のビジネスや業界を手動でモデル化して表現することです。

帰納的方法は、いくつかの帰納的アルゴリズム、手動帰納、およびテキスト分類方法を通じてモデルを要約することです。

私たちは上記の 2 つのアプローチを組み合わせて使用しました。モデリングツールに関しては、Protege と MSVisio が最もよく使用されます。

知識の蓄積

次のステップは知識の保存です。前述したように、MySQL、SQL Server、MongoDB、Neo4j などのデータベースを選択する必要があります。

過去の実験経験に基づくと、まずデータをキー値データベースに保存し、必要に応じて Neo4j などのグラフデータベースに取り込むことができます。

このモードのパフォーマンスは直接ストレージよりも高くなります。ツールプラットフォームに関しては、Neo4j、Titan、Cayley が非常によく使用されています。

知識の応用

保管方法を決定したら、次のステップは知識の応用です。これには、自然言語理解、知識検索、知識質問と回答、機械翻訳などの一般的なアプリケーションシナリオが含まれます。

業界は一般的に 2 つのモデルに分けられます。

検索モード。既存の知識ベースグラフに基づいて、理解または翻訳する必要がある文章を「回答」検索用のデータベースに格納し、意味分析によってそれらを照合します。最後に、一致した結果がユーザーにフィードバックされます。これは自然言語を理解するための一般的なシナリオであることがわかります。
ブレンドモード。検索モードに基づいて、知識ベースまたはセマンティックベースのマッチング効果が低い状況に対処するために、RNN（リカレントニューラルネットワーク）とLSTM（長短期記憶ネットワーク）を使用してインテリジェントモデルを生成するためのディープ自己生成モデルを追加しました。

ナレッジアプリケーションで一般的に使用される主要なテクノロジには、CQL、SPARQL、Jena、Neo4j のほか、帰納的推論、演繹的推論、ルールベース推論などがあります。

上の図は、ナレッジグラフの非常に典型的な全体的なアーキテクチャ図です。この図を下から上に向かって解釈してみましょう。

Baidu 検索、Word ファイル、PDF ドキュメント、またはその他の種類のドキュメントを通じて非構造化データを抽出します。
自然言語処理技術によるコマンドエンティティ認識により、地名、人名、機関名など記事内のエンティティを識別します。
意味的類似度を計算することによって、2 つのエンティティまたは 2 つの段落間の類似度が決定されます。
同義語の構築、意味解析、依存関係の分析などを通じて、エンティティ間の特徴的な関係を見つけます。
テキストの特徴は、TF-IDF やベクトルなどの方法を通じて抽出され、トリガーイベント、単語分割、品詞によって表されます。
トピックの意味分析は、RDA（冗長性分析）を通じて実行されます。
データの保存にはデータベースまたはテーブルを使用します。
抽出されたテキスト、セマンティクス、コンテンツ、その他の特徴に基づいて、エンティティ間のマッチングを実現するための知識オントロジーが構築され、その後、キー値型データベースに保存されて、データマッピングとオントロジーの融合が完了します。
データ量が多すぎる場合は、Hadoop や Spark などの分散データストレージフレームワークを使用し、NoSQL コンテンツを通じてデータを保存します。
データ推論やナレッジグラフの作成が必要な場合、データからさまざまな関係が抽出され、さまざまな統合ルールを通じてさまざまなアプリケーションが形成されます。

まとめると、ナレッジグラフを使用してさまざまなアプリケーションを識別するときに注意すべき重要なポイントには、エンティティ間の関係性を抽出する方法、キーワードと機能を抽出する方法、およびセマンティックコンテンツの分析を確実に行う方法が含まれます。これは、完全なナレッジグラフセットを構築するために使用する一般的な方法と理論です。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: 2019 年に注目すべき 11 の JavaScript 機械学習ライブラリ

>>: 新たな自動運転ランキングが発表