新しいことを学び、古いものを見直す: ナレッジグラフからグラフデータベースへ

人工知能技術といえば、まずディープラーニングや機械学習技術が思い浮かびます。人工知能の応用といえば、音声アシスタントや自動運転などがすぐに思い浮かぶでしょう。実際、業界で人工知能を応用するための前提条件は、まず業界を理解することです。業界とシナリオを理解することでのみ、真にインテリジェントになります。簡単に言えば、業界 AI ソリューションを提供するには、業界ナレッジグラフを確立する必要があります。

[[255877]]

機械は人工知能技術を通じてユーザーと対話し、データを取得し、アルゴリズムを最適化し、さらに重要なことに、知識グラフを構築および改善し、世界を認識して理解し、そしてこの世界に貢献します。

では、ナレッジグラフとは何でしょうか?

[[255878]]

ナレッジグラフ

ナレッジグラフは、本質的にはセマンティックネットワークの知識ベースです。実際の応用の観点から見ると、ナレッジグラフは実際には単純に複数の関係のグラフとして理解できます。

では、マルチリレーショナルグラフとは何でしょうか? データ構造における「グラフ」を思い出してください。グラフはノードとエッジで構成され、通常は特定のものの間の特定の関係を記述するために使用されます。グラフは点を使用して物事を表し、2 つの点を結ぶエッジを使用して対応する 2 つの物事間の特定の関係を表しますが、これらのグラフには通常、1 種類のノードとエッジのみが含まれます。記事「IOTA、モノのインターネットブロックチェーン?」では、有向非巡回グラフについて説明しています。マルチリレーションシップグラフには通常、複数の種類のノードと複数の種類のエッジが含まれます。グラフの数学的基礎はグラフ理論であり、それ自体が応用数学の一部です。将来的には、おそらくトポロジーの分野も含まれるようになるでしょう。

[[255879]]

ナレッジグラフでは、通常、「エンティティ」はグラフ内のノードを表すために使用され、「リレーションシップ」はグラフ内の「エッジ」を表すために使用されます。エンティティは現実世界の物事を指し、リレーションシップは異なるエンティティ間の特定のつながりを表現するために使用されます。エンティティとリレーションシップには独自の属性もあります。ナレッジグラフの構築は、後続のアプリケーションの基礎となり、構築の前提として、さまざまなデータソースからデータを抽出することが必要になります。データ抽出の難しさは、非構造化データの処理にあり、これには、エンティティ命名認識、関係抽出、エンティティ統合、参照解決などの NLP の関連テクノロジが関係します。

ナレッジグラフプロジェクト自体は、依然としてビジネス中心かつデータ中心です。ビジネスとデータの重要性を過小評価しないでください。

[[255880]]

ナレッジグラフの最も重要な中核は、ビジネスの理解とナレッジグラフ自体の設計にあります。ビジネスロジックから始める必要があり、ナレッジグラフの設計を観察することで、その背後にあるビジネスのロジックを推測することは簡単です。設計時には、将来のビジネスの変化についても考慮する必要があります。ナレッジグラフをできるだけ軽量にし、どのデータをナレッジグラフに格納し、どのデータをナレッジグラフに格納しないかを決定する鍵は、ナレッジグラフを小型で軽量なストレージキャリアに設計することです。

ナレッジグラフを保存する主な方法は、RDF とグラフデータベースの 2 つです。それらの違いは以下の図に示されています。 RDF の重要な設計原則はデータの容易な公開と共有ですが、グラフデータベースは効率的なグラフクエリと検索に重点を置いています。第二に、RDF はトリプル形式でデータを保存し、属性情報は含まれませんが、グラフデータベースは一般的に属性グラフを基本的な表現形式として使用するため、エンティティとリレーションシップに属性を含めることができ、実際のビジネスシナリオを表現しやすくなります。

では、なぜグラフデータベースを使用するのでしょうか。その核心は「関係性」にあります。

「関係性」を再考する

関係とは、人と人、人と物、物と物の間の相互のつながりを指します。

異なる物事は、空間と時間の関係、全体と部分の関係、原因と結果の関係、内容と形式の関係、さらには遺伝的関係、機能的依存関係、内部関係と外部関係など、さまざまな種類の関係に従って相互に接続されます。データ構造内の関係とは、コレクション内の要素間の何らかの相関関係を指します。関係演算には、集合の減算、積、和、補数などが含まれます。

[[255881]]

数学において、相関関係とは不確定な相互依存関係のことです。

程度別：完全に関連、不完全に関連、無関係
影響別：正と負の相関
形式別：線形相関と非線形相関
変数の数による：単純相関、多重相関、部分相関
......

物事同士の関係も複雑で、無限に多様です。

[[255882]]

現実の世界では、すべてのエンティティは周囲の他のエンティティと密接な関係があり、これらの関係に保存される情報はエンティティ自体の属性よりもさらに膨大です。

しかし、データベースはたくさんあるのに、なぜグラフデータベースが必要なのでしょうか? リレーショナルデータベースや多くの NoSQL データベースでは、なぜナレッジグラフを完全に構築できないのでしょうか?

データベースの保存と「関係性」の表現

世界は関係性で構成されています。リレーショナルデータベースは関係性をうまく処理できるでしょうか?

[[255883]]

リレーショナルデータベース

従来のリレーショナルデータベースは、エンティティの内部属性の記述に重点を置いています。エンティティ間の関係は通常、外部キーを使用して実装されます。すべてのデータは垂直スタックで表され、それらの直接的な関係が維持されます。関係を解決するには結合操作が必要になることが多く、結合操作には時間がかかります。多くの場合、相関性の高いデータではなく、集約されたデータ向けに最適化されています。

インターネット、特にモバイルインターネットの爆発的な成長は、従来のリレーショナルデータベースをすでに圧倒しています。ソーシャルネットワークなどのアプリケーションにおける関係性に対する高い需要と相まって、リレーショナルデータベースは対応できないようです。

アプリケーション開発の観点から見ると、リレーショナルデータベースの複雑さを増すことなく、データと関係をモデル化して保存することは不可能です。関係の数と階層が増加すると、データベースのサイズが大きくなり、パフォーマンスが低下します。新しいタイプのデータや関係が追加されると、再設計が必要になり、時間コストが増加します。そのため、従来のデータベースは、リアルタイムの価値を持つデータ関係には適していません。

[[255884]]

この場合、相関性の高いデータの保存と分析には NoSQL が必要になります。

ノーSQL

記事「ビッグデータ向け NoSQL」では、NoSQL はキー値、ドキュメントベース、列ベース、グラフデータベースの 4 つのカテゴリに分類されています。

Key-Value モデルは、単純なデータやリストに適しています。データが常に相互作用し、関連している場合、実際にはグラフがより必要になります。ドキュメントベースの NoSQL を使用してドキュメントを管理します。従来のデータベースでは、情報は個別のデータセグメントに分割されますが、ドキュメントデータベースでは、ドキュメントが情報処理の基本単位となります。文書は、ワープロ文書と同様に、長く、複雑で、構造化されていない場合があります。ドキュメントは、リレーショナルデータベース内のレコードに相当します。ドキュメントベースのNoSQLは階層分割にドキュメントを使用し、自由なデータ計画もツリーとして簡単に表現できます。グラフに成長すると、ドキュメント間の関係をより代表的なデータ構造で保存する必要があり、列ベースの NoSQL でも同様です。

アプリケーション開発の観点から見ると、これらの NoSQL データベースはリレーションシップを処理せず、データリレーションシップをモデル化または保存するためのデータ構造がなく、これらのデータリレーションシップをサポートするクエリ構造もありません。さらに、アプリケーション内でデータを接続するには JOIN 操作も必要であり、トランザクションには ACID サポートがありません。

ACID は、データベーストランザクションを正しく実行するための 4 つの基本要素の略語です。含まれるもの: 原子性、一貫性、独立性、および永続性。

したがって、これら 3 つの NoSQL データベースは、リアルタイムの価値を持つデータ関係には適していません。

[[255885]]

グラフデータベースがついに登場しました。グラフデータベースは、データ間の関係を記述することに重点を置いたデータベースです。関係の処理に最適で、単純なものから複雑なものまで、相互接続されたデータ構造を作成できます。グラフデータベースは NoSQL の非常に重要な部分になっています。

グラフデータベース

グラフデータベースは、数学的なグラフ理論のアイデアとアルゴリズムに基づいて、複雑なリレーショナルネットワークを効率的に処理できるデータベースです。グラフデータベースは、複雑で相互接続され、変化する大量のデータを効率的に処理するのに適しており、その計算効率は従来のリレーショナルデータベースよりもはるかに高くなっています。

グラフ内の各ノードはオブジェクトを表し、ノード間の線はオブジェクト間の関係を表します。ノードにはラベルを付けることができ、ノードとリレーションシップの両方に複数の属性を持たせることができます。リレーションシップはノードを任意の構造に編成できるため、グラフをリスト、ツリー、マップ、または複雑なエンティティとして編成できます。このエンティティ自体も、複雑で高度に相互に関連した構造で構成されています。

グラフデータベース Neo4J を例にとると、Cypher を使用してノードとリレーションシップを作成する例は次のとおりです。

 CREATE (:Person {名前:“Abel Cao”} )-[:Love]-> (:Person {名前:“Andy Cao”} )

クエリも簡単です:

 MATCH (:Person {名前:“Abel Cao”} ) -[:Love]-> (:Person {名前:“Andy Cao”} )

ノードは単一の属性から始まり、数千、あるいは数十億にまで成長する可能性がありますが、少し面倒になります。ある意味、データを関係性と結び付けて、異なるノードに分散させることは理にかなっています。インデックスを使用して、特定のプロパティ値を持つノードまたは関係を検索する方が、グラフをトラバースするよりも効率的です。

グラフを使用してデータを保存することは、データを保存するための最も高性能なデータ構造方法の 1 つです。グラフデータベースは数多くありますが、最も一般的に使用され、よく知られているのは Neo4j です。

グラフデータベースにおける Neo4j

グラフデータベースの Neo4j は、データ関係に特化して設計されています。モデルのメンテナンスは簡単です。ホワイトボードモデルは物理モデルです。クエリも比較的単純です。テーブルマッピング関係はグラフ関係になります。より少ないリソースでより高いパフォーマンスを実現できます。

グラフを使用してソーシャルネットワーク内の人々の関係性を表す

実際には、Neo4j は、いくつかの注目すべき機能を備えた完全なエンタープライズ展開または軽量プロジェクトで使用されるサーバーのサブセットに最適です。

ACID サポート

ACID 操作はデータの一貫性を保証するための基礎です。 Neo4j は、トランザクション内の複数の操作が同時に実行されるようにし、データの一貫性を確保します。この機能は、デプロイメントが組み込みモードであるか、マルチサーバークラスターであるかに関係なくサポートされます。

高可用性

グラフストレージは、あらゆるアプリケーションに簡単に統合できます。アプリケーションが運用されていくにつれて、パフォーマンスの問題が徐々に顕著になってきます。しかし、アプリケーションがどのように変化しても、Neo4j はコンピュータハードウェアのパフォーマンスによってのみ影響を受け、ビジネス自体によって制約されることはありません。

容易な拡張性

数億のノードと関係に拡張できます。neo4j サーバーをデプロイすると、数億のノードと関係をサポートできます。単一のノードでデータ需要をサポートできない場合は、分散クラスターの展開を実行できます。一般的に言えば、10 億ノード未満のグラフには Neo4j で十分です。

高速検索

Neo4j が提供するトラバーサルツールを使用すると、1 秒あたり数億件のデータ取得量で効率的なデータ取得が可能になります。

Neo4j のユーザーには、eBay、Pitney Bowes、Walmart、Lufthansa、Cisco、HP、Accenture など、数多くの有名企業が含まれます。

[[255886]]

Neo4j プログラミングの概要

Neo4j は、組み込み型のディスクベースの完全トランザクション Java 永続化エンジンです。 Neo4j データベースにアクセスするには、主に 3 つの方法があります。

埋め込み

データベースのアドレスを指定してデータベースに直接アクセスします。

新しい GraphDatabaseFactory().newEmbeddedDatabase(DB_PATH);

REST API

API をリクエストしてデータベースにアクセスします。

 curl -D - -H Accept:application/json "http://neo4j:123456@localhost:8474/db/data/"

ODBC ドライバ

Java API を介してデータベースにアクセスします。

 DriverManager.getConnection( "jdbc:neo4j:123456//localhost:8474/" );

人生は短い、私はPythonを使う

Python を使用して Neo4j ベースのアプリケーションを完成させるには、http://py2neo.org/v3/ から py2neo をインストールする必要があります。

Neo4j の接続

mygraph = Graph(ホスト= 'localhost' 、http_port=8474、https_port=8473、bolt_port=8687、ユーザー名= 'Abel_Cao' 、パスワード= 'xxxxxx' )

ノードと関係の作成

abel = Node( 'Person' , name = 'Abel' )
    zmx = ノード( 'Person' 、 name = 'Zmx' )
    abel_love_zmx = 関係(abel, '愛' , zmx)
    グラフを作成します(abel_love_zmx)

プロパティを変更する

abel.properties[ '年齢' ] = 47
    andy.properties[ '年齢' ] = 17
    アベル.プッシュ()
    andy.push()

ノードまたは関係を見つける

アベル = graph.find_one(ラベル = '人' 、プロパティキー = '名前' 、プロパティ値 = 'アベル' )
    zmx = graph.find_one(ラベル = '人' 、プロパティキー = '名前' 、プロパティ値 = 'Zmx')
    abel_love_zmx = graph.match_one(開始ノード=abel、rel_type='Love'、終了ノード=zmx)

ノードと関係の削除

グラフを削除します(alice_knows_bob)
グラフの削除(アリス)
グラフの削除(ボブ)

カスタムクエリ

カーソル= graph.run(Cipher_statement)

暗号概要

簡単に類推すると、Cipher クエリ言語は SQL ステートメントとして理解できます。

ノードと関係の削除

MATCH (abel:`Person` { name : "Abel" })-[abel_love_andy:`Love`]->(

ルートの検索

MATCH p=(abel:`Person` { name : "Abel" })-[]->(andy:`Person` { name : "Andy" }) DELETE p;

最短経路を見つける

MATCH p=shortestPath((abel:`Person` { name : "Abel" })-[*..5]->(zmx:`Person` { name : "Zmx" })) DELETE p;

Cipher のその他の操作手順は次のとおりです。

タグと属性を削除する
ノードをトラバースする FOREACH
フィルター条件 WHERE
インデックスSTARTを使用する
並べ替え ORDER BY
ページネーション LIMIT SKIP
索引
一意制約
集計関数 COUNT SUM AVG DISTINCT など

Neo4j のクラスター展開では、通常、zookeeper を使用して neo4j サーバーのハートビートを検出します。

Zookeeper マスターの選出中は書き込み要求を処理できず、例外が直接返されることに注意してください。これを制御するには、クライアントにフェイルオーバー再試行メカニズムを提供するのが最適です。

さまざまなグラフデータベース

db-engines.com では、グラフデータベースの市場ランキングを見ることができます。

市場は大きく変化しており、過去の記憶は次のようになっているようです。

AWS は分散グラフデータベースである Titan を使用します。
Titan はデータベースではなく、Cassandra や Hadoop などの基盤となるストレージエンジンに依存し、関連するクエリを実行するために Lucene、ElasticSearch、Solr などのインデックスエンジンにも依存するクライアントライブラリです。
arangoDB は、ドキュメント、グラフ、キー値ストレージなどの柔軟なデータモデルをサポートします。
OrientDB の主な機能は、ドキュメント、グラフ、キー/値、実際のオブジェクトなどのさまざまなモデルをサポートするマルチモデルオブジェクトのサポートです。
GUN は、リアルタイムの分散型組み込みグラフデータベースエンジンです。

私が注目したいくつかのグラフデータベースのいくつかの特性の比較:

Neo4j にはキャッシュ層がないため、読み取り QPS ボリュームをサポートできず、分散型大規模データストレージのニーズを満たすこともできません。多くの大企業は独自のグラフデータベースを持っています。たとえば、Baidu は、膨大なノードオブジェクトと複雑な関係を保存できる HugeGraph をオープンソース化しています。

グラフデータベースの応用

データキャプチャ設計後にデータ駆動型の運用と意思決定を追求する組織にとって、グラフ分析は最も効果的な競争上の優位性となる可能性があります。そのため、グラフデータベースは、ソーシャルネットワークや信用報告システムなど、多くの分野で広く使用されています。

リアルタイムの推奨事項
マスターデータ管理: 組織構造、ソーシャルネットワーク、製品発注、ITネットワーク
詐欺検出、合成ID詐欺グループ
グラフベースの検索
ITネットワーク管理
アイデンティティとアクセス管理
地理情報システム

重要なのは、グラフデータベースがビッグデータの洞察を行動に移すことができ、ナレッジグラフを構築するための基礎の 1 つであり、人工知能とそのアプリケーションにおいて重要な役割を果たすことです。

参考文献

https://neo4j.com/開発者

https://www.jiqizhixin.com/articles/2018-06-20-4

https://db-engines.com/

Ian Robinson、Jim Webber、Emil Eifrem、Liu Lu、Liang Yue 訳「Graph Database (Second Edition)」、Posts and Telecommunications Press、2016 年

[この記事は51CTOコラムニスト「老曹」のオリジナル記事です。著者のWeChat公開アカウント：Oh Home ArchiSelf、id：wrieless-com]

この著者の他の記事を読むにはここをクリックしてください

<<: 2019年世界人工知能製品応用博覧会は今年5月に蘇州で開催される。

>>: プログラミング啓蒙ロボット、本物の人形か、それとも本当の物語か？

マインドタイピングがネイチャーの表紙に登場！ 99%以上の正確さで1分間に90文字を書く

ブログ

新しいことを学び、古いものを見直す: ナレッジグラフからグラフデータベースへ

マインドタイピングがネイチャーの表紙に登場！ 99%以上の正確さで1分間に90文字を書く

新人機械学習エンジニアが犯しがちな6つの間違い

SelfOcc: 純粋な視覚に基づく初の自己教師あり 3D 占有予測 (清華大学)

CreditEase の R&D ディレクター、張振氏: 運用・保守ロボットのタスク決定システムの進化

人間や魚を認識するAIは人魚も認識できるのか？ Alibaba CVPR 論文における因果推論法の回答

ディープラーニングと比較すると、この新しいアルゴリズムの方が優れているようですね？

人工知能は教育にどのような変化をもたらすのでしょうか?

新しいディープラーニングモデルがエッジデバイスに画像セグメンテーションをもたらす方法

推薦する

アリババのキャンパス採用の給与は魅力的すぎる、アルゴリズム職の最高給与は72万！最初のオファーを選択するにはどうすればいいですか?

住宅街、公衆トイレ、ジム...「顔認識」はどこにでもあります。どこでも顔をスキャンする必要があるのでしょうか?

清華大学のAI学生が顔を見せて歌う、この応用は将来に期待される

機械経済の到来: つながる世界を動かす

適切な場所で機械学習は革命をもたらすだろう

ロボットを活用する3つの革新的な方法

厳しい期限内で機械学習を行う方法: ラベル付きニュースの構築

検証可能な AI に向けて: 形式手法の 5 つの課題

ビッグモデル実装の最後の一歩: ビッグモデル評価の 111 ページに及ぶ包括的なレビュー