ナレッジグラフから知識推論まで、AIのホットな話題になるのでしょうか？

[[384924]]

今日は、ナレッジグラフに関する記事を書いています。これは、ナレッジグラフに関する私の最初の研究と理解と言えます。近年、ナレッジグラフという言葉について話す人がいます。ナレッジグラフ技術に取り組んでいる人や、ビッグデータプラットフォームが構築された後にナレッジグラフを構築する必要がある人もいます。

実際、10年以上前に、企業の知識管理と知識ベース構築の分野では、Autonomyなどの知識管理ソフトウェアが、シャノン理論とベイズアルゴリズムの使用、ナレッジグラフに基づく知識と学習ルートの計画など、テキストコンテンツの意味認識とセマンティックウェブの構築について議論していました。その後、Autonomy は HP に買収され、消滅しました。

しかし、近年、ビッグデータやAIの発展に伴い、ナレッジグラフは新たなホットスポットとなり、リスク管理や不正防止、インテリジェントな推奨エンジン、インテリジェントな知識質疑応答など、多くの分野で役割を果たすようになりました。実際、ビッグデータと AI アルゴリズムの発展により、ナレッジグラフの応用と実装がさらに促進されていることもわかります。

ナレッジグラフの構築は、ビッグデータと切り離すことはできません。膨大な自然データの知識収集と抽象化により、完全な知識セマンティックネットワークを構築できます。ただし、ネットワークだけでは不十分です。セマンティックネットワークに基づいて、知識推論ロジックとアルゴリズムが継続的に技術サポートを提供する必要があります。

したがって、データ + アルゴリズムの開発は、ナレッジグラフサブセクターの発展を促進するための鍵となります。

ナレッジグラフの概要

ナレッジグラフについては、基本的な概念から構築プロセス、方法、ツールに至るまで、インターネット上に詳細な記事があります。ここでは、ナレッジグラフの基本的な概念のみを説明します。

ナレッジグラフの概念は、よりスマートな検索エンジンの実現を目指して、2012年にGoogleによって正式に提案されました。2013年以降、学界や産業界で普及し始め、インテリジェントな質問回答、インテリジェンス分析、詐欺対策などのアプリケーションで重要な役割を果たしました。

ナレッジグラフは、本質的にはセマンティックネットワークと呼ばれる知識ベース、つまり有向グラフ構造を持つ知識ベースであり、グラフのノードはエンティティまたは概念を表し、グラフのエッジは 2 つのエンティティ間の類似関係など、エンティティ/概念間のさまざまな意味関係を表します。

ナレッジグラフを理解するには、エンティティと概念を明確に区別する必要があります。概念自体は現在、概念と属性という 2 つの独立した単語に分かれています。

IT とソフトウェア開発の観点から比較すると、エンティティはドメインモデリングにおけるエンティティオブジェクトに似ており、概念は値オブジェクトに似ています。エンティティオブジェクトは独立して存在でき、独立したライフサイクルを持つことができますが、概念または値オブジェクトはエンティティに依存しています。エンティティなしで概念オブジェクトや値について語ることは意味がありません。

例を見てみましょう:

雷軍は2008年に林斌と出会った。当時、リン・ビンはGoogleとUCWEBの協力を促進したいと考えていました。雷軍は、林斌が製品に対して心からの情熱を持ち、Google での仕事と製品に対して非常に献身的で勤勉であることに驚きました。その頃、雷軍は林斌を頻繁に訪ねて話をするようになり、二人の大人はよく一緒に夜遅くまで起きて、夜中の1時か2時までおしゃべりをしていた。会話を重ねるうちに、二人はパートナーから良き友人へと変化していった。

上記の段落から、少なくともこれを知ることができます。

雷軍と林斌は仲良しの友達です。

これは、エンティティとそれらの間の関係の典型的な記述であり、RDF トリプルモデルに類似したモデルを使用して抽象化およびモデル化され、グラフデータベースに保存されます。コアメタデータは、エンティティオブジェクトとエンティティリレーションシップです。

雷軍と林斌は独立した生命周期を持つ独立した存在であることがわかります。両者の間には関係がありますが、お互いの影響を受けることなく独立して存在できます。

概念と概念の属性についてはどうでしょうか?

これは、身長、性別、年齢、民族など、Lei Jun の個人的な属性をさらに説明することに似ています。概念と属性の最大の特徴は、概念が単なる属性のリストまたは値のセットであるということです。この値は、高さなどの連続値になります。 56 民族グループのように不連続になることもあります。しかし、どちらの場合でも、最終的なコンセプトには最終的な属性値が含まれます。エンティティが存在しなくなったのと同様に、この概念と属性値自体にはビジネス上の意味はありません。

これをはっきりと理解したら、もう一度見てみましょう。

雷軍は湖北省仙桃中学校を卒業しました。仙桃中学校は概念ですか、それとも実体ですか?実際、仙桃中学校は独立した存在として研究されるべきである。仙桃中学校の説明は、一連の連続的または不連続的な値によって定義されるものではないからである。同時に、仙桃中学校は独立して存在することができ、雷軍の存在の有無は学校としての仙桃中学校に影響を与えません。

そうすると仙桃中学校は独立した組織になるはずです。

この考え方に基づいて、関係図全体を以下のように変更できます。

ここでは、概念と属性値を説明するために特に緑色のボックスを使用します。

簡単に言えば、概念とは、それ以上拡張されず、他のエンティティとの関係マッピングを直接確立しない特別なタイプのエンティティです。

ナレッジグラフを構築するプロセス

[[384926]]

ナレッジグラフの構築プロセスについては、インターネット上に参考になる詳細な記事が多数あるため、ここでは詳しく説明しません。要点だけを話してください。

前の簡単な例から、ナレッジグラフ構築の中核は依然としてエンティティオブジェクトの識別とエンティティリレーションシップの確立であることがわかります。つまり、構造化されていないテキスト素材や音声素材から対応するエンティティを識別して抽象化し、エンティティ間の関係を確立する必要があります。

人と物は重要な存在である

エンティティを識別する場合、人やオブジェクト自体が識別される主要なエンティティであることがわかります。人々はチーム、場所、または組織に属し、物を設計したり作成したりします。

したがって、これを拡張すると、オブジェクト、場所、人、企業組織チーム、地域の場所が重要かつ識別可能なキーエンティティであることがわかります。これらのエンティティ自体は、上方に集約し、下方に拡張できる一種の階層構造です。

例えば、ショッピングモール自体はエリアに属しており、ショッピングモール自体には複数の店舗が含まれています。

抽象概念またはインスタンス概念

エンティティを分析する場合、エンティティは一般に抽象的な概念ではなく、インスタンス化され、具体的なものであることにも留意することが重要です。たとえば、『レ・ミゼラブル』について話すとき、Les Misérables は、ユゴーの原作、映画の特定のバージョン、または 10 周年記念ミュージカルを指す場合があります。

実体に関する研究は、2012 年の映画版『レ・ミゼラブル』のような特定のインスタンスのレベルで取り組むのが最適です。

エンティティを明確に理解した後、関係性の識別を検討できます。

人や物は組織や地域に属している

人々は何かを創造したり、発明したり、消費したりする

家族、クラスメート、同僚、パートナーなど、人々の間の人間関係。

実体自体に具現化された階層関係の拡大と集約

つまり、ほとんどのエンティティ間の関係は、上記の側面に反映されます。

ナレッジグラフの構築

ナレッジグラフを構築するプロセスは実際にはかなり複雑ですが、その中核には主に、知識の抽出、知識の保存、エンティティの調整、知識のモデリング、知識の推論などのいくつかの重要なステップが含まれます。

知識の抽象化のためには、構造化データであれ、テキストなどの非構造化データであれ、最終的には、知識グラフモデルの構築を容易にするために、トリプルデータ構造に変換する必要があります。知識の抽出が完了したら、知識の保存を行います。現在の主流は、Neo4j などのグラフデータベースを使用してこれを完了することです。リレーショナルデータベースでは、すべてのデータベーススキーマを事前に定義する必要があり、その後の変更にはコストがかかります。グラフモデルでは、スキーマ定義を追加し、データを部分的に調整して、元のデータソースにラベルまたは属性を追加するだけで済みます。

最近、ナレッジグラフに関する技術情報を調べて勉強していたところ、ナレッジシステムとナレッジグラフの概念を混同しているという大きな問題を発見しました。私はナレッジシステムをナレッジグラフと勘違いし、マインドマップを使用してナレッジグラフを構築していました。これは非常に間違った方法です。特に、マインドマップ自体は単一のノードを中心に構成されており、複数のエンティティ間の関係情報をまったく表現することができません。

インターネットで見つかったこの写真と同様に、これは完全に間違ったアプローチです。

知識推論プロセス

ナレッジグラフが構築された後は、知識推論を行うことがより重要になりますが、知識推論自体は構築された推論モデルに基づいています。つまり、ナレッジグラフに具現化された人工知能は、前回の記事で説明した統計的思考に基づく人工知能ではなく、アルゴリズムと推論モデルに基づいています。

では、知識推論とは一体何なのでしょうか?

最も一般的な方法は、エンティティネットワークに既に存在するエンティティ関係に基づいて、エンティティ間の他の関係を推測することです。たとえば、実線の三角形では、2 つの関係がわかっている場合、未知の関係のエッジを推測できることがよくあります。

エンティティ関係において、次のことが分かっている場合:

雷軍がXiaomi Technologyを設立
リン・ビンがXiaomi Technologyを設立

すると、雷軍と林斌という二人の関係は、良き友人からパートナーへと拡大したと推測できます。

2番目に多いのは、異常なリスクの検出です。

つまり、知識の抽出と収集を通じて完全なナレッジグラフを形成した後、セマンティックネットワーク全体のエンティティ間の関係に異常があることがわかります。金融などの不正防止分野では、次の図に示すように、よく言及される情報のマルチポイント共有などの関連する問題を発見するために、同様の知識グラフ推論ロジックがよく使用されます。

つまり、李明、李飛、借り手は、住所、銀行口座番号、卒業校など、複数の実体情報を共有しており、それらはすべて同一であるため、金融詐欺の可能性がある。

連続的な論理的推論もあり、その最も一般的な例は株式の浸透です。

たとえば、張三は A 社の株式の 50% を所有し、A 社は B 社の株式の 30% を所有しています。株式の浸透後、張三は実際に A 社の株式の 15% を所有することになります。もちろん、張三はC社を通じてB社の株式を所有している可能性もあります。企業と人で構成されるこのセマンティックネットワークを通じて、企業の実際の管理者などの特定の情報を簡単に分析および計算できます。

現在、ナレッジグラフの推論は、セマンティックネットワークのセマンティックモデルとルール制約だけに基づくものではなく、ディープラーニングと組み合わされています。つまり、セマンティックモデルをディープラーニングモデルにインポートして、ディープラーニングの推論機能と予測機能を強化します。

簡単な例を挙げると、レコメンデーションシステムとレコメンデーションエンジンです。実際のコアは依然として収集された大量のユーザー行動データに基づいていますが、同時に、ユーザー自身の友人関係セマンティックモデルをインポートすると、レコメンデーションモデル全体の精度が向上する可能性があります。

<<: 人工知能業界では無視できない技術分野「ナレッジグラフ」

>>: ロボットはすべてレンガを動かしているのでしょうか?人工知能は失業の波を引き起こすでしょうか？