今日は、ナレッジ グラフに関する記事を書いています。これは、ナレッジ グラフに関する私の最初の研究と理解と言えます。近年、ナレッジグラフという言葉について話す人がいます。ナレッジグラフ技術に取り組んでいる人や、ビッグデータプラットフォームが構築された後にナレッジグラフを構築する必要がある人もいます。 実際、10年以上前に、企業の知識管理と知識ベース構築の分野では、Autonomyなどの知識管理ソフトウェアが、シャノン理論とベイズアルゴリズムの使用、ナレッジグラフに基づく知識と学習ルートの計画など、テキストコンテンツの意味認識とセマンティックウェブの構築について議論していました。その後、Autonomy は HP に買収され、消滅しました。 しかし、近年、ビッグデータやAIの発展に伴い、ナレッジグラフは新たなホットスポットとなり、リスク管理や不正防止、インテリジェントな推奨エンジン、インテリジェントな知識質疑応答など、多くの分野で役割を果たすようになりました。実際、ビッグデータと AI アルゴリズムの発展により、ナレッジグラフの応用と実装がさらに促進されていることもわかります。 ナレッジ グラフの構築は、ビッグ データと切り離すことはできません。膨大な自然データの知識収集と抽象化により、完全な知識セマンティック ネットワークを構築できます。ただし、ネットワークだけでは不十分です。セマンティック ネットワークに基づいて、知識推論ロジックとアルゴリズムが継続的に技術サポートを提供する必要があります。 したがって、データ + アルゴリズムの開発は、ナレッジグラフサブセクターの発展を促進するための鍵となります。 ナレッジグラフの概要 ナレッジグラフについては、基本的な概念から構築プロセス、方法、ツールに至るまで、インターネット上に詳細な記事があります。ここでは、ナレッジグラフの基本的な概念のみを説明します。 ナレッジグラフの概念は、よりスマートな検索エンジンの実現を目指して、2012年にGoogleによって正式に提案されました。2013年以降、学界や産業界で普及し始め、インテリジェントな質問回答、インテリジェンス分析、詐欺対策などのアプリケーションで重要な役割を果たしました。 ナレッジ グラフは、本質的にはセマンティック ネットワークと呼ばれる知識ベース、つまり有向グラフ構造を持つ知識ベースであり、グラフのノードはエンティティまたは概念を表し、グラフのエッジは 2 つのエンティティ間の類似関係など、エンティティ/概念間のさまざまな意味関係を表します。 ナレッジ グラフを理解するには、エンティティと概念を明確に区別する必要があります。概念自体は現在、概念と属性という 2 つの独立した単語に分かれています。 IT とソフトウェア開発の観点から比較すると、エンティティはドメインモデリングにおけるエンティティオブジェクトに似ており、概念は値オブジェクトに似ています。エンティティオブジェクトは独立して存在でき、独立したライフサイクルを持つことができますが、概念または値オブジェクトはエンティティに依存しています。エンティティなしで概念オブジェクトや値について語ることは意味がありません。 例を見てみましょう: 雷軍は2008年に林斌と出会った。当時、リン・ビンはGoogleとUCWEBの協力を促進したいと考えていました。雷軍は、林斌が製品に対して心からの情熱を持ち、Google での仕事と製品に対して非常に献身的で勤勉であることに驚きました。その頃、雷軍は林斌を頻繁に訪ねて話をするようになり、二人の大人はよく一緒に夜遅くまで起きて、夜中の1時か2時までおしゃべりをしていた。会話を重ねるうちに、二人はパートナーから良き友人へと変化していった。 上記の段落から、少なくともこれを知ることができます。 雷軍と林斌は仲良しの友達です。 これは、エンティティとそれらの間の関係の典型的な記述であり、RDF トリプル モデルに類似したモデルを使用して抽象化およびモデル化され、グラフ データベースに保存されます。コア メタデータは、エンティティ オブジェクトとエンティティ リレーションシップです。 雷軍と林斌は独立した生命周期を持つ独立した存在であることがわかります。両者の間には関係がありますが、お互いの影響を受けることなく独立して存在できます。 概念と概念の属性についてはどうでしょうか? これは、身長、性別、年齢、民族など、Lei Jun の個人的な属性をさらに説明することに似ています。概念と属性の最大の特徴は、概念が単なる属性のリストまたは値のセットであるということです。この値は、高さなどの連続値になります。 56 民族グループのように不連続になることもあります。しかし、どちらの場合でも、最終的なコンセプトには最終的な属性値が含まれます。エンティティが存在しなくなったのと同様に、この概念と属性値自体にはビジネス上の意味はありません。 これをはっきりと理解したら、もう一度見てみましょう。 雷軍は湖北省仙桃中学校を卒業しました。仙桃中学校は概念ですか、それとも実体ですか?実際、仙桃中学校は独立した存在として研究されるべきである。仙桃中学校の説明は、一連の連続的または不連続的な値によって定義されるものではないからである。同時に、仙桃中学校は独立して存在することができ、雷軍の存在の有無は学校としての仙桃中学校に影響を与えません。 そうすると仙桃中学校は独立した組織になるはずです。 この考え方に基づいて、関係図全体を以下のように変更できます。 ここでは、概念と属性値を説明するために特に緑色のボックスを使用します。 簡単に言えば、概念とは、それ以上拡張されず、他のエンティティとの関係マッピングを直接確立しない特別なタイプのエンティティです。 ナレッジグラフを構築するプロセス
前の簡単な例から、ナレッジ グラフ構築の中核は依然としてエンティティ オブジェクトの識別とエンティティ リレーションシップの確立であることがわかります。つまり、構造化されていないテキスト素材や音声素材から対応するエンティティを識別して抽象化し、エンティティ間の関係を確立する必要があります。 人と物は重要な存在である エンティティを識別する場合、人やオブジェクト自体が識別される主要なエンティティであることがわかります。人々はチーム、場所、または組織に属し、物を設計したり作成したりします。 したがって、これを拡張すると、オブジェクト、場所、人、企業組織チーム、地域の場所が重要かつ識別可能なキーエンティティであることがわかります。これらのエンティティ自体は、上方に集約し、下方に拡張できる一種の階層構造です。 例えば、ショッピングモール自体はエリアに属しており、ショッピングモール自体には複数の店舗が含まれています。 抽象概念またはインスタンス概念 エンティティを分析する場合、エンティティは一般に抽象的な概念ではなく、インスタンス化され、具体的なものであることにも留意することが重要です。たとえば、『レ・ミゼラブル』について話すとき、Les Misérables は、ユゴーの原作、映画の特定のバージョン、または 10 周年記念ミュージカルを指す場合があります。 実体に関する研究は、2012 年の映画版『レ・ミゼラブル』のような特定のインスタンスのレベルで取り組むのが最適です。 エンティティを明確に理解した後、関係性の識別を検討できます。 人や物は組織や地域に属している 人々は何かを創造したり、発明したり、消費したりする 家族、クラスメート、同僚、パートナーなど、人々の間の人間関係。 実体自体に具現化された階層関係の拡大と集約 つまり、ほとんどのエンティティ間の関係は、上記の側面に反映されます。 ナレッジグラフの構築 ナレッジ グラフを構築するプロセスは実際にはかなり複雑ですが、その中核には主に、知識の抽出、知識の保存、エンティティの調整、知識のモデリング、知識の推論などのいくつかの重要なステップが含まれます。 知識の抽象化のためには、構造化データであれ、テキストなどの非構造化データであれ、最終的には、知識グラフ モデルの構築を容易にするために、トリプル データ構造に変換する必要があります。知識の抽出が完了したら、知識の保存を行います。現在の主流は、Neo4j などのグラフ データベースを使用してこれを完了することです。リレーショナル データベースでは、すべてのデータベース スキーマを事前に定義する必要があり、その後の変更にはコストがかかります。グラフ モデルでは、スキーマ定義を追加し、データを部分的に調整して、元のデータ ソースにラベルまたは属性を追加するだけで済みます。 最近、ナレッジ グラフに関する技術情報を調べて勉強していたところ、ナレッジ システムとナレッジ グラフの概念を混同しているという大きな問題を発見しました。私はナレッジ システムをナレッジ グラフと勘違いし、マインド マップを使用してナレッジ グラフを構築していました。これは非常に間違った方法です。特に、マインドマップ自体は単一のノードを中心に構成されており、複数のエンティティ間の関係情報をまったく表現することができません。 インターネットで見つかったこの写真と同様に、これは完全に間違ったアプローチです。 知識推論プロセス ナレッジグラフが構築された後は、知識推論を行うことがより重要になりますが、知識推論自体は構築された推論モデルに基づいています。つまり、ナレッジグラフに具現化された人工知能は、前回の記事で説明した統計的思考に基づく人工知能ではなく、アルゴリズムと推論モデルに基づいています。 では、知識推論とは一体何なのでしょうか? 最も一般的な方法は、エンティティ ネットワークに既に存在するエンティティ関係に基づいて、エンティティ間の他の関係を推測することです。たとえば、実線の三角形では、2 つの関係がわかっている場合、未知の関係のエッジを推測できることがよくあります。 エンティティ関係において、次のことが分かっている場合:
すると、雷軍と林斌という二人の関係は、良き友人からパートナーへと拡大したと推測できます。 2番目に多いのは、異常なリスクの検出です。 つまり、知識の抽出と収集を通じて完全なナレッジグラフを形成した後、セマンティックネットワーク全体のエンティティ間の関係に異常があることがわかります。金融などの不正防止分野では、次の図に示すように、よく言及される情報のマルチポイント共有などの関連する問題を発見するために、同様の知識グラフ推論ロジックがよく使用されます。 つまり、李明、李飛、借り手は、住所、銀行口座番号、卒業校など、複数の実体情報を共有しており、それらはすべて同一であるため、金融詐欺の可能性がある。 連続的な論理的推論もあり、その最も一般的な例は株式の浸透です。 たとえば、張三は A 社の株式の 50% を所有し、A 社は B 社の株式の 30% を所有しています。株式の浸透後、張三は実際に A 社の株式の 15% を所有することになります。もちろん、張三はC社を通じてB社の株式を所有している可能性もあります。企業と人で構成されるこのセマンティックネットワークを通じて、企業の実際の管理者などの特定の情報を簡単に分析および計算できます。 現在、ナレッジグラフの推論は、セマンティックネットワークのセマンティックモデルとルール制約だけに基づくものではなく、ディープラーニングと組み合わされています。つまり、セマンティック モデルをディープラーニング モデルにインポートして、ディープラーニングの推論機能と予測機能を強化します。 簡単な例を挙げると、レコメンデーションシステムとレコメンデーションエンジンです。実際のコアは依然として収集された大量のユーザー行動データに基づいていますが、同時に、ユーザー自身の友人関係セマンティックモデルをインポートすると、レコメンデーションモデル全体の精度が向上する可能性があります。 |
<<: 人工知能業界では無視できない技術分野「ナレッジグラフ」
>>: ロボットはすべてレンガを動かしているのでしょうか?人工知能は失業の波を引き起こすでしょうか?
EU があらゆる業界での AI および機械学習技術の使用を効果的に規制する AI 法の施行に向けて...
バージニア大学のダン・クイン教授と博士研究員のゾン・チアン氏は、生体力学、流体力学、ロボット工学を組...
[[440499]] Google チームは、CoRL 2021 で暗黙的動作クローニング (Imp...
計算グラフィックス分野では、マテリアルの外観は、実際のオブジェクトと光の間の複雑な物理的相互作用を表...
この記事では、パーソナライズされた連合学習に関する 3 つの記事を厳選して詳細に分析します。従来の機...
想像してみてください。あなたはずっと夢見てきた機械学習の職種の面接を受けに行こうとしています。すべて...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
採用プロセスで人工知能テクノロジーに切り替えるのは難しいかもしれませんが、これらのヒントに従って、会...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
専門家は、人工知能も気候変動への取り組みにおいて重要な役割を果たすことができると考えている。しかし一...
調査では、テクノロジー主導の業界を推進する 2022 年までのビジネス インテリジェンスの主要なトレ...
[[223504]]現在、フロントエンド開発の自動化に対する最大の障壁はコンピューティング能力です...