1. Ant Financial Knowledge Graph プラットフォームの紹介まず、ナレッジグラフの開発と Ant Knowledge Graph Platform の現状について紹介します。 1. ナレッジグラフの開発「iResearch Consulting:2022年中国ナレッジグラフ産業調査レポート」によると、2021年には中国のナレッジグラフのコア市場規模は数百億元に達すると予想されています。 2026年には規模が296億元を超え、年平均成長率は20%を超えると予想されます。その中で、金融と公安の二大産業は、より高い割合を占め、より速いペースで成長しています。 学界や産業界では、2012年にGoogleがナレッジグラフの概念を提唱し、検索分野に応用して以来、その後10年間にわたり、国内外のテクノロジー企業がグラフデータベースやグラフコンピューティングなど、ナレッジグラフの開発を競ってきました。 Google Scholar が公開したナレッジ グラフの記事から判断すると、過去 5 ~ 10 年間で、ナレッジ グラフの分野で研究開発に投資する技術者が増えています。 2. Ant Knowledge Graph プラットフォームの目標Ant Knowledge Graph プラットフォームの構築の初期段階では、いくつかの課題に直面しました。
Ant Knowledge Graph プラットフォームの目標は、金融分野向けのワンストップの知識研究開発および管理プラットフォームを構築し、ビジネス指向の知識モデリング、知識構築、視覚化分析、専門家の経験に基づく意思決定、グラフアルゴリズム推論などのフルシナリオの知識ライフサイクルソリューションを提供することです。 3. Ant Financialナレッジグラフ構築の現状4〜5年の構築を経て、アントファイナンシャルのナレッジグラフは、セキュリティ、消費者金融、支払い、保険、富、オンラインコマース、スマートファンドなど、金融分野全体の多くのシナリオをカバーしており、エンティティ、コンセプト、関係タイプは5,000を超えています。知識の規模は、当初の1億レベルから兆レベルに急速に成長し、知識アプリケーションの呼び出し回数は1日あたり1,000億回を超えています。これは、金融分野におけるナレッジグラフの応用に対する需要が高まっていることも示しています。 2. 意味的知識表現モデルセマンティックネットワークとしてのナレッジグラフは、ビッグデータ時代における知識を表現する重要な方法の 1 つです。次に、まず意味化の役割、知識の定義と分類、意味的知識表現などの基本概念を紹介し、次に意味的知識表現モデルを紹介します。 1. 意味論の役割セマンティック化の概念は、1968 年に JR Quillian によって提唱されたセマンティック ネットワークに由来しています。これは、セマンティクスとセマンティック関係を使用して知識のネットワーク構造を表現し、人間の知識構造をネットワーク形式で表現する形式です。セマンティック ネットワーク図には 2 種類の知識があります。一つは、人々がまとめた常識的な知識です。例えば、猫から哺乳類、動物に至るまで、概念的な分類システムです。もう 1 つのタイプは、異なる猫の個体と人間の個体との関係など、事実指向の知識です。 セマンティゼーションには主に 2 つの機能があります。1 つは、データ表現を標準化し、データの再利用を実現することです。 2 番目に、異なる分野のデータが相互に作用し、データ ファブリックが促進されます。たとえば、病院と個人はどちらも地理的な位置情報を持っており、それは略称またはフルネームである場合があります。病院と個人を地理的な位置によって結び付けるためには、両者の関連付けを実現する前に、住所位置情報の表現を標準化する必要があります。 2. 知識の分類と定義ビジネスシナリオに基づいて、知識を3つのタイプに分類します。
イベント、エンティティ、関係、概念から構成されるセマンティック ネットワークが相互に接続され、ナレッジ グラフ全体の分類機能を形成します。 3. セマンティック知識表現 - SPG (セマンティック拡張プロパティグラフ)セマンティック知識表現は知識モデリングとも呼ばれ、業界では主にラベル付きプロパティ グラフ (LPG) とリソース記述フレームワーク (RDF) という 2 つの主流モデルに分けられます。どちらのモデルにも利点があります。 LPG は、頂点エッジ属性に基づいて知識表現を実装します。このモデリング方法は、グラフのデータ構造表現に近いため、比較的明確でシンプルであり、モデリング コストが低くなります。 RDF はトリプルを使用してエンティティを表現し、属性を通じてエンティティ間の豊富な接続を確立しますが、業界における RDF の実装は比較的貧弱です。 ナレッジグラフを構築する過程で、ビジネスデータから知識標準化への進化に直面します。ビジネス構築の初期段階では、属性タイプの多くはテキストタイプであるためです。概念ネットワークが改善するにつれて、これらのテキスト タイプは、知識の再利用を実現し、他のより多くの分野のデータと接続するために、標準タイプへと進化し続ける必要があります。 そこで、我々は、LPG と RDF の利点を組み合わせたハイブリッド モデルであり、ビジネス データから知識標準化への進化プロセスに適した、意味的に強化されたプロパティ グラフ モデルを提案します。ビジネスに分かりやすい表現を提供し、知識の再利用を促進し、大規模に実装することができます。 この意味的に強化された属性グラフ モデルには、意味的に制約されたパラダイムがいくつかあります。 OWL の表現は、おおまかに次のカテゴリに分類されます。
3. セマンティック知識管理の主要技術と応用次に、セマンティック知識管理の基盤となる主要テクノロジーとそのビジネスアプリケーションに焦点を当てます。 1. セマンティック知識管理の中核機能セマンティック ナレッジ管理のコア機能は、次の部分に分かれています。
2. DFSに基づく知識管理アーキテクチャ当社のナレッジ グラフ全体のナレッジ管理アーキテクチャは 2 つのレイヤーに分かれています。下層はストレージ レイヤーで、DFS (分散ファイル システム) に基づいてナレッジ全体を管理します。上位層はアプリケーション層であり、SDK を介してグラフ データベース、グラフ コンピューティング、およびその他のエンジンに接続され、知識サービス、知識推論分析、知識構築などのアプリケーションをサポートします。 このアーキテクチャの利点と特徴は次のとおりです。
3. 意味的知識の生成と演算子の進化知識生産のプロセスは以下のように説明されます。一般的に言えば、ナレッジ グラフの知識生成プロセスには、知識の抽出、属性の標準化、エンティティのリンクと融合など、いくつかの重要な部分が含まれます。セマンティック知識生成チェーンによって提供されるコア機能は次のとおりです。
次に、事実グラフの構築を例に、意味的知識生成のプロセスを紹介します。 4. 事例: 原理マップの構築まず、中国地震ネットワークセンターが発表した地震ニュースレポートから NLP モデルを使用してイベントを抽出し、地震の地理的位置や時間などの重要な要素を取得しました。属性の標準化により、地震発生の地理的位置を標準化し、対応する省、市、地区に帰属させ、中国の行政区域の標準概念ネットワークに関連付けることができます。同時に、このイベントは、イベント分類の概念ネットワークにも分類されます。たとえば、この地域のイベント、または気象イベントに属します。この利点は、この地震を通じて、周辺の不動産会社がいくつかつながり、地震がそれらの会社の業務に影響を与え、それがこれらの会社のリスク評価をサポートすることです。 5. セマンティック拡張モデルの実装以下では、ハイブリッド レイアウトに基づくセマンティック拡張モデルを実装する方法について説明します。まず、最下層には 2 種類のレイアウトがあります。1 つは LPG で、属性とグラフ構造の表現を通じて実装されます。もう 1 つは RDF で、主に SPO トリプル インデックスを通じて実装され、これは典型的な RDF ストレージの実装スキームでもあります。次に、上位層は、セマンティック インタープリタとスキーマ セマンティック モデル間のリンクを通じて、グラフの読み取りおよび書き込みプロセスを 2 つの異なるレイアウトの基礎となる読み取りおよび書き込み IO に変換します。 6. 概念モデルの実装概念モデルは、ツリー状の分類と階層システムです。概念ツリーに対して階層的なエンコーディングを実行して、概念辞書を形成します。これの利点は、概念の名前を変更するときに、インデックスや関係データを更新せずに、概念辞書情報のみを更新する必要があることです。一般的な概念に関連付けられているエンティティが非常に多いため、概念の変更はツリー全体の変更を伴い、変更の量は非常に大きくなります。この問題は、概念辞書を使用するとうまく解決できます。 さらに、属性の ID 化により、エンティティの属性を一意の概念インスタンスに接続し、RDF SPO インデックスを構築することで、エンティティと概念への属性の順方向および逆方向の伝播を実現できます。これの利点は、概念とエンティティ間の多数の物理的なエッジのメンテナンス コストが削減されることです。 7. イベントモデルの実装イベント モデルの実装には 2 つの重要な要件があります。まず、イベントにはタイミング特性があり、通常は時間ウィンドウ クエリ式と TTL バージョン管理機能をサポートする必要があります。たとえば、タイムスライシングにより、すべてのデータを時間に応じて異なるスライスに分割できるため、構築や推論の効率が向上します。 第二に、イベントは多次元の関係を表現するため、イベントとエンティティ要素の伝播計算をサポートするには多要素インデックスが必要です。たとえば、オフライン購入イベントは通常、ユーザー、製品、店舗、およびその地理的な位置情報に関連付けられます。これは、従来のペアワイズバイナリ関係とは異なります。イベントからエンティティ要素への伝播を実現するには、イベントに関連付けられたエンティティ要素インデックスと、エンティティ要素からイベントへのインデックスを含む多次元インデックスを構築する必要があります。 8. イベントモデルに基づく首都マップ構築の事例次に、Ant Fund Graph の例を使用して、イベント モデルを通じてグラフを構築する方法を紹介します。 Ant Financial Mapの構築の背景には、公安詐欺対策があります。公安部門は金融事件の報告を受けた後、資金の流れを確認し、資金の流れに関係する個人情報を特定する必要があります。資金追跡のプロセスには、多くの手動のオフライン操作が含まれます。確認と制御の操作は面倒で、通常は数時間かかり、分析コストは非常に高くなります。この問題に対処するために 2 つの機能を提供します。 まず、イベントモデルを通じて、数千億ドル規模の金融取引イベントと、取引が発生したWiFiや地理的位置などの情報を統合してAnt Financial Mapを構築し、取引イベント、機器、時間および空間情報をリンクすることで、マネーロンダリング口座やブラックマーケット情報の分析を容易にし、公安部門の捜査を支援します。 2つ目は、大規模なファンド取引イベントに基づいて資金の詳細な追跡を行うことです。多数のファンドイベントの蓄積された専門家のルールと組み合わせることで、各ファンドの流れをリアルタイムで把握し、ケース調査の効率を向上させることができます。 資金マップは、資金追跡の視覚的分析とワンクリック処理をサポートし、調査効率を大幅に向上させます。現在、多くの省市の数十の公安部門で試行されており、凍結および返金された資金の額は数百万に達しています。 9. 分散推論グラフの実装分散知識推論プロセスは、グラフ コンピューティング エンジンに基づいて実装されます。推論プロセス全体には、グラフの構成とグラフの反復という 2 つの部分が含まれます。グラフで表されるストレージ モデルを使用することで、GeaFlow などのグラフ コンピューティング エンジンへの接続がより効率的になり、シャッフルのないグラフ構築が実現し、推論の効率が向上します。テストの結果、当社の現在のナレッジ管理ソリューションは、以前のテーブルベースのリレーショナル モデルと比較して、構成効率が大幅に向上していることが分かりました。今後は TuGraph チームと協力して、エンジン接続の強化と非シリアル化推論構成の実現に取り組んでいきます。さらに、グラフ反復の効率を向上させるために、局所性を考慮した知識エンコーディングも検討しています。 10. SPO インデックス: セマンティック サークルセマンティック グラフ推論の重要なシナリオは、セマンティック グループ化、特にマーケティング推奨です。セマンティック グラフ推論は、図に示すように、本質的にはサブグラフのマッチング プロセスです。たとえば、いくつかの販売業者を選択し、ブランドの好み、都市、職業、収入レベルに基づいてターゲットとする必要があるマーケティング ユーザー グループを選択します。これは、RDF SPO インデックスの結合問題に変換できます。私たちが直面している技術的な困難は、意味論と意図に関する重要な問題が非常に顕著であることです。たとえば、スポーツブランドや都市には、関連するユーザーや企業が多数存在します。私たちは2つの解決策を提案しました。 まず、分散コンピューティング シナリオでサブジェクト パーティション最適化を実装して、コンピューティングの局所性を向上させ、メッセージの転送を削減します。次に、複数の条件下で適切な結合アルゴリズム (BinaryJoin、WCOJ など) を選択し、密/疎の検索空間を最適化します。 11. 知識の再利用 - エンティティの継承エンティティ継承は、セマンティック知識の再利用の非常に典型的なシナリオです。 Ant の内部シナリオでは、POI/AOI や Alipay ユーザーなどの何億ものエンティティを再利用するためにエンティティ継承を使用しています。エンティティ継承は、いくつかの共通プロパティを持つ会社エンティティなどのオブジェクト指向継承の概念に似ています。この企業の上には、市場価値などの固有の属性情報を持つ上場企業があります。エンティティ継承は、子クラス属性と親クラス属性の冗長性と一貫性の問題を解決するためのもので、つまり、ソリューションを通じて、クエリまたは推論によって子クラス属性を取得するときに、親クラス属性を動的に結合できます。私たちの解決策は、まずサブクラスと親クラスのエンティティに同じ ID を設定し、それぞれの属性を独立して更新し、相互にインデックスを付けることです。次に、読み取り側では、セマンティック インタープリターを使用して readPlan を生成し、子クラス エンティティと親クラス エンティティの属性の動的な IO マージを実装します。 12. 知識再利用グラフ融合グラフ融合はナレッジマネジメントにおける難しいポイントであり、また非常に重要なビジネスシナリオでもあります。簡単に言えば、グラフ融合とは、2 つの分野のグラフを何らかの方法で融合し、2 つの分野のグラフ間の相互運用性を実現して、データ サイロの問題を解決することを意味します。グラフ自体の接続性により、2 つのグラフの融合には非常に広範囲のデータが含まれるため、まずデータの冗長性の問題を解決する必要があります。グラフ融合は 2 つの段階に分かれており、最初の段階は連鎖と呼ばれ、2 番目の段階は正規化と呼ばれます。チェーン フィンガリングとは、2 つの異なるドメイン グラフでアンカー エンティティを選択し、チェーン フィンガリング アルゴリズムを通じてアンカー エンティティ間の関連付けを確立することを指します。正規化とは、このアンカー エンティティに対応するサブグラフ情報をマージするプロセスを指します。 正規化プロセスを構築側に配置すると、アンカー エンティティが更新されるたびにグラフ データのマージがトリガーされ、コストが非常に高くなります。ポイントに関連付けられた周囲の関係または 1 次サブグラフが非常に大きくなる可能性があるためです。したがって、融合エンティティを構築するときは、それを仮想エンティティとして扱い、リンクの ID マップとそのローカル サブグラフ情報のみを保存します。さらに重要なのは、融合アルゴリズムまたはルールが更新されると、チェーン関係の変更によって増分更新のみがトリガーされ、アルゴリズムの反復により適切に適応されることです。 13. Ant Graph Fusion の事例: 金融消費Ant Knowledge Graph の統合シナリオを説明するために、金融消費の例を見てみましょう。この例では、異なる分野の 2 つのグラフがあります。1 つはユーザーの消費側のナレッジ グラフで、もう 1 つは販売者の供給側のナレッジ グラフです。どちらも数百億個のナレッジ グラフです。消費者側のナレッジグラフは消費シナリオ情報に焦点を当てており、供給側のナレッジグラフは販売者のブランド、カテゴリ、店舗、地理的な場所などの情報に焦点を当てています。ユーザーまたは販売者をアンカー エンティティとして使用することで、2 つのグラフ間のゼロ コピー関連付けを確立できます。小売業者は、消費者金融業界のチェーンにおける重要なリンクとして、ユーザーと消費シナリオを結び付けます。関連付けを通じて、商人を取り巻く関係がより豊かでより代表的なものとなり、商人を描写する能力が向上します。 IV. 展望大規模なセマンティック知識管理に関する当社の将来のビジョンは、DataFabric 向けのエンタープライズ レベルの知識管理プラットフォームを開発し、ドメイン間の知識共有とアプリケーションを開発することです。 1. DataFabric 向けエンタープライズレベルの知識管理プラットフォーム私たちの目標は、主に以下の方向性で、DataFabric 向けのエンタープライズ レベルの知識管理プラットフォームを構築することです。
2. 分野を超えた知識の共有と応用私たちの最終的な目標は、分野を超えた知識の共有と応用を実現することであり、主な方向性は次のとおりです。
5. 質疑応答Q1: ナレッジマネジメントプラットフォームには、最下層にプロパティグラフと RDF グラフがあります。この 2 つは比較的独立したストレージです。どのように統合されているのでしょうか。クエリ エンジンでの統合はどのように実行されますか?A: 当社のナレッジ管理プラットフォームは、グラフの構築と読み取りのためのビルド、クエリ、スキャンなどの API やツールを含む、意味的に強化されたグラフ スキーマと基盤となるストレージ SDK を提供します。これらの API には、セマンティック モデルと対話し、セマンティック インタープリターを介して基礎となる RDF または LPG ファイルの読み取り IO を実装するためのセマンティクスが組み込まれています。 上位層は、GeaFlow グラフ コンピューティング エンジンに接続されています。クエリやスキャンなどの SDK を呼び出してグラフ セマンティック データを読み込みます。これらの SDK の出力は、グラフ コンピューティング エンジンが認識できる属性グラフに変換されます。 Q2: 正規化の結果は、異なるフィールド内の同じエンティティが融合グラフ内で同じ主キーを形成することを意味しますか?A: 正規化とは、属性と関係のマージや競合の解決など、2 つのエンティティ グラフ構造を 1 つのエンティティ グラフ構造にマージするプロセスです。 2 つのグラフ構造は、それぞれ異なるフィールドにデータを保持します。最終的に、これを適用すると、ユーザーには融合エンティティと呼ばれる新しいエンティティ タイプが表示されます。融合エンティティは、読み取り時に必要に応じてグラフ構造を結合し、ストレージの冗長性の問題を解決します。 Q3: ナレッジ管理プラットフォームには、GeaFlow、GeaBase、Flink など多くのエンジンが統合されています。実際に使用するときにエントリ ポイントが同じになるように、これらすべてをパッケージ化できる言語はありますか?A: 現在、アプリケーション側全体は 2 つの部分に分かれており、1 つはビルド側またはプロダクション側と呼ばれ、もう 1 つは推論側またはサービス側と呼ばれます。サービス面では、現在私たちが推進しているのは、インターフェースによる統一的な表現です。生産側では、知識構築は並列コンピューティング シナリオであり、必ずしもグラフ コンピューティング シナリオではないため、パイプライン SDK によって表されます。このパイプライン SDK は、先ほど説明したエンティティ リンク コンポーネントなどのいくつかの演算子またはコンポーネントを埋め込み、実行プランの変換を通じて Flink や Spark などのさまざまなコンピューティング エンジンで実行できるように適応させます。 |
>>: 調査:アーティストの半数以上がAIによる描画は作品制作に役立たないと考えている
今日、ほぼすべての AI 作業は機械学習の成功に基づいています。機械学習には分析を検討するための十分...
顔認識は、テクノロジーを通じて人の顔を識別する方法です。顔認識システムは生体認証技術を使用して、写真...
[[212221]] Ele.meについてほとんどの人がテイクアウトを注文したことがあるでしょう。テ...
[[273786]] [51CTO.com クイック翻訳] 1980年代のインターネットの出現から...
[[428874]]現代では、社会の発展と時代の進歩に伴い、伝統と現代の衝突、古典と革新の融合が、...
新興テクノロジーが世界を席巻し、前例のない革新、機会、脅威をもたらしています。これらの分野における専...
モノのインターネットは、私たちがテクノロジーや周囲の世界と関わる方法に革命をもたらしました。 データ...
人類が地球環境において行った行為を元に戻すために、人工知能が私たちの手助けをしてくれるでしょう。気候...
Language I/O のプロダクト担当副社長である Chris Jacob が、進化する AI ...
人工知能と機械学習は長い間私たちの世界を変えてきましたが、2020年のコロナウイルスのパンデミックは...
最近、Stability AIの創設者兼CEOであるEmad Mostaque氏が再び衝撃的な発言を...