賈強淮: Ant大規模知識グラフの構築とその応用

賈強淮: Ant大規模知識グラフの構築とその応用

1. アトラスの概要

まず、ナレッジグラフの基本的な概念をいくつか紹介します。

1. ナレッジグラフとは何ですか?

ナレッジグラフは、グラフ構造を使用して、物事間の複雑な関係をモデル化し、識別し、推測し、ドメイン知識を沈殿させることを目的としています。これは、認知インテリジェンスを実現するための重要な基礎であり、検索エンジン、インテリジェントな質問と回答、言語の意味理解、ビッグデータ意思決定分析など、多くの分野で広く使用されています。

ナレッジ グラフは、データ間の意味的関係と構造的関係の両方をモデル化し、ディープラーニング テクノロジと組み合わせることで、2 つの関係をより適切に統合して表現できます。

2. ナレッジグラフを構築する理由

私たちは、主に次の 2 つの考慮事項に基づいてナレッジ グラフを構築します。1 つは Ant 独自のデータ ソースの背景特性、もう 1 つはナレッジ グラフがもたらす利点です。

[1] データソースは多様かつ異質であり、統一された知識理解システムが欠如しています。

[2] ナレッジグラフは次のような多くの利点をもたらします。

  • セマンティック標準化: グラフ構築技術を使用して、エンティティ、関係、概念などの標準化および正規化レベルを向上させます。
  • ドメイン知識の蓄積: セマンティクスとグラフ構造に基づいて知識の表現と相互接続が実現され、豊富なドメイン知識が蓄積されます。
  • 知識の再利用: 高品質の Ant 知識グラフを構築し、統合とリンクを通じて複数の下流ユーザーにサービスを提供することで、コストを削減し、ビジネスの効率を向上させます。
  • 知識の推論と発見: グラフ推論テクノロジーに基づいて、より多くのロングテール知識を発見し、リスク管理、信用、請求、加盟店業務、マーケティング推奨、その他のシナリオに役立ちます。

3. ナレッジグラフの構築方法の概要

さまざまなビジネス ナレッジ グラフを構築する過程で、私たちは Ant Knowledge Graph の一般的な構築パラダイムを開発しました。これは主に次の 5 つの部分に分かれています。

  • ビジネス データから始まり、グラフ コールド スタートの重要なデータ ソースとして機能します。
  • 他のドメインのナレッジ グラフは、エンティティ アライメント テクノロジを通じて既存のグラフと統合されます。
  • ビジネス分野の構造化された知識ベースと既存の知識グラフの統合も、エンティティアライメント技術によって実現されます。
  • テキストなどの非構造化データと半構造化データは、エンティティ リンク テクノロジを通じて情報を抽出し、既存のグラフを更新するために使用されます。
  • ドメイン概念システムとエキスパートルールの統合により、関連する概念とルールが既存の知識グラフにリンクされます。

共通の構築パラダイムが確立されると、体系的な構築が必要になります。 Ant Knowledge Graph の体系的な構築を 2 つの観点から見てみましょう。まず、アルゴリズムの観点から見ると、知識推論、知識マッチングなど、さまざまなアルゴリズム機能があります。実装の観点から、下から上に向かって、一番下の基本的な依存関係にはグラフ コンピューティング エンジンとコグニティブ ベース コンピューティングが含まれます。その上には、NLP とマルチモーダル プラットフォーム、グラフ プラットフォームなどのグラフ ベースがあります。その上には、Ant Knowledge Graph を構築できるさまざまなグラフ構築テクノロジがあります。ナレッジ グラフに基づいて、グラフ推論を行うことができます。さらに上には、一般的なアルゴリズム機能を提供します。そして、一番上にはビジネス アプリケーションがあります。

2. マップの構築

次に、グラフ構築、グラフ融合、グラフ認識など、ナレッジグラフ構築における Ant Group の中核機能の一部を紹介します。

1. グラフの構築

グラフ構築のプロセスには、主に次の 6 つのステップが含まれます。

  • データ ソース、多変量データを取得します。
  • ナレッジ モデリングは、大量のデータを構造化データに変換し、概念、エンティティ、イベントの 3 つのドメインからモデル化します。
  • 知識獲得、知識処理研究開発プラットフォームの構築。
  • Ha3 ストレージやグラフ ストレージなどの知識ストレージ。
  • 知識編集、オンラインクエリ、抽出などの知識操作。
  • 継続学習により、モデルは自動的に反復学習を実行できます。

建設中の3つの経験とヒント

専門知識を取り入れたエンティティ分類

ナレッジ グラフを構築する場合、入力エンティティを分類する必要があります。これは、ant シナリオにおける大規模なマルチラベル分類タスクです。エンティティ分類の専門知識を統合するために、主に次の 3 つの最適化が行われます。

  • セマンティック情報の強化: ラベルセマンティックグラフ表現学習のための埋め込みの導入。
  • 対照学習: 階層的なラベル教師付き比較を追加します。
  • 論理ルール制約: 専門家の事前知識を組み込む。

ドメイン語彙の挿入によるエンティティ認識

エンティティ認識に基づいて、単語接続のグラフ構造から始めて、モデルは接続に適切な重みを付け、ノイズ単語接続の重みを減らすことを学習します。境界コントラスト学習と意味コントラスト学習の 2 つのモジュールが提案されています。

  • 境界コントラスト学習は境界競合問題を解決するために使用されます。語彙を注入した後、完全に接続されたグラフが構築され、GAT を使用して各トークンの表現を学習します。境界分類の正しい部分については正例グラフが構築され、間違った部分については負例グラフが構築されます。比較を通じて、モデルは各トークンの境界情報を学習できます。
  • 意味的対照学習は、意味的衝突の問題を解決するために使用されます。プロトタイプ学習の考え方を活用して、ラベルの意味表現を追加し、各トークンとラベルの意味との関連性を強化します。

論理ルールによって制約された小規模サンプル関係抽出

ドメインの問題に関しては、ラベル付けされたサンプルが非常に少なく、少数のショットまたはゼロショットのシナリオに直面する可能性があります。この場合、関係抽出の核となるアイデアは、外部の知識ベースを導入することです。異なる意味空間によって引き起こされるパフォーマンス低下の問題を解決するために、論理ルールに基づく推論モジュールが設計されています。エンティティタイプのマッチングによって引き起こされる暗記の問題を解決するために、微妙な違いを認識するモジュールが設計されています。

2. グラフ融合

グラフ融合とは、異なるビジネス分野のグラフ間で情報を融合することを指します。

グラフ融合の利点:

  • 業務横断的な知識の再利用: グラフ オントロジー モデルに基づいて、業務横断的な知識のつながりを実現します。
  • 無効なデータのコピーを削減: 接続して適用するだけで、ナレッジ サービス リンクが標準化されます。
  • 迅速なビジネス価値の実現: ビジネス用データの検索コストを削減し、知識の再利用を通じてビジネス価値を高め、コストを削減して効率を向上させます。

グラフ融合におけるエンティティの配置

ナレッジ グラフ融合プロセスにおける中核的な技術的ポイントは、エンティティのアライメントです。ここでは、主に 2 つのモジュール (1 つは表現モジュール、もう 1 つはインタラクション モジュール) を含む SOTA アルゴリズム BERT-INT を使用します。

アルゴリズムの実装プロセスには、主にリコールとソートが含まれます。

再現:表現モジュールでは、タイトル テキストの BERT ベクトル類似度再現が利用されます。

タイトル + 属性 + 隣接要素に基づくソート モデル: ü 表現モジュールを使用して、タイトル、属性、隣接要素のベクトル表現を完成させます。

  • タイトルの cos 類似度を計算します。
  • 2 つのエンティティの属性と隣接セット間の類似度マトリックスがそれぞれ計算され、1 次元の類似度特徴が抽出されます。
  • 3 つの特徴を特徴ベクトルに連結して損失を計算します。

3. グラフ認識

このセクションでは、主に ants 内の知識表現学習フレームワークについて説明します。

Ant は、Encoder-Decoder フレームワークに基づいた知識表現学習を提案しました。エンコーダーはグラフニューラルネットワークの学習方法であり、デコーダーはリンク予測などの知識表現の学習です。この表現学習フレームワークは、ユニバーサルなエンティティ/リレーションシップ埋め込みの生成を自己監視することができ、次のようないくつかの利点があります。1) 埋め込みサイズが元の特徴空間よりもはるかに小さいため、ストレージ コストが削減されます。2) 低次元ベクトルは密度が高く、データのスパース性の問題が効果的に緩和されます。3) 同じベクトル空間で学習することで、複数のソースの異種データの融合がより自然になります。4) 埋め込みにはある程度の普遍性があり、下流のビジネスでの使用に便利です。

3. グラフアプリケーション

次に、Ant Group におけるナレッジグラフの代表的な応用事例をいくつか紹介します。

1. グラフのシナリオ適用モード

具体的な事例を紹介する前に、まずは知識獲得、知識管理と推論、知識サービスを中心に、Ant Knowledge Graph シナリオ適用のいくつかのモードを紹介しましょう。下の図の通りです。

2. 典型的なケース

ケース1: ナレッジグラフに基づく構造化マッチングリコール

ビジネス シナリオは、Alipay のメイン検索エンジンのミニ アプリにコンテンツを追加することです。解決すべきビジネス上の問題点は次のとおりです。

  • 商品エンティティと商品間の階層関係が欠如しています。
  • ミニプログラムは製品レベルの理解力が弱いです。

解決策は、マーチャントナレッジグラフを構築することです。マーチャント グラフ内の製品関係と組み合わせることで、ユーザーのクエリ製品レベルの構造化された理解が実現されます。

事例2: 推薦システムにおけるユーザー意図のリアルタイム予測

このケースは、ホームページの推奨に対するユーザーの意図をリアルタイムで予測するものです。AlipayKG が構築され、フレームワークは上図に示されています。関連研究はトップカンファレンスwww 2023でも発表されています。さらに理解を深めるために論文を参照することができます。

事例3: 知識表現に基づくマーケティングクーポンの推奨

このシナリオは、消費者向けバウチャーを推奨するためのシナリオです。企業が直面する問題点は次のとおりです。

  • 頭への影響は深刻です。
  • ユーザーが換金して利益を回収することはほとんどありません。
  • コールドスタートユーザーやクーポンは多数存在しますが、対応するフットプリントデータが不足しています。

上記の問題を解決するために、動的グラフ表現を統合したディープベクトルリコールアルゴリズムを設計しました。ユーザーの消費バウチャー行動は周期的であることがわかったため、静的な単一のエッジではこの周期的な行動をモデル化することはできません。この目的のために、まず動的グラフを構築し、次にチームが開発した動的グラフ アルゴリズムを使用して埋め込み表現を学習しました。表現を取得した後、それをデュアルタワー モデルに組み込んでベクトル リコールを行いました。

事例4: 医療イベントに基づくインテリジェントなクレームエキスパートのルール推論

最後のケースはグラフルールの推論に関するものです。医療保険の健康マップを例にとると、医療知識、請求ルール、および「人間の」健康に関する情報が含まれており、これらはエンティティにリンクされ、論理ルールと組み合わされて意思決定の基礎として機能します。グラフにより、専門家による請求処理の効率が向上します。

4. グラフと大規模モデル

最後に、大規模モデルの急速な開発の文脈におけるナレッジグラフの機会について簡単に説明しましょう。

1. ナレッジグラフとビッグモデルの関係

ナレッジグラフとビッグモデルにはそれぞれ長所と短所があります。ビッグモデルの主な長所には、一般的な知識モデリングと普遍性が含まれますが、ビッグモデルの短所はナレッジグラフの利点によって補うことができます。グラフの利点としては、高い精度と強力な解釈可能性が挙げられます。大きなモデルとナレッジグラフは相互に影響を与える可能性があります。

グラフとビッグモデルの統合には通常 3 つのルートがあります。1 つは、ナレッジ グラフを使用してビッグモデルを強化することです。2 つ目は、ビッグモデルを使用してナレッジ グラフを強化することです。3 つ目は、ビッグモデルとナレッジ グラフが相乗効果を発揮し、互いの長所を補完することです。ビッグモデルはパラメーター化されたナレッジ ベースと見なすことができ、ナレッジ グラフは可視的なナレッジ ベースと見なすことができます。

2. 大規模モデルと知識グラフの応用例

大規模モデルは知識グラフの構築に使用される

ナレッジ グラフの構築プロセスでは、大規模なモデルを使用して、情報抽出、知識モデリング、関係推論を行うことができます。

大規模モデルを使用してナレッジグラフから情報を抽出する方法

DAMO アカデミーのこの研究では、情報抽出の問題を 2 つの段階に分解します。

  • 最初の段階では、テキスト内に存在するエンティティ、関係、またはイベント タイプを見つけて、検索スペースと計算の複雑さを軽減します。
  • 第 2 段階では、以前に抽出されたタイプと指定された対応するリストに基づいて、関連情報をさらに抽出します。

大規模モデルへのナレッジグラフの適用

ナレッジ グラフを大規模モデルに適用する場合、主に次の 3 つの側面があります。

ナレッジ グラフを大規模なモデル入力に統合します。ナレッジ グラフは、データをクリーンアップしたり、形式的なスプライシングを直接的かつ明示的に実行したりするために使用できます。

ナレッジグラフを大規模モデルのトレーニングに統合します。例えば、2 つのタスクのトレーニングを同時に実行できます。ナレッジ グラフは知識表現タスクに使用し、大規模モデルは MLM 事前トレーニングに使用して、2 つを共同でモデル化できます。

大規模モデル推論に知識グラフを注入します。まず、大規模モデルの 2 つの問題を解決できます。1 つは、大規模モデルの「ナンセンス」を回避するために、知識グラフを事前制約として使用することです。2 つ目は、大規模モデルの適時性の問題を解決することです。一方、ナレッジグラフに基づいて、大規模なモデルの生成に説明可能なソリューションを提供することができます。

知識強化型質問応答システム

主に 2 つのカテゴリがあります。1 つは、大規模なモデルを使用して KBQA モデルを最適化するナレッジ グラフ強化質問応答システムです。もう 1 つは、LangChain、GopherCite、New Bing などに似た情報検索強化で、大規模なモデルを使用してナレッジ ベースの質問応答を行います。

知識強化型生成検索質問応答システムには、次のような利点があります。

  • 検索システムに接続することで、適時性の問題を解決します。
  • 参照リンクを提供することで、手動検証を実行し、事実上の誤りを解決することができます。
  • 検索結果を導入し、コンテキストを充実させ、大規模なモデル生成効果を強化します。

3. まとめと展望

ナレッジ グラフや大規模モデルをより適切に操作および連携させるには、次の 3 つの方向性があります。

  • NLP や質問応答システムなどの分野で、ナレッジグラフとビッグモデルの徹底的な応用を促進します。
  • ナレッジグラフを使用した大規模モデルの幻覚検出と解毒。
  • ナレッジグラフと組み合わせた大規模ドメインモデルの研究開発。

<<:  AppleはAI競争で遅れをとり、市場価値ランキングはAmazon、Google、Microsoftに追い抜かれる可能性も

>>:  MLOps の定義、重要性、実装

ブログ    
ブログ    

推薦する

エッジAIを真の変革に

エッジ AI の導入は幅広い業界で増加しています。この傾向が続くと、ビジネスだけでなく社会も変革する...

マスク氏が示唆:脳の寄生虫が人間を超人的なAIを作らせる

マスク氏はツイッターで奇妙な見解を表明した。人類が超人的な人工知能を創り出した理由は、ある種の「脳寄...

スマートドライビングに才能が注ぎ込む:合理性と狂気が共存

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

春の耕作が進むにつれ、農業ロボットが近代的な農業システムの形成に貢献している

春の耕作シーズンとなり、全国各地で春耕作が行われています。農業農村部の最新データによると、国内の春穀...

AIは単細胞生物が脳なしで意図した方向に移動する仕組みを説明するのに役立つ

単純な生物はどのようにして特定の場所へ移動できるのか?ウィーン大学で開発された人工知能と物理モデルが...

WeChat、サードパーティのエコシステムに統合するインテリジェント会話システム「Xiaowei」を発表

2019年WeChatオープンクラスPROで、WeChat AIチームが開発したインテリジェント対話...

...

中国気象局:2030年までに、人工知能気象アプリケーションの開発レベルは世界最高レベルに達する

中国気象局は最近、「人工知能気象応用作業計画(2023-2030年)」を発表し、国内の人工知能気象応...

...

CNN 推論エンジンを使用して IoT デバイスにディープラーニングを実装するにはどうすればよいですか?

[[212457]]ディープラーニング技術により、モノのインターネット (IoT) デバイスは非構...

TensorFlow を使用した LSTM モデルの構築に関する詳細なチュートリアル

[[242005]]ターゲットこの記事の目的は、基本的な LSTM モデルを構築するために使用できる...

創造性がデジタル変革を推進する

人工知能はビジネス環境を一新し、競争環境を変え、仕事の本質を変革しています。しかし、人間の創造性も ...

...

人工知能は国家戦略となり、今こそこれらの人々にとって良い機会である

人工知能が私たちの生活に大きな利便性をもたらすことができるのは、その背後に多くの機能があるからです。...

生成 AI が運輸業界に登場します。準備はできていますか?

運輸業界は、人や物を輸送する 10 兆ドル規模の多様なグローバル ネットワークです。しかし現在、業界...