Alibaba のエンジニアは、ナレッジグラフデータ構築の「難題」にどのように取り組んでいるのでしょうか?

[[233069]]

アリ姉の紹介：「トマト」を検索すると、その栄養価やカロリーがわかるだけでなく、牛の胸肉を煮込んだり、卵を焼いたりする方法も学べます！検索エンジンはいつから「温かい人」になったのでしょうか?その背後には「ナレッジグラフ」と呼ばれる強力な秘密兵器があることが判明しました。

近年、検索や自然言語処理の分野で注目されているナレッジグラフは、検索エンジンのナレッジエンジンへの変革をリードしています。アリババの「神馬検索」では、ナレッジグラフと関連技術を広く応用することで、ユーザーが最も欲しい情報を見つけるのに役立つだけでなく、ユーザーが予想外の知識を得ることも可能になります。

背景

検索エクスペリエンスを継続的に向上させるために、Shenma Search のナレッジグラフおよびアプリケーションチームは、グラフ構築技術を継続的に探求し、改善してきました。その中でも、Open Information Extraction (OIE)、つまり一般情報抽出は、大規模な非構造化自然言語テキストから構造化情報を抽出することを目的としています。これは、ナレッジグラフデータを構築するための中核技術の 1 つであり、ナレッジグラフの持続的な拡張能力を決定します。

「神馬検索」インターフェース

本稿では、オープン情報抽出における重要なサブタスクである関係抽出に焦点を当てています。まず、関係抽出のさまざまな主流技術の概要を示し、次にビジネスにおける選択と応用を組み合わせ、DeepDiveベースの方法に焦点を当て、神馬ナレッジグラフデータ構築作業におけるその応用の進捗状況を詳しく説明します。

関係抽出の概要

関係抽出技術の分類

既存の関係抽出技術は、主に次の 3 つのタイプに分けられます。

教師あり学習法: この方法では、関係抽出タスクを分類問題として扱い、トレーニングデータに基づいて効果的な機能を設計し、さまざまな分類モデルを学習し、トレーニングされた分類器を使用して関係を予測します。この方法の問題点は、手動で注釈を付けられた大量のトレーニングコーパスが必要であり、コーパスの注釈付け作業には通常、非常に時間がかかり、労力がかかることです。
半教師あり学習法: この方法では、関係性の抽出に主にブートストラップを使用します。この方法では、関係を抽出するために、まずシードインスタンスの数を手動で設定し、次に関係テンプレートと、関係に対応するインスタンスをデータから繰り返し抽出します。
教師なし学習法: この方法では、同じ意味関係を持つエンティティペアは同様のコンテキスト情報を持つと想定します。したがって、各エンティティペアに対応するコンテキスト情報を使用して、エンティティペアの意味関係を表すことができ、すべてのエンティティペアの意味関係をクラスタ化することができます。

これら3つの手法のうち、教師あり学習法は特徴を抽出して有効活用できるため、高い精度と高い再現率が得られるという利点があり、現在、業界で最も広く使用されている手法です。

遠隔監視アルゴリズム

教師あり学習における手動データラベル付けの限界を打ち破るために、ミンツらは遠隔教師アルゴリズムを提案しました。このアルゴリズムの核となるアイデアは、テキストを大規模な知識グラフに揃え、知識グラフ内の既存のエンティティ関係を使用してテキストにラベルを付けるというものです。遠隔監視の基本的な前提は、知識グラフから 3 つの R (E1、E2) (注: R は関係を表し、E1 と E2 は 2 つのエンティティを表します) を取得でき、E1 と E2 が文 S 内で共起する場合、S は E1 と E2 の関係 R を表し、トレーニングの正の例としてマークされるというものです。

遠隔監視アルゴリズムは、現在主流の関係抽出システムで広く使用されている方法であり、この分野の研究ホットスポットの 1 つでもあります。このアルゴリズムは、データ注釈のスケール問題を非常にうまく解決しますが、基本的な仮定が強すぎるため、ノイズの多いデータが大量に導入されます。たとえば、ナレッジグラフから「創設者 (Steve Jobs、Apple)」というトリプレットを取得すると、次の表の文 1 と 2 は関係を正しく表現していますが、文 3 と 4 はそのような関係を表現していないため、文 3 と 4 に基本仮定を適用すると、間違った注釈情報が得られます。この問題は、しばしば間違ったラベルの問題と呼ばれます。

間違ったラベルの問題の根本的な原因は、遠隔監視ではエンティティペアが 1 つの関係のみに対応すると想定しているが、実際にはエンティティペア間に複数の関係が同時に存在する可能性があることです。たとえば、上記の例では、CEO (Steve Jobs、Apple) 間にも関係があります。エンティティペア間に一般的に定義された関係がない場合もありますが、特定のトピックに関連しているために文中にのみ表示されます。

誤ったラベルの問題の影響を軽減するために、学術界では主に次のようなさまざまな改良アルゴリズムが提案されています。

ルールベースの方法: 誤ったラベルのケースを統計的に分析することで、元々正例としてラベル付けされていた誤ったラベルのケースを負例として直接マークしたり、スコア制御によって元の正ラベルをオフセットしたりするルールが追加されます。
グラフィカルモデルに基づく手法: 変数間の関係を表現できる因子グラフなどのグラフィカルモデルを構築し、特徴を学習して特徴の重みを計算することで、誤ったラベル付けのケースが全体的な状況に与える影響を軽減します。
マルチインスタンス学習に基づく方法: (E1、E2) を含むすべての文がバッグにグループ化され、各バッグから文がフィルタリングされてトレーニングサンプルが生成されます。このタイプの方法が最初に提案されたとき、知識グラフに R(E1, E2) が存在する場合、コーパス内の (E1, E2) を含むすべてのインスタンスの少なくとも 1 つが関係 R を表現すると想定されていました。これは通常、無向グラフモデルと組み合わせて、各バッグ内で最も信頼度の高いサンプルを計算し、それを肯定的なトレーニング例としてマークします。この仮定は遠隔監視の仮定よりも合理的ですが、多くのトレーニングサンプルが失われ、有用な情報が失われ、トレーニングが不十分になる可能性があります。より豊富なトレーニングサンプルを取得するために、マルチインスタンスマルチラベル法が提案されました。この方法の前提は、同じパッケージでは、文は 1 つの関係 (E1、E2) のみを表すことができ、つまり 1 つのラベルのみを与えることができるが、異なる文は異なる関係 (E1、E2) を表すことができ、したがって異なるラベルが得られるというものです。マルチラベルアノテーションのラベル値は正または負ではなく、一定の関係性を持ちます。エンティティペアの複数の関係を同時にマイニングできる方法を提供します。もう 1 つの改善された方法は、パッケージから複数の有効な文をトレーニングセットとして選択することです。これは通常、ディープラーニング手法と組み合わせられます。この方法の詳細な説明と実装については、ディープラーニングモデルを紹介する以降の章で説明します。

神馬知識グラフの構築における関係抽出方法の選択

ナレッジグラフのデータ構造は、データソースの観点から、構造化データ、半構造化データ、非構造化データの 3 つのカテゴリに分類されます。その中でも、非構造化データは最も大きく、最もアクセスしやすいリソースですが、処理や使用が最も難しいリソースでもあります。神馬ナレッジグラフは構築以来、約 5,000 万のエンティティと約 30 億の関係性を持つ大規模なナレッジグラフに発展しました。構造化データと半構造化データを主にベースとしたドメイングラフ構築の初期段階を経て、Shenma Knowledge Graph のデータ構築の焦点は、非構造化データを正確かつ効率的に使用してエンティティと関係性を自動的に識別および抽出する方法へと徐々に移行してきました。この構築戦略により、神馬ナレッジグラフは一般分野の構築と持続的な拡大において高い競争力を獲得しています。

遠隔監視アルゴリズムは、知識グラフ内の既存の情報を活用して、教師あり学習に必要な大規模なテキスト注釈付けを可能にします。一方で、リモート監視により、教師あり学習の関係抽出の規模と精度が大幅に向上し、大規模な知識グラフデータの構築と補充が可能になります。他方、リモート監視は既存の知識グラフのデータと規模に大きく依存しており、豊富な注釈付きデータは機械学習機能の向上に大きく役立ちます。神馬ナレッジグラフの現在のデータ構築事業では、ナレッジグラフの規模と遠隔教師あり学習の相補的な特性を最大限に活用するために、グラフの既存の大規模なエンティティと関係データに基づき、遠隔教師あり学習アルゴリズムをツールとして利用した関係抽出技術を採用しています。

前章のレビューでは、遠隔監視の考え方に基づいたさまざまな改善方法を紹介しました。具体的な業務実装では、業務ニーズに最も適した、DeepDive に基づく抽出システムとディープラーニングに基づく抽出アルゴリズムという、この分野の代表的な 2 つの手法を選択しました。 2 つの方法は互いに補完し合い、それぞれに利点があります。DeepDive システムは、抽出に自然言語処理ツールとコンテキストベースの機能をより多く利用し、コーパスのサイズをより柔軟に選択でき、対象を絞った関係抽出を実行でき、抽出プロセスで手動検査と介入を簡単に実行できます。一方、ディープラーニング方式は主に単語埋め込みと畳み込みニューラルネットワークを使用し、大規模なコーパス処理と複数の関係抽出に明らかな利点があります。次のセクションでは、これら 2 つの方法の実装と適用について詳しく説明します。

DeepDiveシステムの紹介

ディープダイブの概要

DeepDive (http://deepdive.stanford.edu/) は、スタンフォード大学が開発した情報抽出システムです。テキスト、表、グラフ、画像など、さまざまな形式の非構造化データを処理し、そこから構造化された情報を抽出できます。このシステムは、文書分析、情報抽出、情報統合、確率予測などの機能を統合しています。 Deepdiveの主な用途は、特定分野の情報抽出です。システム構築以来、交通、考古学、地理学、医療など多くの分野のプロジェクト実践で良好な成果を上げています。また、TAC-KBPコンペティションやWikipediaのinfobox情報自動補完プロジェクトなどのオープンフィールドアプリケーションでも優れたパフォーマンスを発揮しています。

DeepDive システムへの基本的な入力は次のとおりです。

自然言語テキストなどの非構造化データ
既存のナレッジベースまたはナレッジグラフ内の関連知識
いくつかのヒューリスティックルール

DeepDive システムの基本的な出力は次のとおりです。

指定された形式で構造化された知識。関係 (エンティティ 1、エンティティ 2) または属性 (エンティティ、属性値) の形式にすることができます。
抽出された情報ごとの確率予測

DeepDive システムの操作には、重要な反復リンクも含まれています。つまり、出力の各ラウンドが生成された後に、ユーザーは操作結果に対してエラー分析を実行し、機能の調整、知識ベース情報の更新、ルールの変更などによってシステムの学習に介入する必要があります。このような相互作用と反復計算により、システムの出力を継続的に改善できます。

DeepDive システムのアーキテクチャとワークフロー

DeepDive のシステムアーキテクチャは下図のとおりで、大まかにデータ処理、データラベリング、学習推論、インタラクティブな反復の 4 つのプロセスに分かれています。

データ処理

1. 入力とセグメンテーション

データ処理フローでは、DeepDive はまずユーザーの入力データ (通常は自然言語テキスト) を受け取り、それを文に分割します。同時に、テキスト ID とテキスト内の各文のインデックスが自動的に生成されます。 doc_id + sentence_index は、各文のグローバル一意識別子を構成します。

2. NLPアノテーション

DeepDive は、セグメント化された各文に対して、組み込みの Stanford CoreNLP ツールを使用して、トークンのセグメント化、ルートの復元、POS タグ付け、NER タグ付け、テキスト内のトークンの開始位置のタグ付け、依存関係の文法分析などの自然言語処理と注釈付けを実行します。

3. 候補エンティティペアの抽出

抽出するエンティティの種類と NER 結果に応じて、まずエンティティの言及が特定され、抽出され、次に特定のペアリングルールに従って候補エンティティペアが生成されます。 DeepDive では、各エンティティの言及はグローバルに一意であり、doc_id、sentence_index、および文中の言及の開始位置と終了位置によって識別されることに注意することが重要です。したがって、異なる位置に表示される同じ名前のエンティティペア (E1、E2) は異なる (E1_id、E2_id) を持ち、最終的な予測結果も異なります。

4. 特徴抽出

このステップの目的は、各候補エンティティペアを一連の機能で表現し、後続の機械学習モジュールが各機能と予測される関係との関連性を学習できるようにすることです。 Deepdive には自動機能生成モジュール DDlib が含まれており、主に 2 つのエンティティ言及間のトークンシーケンス、NER タグシーケンス、エンティティの前後の n グラムなど、コンテキストベースのセマンティック機能を抽出します。 Deepdive は、ユーザー定義の特徴抽出アルゴリズムもサポートしています。

データ注釈

データ注釈段階では、候補エンティティペアとそれに対応する機能セットを取得します。データのラベル付け段階では、遠隔監視アルゴリズムとヒューリスティックルールを使用して、各候補エンティティペアにラベルを付け、機械学習に必要な正と負のサンプルを取得します。

1. 遠隔監視

リモート教師ありラベリングを実装するには、まず既知の知識ベースまたは知識グラフから関連するトリプレットを取得する必要があります。結婚を例にとると、DeepDive は DBpedia から既存の夫婦のエンティティペアを取得します。候補エンティティペアが既知の夫婦エンティティペア内で一致するマッピングを見つけることができる場合、候補ペアは正の例としてマークされます。抽出する必要のあるさまざまな関係に応じて、負の例にラベルを付けるさまざまなオプションの方法があります。たとえば、ナレッジベースに表示されないエンティティペアは負の例としてマークできますが、この方法では、ナレッジベースが不完全な場合にノイズの多い負の例が生成されます。また、ナレッジベース内の相互に排他的な関係のインスタンスを使用して負の例をマークすることもできます。親子関係や兄弟関係は結婚関係と相互に排他的であり、負の例をマークするために使用しても基本的にノイズは生成されません。

2. ヒューリスティックルール

陽性サンプルと陰性サンプルのラベル付けは、ユーザーがヒューリスティックルールを記述することによっても実現できます。結婚関係の抽出を例にとると、次のルールを定義できます。

文中で人物の言及が離れすぎている候補は、誤りとしてマークされます。
間に別の人物が含まれる人物言及のある候補は、偽としてマークされます。
人物の言及の間に「妻」や「夫」などの単語が含まれる候補は、真実としてマークされます。

ユーザーは、予約済みのユーザー定義関数インターフェイスを通じてヒューリスティックルールを記述および変更できます。

3. ラベル競合の解決

リモート監視とヒューリスティックルールによって生成されたラベル間に競合がある場合、または異なるルールによって生成されたラベル間に競合がある場合、DeepDive は多数決アルゴリズムを使用してそれを解決します。たとえば、候補ペアが DBpedia にマッピングされ、ラベルが 1 になっています。これは 2 の 2 番目のルールも満たしているため、ラベルは -1 になります。多数決によりすべてのラベルが合計されます。合計 = 1 - 1 = 0 となり、最終的なラベルは「疑わしい」になります。

学習と推論

データ注釈を通じてトレーニングセットを取得した後、学習および推論の段階で、Deepdive は主に因子グラフモデルに基づく推論を通じて特徴の重みを学習し、最終的に候補トリプルが真である確率予測値を取得します。

因子グラフは、変数間の機能的関係を特徴付けるために使用される確率的グラフィカルモデルです。因子グラフの助けを借りて、重みを学習し、限界確率を推測することができます。 DeepDive システムでは、因子グラフに 2 種類の頂点があります。1 つはランダム変数、つまり抽出された候補エンティティペアであり、もう 1 つはランダム変数の関数、つまり 2 つのエンティティ間の距離が特定のしきい値より大きいかどうかなど、ルールに従って取得されたすべての機能と関数です。因子グラフのエッジは、エンティティペア、機能、およびルール間の関連性を表します。

トレーニングテキストの規模が大きく、多くのエンティティが含まれる場合、生成される因子グラフは非常に複雑で大きくなる可能性があります。DeepDive はギブスサンプリングを使用して、グラフベースの確率推論を簡素化します。特徴重みの学習では、標準的な SGD プロセスが使用され、ギブスサンプリングの結果に基づいて勾配値が予測されます。特徴の重みの取得をより柔軟かつ合理的にするために、システムのデフォルトの推論プロセスに加えて、ユーザーは値を直接割り当てることで特徴の重みを調整することもできます。スペースの制約により、この記事ではより詳細な学習および推論プロセスについては紹介しません。詳細については、DeepDive の公式 Web サイトを参照してください。

インタラクティブな反復

反復段階では、特定の手動介入を通じてシステムエラーが修正され、システムの精度とリコール率が継続的に向上します。対話型の反復には通常、次の手順が含まれます。

1. 精度と再現率の迅速な推定

精度: P セットから 100 個の項目をランダムに選択し、TP の比率を計算します。
リコール率: 入力セットから 100 件の陽性ケースをランダムに選択し、計算された P セットに該当するケースの数を確認します。

2. エラーの分類と誘導

各抽出失敗（FP および FN を含む）は、エラーの原因に応じて分類および要約され、エラーの頻度によってソートされます。一般的に、エラーの主な原因は次のとおりです。

キャプチャされるべきエンティティは、候補セット生成フェーズ（通常はトークンの分割、トークンの連結、または NER の問題）中にキャプチャされません。
特徴獲得問題: 高度に識別可能な特徴を獲得できなかった
特徴計算の問題: 高い識別力を持つ特徴は、トレーニング中に対応する高いスコア (正と負の高スコアを含む) を受け取りませんでした。

3. エラー訂正

エラーの原因に応じて、ルールの追加または変更、機能の追加または削除、機能の重みの調整などによりシステムを調整し、変更された対応するプロセスを再実行して、新しい計算結果を取得します。

神馬知識グラフの構築におけるDeepDiveの応用と改善

この章では、DeepDive のワークフローを理解した後、Shenma Knowledge Graph のデータ構築業務で DeepDive をどのように活用しているかを紹介します。コーパス情報を最大限に活用し、システム運用の効率化を図るため、コーパス処理・アノテーション、入力スケール制御、入力品質向上などの面でDeepDiveに改良を加え、業務実装プロセスに適用することに成功しました。

中国語 NLP 注釈

NLP アノテーションはデータ処理の重要な部分です。 DeepDive に付属する Stanford CoreNLP ツールは主に英語の処理に使用されますが、ナレッジグラフのアプリケーションでは、主な処理要件は中国語です。そのため、CoreNLP に代わる中国語 NLP アノテーションの外部プロセスを開発し、次のような大きな変更を加えました。

CoreNLP のトークン分割の代わりに Ali 単語分割が使用され、ルート復元、POS タグ付け、依存関係文法解析は削除され、テキスト内の NER タグ付けとトークン開始位置タグ付けは保持されます。
トークンのセグメンテーションは、単語ベースからエンティティベースに変更されます。 NER フェーズでは、Ali 単語分割によって切り分けられたトークンがエンティティの粒度で再構成されます。たとえば、単語分割結果「Washington」、「State」、「University」は「Washington State University」に結合され、完全なエンティティとして「University」の NER タグが取得されます。
長い文の分割: テキスト内の一部の段落に正しい句読点がなかったり、多くの並列項目が含まれていたりすると、分割された文の長さが一定のしきい値 (中国語 200 文字など) を超えてしまい、NER ステップに時間がかかりすぎます。この状況は、一連の事前定義されたルールに従って再セグメント化されます。

自動件名補完

データ処理フェーズにおけるもう 1 つの改善点は、件名の自動完了プロセスが追加されたことです。中国の百科事典のテキストを例にとると、統計によると、約 40% の文に主語がありません。下記のアンディ・ラウの百科事典の紹介文に示されているように、2 番目の段落のすべての文に主語がありません。

主語が存在しないということは、多くの場合、候補エンティティペアのエンティティの 1 つが存在しないことを直接意味します。その結果、システムは有用な情報を含む大量の文を学習できなくなり、システムの精度と再現率に重大な影響を及ぼします。科目の自動完了には、判断の 2 つの側面が関係します。

欠落した科目の判定
不足している科目を追加する

現在のビジネスアプリケーションのほとんどは百科事典のテキストを扱うため、欠落している主語を追加するために、現在の文の前の文から主語を抽出するという比較的単純な戦略が採用されています。前の文にも主語がない場合は、百科事典のタイトルの NER 結果が、追加する主語として使用されます。主語欠損の判定は比較的複雑であり、現在はルールベース方式が主流となっている。抽出する候補ペア（E1、E2）に対応するエンティティタイプが（T1、T2）であると仮定すると、判定プロセスは次の図のようになります。

主題の補足と処理プロセスの具体例は次のとおりです。

百科事典のテキストを例にとると、実験統計によると、上記の自動主題補完アルゴリズムの精度は約 92% です。関係抽出の結果から判断すると、すべての誤った抽出ケースのうち、主語の補足によって生じたエラーの割合は 2% を超えません。

関係性関連のキーワードに基づく入力フィルタリング

DeepDive は機械学習システムです。入力セットのサイズは、特に時間のかかる特徴計算と学習推論のステップにおいて、システムの実行時間に直接影響します。システムのリコール率を確保するという前提の下、入力セットのサイズを合理的に削減することで、システムの動作効率を効果的に向上させることができます。

抽出するトリプルがR(E1, E2)であり、(E1, E2)に対応するエンティティタイプが(T1, T2)であると仮定します。 DeepDive のデフォルトの動作メカニズムは、データ処理段階で、コンテキストが関係 R を表現する可能性があるかどうかに関係なく、タイプ (T1、T2) を満たすすべてのエンティティペアが候補として抽出されるというものです。たとえば、夫婦関係を抽出する場合、文の中に 2 つ以上の人物エンティティがある限り、その文はシステムのデータ処理、ラベル付け、学習プロセス全体に参加するための入力として使用されます。次の 5 つの文のうち、文 1 を除く他の 4 つの文には結婚に関する内容がまったく含まれていません。

特に、文中の 2 つの文字エンティティがリモート監視を通じて肯定的または否定的なラベルを取得できない場合、そのような入力は学習フェーズでのシステムの精度に何ら利益をもたらすことができません。このような入力によって生じるシステム実行時間の損失を削減するために、次のような改良アルゴリズムを提案しました。

実験により、改良されたアルゴリズムを使用して取得された入力セットのサイズが大幅に削減されることが示されました。百科事典テキストの抽出を例にとると、夫婦関係の入力セットは元の入力セットの 13% に削減でき、人とその母校の関係の入力セットは元の入力セットの 36% に削減できます。入力セットを減らすことでシステムの実行時間を大幅に短縮でき、また、多数の疑わしいラベルの付いたエンティティ候補ペアの干渉を排除することで、システムの精度も大幅に向上することが実験で示されています。

入力段階で関連キーワードをフィルタリングして入力サイズを縮小すると、システムの動作効率を最も効果的に向上させることができますが（特徴抽出を含む後続の計算ステップがすべてスキップされるため）、この段階でのフィルタリングは、抽出された候補エンティティペアに基づいて行われるのではなく、文に基づいて行われることに注意する必要があります。結婚関係の抽出における複数文字の例を見てみましょう。

晴れ着姿でコンサートに出席した孫楠、娜穎ら出演者に加え、コンサートのプロデューサーを務めた華誼兄弟の王忠磊会長、監督の馮小剛と妻の徐凡、葛優、宋丹丹、李冰冰などの出演者もコンサートを応援するためレッドカーペットに登場した。

結婚関係に関連するキーワード「Mrs.」が含まれているため、この文章はシステム入力として保持されます。文から抽出された複数の人称候補エンティティのペアは、さらにラベル付けとフィルタリングを完了するために、より完全なヒューリスティックルールに依存する必要があります。

エンティティペアを複数のエンティティに拡張する

ほとんどの関係抽出タスクでは、トリプルの抽出のみが行われます。トリプルには一般に 2 つの形式があります。1 つは、2 つのエンティティが特定の関係を持つもので、たとえば R (E1、E2) のように、結婚関係 (Andy Lau、Zhu Liqian) などです。もう 1 つは、エンティティの属性値 (P (E、V) のように、身長 (Andy Lau、1.74 メートル) など) です。 DeepDive のデフォルトの関係抽出モードはトリプルに基づいています。しかし、実際のアプリケーションでは、人物、その人物が卒業した学校、専攻、取得した学位、卒業時期などの人物の教育経験など、トリプルを使用して完全に表現することが難しい複雑な関係が多数あります。これらの複雑な複数エンティティの関係は、Shenma ナレッジグラフ内の複合型によって表されます。したがって、抽出タスクを複合型の構築と互換性のあるものにするために、DeepDive コードにいくつかの変更を加え、候補エンティティペアの抽出を候補エンティティグループの抽出に拡張しました。コードの変更には、メイン抽出モジュールの app.ddlog、自動機能生成に使用される基礎となる DDlib、udf の map_entity_mention.py および extract_relation_features.py などのファイルが含まれます。次の図は、抽出関係 (個人、組織、役職) を含む拡張エンティティグループ抽出の例を示しています。

DeepDiveを使ったデータ構築作業

このセクションでは、まず、下の図に示すように、DeepDive 操作の各ステップの入力例と出力結果を示します。この例を通して、DeepDive の各モジュールの機能と出力をより直感的に理解できるようになります。

DeepDive の適用と改良されたアルゴリズムの効果をより詳しく理解するために、以下に特定の結婚関係抽出タスクの関連する動作データを示します。

次の表は、抽出タスクのデータ処理フェーズの各ステップの消費時間と出力量を示しています。

データラベリングの遠隔監視段階では、知識グラフ内の既存の夫婦関係を正例ラベリングに使用することに加えて、既存の親子関係と兄弟関係を負例ラベリングにも使用し、数千の正例を取得し、正ラベリング候補エンティティと負ラベリング候補エンティティの比率は約1：2でした。

DeepDive システムでは、合理的に記述されたヒューリスティックルールに頼ることで、遠隔監視の誤ったラベル問題をある程度修正できます。結婚関係の誤ったラベルの例を観察すると、誤ったラベルの大部分は、夫と妻の実体が何らかの形で協力して同じ文に共に登場する場合（共演、共歌、共著など）であることがわかりました。夫婦の実体の一方が本のタイトルに引用符で囲まれて登場する場合も、誤判断が起こる可能性があります。例えば：

同様の観察と要約をヒューリスティックルールに書き込むことができ、ルールから取得した否定的な注釈を利用して遠隔監視から取得した肯定的な注釈を補正することで、学習と推論中のシステムの偏りを減らすことができます。

ヒューリスティックルールの作成は主に専門知識や手作業の経験に依存しますが、ルールの改善と拡張は特定の自動メカニズムによって支援できます。たとえば、ルール定義: 文中に「P_1 と P_2 が結婚する」とある場合、(P_1、P_2) は肯定的なラベルを取得します。「和」や「結婚」などのトークンの拡張により、「P_1とP_2が結婚する」、「結婚後のP_1とP_2」、「P_1とP_2の結婚式」など、肯定としてマークする必要がある同様のコンテキストが得られます。ここで、トークンの拡張は、word2vec アルゴリズムと手動フィルタリングによって実現できます。次の表は、この抽出タスクで使用されるルールと対応する統計データを示しています。データのラベル付けプロセス全体には 14 分 21 秒かかりました。

学習と推論のプロセスには約 38 分 50 秒かかりました。ナレッジグラフに含まれていない予測エンティティペアをランダムに取得し、出力結果を次のように表示しました。

システムの精度については、セグメント化された統計の場合、出力結果を次のチャートに示します。

システムによって予測されたエラーサンプルを分析し、次のテーブルを要約しました。

システムのリコールレートの計算は、精密レートの計算よりも複雑です。サンプリングテストを使用してリコール率を推定し、次の3つの方法を具体的に実装しました（統計の期待は> = 0.95）：

指定されたエンティティを含むすべての文をサンプリングし、リコールを計算します。エンティティ「Yang Mi」を含む78の文があり、エンティティペアを含む13文があります（Yang Mi、Liu Kaiwei）。
肯定的な例の統計のリモート監督に使用される知識グラフのペアが42.7％であることを示しています。
入力セットから100の陽性ケースがランダムに選択され、そのうち49は期待値> = 0.95、リコール率は0.49です。

DeepDiveに基づく関係抽出に関する研究は現在比較的完全であり、Shenmaの知識グラフの建設事業に実装されています。現在、データ構築のアプリケーションには、人々、歴史、組織、本、映画、テレビなどの多くの中核分野が含まれています。抽出された関係には、両親、子供、兄弟、結婚、結婚、歴史的出来事、人々の著者、本の著者、映画やテレビ作品の俳優、卒業した学校、雇用されている場所などが含まれます。百科事典の完全なコーパスを例にとると、各関係抽出タスクの候補文のサイズは800,000〜1000万の間で、入力サイズは150,000〜200万の間で、生成された候補エンティティペアのサイズは300,000〜500万です。システムの各反復は、約3〜4回の反復後に実行されます。システムが稼働して以来、約3,000万人の候補者トリプルを生産しています。

さらに、深い学習モデルとShenma Knowledgeグラフデータの構築におけるそのアプリケーションに基づいて、関係抽出技術を常に調査および実践しています。明日、Ali Meiは、関連する技術的進歩と、ビジネスの実施プロセスで遭遇するいくつかの課題を引き続き導入します。

参考文献

[1]。

[2]。

[3]

[4]

[5]。

[6]。

[7]。

[8]。

[9]。

[10]。