業界規模のナレッジグラフ：経験と課題

[[355133]]

【導入】

この記事は、Stone Brothersが推奨するナレッジグラフに関するレビュー記事です。Lao Maは、昨年ACMで発表されたこの記事「Industry-Scale Knowledge Graphs: Lessons and Challenges」を翻訳・編集しました。Communications of the ACM、2019年8月、Vol. 62 No. 8、Pages 36-43、10.1145/3331166。原著者は、Natasha Noy (Google)、Yuqing Gao (Microsoft)、Anshu Jain (IBM)、Anant Narayanan (Facebook)、Alan Patterson (eBay)、Jamie Taylor (Google) です。読書の退屈さを和らげるために、本の中には風景画が点在しています。

ナレッジグラフは、今日の多くの企業にとって非常に重要です。ナレッジグラフは、多くの製品を動かす構造化されたデータと事実に基づく知識を提供し、製品をよりインテリジェントに、さらには「魔法」のようにするからです。

一般的に言えば、ナレッジグラフは、関心のあるオブジェクトとそれらの間の接続を記述します。たとえば、ナレッジグラフには、映画のノード、映画の俳優、監督などが含まれる場合があります。各ノードには俳優の名前や年齢などの属性があり、特定の俳優が出演する複数の映画のノードが存在する場合もあります。ユーザーはナレッジグラフを走査して、俳優が出演するすべての映画、および該当する場合は監督に関する情報を収集できます。

ナレッジグラフの多くの実用的な実装では、スキーマまたはオントロジーを定義することによって、グラフ内のリンクに制約を課します。たとえば、映画からその監督へのリンクは、Movie タイプのオブジェクトを Person タイプのオブジェクトに接続する必要があります。場合によっては、リンク自体に独自の属性があることもあります。たとえば、俳優と映画を結び付けるリンクには、俳優が演じた特定の役の名前が含まれることがあります。同様に、政治家と政府内の特定の役割を結び付けるリンクには、政治家がその役割を担っていた期間が含まれる場合があります。

この記事では、5 つの異なるテクノロジー企業におけるナレッジグラフを調査し、グラフの構築と使用におけるそれぞれの経験の類似点と相違点を比較し、今日のすべての知識主導型企業が直面している課題について説明します。ここで説明するナレッジグラフのコレクションは、検索、製品の説明からソーシャルネットワークまで、幅広いアプリケーションをカバーしています。

Microsoft の Bing Knowledge Graph と Google の検索エンジンの Knowledge Graph はどちらも検索をサポートし、検索や会話の中での質問への回答を提供します。これらの地図には、人、場所、物、組織の説明とつながりから始まり、世界についての一般的な知識が含まれています。
Facebook は世界最大のソーシャルグラフを保有しており、そこには音楽、映画、有名人、Facebook ユーザーが関心を持つ情報も含まれています。
現在 eBay で開発中の製品知識グラフは、製品、エンティティ、およびそれらの外部世界との関係に関する意味的知識をエンコードします。
IBM Watson Discovery 製品のナレッジグラフフレームワークは、2 つのニーズに対応します。1 つは、明らかでない情報の発見に重点を置いたユースケースであり、もう 1 つは、「独自のナレッジグラフを構築する」ためのフレームワークを提供することに重点を置いたユースケースです。

ここでの目標は、これらのナレッジグラフを徹底的に説明することではなく、今日の大手テクノロジー企業でナレッジグラフを構築してきた著者の実践的な経験を、エンタープライズレベルのナレッジグラフが直面している課題と革新的な研究の必要性を理解するための支点として活用することです。

ナレッジグラフとは何か? — 設計上の決定

まず、5 つのナレッジグラフとそれぞれの設計に至った決定について説明し、各グラフの範囲を特定しましょう。課題の多くはすべての企業に共通していますが、アプリケーションや製品の目標の違いにより、アプローチやシステムアーキテクチャも異なります。添付の表は、これらのナレッジグラフの特性をまとめたものです。

マイクロソフト

長年にわたり、Microsoft のエンジニアと科学者は大規模なグラフに取り組んできました。この仕事は、基礎研究に基づいたエンドツーエンドのシステムの構築から、何億人ものユーザーに対して世界規模でサービスを提供することにまで及びます。会社全体にはいくつかの主要なグラフシステムがあり、それぞれがグラフの作成と最新の状態の維持に関して特定の課題をもたらします。さまざまな製品がナレッジグラフを使用して消費者に価値をもたらすことができます。以下は Microsoft からの図です。

Bing のナレッジグラフには、世界中の情報と Bing 上の質問と回答機能が含まれています。これには、人、場所、物、組織、位置、およびユーザーが実行できるアクション (ビデオの再生、曲の購入など) などのエンティティが含まれます。これは、世界全体に関する一般的な知識を収録することを目的とした、Microsoft 最大のナレッジグラフです。
学術グラフは、人物、出版物、研究分野、会議、場所などのエンティティの集合です。これにより、ユーザーは、他の方法では識別が難しい可能性のある研究者と研究の方向性の間のつながりを確認できます。
LinkedIn のナレッジグラフには、人、仕事、スキル、企業、場所などのエンティティが含まれています。 LinkedIn の経済グラフは、5 億 9,000 万人の会員と 3,000 万の企業に基づいており、国レベルおよび地域レベルで経済に関する洞察を見つけるために使用されています。

Bing 検索エンジンの Bing ナレッジグラフに追加の役立つ情報がある場合に、ナレッジパネルを表示します。たとえば、映画監督のジェームズ・キャメロンを検索すると、生年月日、身長、監督した映画やテレビ番組、過去の恋人、TEDでの講演、Redditの「Ask Me Anything」の質問と回答などの情報が表示されます。異なるタイプのエンティティを検索すると、まったく異なる情報が返されます。たとえば、「Woodblock レストラン」を検索すると、メニューの概要、専門家とユーザーのレビュー、予約フォームのオプションが返されます。

これらすべてのグラフシステム、およびあらゆる大規模なナレッジグラフシステムには、品質と有用性を決定する 3 つの重要な要素があると考えられます。

完全

グラフには必要な情報がすべて含まれていますか? 実際には、開発者は常にユーザーに価値と新しい情報源を提供するための新しい方法を探しているため、答えはほとんどの場合「いいえ」です。

正確さ

その情報は正しいでしょうか? 2 つの情報源が実際に同じ事実に関するものであるかどうかをどのように確認しますか。また、矛盾している場合はどうしますか? これらの質問に答えることは、それ自体が膨大な研究と投資の領域です。

適時性

コンテンツは最新ですか? かつては正しかったかもしれませんが、現在は古くなっています。ほぼ常に変化するもの（株価）とそれほど頻繁に変化しないもの（国の首都）では適時性が異なり、その間にはさまざまな種類の情報が存在します。

世界についての知識を生み出すには、複数のソースからデータが収集されますが、これらのデータは非常にノイズが多く矛盾している可能性があり、それらを単一の一貫性のある正確な画像にまとめる必要があります。ユーザーが目にする最終的な事実は氷山の一角に過ぎず、その下には多くの作業と複雑な要素が隠されています。たとえば、Wikipedia だけでもウィル・スミスは 200 人おり、俳優ウィル・スミスに関する Bing Knowledge の結果は 41 の Web サイトからの 108,000 件の事実で構成されています。

ナレッジグラフには、検索から会話まで、強力で高度な人工知能が備わっており、単一のクエリが継続的な会話になることを可能にします。具体的には、これにより、ユーザーはシステムと会話することができ、会話の各段階でシステムがコンテキストを維持できるようになります。たとえば、将来のシナリオの 1 つとして、ユーザーは Bing に「現在気温が華氏 70 度を超えている世界中の国をすべて表示してください」と言うことができます。システムが回答を返したら、ユーザーは「飛行時間 2 時間以内の国をすべて表示してください」と言うこともできます。

この同じアイデアをさらに一歩進めて、完全な会話体験を実現できます。たとえば、ユーザーが「感謝祭の 2 日前にニューヨーク市に旅行して、1 週間滞在したい」と言うと、システムは基礎となるナレッジグラフを使用してクエリを理解し、不足している情報を要求します。この例では、システムは「NYC」が「JFK 空港」を意味する可能性があることと、感謝祭が 11 月 22 日であることを認識する必要があります。次に、出発地と目的地の場所を必要とするフライト検索を実行する方法を知る必要があります。次に、システムは会話の次のターンで出発地を決定する必要があることを認識する必要があるため、「わかりました。11 月 20 日から 27 日までの JFK 行きのフライトを予約してください。どこから出発しますか?」と尋ねます。

グーグル

Google のナレッジグラフデータベースには、幅広いトピックを網羅する 10 億のエンティティを記述する 700 億を超えるアサーションが含まれており、そのほとんどはナレッジ管理システムの経験がないさまざまな個人による 10 年以上にわたるデータ提供の結果です。

おそらくもっと重要なのは、ナレッジグラフが、多くの Google 製品や機能がバックグラウンドで使用するクラスおよびエンティティ識別子の長期的かつ安定したソースとして機能することです。外部のユーザーや開発者は、YouTube や Google Cloud API などのサービスを使用するときにこれらの特性を観察できます。アイデンティティに重点を置くことで、Google の検索結果は「文字列ではなく物」に変わりました。ナレッジグラフは、従来の「10 個の青いリンク」を単に返すのではなく、Google 製品がユーザーのリクエストをユーザーの世界の概念への参照として解釈し、適切に応答するのに役立ちます。

Google の Knowledge Graph アプリケーションで最も目立つのは、ユーザーがエンティティに関するクエリを発行すると、検索結果に Knowledge Graph サービス内の事実エンティティのリストが含まれることです。たとえば、「IMPei」を検索すると、検索結果に小さなパネルが表示され、建築家の学歴、受賞歴、設計した重要な建造物に関する情報が表示されます。

ナレッジグラフは、特定の種類のインタラクションが異なるエンティティ間で発生する可能性があることも認識します。「The Russian Tea Room」を検索すると予約ボタンが表示され、「Rita Ora」を検索するとさまざまな音楽サービスへのリンクが表示されました。

Google のナレッジグラフの範囲内で、グラフ全体で使用されている詳細な構造を 1 人の人間が記憶することは不可能であり、ましてや管理することは不可能です。システムが長期にわたって一貫性を保つように、Google は基礎となる構造の基本セットに基づいてナレッジグラフを構築しました。さまざまな抽象化レベルで同様の構造と推論メカニズムを複製し、多くの基本的なアサーションの構造を概念的に導きます。たとえば、特定の不変構造をチェックするために、Google は「型自体が型のインスタンスである」という考え方を利用して、メタタイプの概念を導入しました。次に、メタタイプについて推論し、細粒度型が関心のある不変条件に違反しているかどうかを確認します。時間に依存しないアイデンティティは構造のサブクラスではなく、時間に依存することが示されています。このスケーラブルな抽象化レベルは同じ低レベルの追加に基づいているため、すぐに追加することが比較的簡単です。

このメタレベルスキーマにより、大規模なデータの検証も可能になります。たとえば、画家を絵画の「製品」の「ソース」として識別することで、作品が作成される前に画家が存在することを確認でき、これらのメタクラス間のすべての関係を汎用的にチェックできます。

少し高い概念レベルでは、ナレッジグラフは、話し言葉ではこれらのエンティティが混同されることが多いにもかかわらず、著者とその創作作品は別個のものであることを「理解」します。同様に、創作物には複数の表現形式があり、それぞれが明確に区別されることがあります。このオントロジー知識は、グラフが拡大してもエンティティの ID を維持するのに役立ちます。

これらの自己記述型レイヤーを通じて構築されたナレッジグラフは、マシンの一貫性チェックを簡素化するだけでなく、内部ユーザーがナレッジグラフを理解しやすくします。新しい開発者がナレッジグラフ編成の基礎についてトレーニングを受けたら、その構造インベントリがどのようなものであるかを学ぶことができます。同様に、グラフ構造をいくつかのコア原則にバインドし、メタ関係をスキーマ内で明示的に公開することで、社内の開発者が新しいスキーマ構造を見つけて理解するプロセスが簡素化されます。

フェイスブック

Facebook は世界最大のソーシャルネットワークを持つことで知られています。過去 10 年間にわたり、Facebook のエンジニアは人々の間で豊かなつながりを可能にするテクノロジーを開発してきました。現在、彼らは同じ技術を応用して、人々だけでなく、人々が関心を持つ物事に対するより深い理解を構築しています。

Facebook のエンジニアは、世界を構造化された方法で大規模にモデル化することで、ソーシャルグラフだけでは満たせないユースケースを実現できます。音楽や歌詞の構造的な理解といった一見単純なことでさえ、人々がソフトウェアでそれらを使用していることを検出する能力と組み合わせることで、個人間の偶然の瞬間を可能にすることができます。現在、Messenger で映画の上映スケジュールを設定するなどの Facebook 製品の多くのエクスペリエンスは、ナレッジグラフによって実現されています。

Facebook ナレッジグラフは、有名人、場所、映画、音楽など、ユーザーが最もよく話題にする社会的に関連性の高いエンティティに焦点を当てています。 Facebook のナレッジグラフが成長を続けるにつれ、開発者は有用性と快適なユーザーエクスペリエンスを提供できる可能性が最も高い領域に重点を置き始めています。

網羅性、正確性、構造、継続的な変更のすべてが Facebook ナレッジグラフのデザインを推進します。

カバレッジとは、モデル化されるドメインを徹底して網羅することを意味します。デフォルトのスタンスは複数のプロバイダーからのものであり、つまり、グラフ生成システム全体は、データが複数のソースから取得され、それらのすべてが重複するエンティティセットに関する (場合によっては矛盾する) 情報を提供するという前提で構築されます。ナレッジグラフは、この矛盾する情報を 2 つの方法で処理します。信頼性が十分に低いと判断された場合は情報を破棄するか、または主張の由来と推定される信頼性を保持して矛盾する意見をエンティティにマージします。
正確性とは、ナレッジグラフが属性の「正しい」値を常に認識しているということではなく、特定のアサーションが行われた理由を常に説明できることを意味します。したがって、データ取得からサービス層までシステムを流れるすべてのデータの由来が保持されます。
構造化とは、ナレッジグラフが自己記述的である必要があることを意味します。データの一部が厳密に型指定されていない場合、またはエンティティを記述するスキーマに準拠していない場合、Graph は次のいずれかを実行しようとします: データを予想される型に変換する (例: 単純な型強制を実行する、不正な日付を処理する)、非構造化テキストに対して型に一致する構造化データを抽出する (例: 自然言語処理を実行する)、または完全に削除します。
最後に、Facebook のナレッジグラフは常に変化するように設計されています。データベース内の単一の表現ではなく、新しい情報が受信されるとグラフが更新されます。代わりに、グラフはソースコードから始めて毎日ゼロから構築され、最後にビルドシステムによって完全なナレッジグラフが生成されます。

Facebook ナレッジグラフの明らかな出発点は、Facebook ページのエコシステムです。 Facebook 上で企業や個人が作成したページには、さまざまなアイデアや興味が反映されています。さらに、エンティティの所有者がそのエンティティについて主張することは、貴重なデータソースとなります。しかし、広範囲に情報源から得られるデータの場合と同様に、これにも課題がないわけではありません。

Facebook ページは非常に公開されており、毎日何百万人もの人々がそこで交流しています。したがって、ページ所有者の利益は、ナレッジグラフのニーズと必ずしも一致するとは限りません。

一般的に、ページはエンティティのコレクション (映画シリーズなど) を表すことができるため、ページとエンティティの間には厳密な 1:1 のマッピングはありません。データが不完全または非構造化（テキストのチャンク）である可能性もあり、その場合はナレッジグラフのコンテキストで使用するのが難しくなります。

Facebook の最大の課題は、ページ上のデータを活用し、それを他のより構造化されたデータソースと組み合わせて、クリーンかつ構造化されたナレッジグラフという目標を達成することです。 Facebook の場合、グラフをモデルとして考え、Facebook ページをグラフ内のエンティティまたはエンティティセットへのビュー投影として考えることが便利なツールです。

イーベイ

eBay は、製品、エンティティ、それらの関係、および外部世界に関する意味的知識をエンコードする独自の製品知識グラフを構築しています。この知識は、売り手が何を提供し、買い手が何を求めているかを理解し、その 2 つを賢く結び付けるために重要であり、これは eBay マーケティング手法の重要な部分です。

たとえば、eBay のナレッジグラフは、製品を現実世界のエンティティに結び付け、製品のアイデンティティと、それが購入者にとってなぜ価値があるのかを定義できます。シカゴ・ブルズのバスケットボールのジャージは一つの製品ですが、マイケル・ジョーダンのサインが入っていると、それは全く別の製品になります。 1940 年のパリのポストカードは単なるポストカードかもしれませんが、パリがフランスにあり、1940 年が第二次世界大戦中であったことを知ると、その製品の性質は完全に変わります。

ナレッジグラフ内のエンティティは、製品を相互に関連付けることもできます。ユーザーがメッシの記念品を検索すると、グラフにはメッシが FC バルセロナでプレーしていることが示されるので、おそらくクラブのグッズも興味深いものになるでしょう。おそらく、他の有名なバルセロナ選手の記念品もこの買い物客の興味を引くでしょう。関連商品には、サイン入りシャツ、ユニフォーム、ブーツ、ボールなど、サッカー関連の商品が含まれます。この考え方は、スポーツから音楽、映画、文学、歴史的出来事などにも応用できます。

エンティティの関係を理解するのと同じくらい重要なのは、製品自体とその関係を理解することです。 1 つの製品が iPhone であり、もう 1 つの製品が iPhone 用のケースであることを知ることは明らかに重要です。ただし、このケースは一部の携帯電話には適合しますが、他の携帯電話には適合しない場合があります。そのため、eBay では製品モデルの部品とアクセサリの寸法を要求します。また、製品のさまざまなバリエーションと関係性を理解することも重要です。どの製品が 1 つの製品のメーカーバリエーションであるか、サイズ、容量、または色が異なっているか、どれが同じ意味であるか、仕様は同じでもブランドや色が異なるか、システムはバンドル、キット、さらにはファッションアイテムのようにグループ化された製品も理解する必要があります。

他のナレッジグラフと同様に、eBay は規模に対処する必要があります。いつでも、何千ものカテゴリにまたがって 10 億を超えるアクティブな製品が存在する可能性があります。これらのリストには、数億の製品と、それらの製品に指定された数百億の属性が含まれる場合があります。

eBay ナレッジグラフには、サービスレベル要件が大きく異なる複数のユーザーが存在します。検索サービスがユーザーのクエリを理解する必要がある場合、ナレッジグラフは数ミリ秒かかる回答をサポートする必要があります。一方、大規模なグラフに対するクエリの実行には数時間かかる場合があります。

これらの課題に対処するために、eBay のエンジニアは、データの一貫性を確保しながら柔軟性を提供するアーキテクチャを設計しました。ナレッジグラフは、グラフへのすべての書き込みと編集に複製されたログを使用します。ログは、データの一貫性のある順序付けられたビューを提供します。このアプローチは、さまざまなユースケースを満たす複数のバックエンドデータストアをサポートします。具体的には、低レイテンシの検索クエリを提供するためのフラットドキュメントストアと、長時間実行されるグラフ分析を実行するためのグラフストアがあります。これらの各ストアは、書き込みログに操作を単純に追加し、保証された順序でグラフに追加と編集を加えます。そのため、各店舗で一貫性が保たれます。

IBM

IBM は、Watson Discovery Services が使用するナレッジグラフフレームワークを開発し、IBM 以外の多くの業界構成で導入されている関連サービスを提供しています。 IBM Watson は、ナレッジグラフフレームワークを 2 つの異なる方法で使用します。1 つ目は、フレームワークが Watson Discovery を直接サポートすることです。Watson Discovery は、構造化および非構造化の知識を使用して、新しい、自明でない情報や、その発見に基づく関連する垂直製品を発見することに重点を置いています。2 つ目は、フレームワークによって、事前に構築されたナレッジグラフを中核として、他のユーザーが独自のナレッジグラフを構築できるようにします。

検出ユースケースは、ドメインドキュメントまたはデータソースに直接存在しない新しい知識を作成します。この新しい知識は驚くべきものであり、直感に反するものとなる可能性があります。検索および検出ツールはシステムの既存のリソースにすでに存在する知識を取得できますが、これらのツールは検出には必要ですが十分ではありません。自明でない発見には、エンティティ間の新しいつながり（例：医薬品の新しい副作用、買収対象または販売リードとなる新興企業）、分野における潜在的に新しい重要なエンティティ（例：ディスプレイ技術の新しい材料、特定の投資分野における新しい投資家）、または既存のエンティティの重要性の変化（組織への投資家の出資の増加、または情報収集シナリオにおける利害関係者と特定の犯罪者とのやり取りの増加）が含まれます。

IBM は、さまざまな分野で認知技術を適用している幅広いエンタープライズクライアントベースを考慮して、クライアントとクライアントチームが独自のナレッジグラフを構築するためのフレームワークの作成に注力しています。 IBM の業界チームは、このフレームワークを使用してドメイン固有の例を構築します。顧客は、消費者向けの銀行・金融、保険、IT サービス、メディア・エンターテイメント、小売・顧客サービスから、生命科学、石油・ガス、化学・石油、防衛、宇宙探査など、特に科学分野における深い発見にほぼ全面的に重点を置く業界まで、幅広い分野にわたります。この幅広さには、クライアントがナレッジグラフを自ら構築および管理するために必要なすべてのメカニズムがフレームワークに備わっていることが必要です。フレームワークに組み込まれている主要なテクノロジには、ドキュメント変換、ドキュメント抽出、チャネルストレージ、エンティティ正規化などがあります。

ここでは、IBM エンジニアが Watson Discovery のナレッジグラフを構築し、それを他の業界システムに展開する過程で得た重要な洞察と教訓を紹介します。

IBM Watson Knowledge Graph は、複数のインデックス、データベース構造、メモリ、グラフストレージをサポートする多態的ストレージを使用します。このアーキテクチャでは、実際のデータを (多くの場合は冗長的に) 1 つ以上のストアに分割し、各ストアが特定のニーズとワークロードに対応できるようにします。 IBM のエンジニアと研究者は、これらの複数のストアを同期させておくこと、マイクロサービスを介してストアが相互に通信できるようにすること、グラフ全体を再ロードまたは再構築する必要のない方法で新しい知識を取り込んだり生データを再処理したりできるようにするなどの課題に取り組みました。
証拠はシステム独自のものである必要があります。現実世界（開発者がモデル化しようとすることが多い）と、抽出された知識を保持するデータ構造との間の主な接続は、知識の「証拠」です。この証拠は通常、知識の元となる元の文書、データベース、辞書、または画像、テキスト、ビデオファイルです。メタデータやその他の関連情報は、検出プロセス中に対象を絞った、有用な、コンテキストに基づいたクエリを実行する際に、知識推論において重要な役割を果たすことがよくあります。したがって、グラフに保存されている関係とそれらの関係の起源との間の接続を失わないようにすることが重要です。
コンテキストを介してエンティティ解決をランタイムにプッシュします。部分的な名前、表層形式、または同じ名前を持つ複数のエンティティによって参照されるエンティティへのあいまいな参照を解決することは、自然言語理解における典型的な問題です。ただし、知識発見の分野では、開発者は、エンティティが通常の形式以外の形式で動作したり、新しいコンテキストで表示されたりする、わかりにくいパターンを探すことがよくあります。したがって、ナレッジグラフ作成プロセスの早い段階でエンティティを明確にすることは、発見の目的と矛盾します。これらの用語を解決または明確化するために複数のエンティティを用意し、実行時にクエリのコンテキストを使用してエンティティ名を解決する方が適切です。

今後の課題

ここで説明するナレッジグラフは、要件、対象範囲、アーキテクチャが大きく異なりますが、多くの課題はほとんどの実装で一貫しています。これらの課題には、スケーリング、曖昧さの解消、異種および非構造化ソースからの知識の抽出、知識の進化の管理などが含まれます。これらの課題は長年にわたって研究の最前線にありましたが、業界の専門家を困惑させ続けています。これらの課題の一部は一部のシステムに存在しますが、他の環境ではそれほど重要ではない可能性があります。

エンティティの曖昧さ解消とアイデンティティの管理

エンティティの曖昧性の解消と解決はセマンティックウェブで活発に研究されている分野であり、ナレッジグラフにも数年前から存在していますが、ほぼ業界全体で依然として最大の課題の 1 つであることは驚くべきことです。最も単純な形での課題は、発話または言及されたエンティティに一意の標準化された ID とタイプを割り当てることです。自動的に抽出されたエンティティの多くは、同じまたは類似の名前を持つ人物、同じまたは類似のタイトルを持つ映画、歌、本など、表面的な形状が非常に似ています。類似した名前を持つ 2 つの製品が異なるリストを参照している可能性があります。適切なリンクと曖昧さの解消がなければ、エンティティは間違った事実に関連付けられ、誤った推論につながります。

これらの問題は小規模なシステムでは明らかなように思われるかもしれませんが、異種の貢献者ベース全体で大規模に ID 管理を行う必要がある場合、問題はさらに困難になります。異なるチームが合意し、他のチームが何を記述しているかがわかるような方法で ID を記述するにはどうすればよいでしょうか。開発者は、競合を裁定するのに十分な人間が判読可能な情報があることをどのように保証できるでしょうか。

型メンバーと解決

既存のナレッジグラフシステムのほとんどでは、各エンティティが複数のタイプを持つことが許可されており、状況によっては特定のタイプが重要になる場合があります。たとえば、バラク・オバマは人間であると同時に政治家であり俳優でもあり、非常に有名な俳優というよりは、はるかに人気のある政治家です。キューバは国または政府である可能性があります。場合によっては、ナレッジグラフシステムは型の割り当てを実行時に移動します。各エンティティはそのプロパティを記述し、アプリケーションはユーザータスクに基づいて特定の型とプロパティのセットを使用します。

クラスメンバーシップの基準は初期段階では単純かもしれませんが、インスタンスの範囲が拡大するにつれて、意味の安定性を維持しながらこれらの基準を適用することが難しくなります。たとえば、Google がナレッジグラフで「スポーツ」のカテゴリを定義したとき、e スポーツは存在していませんでした。では、Google はどのようにして、スポーツカテゴリでのアイデンティティを維持しながら、e スポーツを組み込むことに成功したのでしょうか?

変化する知識の管理

効果的なエンティティリンクシステムは、変化する入力データに基づいて有機的に進化する必要もあります。たとえば、企業が合併または分割されたり、新たな科学的発見によって既存の組織が複数の組織に分割されたりすることがあります。ある会社が別の会社を買収する場合、買収側の会社はアイデンティティを変更しますか? 部門が分社化した場合はどうなるでしょうか? アイデンティティは名前の変更に伴って変わりますか?

ほとんどのナレッジグラフフレームワークは、ナレッジグラフの特定時点のバージョンを保存し、ナレッジグラフの瞬間的な変更を管理し、グラフを継続的に進化させる点でますます効果的になっていますが、グラフ内の非常に動的なナレッジを管理できるという点では依然としてギャップがあります。さらに、複数のストア (IBM の Polymorphic Store など) にわたる更新を管理する機能も必要です。

更新プロセスの整合性、最終的な一貫性、競合する更新、スムーズな実行時パフォーマンスなど、考慮すべき点は数多くあります。増分カスケード更新を処理するように設計された既存の分散データストアのさまざまなバリエーションを検討する機会があるかもしれません。システムに既に存在する知識との矛盾を生じさせずに、常に変化するスキーマと型システムを管理することも重要です。たとえば、Google はメタモデルレイヤーを複数のレイヤーに概念化することでこの問題を解決します。下位の基本レイヤーはかなり安定しており、上位レベルはメタタイプ (実際には型のインスタンス) の概念を通じて構築され、型を使用してシステムを充実させることができます。

複数の構造化データソースと非構造化データソースから知識を抽出する

近年の自然言語理解の進歩にもかかわらず、構造化された知識（エンティティ、そのタイプ、属性、関係など）の抽出は依然として包括的な課題となっています。グラフの大規模な成長には、手動の方法だけでなく、オープンドメイン内の非構造化データからの教師なしおよび半教師付きの知識抽出も必要です。

たとえば、eBay の製品ナレッジグラフでは、多くのグラフ関係がリストや販売者カタログ内の非構造化テキストから抽出されます。一方、IBM の Discovery ナレッジグラフは、グラフに表される事実の証拠としてドキュメントに依存しています。従来の教師あり機械学習フレームワークでは、知識抽出システムをトレーニングするために、手間のかかる手動の注釈付けが必要です。この高いコストは、完全な教師なし手法（ベクトル表現のクラスタリング）または半教師あり手法（事前知識を使用した遠隔教師、複数インスタンス学習、能動学習など）を採用することで削減または排除できます。エンティティの認識、分類、テキスト、エンティティの埋め込みはすべて、非構造化テキストを既知のグラフ内のエンティティにリンクするための便利なツールであることが証明されています。

スケール管理

ここで説明したナレッジグラフシステムのすべてが、大規模な管理において課題に直面していることは、おそらく驚くことではありません。この側面は、多くの場合、産業界の学術界や研究界がさまざまな形で取り組んできた問題（曖昧さの解消や非構造化データの抽出など）に対して新たな課題を提示します。大規模な管理は、パフォーマンスとワークロードに関連するさまざまなビジネスに直接影響を与える基本的な課題です。また、大規模なナレッジグラフへの迅速な増分更新の管理 (IBM など) や、大規模で進化するナレッジグラフの一貫性の管理 (Google など) など、他のビジネスにも間接的な影響を与えます。

その他の主な課題

これらの一般的な課題に加えて、この論文で説明する作業では、次の課題も重要です。これらはすべて、研究および学術コミュニティにとって興味深く魅力的なトピックです。

ナレッジグラフの意味的埋め込み

大規模なナレッジグラフを活用することで、開発者はエンティティと関係性の高次元表現を構築できます。結果として生じる埋め込みは、多くの機械学習、NLP、およびAIタスクに大きな利益をもたらします。これは、機能と制約のソースであり、トレーニングデータの推論と管理のより洗練された方法の基礎を形成できるためです。深い学習技術は、エンティティの重複排除と属性推論の問題に適用できます。

知識の推論と検証

事実が正しいことを確認することは、知識グラフを構築するときにコアタスクであり、すべての事実を手動で検証することは、大規模に単純に不可能です。これには、自動化されたアプローチが必要です。高度な知識表現、確率的グラフィカルモデル、および自然言語の推論を使用して、一貫性チェックと事実検証のための自動または半自動システムを構築できます。

グローバル、セクター固有、クライアント固有の知識の組み合わせ

IBMクライアントがカスタムナレッジグラフを作成する場合のような場合、クライアントは根本的な知識についてグラフを伝える必要はありません。たとえば、がん研究者は、皮膚が組織の一種であるという知識グラフを提供しません。これは、「常識」と呼ばれるものであり、常識グラフでキャプチャされます。

次のレベルの情報は、たとえば、この分野の誰もが癌が状態であること、またはNHLがナショナルホッケーリーグよりも非ホジキンのリンパ腫の略であることを知っていることです。クライアントは、プライベートで機密の知識、またはシステムがまだ知らないもののみを入力する必要があります。ベース層とドメイン層の隔離、連邦、およびオンラインアップデートは、この要件により発生する主な問題の一部です。

パーソナライズされたオンデバイス知識グラフのセキュリティとプライバシー

ナレッジグラフは、定義上、世界のすべての名詞のエンティティを作成することを目指しているため、クラウドで合理的に実行することができるため、巨大です。しかし、実際には、ほとんどの人は世界に存在するすべてのエンティティを気にかけていませんが、個人的に関連する小さなまたはサブセットです。個々のユーザー向けの知識グラフをパーソナライズする方向には多くの約束があり、モバイルデバイスに配信されるのに十分な小さなサイズにそれらを縮小することさえあります。これにより、開発者は、知識グラフの小さなローカルインスタンスでより多くのデバイス学習と計算を行うことにより、プライバシーを尊重する方法でユーザーに価値を提供し続けることができます。

多言語の知識システム

包括的な知識グラフは、複数の言語で表現された事実をカバーし、これらの言語で表現された概念をまとまりのあるセットに統合する必要があります。多言語のソースから知識を抽出するという課題に加えて、異なる文化はさまざまな微妙な方法で世界を概念化する可能性があります。

結論は

この論文で説明する質問は、異なる知識グラフが、人、場所、同様のエンティティの説明など、いつか特定のコア要素を共有できるかどうかです。これらの説明を共有する1つの方法は、一般的な多言語コアとしてWikidataにそれらを提供することです。

知識の表現は、仕事で学ぶのが難しいスキルです。開発のペースと知識表現の選択がユーザーとデータの両方に影響する程度は、その原則と代替を理解し、調査するための環境を促進しません。この記事の議論で示されているように、さまざまな業界の文脈における知識表現の重要性は、データ構造やアルゴリズムと同様に、基本的なコンピューターサイエンスコースの基本的な要素であるべきであるという見解を強化する必要があります。

最終的に、AIシステムは、顧客との関わり方に組織の新しい機会のロックを解除し、分野で独自の価値を提供し、運営と労働力を変革します。この約束を実現するために、これらの組織は、知識のロックを解除するために新しいシステムを構築する方法を把握し、真にインテリジェントな組織になることを可能にしなければなりません。

参考文献

H？Ffner、K.、Walter、S.、Marx、E.、Usbeck、R.、Lehmann、J。

Lin、Y.、Liu、Z.、Sun、M.、Liu、Y.、Zhu。

Nickel、M.、Murphy、K.、Tresp、V。、およびGabrilovich、E。2016。

Paulheim、H.、知識グラフの洗練：アプローチと評価方法の調査。

<<: 「5つの一般的なアルゴリズム」分岐アルゴリズムとアイデアを図解で紹介

>>: 2021 年に注目すべき 8 つのロボティックプロセスオートメーションのトレンド