1. セマンティックマッチングセマンティック マッチングは、検索の推奨、インテリジェントな質問と回答、および支援された意思決定の基礎となります。ナレッジ グラフが登場する前は、テキスト マッチングは主にリテラル マッチングに依存しており、マッチング結果はデータベース検索を通じて取得されていました。しかし、このアプローチには2つの問題があります。1つは、テキスト入力自体の制限により検索漏れが発生すること、もう1つは、検索結果の評価に説明性が欠け、順位付けに疑問があるため、目的の結果を見つけられないことが多いことです。 ナレッジグラフの登場により、上記 2 つの問題が効果的に解決されました。一方では、キーワード拡張を通じてより多くの入力効果が得られ、他方では、エンティティのリンクやアライメント、概念レイヤーのマッチングを通じて、データベースから入力結果の説明や記述が得られ、入力がさらに拡張されます。入力が文章テキストの場合、役割ラベル付けと組み合わせて意味理解を実現することもできます。 セマンティック マッチングの点では、ナレッジ グラフは、図 4-12 に示すように、いくつかの側面でインテリジェンスを強化しています。 ▲図4-12 ナレッジグラフは意味マッチングの知能を高める 1. キーワードの強化まず、同義語、下位語、n-nym などの単語セットを定義します。キーワードを検索すると、グラフ検索を通じてキーワードに関連する他の単語も取得され、検索が拡張または制限され、必要な情報をより包括的かつ正確に見つけることができます。 2. エンティティのリンク(アライメント)自然言語で記述された質問に対して文法および意味解析を実行し、構造化されたクエリ ステートメントに変換することで、大量の Web リンクを思い出す代わりに、直接クエリを実行し、ナレッジ グラフ内の回答にたどり着くことができます。たとえば、「茶聖の仕事とは何か?」と検索すると、「茶の経典」という答えが返ってくるかもしれません。その中で『茶聖』は陸羽と関連しており、陸羽の知識カードから『茶経』という作品名が見つかりました。 3. コンセプトマッチング確立された知識ベースに基づいて、グラフィカル ユーザー インターフェイス (視覚化されたオントロジー概念ツリー) またはキーワードを介してクエリを送信することにより、概念のすべてのインスタンスを体系的、迅速かつ効果的に取得できます。アトラスで「ロボット」を検索すると、その概念の下位語である、その概念に関連するインスタンス(ソフト ロボット、パレタイジング ロボットなど)が表示されます。 概念関係を通じて、上流および下流のチェーン内の概念も取得できるため、知識の選択を洗練し、概念検索の範囲を拡大するのに役立ちます。 Web ページ リンクから概念リンクへの移行を実現し、文字列ではなく概念テーマによる検索をサポートします。分類され、整理された構造化された知識をグラフィカルな方法でユーザーに表示することで、ユーザーは回答を見つけるために Web ページを手動でフィルタリングする必要がなくなります。 4. 文の関係のマッチング文間関係マッチングは、2 つのフレーズまたは文の関係を分類することです。一般的な文間関係マッチングには、自然言語推論 (NLI) と意味テキスト類似性 (STS) があります。関係の分類や予測を通じて、文レベルで意味のマッチングを計算し、意味分析機能を向上させることができます。 2. 検索の推奨ビッグデータ時代では、膨大な量の情報が日々生成されており、興味のあるテキストを迅速かつ正確に入手することがますます困難になっており、大量の「ロングテール配信」コンテンツは発見されず、注目される機会もほとんどありません。自然言語の入出力の観点から見ると、検索は受動的な推薦、推薦は自発的な検索とみなすことができるため、ある程度は一緒に議論することができます。 初期の頃は、検索はユーザー入力に基づいて実行され、結果の呼び出しはインデックスの構築とリテラル入力のマッチングによって実現されていました。この方法では正確な回答が得られず、大きな制限がありました。知識グラフを利用して意味拡張を実現することで、より優れたソートとリコールの結果を得ることができます。図 4-13 に示す検索プロセスのいくつかの側面は、ナレッジ グラフ インテリジェンスの威力を反映しています。 1. 実体と概念の認識ユーザーが入力した自然な文章に対して、前処理、クエリエラー修正、単語分割を通じて、単語ベクトルモデル、構文解析、パターンマイニングをさらに実装します。検索推奨のクエリ ステートメントは単語ベクトル空間にマッピングされ、概念パターン、エンティティ タイプ、およびエンティティを識別するための適切なベクトル表現学習モデルが確立されます。 ▲図4-13 検索推奨の主な内容 2. クエリの意図の理解上記のエンティティおよびコンセプト クエリを実行して、ナレッジ グラフ内のエンティティ リンクとコンセプト パターン マッチングを完了します。エンティティの理解は、ローカル エンティティ リンク、短いテキスト リンク、および言語間リンクを計算することによって実現されます。さらに複数の例を組み合わせて概念的な理解を深めます。拡張されたコンテンツを包括的に照会し、意図を分類または照合して、検索意図の判断を完了します。 3. クエリ文の生成意図分析またはテンプレート マッチングに従って、クエリの場所またはクエリの重要度に応じて SQL クエリ ステートメントまたは SPAQRL ステートメントが生成されます。 4. 回答の推奨と評価上記のクエリに対して、呼び出された回答をソートし、検索効果を評価して検索ロジックを改善します。ナレッジグラフのサポートにより、ナレッジグラフに基づく補助情報 (エンティティ、関係、属性など) を挿入することで、ユーザー、製品、動作の詳細なポートレートを作成できます。 たとえば、ユーザー情報には、ユーザー ID、ユーザー属性 (性別、年齢、地域)、以前に閲覧したテキストなどが含まれます。製品とは、ビデオ、曲、書籍など、システムが推奨するエンティティです。動作には、クエリ/コンテキスト、クリック、ビュー、お気に入り、トランザクションなどが含まれます。この情報はクエリのソートに役立ちます。 推奨はアクティブ検索と見なすことができますが、相互作用のスパース性やコールド スタートの問題を解決できないことがよくあります。制約ベースおよびインスタンスベースの推奨では外部情報が導入され、推奨システムが常識的な推論を使用できるようになります。これは、ある程度、コールド スタートの問題を解決できる推論形式と見なすことができます。インタラクションのスパース性の問題に対処するために、ナレッジ グラフのグラフ構造を使用して、検索推奨インタラクションを「エンティティ関係」パスとして表示し、パス計算に基づいてテキストの好みを予測することができます。 3. 質疑応答の対話近年、質疑応答の対話は、特にナレッジグラフの助けを借りて広く注目を集めており、ナレッジグラフの質疑応答は大きな進歩を遂げています。この対話は、質問と回答の複数回の繰り返しとして捉えることができるため、ここでは質問と回答の観点からのみ簡単に説明します。ナレッジ グラフの質問と回答は、ユーザーの質問のセマンティクスに基づいてナレッジ グラフ上で直接検索および推論し、ナレッジ グラフを事前知識として質問と回答に統合し、一致する回答を取得します。 その利点としては、処理後のデータ品質が高いため、グラフ質問応答の回答がより正確になり、検索効率が高くなり、推論をサポートできることが挙げられます。この質問と回答の方法は自動的、正確かつ直接的です。これは新しい形式の検索エンジンです。そのインテリジェンスは図 4-14 に示されています。 ▲図4-14 質問応答対話のインテリジェント表示 1. 質問意図の認識ユーザーの意図は、関係クエリ、属性クエリ、比較、判断などのさまざまなカテゴリに分類されます。文章テンプレートを設計し、マッチング判断を行ったり、エンティティ リンクと属性マッチングを通じて識別したりします。たとえば、エンティティと属性が直接一致する場合、属性値または関係名が返されるか、グラフ計算方法に基づいてインテントがラベル付けされます。現在普及しているディープラーニングに基づく手法は、入力文の表現を通じて学習することで意図の分類を完了します。 2. エンティティの認識と接続意図認識が完了したら、質問内のエンティティを識別し、それをナレッジ グラフ エンティティに対応させるために、エンティティ認識とリンクが必要です。候補リンク結果が複数ある場合は、曖昧さの解消が必要です。第 3 章で紹介したテキスト注釈、テキスト マッチング、グラフ計算方法に基づいて、最終的に最適な認識またはリンク結果が返されます。 3. スロットと関係の識別質問内のエンティティ、制約、および関係を識別し、候補関係から意味的一致が最も高い関係パスを選択します。これは主にスロットの充填または関係の識別を通じて行われます。主なエンティティと制約の関係はエンティティ制約を通じて決定され、問題の関係パスの識別は最終的にエンティティのリンクとソート モデルを通じて行われます。 4. 質問の書き直し関係パスの識別に基づいて、入力された質問が同義語で書き換えられます。書き換えられたクエリ文と元の入力質問文の意味的一貫性の判断を行う必要があります。意味的に一貫性のある質問の書き換えのみが有効になります。ユーザーの意図を変えずに、ユーザーの意図を満たす検索結果をできるだけ多く思い出します。 5. 回答のランキングと評価ソート モジュールを呼び出して、リコール結果をマージおよびフィルター処理します。キーワード文字列、知識拡張、シーンマッチングなどに基づく総合的なスコアリング。検証と評価の面では、オフラインおよびオンラインの質問応答モデルは、セマンティック検証セットとログサンプリング注釈セットの分析を通じて最適化および評価されます。 セマンティック検証セットは、同義のビジネス レコードをサンプリングすることによって取得され、ログ サンプリング注釈セットは、ユーザーの履歴ログを直接照合、推奨、または注釈付けすることによって取得されます。同時に、テキストの質問と回答をデータと統合することで、ナレッジグラフをさらに逆方向に完成させて更新することができ、知識ライフサイクルの閉ループが完成します。 4. 推論と意思決定推論と意思決定は、知識グラフのインテリジェントな出力の主な方法です。これらは通常、知識の発見、競合、異常の検出に使用され、知識の洗練と意思決定分析を実装する主な方法です。知識推論の一般的な方法には、オントロジー推論、ルールマイニング推論、表現学習推論などがあります。さまざまなアプリケーション シナリオに応じて、異なる推論方法を選択します。 実際のアプリケーションでは、オントロジー構造と定義されたルールに基づいて決定論的推論が実行されます。通常、既知の事実に基づいてルールの使用を繰り返し反復する必要があります。下の図 4-15 に示すように、楊宗宝と楊金華の関係を推測するには、ルールの構築と反復を実行する必要があります。次の関係が推測できます: hasChild(Yang Zongbao, Yang Jinhua)。 グラフ内の既知の関係パスに基づいて推論パスを確立します。増分知識とルールの迅速な読み込み、新しいデータの推論生成、およびより多くのエンティティ リンクと関係には、ナレッジ グラフ推論エンジンのサポートが必要です。 時間的知識グラフの条件下では、より大きな粒度と動的な進化を備えたイベント グラフが記述されます。これは主に、イベント認識とイベント影響分析という 2 つの側面に反映されます。 イベント認識は、イベント モデリング、またはイベント オントロジーの構築として理解できます。たとえば、訴訟イベントは、{イベント タイプ: 訴訟イベント、影響対象: 特定の企業、感情分析: -0.5、イベント ヒート: 0.8、イベント影響: 0.5} として単純にモデル化できます。または、より複雑なモデルを実行して、原告、被告、訴訟金額、訴訟場所などを特定し、イベントをより正確に記述することもできます。 ▲図4-15 ルールに基づく直接推論 イベント影響分析には 2 つの側面があります。1 つはイベントのバックテストであり、もう 1 つはイベント伝播の影響です。イベント バックテストは、過去に起こった類似のイベントの発生を統計的に分析するものです。その目的は、過去に起こった類似のイベントが関連企業にどのような影響を与えるかを確認することです。 イベント識別を通じて、特定のイベント主体の企業チェーン情報、株式チェーン情報、産業チェーン情報がヒットします。イベント自体の肯定的側面、否定的側面、影響力、人気は、ナレッジグラフエンティティの関係ネットワークに沿って伝播され、この伝播の影響は定性的または定量的に分析されます。上記のテキストの表現学習を通じて、業界データのリアルタイムクエリとリンク分析により、イベントの相関関係を予測し、企業が因果論理の推論と意思決定を実現するのに役立ちます。 たとえば、原材料価格が上昇した場合、業界の上流および下流の企業にどのような影響があるでしょうか。生産の観点から、市場の見通しを予測し、自社および競合他社の生産量、コスト、利益率を分析します。たとえば、需要と供給の関係から始めて、市場の容量、供給、在庫の関係を計算し、価格設定ポリシーの盲点を減らします。このタイプの質問の出発点は特定のイベントであり、求められる答えはそのイベントの影響分析です。 5. ブロックチェーンコラボレーション知識から価値へ、デジタル価値を実現するために知識の所有権と価格設定をどのように確認するか?ナレッジグラフは情報沈殿の最終形態であり、知識価格設定の観点から価値を測定することが最も適切な価格設定方法です。ブロックチェーンの最大の利点はデータの一貫性、不変性、透明性であるため、ナレッジグラフとブロックチェーンを組み合わせることで、ナレッジ認証やナレッジトークンを生成できます。 ナレッジ トークンは、権利と利益の証明であると同時に、交換可能かつ測定可能な使用証明書でもあり、使用中に知識に対して支払いを行うことができます。ブロックチェーンを通じて知識の価値の普及を促進することで、価値移転属性を持つあらゆる業界が再形成される可能性があります。例えば、ユーザーの行動知識や肖像知識をブロックチェーンを通じて確認し、流通を通じて現金に変換することで、ユーザーの権利に価値を与え、ユーザーの知識貢献意欲をさらに刺激します。これが将来の知識価値エコシステムの開発モデルです。 では、ブロックチェーンはナレッジグラフとどのように連携するのでしょうか? 実際、セマンティック ウェブの初期の概念には、知識の相互接続、分散型アーキテクチャ、知識の信頼性という 3 つの側面が含まれていました。現在、ナレッジグラフは「知識の相互接続」という概念をある程度実現しており、さらに知識認証と分散アーキテクチャの 2 つのレベルでソリューションを検討することができます。 1. 知識の一貫性の検証クラウドファンディングと知識認証は、現在多くのナレッジグラフ プロジェクトが直面している課題です。データソースが多岐にわたるため、知識の信頼性はエンティティレベルで測定する必要があります。膨大な量の事実をいかに効果的に管理、追跡、認証するかが、ナレッジグラフの分野におけるブロックチェーン技術の重要な応用方向となっています。 たとえば、インターネット裁判所の電子証拠ブロックチェーン プラットフォームは、時間、場所、人物、事件前、事件中、事件後の 6 つの側面を通じてデータ認証の問題を解決し、電子データの作成、保存、配布、使用の全プロセスを信頼できるものにします。 リンクの観点から見ると、インターネット上の事件情報は相互運用可能であり、どのリンクでも電子証拠を取得できます。例えば、オンラインショッピングのケースでは、実名認証、タイムスタンプ、暗号化、プライバシー保護、リスク管理、信用評価などを通じて、複数のノードに分散された証拠とタオバオの注文を一つずつ照合し、訴訟情報を抽出、マイニング、適用することで、知識の一貫性を検証し、認証作業を完了することができます。 2. 分散型価値マップ過去には、知識が分散していたため、知識の発行者が完全な制御を行うことは困難でした。近年、ブロックチェーン技術は、分散型エンティティID管理、分散型台帳に基づく用語とエンティティ名の管理、分散型台帳に基づく知識トレーサビリティ、知識署名、権限管理などの機能を実現しています。伝統的な産業チェーンの生態系に直面して、商業価値を再分配し、価値共有を実現する必要があります。 この目標を達成するために、分散型ブロックチェーンベースの所有権確認が作成され、各個人と各組織が自分の労働と生産性に基づいてトークンを発行し、グループコラボレーションを形成し、価値を公平に共有し、自己組織化された価値エコシステムの構築を促進します。したがって、ブロックチェーンのコンセンサスメカニズムを通じて、分散条件下での価値分配が実現され、知識グラフが価値グラフに変換されます。 著者について: 王楠は北京大学で博士号を取得し、2020 年の「荘清春-中関村 U30」の受賞者であり、中国科学院および北京情報科学技術大学コンピュータサイエンス学院で教鞭を執っています。研究の方向性には、人工知能アルゴリズム、ナレッジグラフ、自然言語処理、地磁気学などがあります。趙紅宇は現在、テンセント・カンディアン検索チームでアルゴリズム研究者として働いています。彼は、特許、採用、Web 検索などのシナリオをカバーする NLP、検索システム、推奨システムで長年の経験を持っています。彼は、PyTorch や TensorFlow などの主流のディープラーニング フレームワークに精通しており、最先端の NLP テクノロジを使用して産業プロジェクトの問題を解決するのが得意です。蔡悦氏は清華大学と深圳湾研究所の共同研究員です。2017年に北京大学で生体医工学の博士号を取得しました。彼は、Neusoft Medical 上海磁気共鳴研究開発センターの上級アルゴリズム研究者でした。研究分野はデータサイエンス、磁気共鳴画像アルゴリズム、ディープラーニングなど。脳科学分野におけるデータ分析、磁気共鳴画像高速化、ノイズ除去などのアルゴリズム研究が得意。 この記事は「自然言語理解と業界知識グラフ: 概念、方法、エンジニアリング実装」から抜粋したもので、出版社の許可を受けています。 (ISBN: 978-7-111-69830-2) |
>>: 専門家の洞察: 顔が高度なアクセス制御認証情報である 5 つの理由
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
OpenAIが2022年11月にChatGPTをリリースした後、GPT-4やEU AI法案からAI検...
テクノロジー企業が「個人のプライバシーを侵害する」顔認識システムを開発する際、彼らはあなたが予想して...
[[229439]]ビッグデータ概要編纂者:張南星、静哲、荊浩南1. 機械学習製品を効率的に開発す...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事の主な対象読者は、機械学習の愛好家やデータサイエンスの初心者、そして機械学習アルゴリズムを学...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
外交活動に関して、近年最も議論されている概念は「デジタル外交」であろう。 2010年には、当時米国務...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
金融部門は、個人の購入から大規模な取引まで、莫大な富につながる大量の貴重なデータを定期的に生成してお...
現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...
昨日、小米集団の創業者、雷軍氏は微博で、音声認識とAIの国際的専門家であり、音声認識オープンソースツ...