機械学習に基づく自動文書ラベル付けグラフ技術

このコースでは、ナレッジグラフ技術の開発動向、機械学習に基づくラベルグラフ技術のアイデア、主要技術の分析、代表的なアプリケーション事例の共有という4つの側面に焦点を当てます。

1. ナレッジグラフ技術の開発動向

1. ナレッジグラフ

（１）定義

ナレッジグラフ: 非常に大規模なセマンティックネットワークシステムであり、膨大なテキスト知識をマイニングする最も一般的な手段の 1 つです。ナレッジグラフは、現実世界に存在するさまざまなエンティティまたは概念とそれらの関係を記述することを目的としており、通常はトリプルで表されます。ナレッジグラフは、ノードがエンティティまたは概念を表し、エッジが属性または関係で構成される巨大なグラフとして表示することもできます。

[[391855]]

（２）開発の経緯

ナレッジグラフの発展は、起源、発展、繁栄の 3 つの段階に分けられます。

（３）応用

現在、ナレッジグラフは金融、医療、教育、司法など多くの業界で広く利用されています。

• 金融業界：マネーロンダリング防止、詐欺防止など

• 医療業界

• 教育業界

• 司法制度: ナレッジグラフは、司法制度における証拠のインデックス作成、類似ケースのプッシュ、結果の予測、証拠の分析、文書の生成、インテリジェントな調停の問題を解決できます。

（４）重要な役割

ナレッジグラフは、知識を獲得、表現、処理する能力を持ち、人間の心を他の種の心と区別する重要な特徴です。ナレッジグラフは、機械が人間の知識に基づいて認知能力を獲得することを促進する重要な方法となり、将来のインテリジェント社会の重要な生産手段に徐々になります。

ナレッジグラフは、知覚層と認知層を含む人工知能の基礎です。ナレッジグラフは人工知能の応用を促進し、強力な人工知能の開発の中心的な原動力の 1 つです。

（５）ナレッジグラフの特徴

• 特徴：

√ 適用範囲: テキスト知識とデータ

√ データ: 一定量のデータが必要

√ 知識内容: 具体的なビジネス状況に応じて、知識の幅と深さが求められます。

√ データ注釈は必須です。機械学習の前提条件であり、多ければ多いほど良い

√ビジネスの専門家は結果の正確性を評価する必要がある

√ 汎用性が低い：業界によって効果が大きく異なる

√ 技術的な複雑さ: ビジネス、情報、ネットワーク、人工知能、アルゴリズム、グラフィックス、ビッグデータなどが関係します。

2. ナレッジグラフは多くの課題に直面している

（１）データの課題：複数のソースのデータは曖昧で、ノイズが多く、データの関連性が不明瞭である

（２）アルゴリズムの課題：既存アルゴリズムからの知識抽出精度、アルゴリズムの性能、アルゴリズムの解釈可能性に関する課題（業界ごとに異なる）

（３）基礎知識ベースの課題：知識ベースの統合、垂直的知識ベースの構築、閉鎖的基礎知識ベース

（4）開発ツールの課題：完全なライフサイクルプラットフォームの欠如、アルゴリズムツールの専門家間の人間と機械のコラボレーションを改善する必要性、テキストベースのナレッジグラフ構築ツールのパフォーマンスの低さ、クロスランゲージシステムの課題、ナレッジグラフミドルウェアの欠如

（５）プライバシーとセキュリティの課題

（６）試験・認証における課題

（７）ビジネスモデルと人材に関する課題

（８）標準化の課題

3. 産業文書知識の特徴

ナレッジグラフは一般分野では広く利用・開発されていますが、産業分野では広く利用されていません。これは、産業分野の業界特性、専門性、機密性、複雑さに関係しています。

（１）原文書の知識データは膨大で形式も多様であるため、知識獲得は複雑で技術的に難しく、コストと時間がかかります。

（２）急速な年間成長と分散型ストレージ

（３）専門的すぎる：特定のシナリオに強く関連している

（４）公的産業知識基盤が少ない

（５）機密性が高い：知識の普及と共有は制限されている

（６）専門分野が多く、知識の応用が複雑で、汎用性が低く、コストが高い

4. 産業分野におけるナレッジグラフの課題

従来の一般分野とは異なり、産業分野におけるナレッジグラフは、知識の獲得と知識の応用に大きな困難を抱えています。まとめると、主に以下の点があります。

• 産業知識獲得技術は難しく、多額の投資が必要で、長い時間を要する

• 小さなバッチと小さなサンプルで知識グラフを生成する方法

• ナレッジグラフの正確性

• 構造化データによる知識融合問題

• 標準化されたナレッジグラフプラットフォームの欠如：アルゴリズム、言語、専門分野の恣意的な拡張

• 自律的かつ制御可能な問題

2. 機械学習に基づくラベルグラフ技術のアイデア

1. ラベルの定義と意味

（１）ラベルの定義：ラベルは知識内容を高度に抽象化し、高度に一般化したものであり、知識の特定の次元の特性である。意味や含意が豊かで、内容はシンプルで明快です。

（２）ラベル機能：分類、クイック検索、クイック理解、ユーザーポートレート、製品ポートレート…

（３）産業分野におけるラベルの意義：

• 従来のラベリング機能と能力を備えている

• 専門性: 専門用語、語彙、トピック…

• 知識運用と保守モードに基づく産業知識グラフの重要な方法の1つです。タグはキーワード、トピック、イベントとして考えることができます。

2. ラベルの貼り付け

タグの用途: 知識の分類、情報の関連付け、ユーザーポートレート、製品ポートレート、データ統計マイニングなど、非常に広範囲にわたります。顧客管理を例にとると、顧客管理は 6 つの主要目標を設定するための関連ラベリングシステムであり、正確な顧客マーケティングを実現し、最大の顧客価値を生み出すことができます。

3. ラベルシステム構築方法

（１）３つの大原則：

• 大規模で包括的なフレームワークを放棄し、ビジネスシナリオに基づいてラベル要件を逆転させる

• 効率性と通信コストの問題を解決する自動ラベル生成

• 効果的なタグ管理メカニズム

（２）完全な表示システムを確立するには４つのポイントが必要

4. ラベルの例

電子商取引のラベルシステムの例

知識3Dラベリングシステムの例

5. ラベルグラフに基づく技術的アイデア

（１）キーアイデア：実体の代わりにラベル

（２）精度に影響を与える要因：

• 前処理結果の品質

• ラベルエンティティ認識

• 関係抽出

• AIアルゴリズムの最適化

• ビジネスシナジーの度合い

（３）知識の運用と保守に基づくナレッジグラフの特徴：オリジナルデータが少なく、反復を通じて徐々にデータを充実させ、反復を通じてグラフ内のエラーを修正し、専門家の頭の中にある知識を徐々にマイニングし、人間とコンピュータのコラボレーションに特に注意を払います。

3. 主要技術分析

1. スマートラベル技術

（１）技術的ポイント：人工知能アルゴリズムに基づいて、単一の文書から複数のコンテンツ特徴語を文書のコンテンツタグとして抽出します。

（２）ラベル目的：コンテンツラベルエンティティ処理、ラベルエンティティ関係、ラベルアプリケーション抽出の次のステップの準備

（３）専門的な要件：

• 専門用語、同義語を提供することで専門性を高めることができます（必須）

• ラベルとコードを事前に設定することで、ラベル名を標準化し、ラベルの範囲を狭めることができます。

• 関連する単語間の関係と重みを事前に設定することで、正確な意味理解が可能になり、曖昧さが排除されます。

• 手動で注釈を付けることで精度を向上させることができます（オプション）

• ラベル付けプロセス中に、手動でエラー修正を実行できます（手動アノテーションと同様、小規模サンプルのナレッジグラフでよく使用される方法）

2. ラベル関係抽出技術

• 一般的な知識グラフの要素: エンティティ、関係、方向

• ナレッジグラフ要素にタグを付ける: 通常のナレッジグラフと同様

√ タグ = エンティティ

√ 関係性: 従来の方法で抽出

√ 指示: 従来の方法で抽出する

√ タグマップはキーワードマップやテーママップに似ています

√ 自動化: 手動ラベル付けによる補完 (作業負荷が少なく、シンプル)

3. ラベルグラフの保存と可視化技術

• グラフ構造: 三項関係、つまりオブジェクトA-関係-オブジェクトB

• グラフストレージ: RDBMSデータベースまたはグラフデータベース

• グラフ検索: タグまたはテキストに基づく

• 可視化：特定のグラフデータに直接関連せず、強力な拡張機能を備えたECHARTチャートなど

4. 代表的な応用事例の共有

1. 実験的知識文書に基づくラベル知識グラフの要件

• 背景：

あるテスト部門のテスト設計者の作業用コンピュータには、テストに関連する長年の参考資料が保存されています。複数のフォルダとサブフォルダにあらかじめ分類・整理されていますが、一部のフォルダには多数の文書が含まれており、一部のフォルダには 1 つの文書しか含まれていません。また、毎年更新が頻繁に行われるため、使用に不便が生じます。主な問題点をまとめると、次のようになります。

√ 問題: 情報を検索するたびに、一度にすべてを見つけることができず、フォルダごとに検索する必要があります

√ 効率が低い: ドキュメントを表示するたびに、ドキュメントを開いて大まかに読んで、必要なコンテンツが含まれているかどうかを確認する必要があります。

√ 不正確な専門性: 実験に関連する資料が専門的になるにつれて、フォルダーの命名が文書の内容を反映できなくなります。

√ 情報島化現象は深刻です。必要なコンテンツがさまざまな文書に散在しており、複数の文書から必要なコンテンツをすばやく見つけることは困難です。

• 要件: 上記の問題を迅速に解決できるツールまたは方法を提供する

2. 実験参考文献の分析

（１）原資料分析

• 文書総数: 3,500件以上

• ディレクトリ数: 82

• 第2レベルおよび第3レベルのディレクトリが多数あります

• 複数のファイル形式: WORD、PDF、TXT

• テスト、ビッグデータ、クラウドコンピューティング、テストピース、テスト計画、テストレポートなど、幅広い専門分野が関係します。

• 文献の約半分は実験に関するものである

（２）実験文書分析

• ビジネス: カタログ 31 件、文書 647 件

• データ: 11 ディレクトリ、982 ドキュメント

• 文書が不均等に分散されている：一部の文書は多く、一部の文書は少ない

（３）技術的なアイデア

• 全体的なアイデア: 機械学習に基づく自動文書ラベル付けグラフ技術を使用して、

• 理由:

√ 文書の範囲は比較的広いですが、サブカテゴリ化された文書の数が少なすぎ、最小の数は 1 つの文書のみであるため、大規模なナレッジグラフテクノロジには適していません。

√ ドキュメントは定期的に更新されますが、更新回数は多くありません

√ ユーザーは、インテリジェントで自動的なラベル付けとナレッジグラフの生成において作業者を支援するのに十分な資格と能力を備えたビジネス専門家である

√ ユーザーはいつでもグラフのエラーを修正できます

• 主な手順:

√ テキスト前処理

√ 知識文書の意味化

√ インテリジェントな自動ラベル付け

√ スマートラベルの精度を修正

√ 自動ラベル付けマップ

√ ラベルマップの精度を修正する

• 前処理ポイントと結果の表示:

√ 文書内の画像と表は、特別な処理のために個別に抽出する必要があります

√ 論文の縦書きレイアウト形式に注意してください

√ テーブル内のデータは個別に処理する必要がある

3. 実験的知識文書スマートタグ

インテリジェントな自動ラベル付け: 標準化されたテストラベルとコードを事前に設定。人工知能は、ドキュメントの内容に基づいて事前に設定されたラベルを決定し、さまざまなラベル抽出アルゴリズムを使用して総合的に分析し、適切なラベルを決定します (デフォルトは最初の 10 個)。実験的な専門用語、語彙、同義語、反意語の助けにより、精度は 90% を超えます。

4. 実験的なラベル知識グラフ

（１）グラフ生成

中国語の文法、品詞、文の構成要素に基づいて、高度で成熟したラベルエンティティ関係抽出アルゴリズムを使用して関係を抽出し、ラベルエンティティがグラフの「3 項」関係を構成します。

地上モデルテストアトラスの例

（２）精度の向上

• テストデータ:

√ 補助語彙のテスト：専門用語、同義語、反意語、関連語

√ 曖昧さの排除：関連語の重みルールによる

√ 関連語の範囲を拡大：一部は手動で与えられ、大部分は人工知能によって与えられ、その後人間が関連語として選択するかどうかを決定します

√ 専門ツールを使用して、2つの垂直レイアウトのドキュメントを個別に処理します

• 技術的な側面:

√ 複数のアルゴリズムを使用して包括的な比較と分析を行い、最適なラベルを選択して並べ替えます