1. はじめに知識抽出とは通常、豊富な意味情報を持つタグやフレーズなどの非構造化テキストから構造化情報をマイニングすることを指します。業界で広く使用されているシナリオには、コンテンツ理解や製品理解、ユーザーが生成したテキスト情報から貴重なタグをマイニングしてコンテンツや製品に添付することなどがあります。 知識抽出は通常、抽出されたラベルまたはフレーズの分類を伴い、通常は名前付きエンティティ認識タスクとしてモデル化されます。一般的な名前付きエンティティ認識タスクは、名前付きエンティティのコンポーネントを識別し、コンポーネントを地名、個人名、機関名などのタイプに分類することです。ドメイン関連のタグワード抽出は、タグワードを識別し、シリーズ(Air Force One、Sonic 9)、ブランド(Nike、Li Ning)、タイプ(靴、衣類、デジタル)、スタイル(insスタイル、レトロスタイル、北欧スタイル)などのドメイン定義のカテゴリに分類します。 説明の便宜上、情報量の多いラベルやフレーズを、以下では総称してラベル語句と呼びます。 2. 知識抽出分類図1 知識抽出方法の分類 3. タグワードマイニング教師なし手法統計に基づく方法
計算方法:tfidf(t, d, D) = tf(t, d) * idf(t, D)、ここでtf(t, d) = log(1 + freq(t, d))、freq(t,d)は候補単語tが現在の文書dに出現する回数を表し、idf(t,D) = log(N/count(d∈D:t∈D))は候補単語tが出現する文書の数を表します。これは単語の希少性を示すために使用されます。単語が1つの文書にのみ出現する場合、その単語は比較的希少であり、より多くの情報を含んでいることを意味します。 特定のビジネス シナリオでは、品詞タグを使用して名詞をスクリーニングするなど、外部ツールを使用して候補の単語を最初にスクリーニングできます。
グラフベースモデル
表現ベースの方法 埋め込みベースモデル
教師あり手法
図2 BLING-KPEモデル構造 遠隔監視方法オートフレーズ本稿では、高品質なフレーズとは、以下の 4 つの条件を満たす完全な意味を持つ単語と定義しています。
AutoPhraseタグマイニングのプロセスを図3に示します。まず、品詞タグ付けにより高頻度Nグラム単語を候補として選択し、候補単語をリモート監視により分類します。次に、上記の4つの条件により高品質のフレーズを選択します(フレーズ品質再評価)。 図3 AutoPhraseタグマイニングプロセス 高品質のフレーズは、外部の知識ベースからポジティブ プールとして取得され、他のフレーズは負の例として使用されます。論文の実験統計によると、負のプール内の高品質のフレーズの 10% は、知識ベースにないため、負の例として分類されます。そのため、論文では、図 4 に示すランダム フォレスト アンサンブル分類器を使用して、分類に対するノイズの影響を軽減しています。産業用途では、分類器のトレーニングでは、事前トレーニング済みモデルBERT[13]に基づく文間関係タスクバイナリ分類法を採用することもできます。 図4 AutoPhraseタグ単語分類法 4. タグワード分類教師あり手法NER シーケンスタグ付けモデルLattice LSTM[8]は、中国語NERタスクに語彙情報を導入した最初の研究です。Latticeは有向非巡回グラフです。単語の開始文字と終了文字によってグリッドの位置が決まります。語彙情報(辞書)を介して文をマッチングすると、図5(a)に示すように、格子のような構造が得られます。 Lattice LSTM構造は、5(b)に示すように、語彙情報をネイティブLSTMに統合します。現在の文字については、この文字で終わるすべての外部辞書情報が統合されます。たとえば、「店」は「人和药店」と「药店」の情報を統合します。 Lattice LSTM は、各文字に対して、アテンション メカニズムを使用して、可変数の単語単位を融合します。 Lattice-LSTMはNERタスクのパフォーマンスを効果的に向上させますが、RNN構造では長距離の依存関係を捉えることができず、語彙情報の導入には損失があります。さらに、動的なLattice構造ではGPU並列処理を完全に実行できません。Flat[9]モデルはこれら2つの問題を効果的に改善します。図 5(c) に示すように、フラット モデルはトランスフォーマー構造を使用して長距離依存関係をキャプチャし、位置エンコーディング (Position Encoding) を設計してラティス構造を統合します。文字に一致する単語が文に連結された後、文字と単語ごとに 2 つのヘッド位置エンコーディングとテール位置エンコーディングが構築され、ラティス構造が有向非巡回グラフからフラットなフラット ラティス トランスフォーマー構造に平坦化されます。 図5 語彙情報を含むNERモデル 遠隔監視方法オートNERTie または Break エンティティ境界識別スキームは、BIOE 注釈方法の代わりに使用され、遠隔監視によって発生するノイズの問題を軽減します。Tie は、現在の単語と前の単語が同じエンティティ内にあることを意味し、Break は、現在の単語と前の単語が同じエンティティ内になくなったことを意味します。 エンティティ分類段階では、エンティティに複数のタイプがある状況に対処するためにファジー CRF が使用されます。 図6 AutoNERモデル構造 ボンド写真 図7 BONDトレーニングフローチャート V. 結論参考文献【1】Campos R、Mangaravite V、Pasquali A、et al. Yake! コレクションに依存しない自動キーワード抽出ツール[C]//Advances in Information Retrieval: 40th European Conference on IR Research、ECIR 2018、グルノーブル、フランス、2018 年 3 月 26 日~29 日、Proceedings 40。Springer International Publishing、2018: 806-810。https://github.com/LIAAD/yake 【2】Mihalcea R、Tarau P. Textrank: テキストに秩序をもたらす[C]//Proceedings of the 2004 conference on empirical methods in natural language processing. 2004: 404-411. 【3】Bennani-Smires K, Musat C, Hossmann A, et al. 文埋め込みを用いたシンプルな教師なしキーフレーズ抽出[J]. arXiv プレプリント arXiv:1801.04470, 2018. 【4】KeyBERT, https://github.com/MaartenGr/KeyBERT 【5】Witten IH、Paynter GW、Frank E、他 KEA: 実用的な自動キーフレーズ抽出[C]//Proceedings of the fourth ACM conference on Digital library. 1999: 254-255. 【6】Xiong L, Hu C, Xiong C, et al. 言語モデルを超えたオープンドメインウェブキーフレーズ抽出[J]. arXiv プレプリント arXiv:1911.02671, 2019. 【7】Sun, S., Xiong, C., Liu, Z., Liu, Z., & Bao, J. (2020). BERTによるキーフレーズチャンキングとサリエンシーランキングの共同研究。arXivプレプリントarXiv:2004.13639。 【8】Zhang Y, Yang J. 格子LSTMを使用した中国語NER[C] ACL 2018. 【9】Li X, Yan H, Qiu X, et al. FLAT: フラットラティストランスフォーマーを用いた中国語NER[C]. ACL 2020. 【10】Shang J, Liu J, Jiang M, et al. 大規模テキストコーパスからの自動フレーズマイニング[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837. 【11】 Shang J, Liu L, Ren X, et al. ドメイン固有辞書を用いた固有表現抽出アルゴリズムの学習[C]. EMNLP, 2018. 【12】Liang C、Yu Y、Jiang H、et al. Bond: 遠隔監視によるBert支援オープンドメイン固有表現抽出[C]//Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining. 2020: 1054-1064. 【13】Meituan検索におけるNER技術の探求と実践、https://zhuanlan.zhihu.com/p/163256192 |
>>: 新しい近似注意メカニズム HyperAttention: 長いコンテキストに適しており、LLM 推論が 50% 高速化します
インターネットとビッグデータ時代の到来により、リアルタイムのデータ同期は多くの企業が直面する課題とな...
量子コンピュータは、従来のコンピュータでは解決に数十億年かかる問題を理論的に解決できますが、十分な量...
ソフトウェアの熟練度は「ツール」の範疇に入るため、主にポートフォリオで対外的に証明するデザイナーにと...
人工知能はまだ少し遠く、Google の巨大なデータセンターの部屋や神秘的な MIT ロボット工学研...
[[378431]] 01 5Gのコンセプト5Gの正式名称は第5世代移動通信技術です。これは最新世代...
AI の成熟度が増すということは、あらゆる規模の組織が AI をより簡単に使用して、重大で複雑な問題...
[[206942]]国内外の権威ある20の機関のEconomic Information Daily...
[[426794]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...
RL アルゴリズムでは通常、観測値の取得、アクションの計算、およびそれらの実行の間で環境の状態が変化...
北京、2021 年 12 月 3 日 -エンタープライズ自動化ソフトウェア企業である UiPath ...
これまで、AI への投資のほとんどは、大規模なデータセンター内でテクノロジーを実行することに重点を置...
実際のアプリケーションでは、顔認識は認識精度に対する要求が高いだけでなく、高い効率も求められます。特...
絶えず変化するテクノロジー環境において、ChatGPT とその AI チャットボットは先頭に立って、...
PyTorch は、ディープラーニング分野で最も人気のあるフレームワークの 1 つです。最初のバージ...