1. はじめに知識抽出とは通常、豊富な意味情報を持つタグやフレーズなどの非構造化テキストから構造化情報をマイニングすることを指します。業界で広く使用されているシナリオには、コンテンツ理解や製品理解、ユーザーが生成したテキスト情報から貴重なタグをマイニングしてコンテンツや製品に添付することなどがあります。 知識抽出は通常、抽出されたラベルまたはフレーズの分類を伴い、通常は名前付きエンティティ認識タスクとしてモデル化されます。一般的な名前付きエンティティ認識タスクは、名前付きエンティティのコンポーネントを識別し、コンポーネントを地名、個人名、機関名などのタイプに分類することです。ドメイン関連のタグワード抽出は、タグワードを識別し、シリーズ(Air Force One、Sonic 9)、ブランド(Nike、Li Ning)、タイプ(靴、衣類、デジタル)、スタイル(insスタイル、レトロスタイル、北欧スタイル)などのドメイン定義のカテゴリに分類します。 説明の便宜上、情報量の多いラベルやフレーズを、以下では総称してラベル語句と呼びます。 2. 知識抽出分類図1 知識抽出方法の分類 3. タグワードマイニング教師なし手法統計に基づく方法
計算方法:tfidf(t, d, D) = tf(t, d) * idf(t, D)、ここでtf(t, d) = log(1 + freq(t, d))、freq(t,d)は候補単語tが現在の文書dに出現する回数を表し、idf(t,D) = log(N/count(d∈D:t∈D))は候補単語tが出現する文書の数を表します。これは単語の希少性を示すために使用されます。単語が1つの文書にのみ出現する場合、その単語は比較的希少であり、より多くの情報を含んでいることを意味します。 特定のビジネス シナリオでは、品詞タグを使用して名詞をスクリーニングするなど、外部ツールを使用して候補の単語を最初にスクリーニングできます。
グラフベースモデル
表現ベースの方法 埋め込みベースモデル
教師あり手法
図2 BLING-KPEモデル構造 遠隔監視方法オートフレーズ本稿では、高品質なフレーズとは、以下の 4 つの条件を満たす完全な意味を持つ単語と定義しています。
AutoPhraseタグマイニングのプロセスを図3に示します。まず、品詞タグ付けにより高頻度Nグラム単語を候補として選択し、候補単語をリモート監視により分類します。次に、上記の4つの条件により高品質のフレーズを選択します(フレーズ品質再評価)。 図3 AutoPhraseタグマイニングプロセス 高品質のフレーズは、外部の知識ベースからポジティブ プールとして取得され、他のフレーズは負の例として使用されます。論文の実験統計によると、負のプール内の高品質のフレーズの 10% は、知識ベースにないため、負の例として分類されます。そのため、論文では、図 4 に示すランダム フォレスト アンサンブル分類器を使用して、分類に対するノイズの影響を軽減しています。産業用途では、分類器のトレーニングでは、事前トレーニング済みモデルBERT[13]に基づく文間関係タスクバイナリ分類法を採用することもできます。 図4 AutoPhraseタグ単語分類法 4. タグワード分類教師あり手法NER シーケンスタグ付けモデルLattice LSTM[8]は、中国語NERタスクに語彙情報を導入した最初の研究です。Latticeは有向非巡回グラフです。単語の開始文字と終了文字によってグリッドの位置が決まります。語彙情報(辞書)を介して文をマッチングすると、図5(a)に示すように、格子のような構造が得られます。 Lattice LSTM構造は、5(b)に示すように、語彙情報をネイティブLSTMに統合します。現在の文字については、この文字で終わるすべての外部辞書情報が統合されます。たとえば、「店」は「人和药店」と「药店」の情報を統合します。 Lattice LSTM は、各文字に対して、アテンション メカニズムを使用して、可変数の単語単位を融合します。 Lattice-LSTMはNERタスクのパフォーマンスを効果的に向上させますが、RNN構造では長距離の依存関係を捉えることができず、語彙情報の導入には損失があります。さらに、動的なLattice構造ではGPU並列処理を完全に実行できません。Flat[9]モデルはこれら2つの問題を効果的に改善します。図 5(c) に示すように、フラット モデルはトランスフォーマー構造を使用して長距離依存関係をキャプチャし、位置エンコーディング (Position Encoding) を設計してラティス構造を統合します。文字に一致する単語が文に連結された後、文字と単語ごとに 2 つのヘッド位置エンコーディングとテール位置エンコーディングが構築され、ラティス構造が有向非巡回グラフからフラットなフラット ラティス トランスフォーマー構造に平坦化されます。 図5 語彙情報を含むNERモデル 遠隔監視方法オートNERTie または Break エンティティ境界識別スキームは、BIOE 注釈方法の代わりに使用され、遠隔監視によって発生するノイズの問題を軽減します。Tie は、現在の単語と前の単語が同じエンティティ内にあることを意味し、Break は、現在の単語と前の単語が同じエンティティ内になくなったことを意味します。 エンティティ分類段階では、エンティティに複数のタイプがある状況に対処するためにファジー CRF が使用されます。 図6 AutoNERモデル構造 ボンド写真 図7 BONDトレーニングフローチャート V. 結論参考文献【1】Campos R、Mangaravite V、Pasquali A、et al. Yake! コレクションに依存しない自動キーワード抽出ツール[C]//Advances in Information Retrieval: 40th European Conference on IR Research、ECIR 2018、グルノーブル、フランス、2018 年 3 月 26 日~29 日、Proceedings 40。Springer International Publishing、2018: 806-810。https://github.com/LIAAD/yake 【2】Mihalcea R、Tarau P. Textrank: テキストに秩序をもたらす[C]//Proceedings of the 2004 conference on empirical methods in natural language processing. 2004: 404-411. 【3】Bennani-Smires K, Musat C, Hossmann A, et al. 文埋め込みを用いたシンプルな教師なしキーフレーズ抽出[J]. arXiv プレプリント arXiv:1801.04470, 2018. 【4】KeyBERT, https://github.com/MaartenGr/KeyBERT 【5】Witten IH、Paynter GW、Frank E、他 KEA: 実用的な自動キーフレーズ抽出[C]//Proceedings of the fourth ACM conference on Digital library. 1999: 254-255. 【6】Xiong L, Hu C, Xiong C, et al. 言語モデルを超えたオープンドメインウェブキーフレーズ抽出[J]. arXiv プレプリント arXiv:1911.02671, 2019. 【7】Sun, S., Xiong, C., Liu, Z., Liu, Z., & Bao, J. (2020). BERTによるキーフレーズチャンキングとサリエンシーランキングの共同研究。arXivプレプリントarXiv:2004.13639。 【8】Zhang Y, Yang J. 格子LSTMを使用した中国語NER[C] ACL 2018. 【9】Li X, Yan H, Qiu X, et al. FLAT: フラットラティストランスフォーマーを用いた中国語NER[C]. ACL 2020. 【10】Shang J, Liu J, Jiang M, et al. 大規模テキストコーパスからの自動フレーズマイニング[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837. 【11】 Shang J, Liu L, Ren X, et al. ドメイン固有辞書を用いた固有表現抽出アルゴリズムの学習[C]. EMNLP, 2018. 【12】Liang C、Yu Y、Jiang H、et al. Bond: 遠隔監視によるBert支援オープンドメイン固有表現抽出[C]//Proceedings of the 26th ACM SIGKDD international conference on knowledge discovery & data mining. 2020: 1054-1064. 【13】Meituan検索におけるNER技術の探求と実践、https://zhuanlan.zhihu.com/p/163256192 |
>>: 新しい近似注意メカニズム HyperAttention: 長いコンテキストに適しており、LLM 推論が 50% 高速化します
[[214658]] 2週間後、2018 CESがラスベガスで開幕します。今年と同様に、CES 20...
ML 以前の世界が存在していたことを信じられないこともあります。現代のデータ分析の多くは ML 技術...
テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...
2017 年に最も価値のある機械学習スキルはどれでしょうか? Quora の 2 つの回答では、最...
テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...
近年、人工知能の進歩により、私たちのコミュニティの安全性は大幅に向上しました。この技術は、緊急管理者...
[[397895]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
7月29日、これまでの多くの噂がついに確認された。マイクロソフトとヤフーは10年間の検索協力契約を締...
[[319322]]この記事では、一般的に使用されている機械学習アルゴリズムの概要と、一般的に使用さ...
多くの自然言語処理には機械学習が関係しているため、機械学習の基本的なツールとテクニックを理解しておく...
皆さんこんにちは、Lugaです。今日も引き続き、人工知能(AI)エコシステムに関連する技術であるLa...
[[357414]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...