テキストからキーワードを抽出するにはどうすればいいですか? Daguan Dataが使用する3つのアルゴリズムから始めましょう

テキストからキーワードを抽出するにはどうすればいいですか? Daguan Dataが使用する3つのアルゴリズムから始めましょう

導入

自然言語処理の分野では、膨大なテキストファイルを処理する上で、ユーザーが最も関心を持っている問題を抽出することが鍵となります。長いテキストでも短いテキストでも、いくつかのキーワードを通じてテキスト全体の主要なアイデアを垣間見ることができることがよくあります。同時に、テキストベースの推奨であれ、テキストベースの検索であれ、テキストキーワードに大きく依存しており、キーワード抽出の精度は、推奨システムや検索システムの最終的な効果に直接関係しています。したがって、キーワード抽出はテキストマイニングの分野で非常に重要な部分です。

テキストのキーワード抽出方法には、教師あり、半教師あり、教師なしの 3 種類があります。

  • 教師ありキーワード抽出アルゴリズムは、キーワード抽出アルゴリズムをバイナリ分類問題と見なし、文書内の単語またはフレーズがキーワードであるかどうかを判断します。分類問題であるため、注釈付きのトレーニングコーパスを提供し、トレーニングコーパスを使用してキーワード抽出モデルをトレーニングし、モデルに基づいてキーワードを抽出する必要があるドキュメントからキーワードを抽出する必要があります。
  • 半教師ありキーワード抽出アルゴリズムには、少量のトレーニング データのみが必要です。このトレーニング データを使用してキーワード抽出モデルが構築され、その後、新しいテキストからキーワードが抽出されます。これらのキーワードは手動でフィルタリングされ、フィルタリングされたキーワードがトレーニング セットに追加されて、モデルが再トレーニングされます。
  • 教師なし方式では、手動で注釈を付けられたコーパスは必要ありません。特定の方法を使用して、テキスト内のより重要な単語をキーワードとして見つけ、キーワード抽出を実行します。

教師ありテキスト キーワード抽出アルゴリズムには高い人件費がかかるため、既存のテキスト キーワード抽出では、適用性がより強い教師なしキーワード抽出が主に使用されています。テキストキーワード抽出プロセスは次のとおりです。

図1 教師なしテキストキーワード抽出のフローチャート

教師なしキーワード抽出アルゴリズムは、統計的特徴に基づくキーワード抽出、単語グラフ モデルに基づくキーワード抽出、トピック モデルに基づくキーワード抽出の 3 つのカテゴリに分けられます。

1. 統計的特徴に基づくキーワード抽出アルゴリズム

統計的特徴に基づくキーワード抽出アルゴリズムの考え方は、文書内の単語の統計情報を使用して文書のキーワードを抽出することです。通常、テキストは前処理されて候補単語のセットが取得され、次に特徴値の量子化を使用して候補セットからキーワードが取得されます。統計的特徴に基づくキーワード抽出の鍵は、どのような特徴量の定量的指標を使用するかです。現在、一般的に使用されているカテゴリは次の3つです。

(1)単語の重みに基づく特徴量子化

単語の重みに基づく特徴の定量化には、主に品詞、単語の頻度、逆文書頻度、相対単語頻度、単語の長さなどが含まれます。

(2)ワード文書の位置に基づく特徴量化

この特徴量化方法は、記事内の異なる位置にある文が文書に対して異なる重要性を持つという仮定に基づいています。通常、記事の最初のN語、最後のN語、段落の始めと終わり、タイトル、紹介文などが代表的なもので、これらの単語は全体のテーマを表現するキーワードとして機能します。

(3)単語連想情報に基づく特徴量化

単語関連情報とは、単語と単語、単語と文書間の関連度を指し、相互情報量、ヒット値、寄与度、依存性、TF-IDF値などが含まれます。

一般的に使用される固有値定量化指標をいくつか紹介します。

1.1 品詞

品詞は、単語の分割と文法分析によって得られた結果です。既存のキーワードのうち、大部分は名詞または動名詞です。一般的に言えば、名詞は他の品詞よりも文章の主な考えを表現するのに適しています。ただし、品詞は特徴量化の指標として、通常は他の指標と組み合わせて使用​​されます。

1.2 単語の頻度

用語頻度は、テキスト内で単語が出現する頻度を示します。一般的に言えば、テキスト内で単語が頻繁に出現するほど、その単語が記事の中心となる単語である可能性が高いと考えられます。単語の頻度は、単語がテキスト内に出現する回数を単純に数えます。しかし、単語の頻度のみに頼って取得されたキーワードは不確実性が大きく、長いテキストの場合、この方法ではノイズが多くなります。

1.3 位置情報

一般的に言えば、単語が現れる位置はその単語にとって大きな価値を持ちます。例えば、タイトルや概要は著者がまとめた論文のメインアイデアなので、ここに出てくる単語は代表的なものとなり、キーワードになりやすいです。ただし、著者ごとに習慣や執筆スタイルが異なるため、キーセンテンスの位置も異なります。したがって、これもキーワードを取得する非常に広範な方法であり、単独で使用されることは通常ありません。

1.4 相互情報

相互情報量は情報理論の概念であり、変数間の相互依存性の尺度です。相互情報量は実数値のランダム変数に限定されず、より一般的なものであり、結合分布 p(X,Y) が分解された周辺分布 p(X)p(Y) の積にどの程度類似しているかを決定します。相互情報量の計算式は以下のとおりです。

ここで、p(x,y)はXとYの結合確率分布関数であり、p(x)とp(y)はそれぞれXとYの周辺確率分布関数です。

相互情報量をキーワード抽出の特徴量化として使用する場合、テキストの本文とタイトルを使用して PAT ツリーを構築し、左文字列と右文字列の相互情報量を計算します。

1.5 単語の範囲

単語の範囲とは、テキスト内の単語またはフレーズの最初と最後の出現間の距離を指します。単語の範囲が大きいほど、その単語はテキストにとって重要であり、テキストのテーマを反映できます。単語の範囲を計算する式は次のとおりです。

このうち、 は単語 i がテキスト内で最初に現れる位置を表し、 は単語 i がテキスト内で最初に現れる位置を表し、 sum はテキスト内の単語の総数を表します。

ワードスパンは、実際にはテキストには常に多くのノイズ(キーワードではない単語を指す)が存在するため、キーワードを抽出する方法として使用されます。ワードスパンを使用すると、このノイズを減らすことができます。

1.6 TF-IDF値

単語のTFは、文書内での単語の出現頻度を指します。単語wがテキスト内にm回出現し、テキスト内の単語の総数がnであるとすると、

単語の IDF はコーパスから取得され、その単語がコーパス全体に出現する頻度を示します。コーパス全体に単語wを含むテキストがM個あり、コーパスにはN個のテキストがあると仮定すると、

これから単語wのTF-IDF値を得ることができます。

TF-IDF の利点は、実装が簡単で、比較的理解しやすいことです。しかし、キーワード抽出における TFIDF アルゴリズムの欠点も明らかです。コーパスに大きく依存しており、トレーニング用に処理されるテキストと一致する高品質のコーパスを選択する必要があります。さらに、IDF 自体は、ノイズを抑制しようとする重み付け手法であり、テキスト内で頻度の低い単語を優先する傾向があるため、TF-IDF アルゴリズムの精度は低くなります。 TF-IDF アルゴリズムのもう 1 つの欠点は、単語の位置情報を反映できないことです。キーワードを抽出する場合、テキストのタイトル、テキストの最初の文、最後の文などの単語の位置情報には、より重要な情報が含まれているため、より高い重みを与える必要があります。

統計的特徴に基づくキーワード抽出アルゴリズムは、上記の特徴量的指標のいくつかを通じてキーワードを分類し、TopK 単語をキーワードとして取得します。

統計的特徴に基づくキーワードは、特徴の定量的指標の計算に重点が置かれており、異なる定量的指標は異なる結果をもたらします。同時に、異なる定量的指標にもそれぞれ長所と短所があり、実際の応用では、通常、異なる定量的指標を組み合わせて、Topk 単語をキーワードとして取得します。

2. 単語グラフモデルに基づくキーワード抽出アルゴリズム

単語グラフ モデルに基づくキーワード抽出では、まず文書の言語ネットワーク グラフを構築し、次に言語のネットワーク グラフ分析を実行して、このグラフ上で重要な単語またはフレーズを検索する必要があります。これらのフレーズが文書のキーワードです。言語ネットワーク図のノードは基本的に単語です。単語のリンク方法の違いにより、言語ネットワークの主な形式は、共起ネットワーク図、文法ネットワーク図、意味ネットワーク図、その他のネットワーク図の 4 種類に分けられます。

言語ネットワーク グラフを構築するプロセスでは、前処理された単語がノードとして使用され、単語間の関係がエッジとして使用されます。言語ネットワーク図では、エッジ間の重みは一般に単語間の相関関係によって表現されます。言語ネットワーク図を使用してキーワードを取得する場合、各ノードの重要度を評価し、重要度に応じてノードを並べ替え、TopKノードによって表される単語をキーワードとして選択する必要があります。ノードの重要度を計算する方法はいくつかあります。

2.1 包括的特徴法

包括的特徴法は、ソーシャルネットワーク中心性分析法とも呼ばれ、ノードの重要性はノードの意義に等しいという考え方に基づいており、ネットワークの整合性を損なわないことに基づいています。この方法は、ネットワークの局所的および大域的特性の観点から、ネットワーク構造の位相的特性を定量的に分析するものであり、一般的に使用される定量的計算方法は次のとおりです。

(1)学位

ノードの次数とは、そのノードへの直接ベクトルを持つノードの数を指し、ノードのローカルな影響を表します。重み付けされていないネットワークの場合、ノードの次数は次のとおりです。

重み付きネットワークの場合、ノードの次数はノードの強度とも呼ばれ、計算式は次のようになります。

(2)近接性

ノードの近接性とは、ノードから他のノードまでの最短経路の合計の逆数を指し、情報伝達の近さを示します。計算式は次のとおりです。

(3)固有ベクトル

固有ベクトルの考え方は、ノードの集中化テスト値が周囲の接続されたすべてのノードによって決定されるというものです。つまり、ノードの集中化インデックスは、その隣接ノードの集中化インデックスの線形重ね合わせに等しくなければならず、これは高い値を持つ隣接ノードを通じて得られる間接的な影響を表します。固有ベクトルの計算式は次のとおりです。

(4)クラスタリング係数

ノードのクラスタリング係数は、隣接するノード間の接続数と、それらの間のすべての可能なリンク数の比率です。これは、グラフの頂点間のクラスタリングの度合いを表すために使用される係数です。計算式は次のとおりです。

(5)平均最短経路

ノードの平均最短経路は近接中心性とも呼ばれ、ノードのすべての最短経路の合計の平均です。これは、情報を伝達する際のノードの他のノードへの依存度を示します。ノードが他のノードに近いほど、情報を広めるときに他のノードに依存する必要性が低くなります。ノードからネットワーク内の各ポイントまでの距離が非常に短い場合、この点は他のノードによって制限されません。計算式は以下のとおりです。

各アルゴリズムは異なる側面に焦点を当てているため、実際の問題で選択される定量分析方法も異なります。同時に、キーワード抽出のために、前のセクションで提案した統計的手法を組み合わせて品詞などの単語の重みを取得し、単語のコロケーションネットワークを構築し、上記の方法を使用してキーワードを取得することもできます。

2.2 システム科学アプローチ

システム科学アプローチを用いた中心性分析の考え方は、ノードの重要性は、ノードが削除された後の言語ネットワークグラフ全体へのダメージの度合いに等しいというものです。重要なノードを削除すると、ネットワーク接続などに変化が生じます。ネットワーク グラフ内のノードを削除すると、グラフの特定の特性が変わります。特性の変化の大きさに基づいてノードの重要度を取得し、ノードをフィルタリングすることができます。

2.3 ランダムウォーク法

ランダムウォークアルゴリズムは、ネットワークグラフで非常に有名なアルゴリズムです。指定されたグラフと開始点からランダムに隣接ノードを選択し、隣接ノードに移動し、現在のノードを開始点として上記のプロセスを繰り返します。

ランダム ウォーク アルゴリズムのよく知られた応用は、有名な PageRank アルゴリズムです。Pag​​eRank アルゴリズムは、Google 検索全体の中核となるアルゴリズムです。これは、Web ページ間のハイパーリンクを通じて Web ページの重要性を計算するテクノロジです。その重要なアイデアは、重要度の転送です。キーワード抽出の分野では、Mihalcea らが提案した TextRank アルゴリズムが、テキスト キーワード抽出の分野でこのアイデアを借用しています。

PageRank アルゴリズムは、インターネット全体を有向グラフとして扱います。Web ページはグラフ内のノードであり、Web ページ間のリンクはグラフ内のエッジです。重要度転送の考え方によれば、大規模なウェブサイト A にウェブページ B を指すハイパーリンクが含まれている場合、ウェブページ B の重要度ランキングは A の重要度に応じて向上します。ウェブページの重要性を転送する考え方を下の図に示します。

図 2 PageRank の簡単な説明 (PageRank 論文より)

PageRank アルゴリズムでは、上図の Web ページ A の重要度を予測することはできないため、最初の Web ページの重要度 (PR 値) を計算することが最も重要です。しかし、この重要性を見つけるための反復法は原著論文で示されており、論文では行列の固有値を見つけるためのべき乗法は行列の初期値に依存しないことを指摘しています。次に、各 Web ページにランダムに初期値を与え、反復して収束値を取得します。収束値は初期値とは関係ありません。

Web ページ i の PageRank 計算は次のとおりです。

ここで、d は減衰係数で、通常は 0.85 です。 ウェブページ i を指すウェブページのセットです。これは、Web ページ j 内のリンクによって指し示されるセットを参照し、セット内の要素の数を参照します。

グラフを構築する際、TextRank はノードを Web ページから文に変更し、ノード間のエッジに重みを導入しました。重みは 2 つの文の類似度を表します。計算式は以下のとおりです。

式内の は、グラフ内のノードとエッジの重みです。その他の記号は PageRank の計算式と同じです。

TextRank アルゴリズムは、テキスト キーワードの抽出に加えて、テキスト サマリーも良好な結果で抽出できます。ただし、TextRank の計算の複雑さは非常に高く、広く使用されていません。

3. トピックモデルに基づくキーワード抽出

トピック モデルに基づくキーワード抽出アルゴリズムは、主にトピック モデル内のトピックの分布特性を使用してキーワードを抽出します。アルゴリズムの手順は次のとおりです。

  • 記事から候補キーワードを取得します。つまり、テキストをセグメント化し、品詞に基づいて候補キーワードを選択できます。
  • トピックモデルは、大規模な予測学習に基づいて取得されます。
  • 得られた暗黙のトピックモデルに従って、記事のトピック分布と候補キーワード分布が計算されます。
  • 文書と候補キーワード間のトピック類似度を計算して並べ替え、最初の n 語をキーワードとして選択します。

アルゴリズムの鍵はトピックモデルの構築にあります。トピック モデルは、ドキュメント生成モデルです。記事の場合、まずいくつかのトピックを決定し、次にトピックに基づいてトピックを説明する単語を考え、次に文法規則に従って単語を文や段落に組み合わせて、最終的に記事を生成します。トピック モデルもこの考えに基づいています。ドキュメントはいくつかのトピックの混合分布であり、トピックは単語の確率分布であると考えています。pLSA モデルは、この考えに基づいて構築された最初のモデルです。同様に、逆に考えてみると、文書のトピックを見つけ、そのトピック内の代表的な単語が文書の核心的な意味を表現でき、それが文書のキーワードになります。

pLSA モデルでは、文書内の各単語が特定のトピックから一定の確率で選択され、その後、単語がトピックから一定の確率で選択されると想定しています。この単語の計算式は次のとおりです。

ベイジアン研究者の中には、pLSA モデルを改良した人もいます。彼らは、記事がトピックに対応する確率とトピックが単語に対応する確率は一定ではないが、一定の確率に従うと考えています。そのため、この段階で一般的に使用されているトピック モデルである LDA トピック モデルが開発されました。

LDA は 2003 年に DMBlei によって提案されました。 LDA は、バッグ・オブ・ワード・モデルを使用して問題の複雑さを簡素化します。 LDA モデルでは、各ドキュメントはいくつかのトピックで構成される確率分布であり、各トピックは多くの単語で構成される確率分布です。同時に、トピックの確率分布も単語の確率分布も一定ではなく、これらの分布もディリクレ事前分布に従います。

ドキュメント生成モデルは次の図で表すことができます。

ここで、およびは事前分布のハイパーパラメータ、は k 番目のトピックのすべての単語の分布、はドキュメントのトピック分布、w はドキュメントの単語、z は w に対応するトピックです。

図3. 論文中のBleiのグラフモデル

LDA は、テキストの深い意味、つまりテキストのテーマを探ります。テキストのテーマを使用してテキストの意味を表すと、テキスト ベクトルの次元もある程度削減されます。多くの人がこの方法を使用してテキストを分類し、良好な結果を達成しています。具体的な LDA アルゴリズムを参照してください。

LDA キーワード抽出アルゴリズムは、ドキュメントの暗黙的な意味情報を使用してキーワードを抽出しますが、トピック モデルによって抽出されたキーワードは比較的広範囲であり、ドキュメントのテーマを適切に反映できません。さらに、LDA モデルの時間計算量が高く、多くの実践的なトレーニングが必要になります。

4. 応用

現時点では、テキストからのキーワード抽出は、テキストベースの検索、推奨、データマイニングで広く使用されています。同時に、実際のアプリケーションでは、アプリケーション環境の複雑さにより、長いテキストや短いテキストなどの異なるタイプのテキストに同じテキスト キーワード抽出方法を使用した場合の効果は同じではありません。したがって、実際のアプリケーションでは、さまざまな条件や環境で使用されるアルゴリズムは異なり、特定のタイプのアルゴリズムがすべての環境に良い効果をもたらすわけではありません。

上記のアルゴリズムと比較して、TF-IDF アルゴリズムと TextRank アルゴリズムを組み合わせたり、TF-IDF と品詞を組み合わせてキーワードを取得したりするなど、単一のアルゴリズムの欠点を補うために、いくつかの組み合わせアルゴリズムがエンジニアリングで広く使用されています。同時に、エンジニアリングはテキストの前処理とテキストセグメンテーションの精度にも大きく依存しています。テキスト内のタイプミス、語形変化、その他の情報は、前処理段階で解決する必要があります。単語分割アルゴリズムの選択、未登録単語やあいまい単語の識別は、ある程度、キーワード抽出に大きな影響を与えます。

キーワード抽出は、一見簡単そうに見えますが、実際のアプリケーションでは非常に難しいタスクです。Daguan Data は、既存のアルゴリズムに基づくエンジニアリングの最適化に多大な努力を払い、この点で優れた結果を達成しました。

5. 結論

この記事では、一般的に使用されている 3 つの教師なしキーワード抽出アルゴリズムを紹介し、それぞれの長所と短所について説明します。キーワード抽出はテキストマイニングの分野で幅広い応用があります。既存の方法にも一定の問題があります。私たちはキーワード抽出の問題に引き続き全力で取り組んでいき、皆様の積極的なコミュニケーションを歓迎します。

参考文献

[1] TextRankアルゴリズムはキーワードと要約を抽出します http://xiaosheng.me/2017/04/08/article49/

[2] Page L、Brin S、Motwani R、他「PageRank引用ランキング:ウェブに秩序をもたらす[R]」スタンフォードインフォラボ、1999年。

[3] 劉志遠. 文書トピック構造に基づくキーワード抽出法の研究[D]. 北京:清華大学、2011年。

[4] tf-idf、https://zh.wikipedia.org/zh-hans/Tf-idf

[5] 機械学習分野におけるLDAトピックモデルに関する記事 http://zhuanlan..com/art/201712/559686.htm?mobile

[6] Blei DM、Ng AY、Jordan M I.潜在的ディリクレ配分[J]。機械学習研究ジャーナル、2003年、3(1月):993-1022。

[7] Zhao Jingsheng、Zhu Qiaoming、Zhou Guodong、他「自動キーワード抽出研究のレビュー[J]」Journal of Software、2017、28(9):2431-2449。

[この記事は51CTOコラムニスト「Daguan Data」によるオリジナル記事です。転載については51CTOコラムまでご連絡ください]

この著者の他の記事を読むにはここをクリックしてください

<<:  PaddlePaddle を使い始める: 対話システムにおける感情分析から始める

>>:  PaddlePaddle ディープラーニング実践 - 英語-フランス語翻訳マシン

ブログ    
ブログ    
ブログ    

推薦する

ユーザーはChatGPTが怠惰になったと不満を述べ、OpenAIはモデルを調整しておらず原因を調査中であると回答した。

12月12日、OpenAIの最新バージョンのチャットボットChatGPTが「怠惰」になったと不満を...

自動運転車の実現はAIと人間のゲームである

「人間がテクノロジーを生み出すペースは加速しており、テクノロジーの力は指数関数的に成長しています。指...

...

NASA、狭い場所でも移動できる折り紙ロボットを開発

将来のある時点で、人類は火星探査の旅に出る可能性が高いでしょう。最近、NASAの研究者らが、コンパク...

検討すべき5つのスマートホームテクノロジー

今日でも、ほとんどの人はスマートホームテクノロジーを手の届かない贅沢品と見なしています。しかし、家庭...

研究によると、GPT-4モデルはエラーを自己修正する能力があり、AIコードのさらなる商業化を促進することが期待されています。

7月5日、マサチューセッツ工科大学(MIT)とマイクロソフトの研究者らは、GPT-4モデルには優れ...

...

...

メタバース、ドローン、5G…は2022年に投資する価値のあるテクノロジーになるでしょうか?

2022年は活気に満ちた春のニュースとともにやって来ます。新年はどんな機会と課題をもたらすでしょう...

機械学習プロセスにおける3つの落とし穴、どれを踏んでしまったか確認しましょう

[[273444]]ビッグデータダイジェスト制作編集者: Vicky、Cao Peixin機械学習の...

2020 年の企業向け最高の AI プラットフォーム

企業は長年にわたり、業務と分析を手作業で処理してきましたが、その結果、人件費と事務処理が増加し、最適...

ディープラーニングの未来: ニューラル進化

この記事では主に、ニューロエボリューションがディープラーニングの未来であるという点と、進化的計算手法...

2019年、AIバブルは崩壊寸前

[[256693]]中国工業情報化部傘下の中国情報通信研究院によると、2018年上半期の世界の人工知...

2021年、人工知能は再び疫病との戦いで役割を果たすだろう

[[344407]] COVID-19パンデミックが世界を席巻する以前から、人工知能(AI)、特にそ...