テキストマイニングからの分類、クラスタリング、情報抽出などのアルゴリズムのレビュー

テキストマイニングは、推奨システム、検索システム、その他の広範なアプリケーションなど、テキストマイニングの力に頼る必要があるため、情報処理の非常に重要な分野です。この記事では、まず、NLP、情報検索、自動テキスト要約などのテキストマイニングの主な方法について簡単に説明し、次に、テキスト表現、分類方法、クラスタリング方法、情報抽出方法などの観点から、さまざまな機械学習アルゴリズムの適用について概説します。 Machine Heart ではこの論文の概要を簡単に説明しています。

論文アドレス: https://arxiv.org/abs/1707.02919

概要: 毎日生成される情報の量は急速に増加しており、この情報は基本的に、コンピューターで簡単に処理および認識できない構造化されていない大量のテキストです。したがって、有用なパターンを発見するには、効率的な技術とアルゴリズムが必要です。テキストマイニングは近年大きな注目を集めており、テキスト文書から有効な情報を抽出するタスクです。この記事では、最も基本的なテキストマイニングのタスクとテクニック (テキストの前処理、分類、クラスタリングなど) のいくつかについて説明し、バイオ医薬品および医療分野でのその応用についても簡単に紹介します。

1. はじめに

テキストマイニング (TM) は、ソーシャルネットワーク、医療記録、医療保険データ、ニュース出版物など、さまざまな形式で出現する膨大な量のテキストデータにより、近年大きな注目を集めています。 IDCはレポートの中で、2020年までにデータ量は400億TB（4*(10^22)バイト）に増加し、2010年初頭から50倍増加すると予測している[50]。

テキストデータは典型的な非構造化情報であり、ほとんどの場合に生成できる最も単純な形式のデータの一つです。人間は構造化されていないテキストを簡単に処理して認識できますが、機械が理解するのは明らかに困難です。言うまでもなく、これらのテキストは確かに貴重な情報と知識の源です。したがって、さまざまなアプリケーションで非構造化テキストを効果的に処理できる方法を設計することが急務となっています。

1. 知識発見とデータマイニング（省略）

2. テキストマイニング手法

情報検索 (IR): 情報検索とは、情報ニーズを満たす非構造化データセットから情報リソース (通常はドキュメント) を見つける行為です。
自然言語処理 (NLP): 自然言語処理は、コンピューターを使用して自然言語を理解することを目的とした、コンピューターサイエンス、人工知能、言語学のサブフィールドです。
テキストからの情報抽出 (IE): 情報抽出は、非構造化または半構造化ドキュメントから情報や事実を自動的に抽出するタスクです。
テキスト要約: 多くのテキストマイニングアプリケーションでは、大量のドキュメントコレクションまたは特定のトピックに関するドキュメントの概要を簡単に示すために、テキストドキュメントを要約する必要があります。
教師なし学習法 (テキスト): 教師なし学習法は、クラスタリング手法を使用して類似のテキストを同じカテゴリにグループ化するなど、ラベルのないテキストから隠れたデータ構造を抽出しようとする手法です。
教師あり学習法 (テキスト): 教師あり学習法は、ラベル付けされたトレーニングデータから分類子を学習したり関数を推論したりして、未知のデータに対して予測を実行する機械学習手法です。
テキストマイニングのための確率的手法：確率的潜在意味解析（pLSA）[64]や文書トピック生成（LDA）[16]などの教師なしトピックモデルや、条件付きランダムフィールド[83]などの教師あり学習法など、テキストマイニングのコンテキストで使用できる確率的手法は数多くあります。
テキストストリームとソーシャルメディアマイニング: インターネット上には、大量のテキストデータストリームを生成できるさまざまなアプリケーションが存在します。
意見マイニングと感情分析: 電子商取引とオンラインショッピングの出現により、さまざまな製品レビューやユーザーの意見に関して大量のテキストが生成され、増加しています。
バイオメディカルテキストマイニング: バイオメディカルテキストマイニングとは、バイオメディカル科学の分野におけるテキストマイニングのタスクを指します。

2. テキスト表現とエンコード

1. テキストの前処理

トークン化: トークン化とは、一連の文字をトークン (単語またはフレーズ) に分割し、特定の文字 (句読点など) を削除するタスクです。
フィルタリング: フィルタリングは通常、特定の単語を削除するためにドキュメントに対して実行されます。一般的なフィルタリングの 1 つは、ストップワードの削除です。
見出し語化: 見出し語化は、単語の形態素解析のタスクです。つまり、単語のさまざまな語形変化形をグループ化して、単一の項目として解析できるようにします。
ステミング: ステミング法は、派生語の語幹 (語根) を取得することを目的としています。ステミングアルゴリズムは言語に大きく依存します。

2. ベクトル空間モデル（省略）

3. 分類

1. ナイーブベイズ分類器

ナイーブベイズ分類器は、おそらく最も単純で最も広く使用されている分類器です。異なる用語が独立しており、同じ分布に従うと仮定して、確率モデルを通じてドキュメントのカテゴリ分布をモデル化します。ナイーブベイズは、条件付き確率分布に対して条件付き独立性の仮定を立てました。これは強力な仮定であるため、ナイーブベイズ法はその名前が付けられました。このいわゆる「ナイーブベイズ」の仮定は、多くの実際のアプリケーションでは明らかに間違っていますが、それでも驚くほど優れたパフォーマンスを発揮します。

ナイーブベイズ分類[94]に一般的に使用される2つの主なモデルがあり、どちらも文書内の単語の分布に基づいて各クラスの事後確率を導出することを目的としています。

多変量ベルヌーイモデル: このモデルでは、各ドキュメントはバイナリ特徴ベクトルで表され、ドキュメント内に単語が存在するかどうかを表します。したがって、単語の出現頻度は無視されます。原著論文は[86]に掲載されている。
多項式モデル: 文書を単語の袋として表現することで、文書内の単語 (項目) の出現頻度を捉えることができます。多項式モデルのさまざまなバリエーションが[74,95,99,104]で紹介されています。 McCallum らは、ベルヌーイモデルと多項式モデルを広範囲に比較し、語彙サイズが小さい場合はベルヌーイモデルが多項式モデルよりも優れている可能性があり、語彙サイズが大きい場合は多項式モデルが常にベルヌーイモデルよりも優れていること、また語彙サイズが両方のモデルで最適な状態にある場合は多項式モデルが常に優れているという結論に達しました。

2. 最近傍分類器

最近傍分類器は、隣接データに基づく分類器であり、距離メトリックに基づいて分類を実行します。主な考え方は、同じカテゴリに属する文書は、(2.2)で定義されたコサイン類似度などの類似度計算に基づいて、互いに「類似」または近い可能性が高いということです。テストドキュメントの分類は、トレーニングセット内の類似ドキュメントのクラスラベルから推測されます。トレーニングセット内のK近傍をラベルと見なすと、この方法はk近傍分類と呼ばれ、これらのk近傍の最も一般的なクラスをクラスター全体のクラスとして使用できます。k近傍法の詳細については、[59、91、113、122]を参照してください。

3. 決定木分類器

基本的に、決定木はトレーニングサンプルの階層的なツリーであり、サンプルの特徴値を使用してデータのレベルを分離することができ、特徴の分離の順序は通常、情報エントロピーと情報ゲインによって決定されます。言い換えると、決定木は、各ノードまたはブランチで定義された分割基準に基づいて、トレーニングデータセットを小さなサブツリーに再帰的に分割できます。

ツリーの各ノードは、トレーニングサンプルのいくつかの特徴に関する判断であり、ノードから下の各ブランチまたはサブブランチはこの特徴値に対応します。ルートノードからインスタンスを分類するには、まず情報ゲインが最も高い特徴を特定して並べ替える必要があります。次に、このノードを使用してサンプルに特定の特徴があるかどうかを判断し、最後の分類が完了してリーフノードに到達するまで、サンプルをその下のブランチに分割します。このプロセスは再帰的に繰り返される[99]。決定木の詳細については[19, 40, 69, 109]を参照してください。

決定木は、勾配ブースティング木などのブースティングアルゴリズムと組み合わせて使用されてきました。 [47,121]は決定木分類の精度を向上させるための強化技術について議論した。

4. サポートベクターマシン

サポートベクターマシン (SVM) は、テキスト分類問題で広く使用されている教師あり学習分類アルゴリズムです。カーネル関数を持たないサポートベクターマシンは、線形分類器の一種です。テキストドキュメントでは、線形分類器はドキュメントの機能を線形に組み合わせて分類の決定を行うモデルです。したがって、線形予測の出力は y = a · x + b と定義できます。ここで、x = (x1, x2, . . . , xn) は正規化されたドキュメント用語頻度ベクトル、a = (a1, a2, . . . , an) は係数ベクトル、b はスカラーです。カテゴリ分類ラベルの予測子 y = a · x + b は、異なるカテゴリの分離超平面として理解できます。カーネル関数のないハードマージンサポートベクターマシンは、線形に分離可能なデータのみを分離できます。

サポートベクターマシンは[34, 137]で初めて導入されました。サポートベクターマシンは、異なるクラス間の「良い」線形分離器を見つけようとします[34, 138]。単一のサポートベクターマシンでは、正と負の2つのクラスしか分離できません[65]。サポートベクターマシンは、正のサンプルと負のサンプルから最小距離 ξ (最小マージンとも呼ばれる) を持つ超平面を見つけようとします。超平面とサンプル間の距離 ξ を決定するドキュメントはサポートベクトルと呼ばれ、実際には超平面の実際の位置を指定します。 2 つのカテゴリのドキュメントが線形に分離できない場合は、超平面によって誤分類されるサンプルが存在するはずです。このような線形に分離不可能なデータは、線形サポートベクターマシンでは処理できません。サポートベクターマシンの威力はカーネル関数にあります。カーネル関数を使用するソフトマージンサポートベクターマシンは、極めて強力な堅牢性を備えた非常に強力な非線形分類器になります。

4. クラスタリング

テキストクラスタリングアルゴリズムは、凝集型クラスタリングアルゴリズム、パーティションアルゴリズム、確率的クラスタリングアルゴリズムなど、さまざまなカテゴリに分類されます。

1. 階層的クラスタリングアルゴリズム

階層的クラスタリングアルゴリズムは、階層的クラスターとして記述できるクラスターのセットを構築します。階層は、上から下へ（分割型と呼ばれる）構築することも、下から上へ（凝集型と呼ばれる）構築することもできます。階層的クラスタリングアルゴリズムは、類似度関数を使用してテキストドキュメント間の近さを計算する距離ベースのクラスタリングアルゴリズムです。テキストデータの階層的クラスタリングアルゴリズムの詳細な説明は[101、102、140]にあります。

2. K平均法クラスタリング

K-means クラスタリングは、データマイニングで広く使用されているセグメンテーションアルゴリズムです。 K 平均法クラスタリングは、テキストデータのコンテキストに基づいて n 個のドキュメントを k 個のグループに分割します。特定のカテゴリに属する典型的なデータは、構築されたクラスターの中心の周りに集められます。 k-means クラスタリングアルゴリズムの基本的な形式は次のとおりです。

3. 確率的クラスタリングとトピックモデリング

トピックモデリングは、最近広く注目を集めている新しい確率的クラスタリングアルゴリズムです。トピックモデリング[16、53、64]の主なアイデアは、テキスト文書のコーパスに対して確率的生成モデルを構築することです。トピックモデルでは、ドキュメントはトピックの混合物であり、トピックは単語の確率分布です。

主なトピックモデルには、確率的潜在意味解析（pLSA）[64]と潜在ディリクレ配分（LDA）[16]の2つがあります。 pLSA モデルはドキュメントレベルでの確率モデルを提供しないため、新しい未知のドキュメントに一般化することが困難です。

潜在ディリクレ配分モデルは、収集された文書から主題情報（トピック）を抽出するためのよく知られた教師なし手法である[16, 54]。基本的な考え方は、ドキュメントは潜在的なトピックのランダムな混合物であり、各トピックは単語の確率分布であるということです。

5. 情報抽出

情報抽出 (IE) は、非構造化テキストまたは半構造化テキストから構造化情報を自動的に抽出するタスクです。言い換えれば、情報抽出は、探している情報が事前にわかっている、完全な自然言語理解の限定された形式と見なすことができます。

1. 固有表現認識（NER）

名前付きエンティティは、「Google Inc」、「米国」、「バラク・オバマ」など、現実世界のエンティティを識別する一連の単語です。名前付きエンティティ認識のタスクは、カスタムテキスト内の名前付きエンティティの場所を見つけ、それらを事前定義されたカテゴリ (人、組織、場所など) に区別することです。 NER は辞書のように単純に文字列のマッチングを行うことはできません。その理由は、a) 辞書は通常不完全であり、特定のエンティティタイプの名前付きエンティティのすべての形式が含まれないからです。 b) 名前付きエンティティは多くの場合、コンテキストに依存します。たとえば、「big apple」は果物の場合もあれば、ニューヨークのニックネームの場合もあります。

2. 隠れマルコフモデル

隠れマルコフモデルでは、ラベル (状態) または観測値を生成するマルコフ過程が、1 つ以上の以前のラベル (状態) または観測値に依存すると想定されます。したがって、観測シーケンスX = (x1, x2, . . . , xn)に対して、ラベルシーケンスY = (y1,y2, . . . ,yn)が与えられると、

隠れマルコフモデルは、名前付きエンティティ認識タスクや音声認識システムで効果的に使用されてきました。隠れマルコフの詳しい説明については[110]を参照してください。

3. 条件付きランダムフィールド

条件付きランダムフィールド (CRF) は、シーケンスのラベル付けのための確率モデルです。 CRF は Lafferty らによって導入されました***以下の観察（ラベルなしデータシーケンス）とY（ラベルシーケンス）では、[83]と同じ条件付きランダムフィールドの概念について言及しています。

条件付きランダムフィールドは情報抽出や音声タグ付けタスクで広く使われている[83]。

VII. 議論

この記事では、テキストマイニングの分野について簡単に紹介するだけでなく、この分野で広く使用されているいくつかの基本的なアルゴリズムとテクニックの概要も提供しようと努めました。本稿では主に開発とコンテキストの観点からテキストマイニングの分野を概観しており、これらのアルゴリズムや手法についてより詳細に説明することは困難ですが、本稿では多数の関連論文リソースを提供し、この分野についてより深い理解を得たい読者に情報を提供したいと考えています。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: ディープラーニングを用いた医療画像解析: ファイル形式

>>: Yixue EducationのCui Wei氏：将来、教育分野での授業はロボットに置き換えられるでしょう