テキストマイニングからの分類、クラスタリング、情報抽出などのアルゴリズムのレビュー

テキストマイニングからの分類、クラスタリング、情報抽出などのアルゴリズムのレビュー

テキストマイニングは、推奨システム、検索システム、その他の広範なアプリケーションなど、テキストマイニングの力に頼る必要があるため、情報処理の非常に重要な分野です。この記事では、まず、NLP、情報検索、自動テキスト要約などのテキストマイニングの主な方法について簡単に説明し、次に、テキスト表現、分類方法、クラスタリング方法、情報抽出方法などの観点から、さまざまな機械学習アルゴリズムの適用について概説します。 Machine Heart ではこの論文の概要を簡単に説明しています。

論文アドレス: https://arxiv.org/abs/1707.02919

概要: 毎日生成される情報の量は急速に増加しており、この情報は基本的に、コンピューターで簡単に処理および認識できない構造化されていない大量のテキストです。したがって、有用なパターンを発見するには、効率的な技術とアルゴリズムが必要です。テキストマイニングは近年大きな注目を集めており、テキスト文書から有効な情報を抽出するタスクです。この記事では、最も基本的なテキスト マイニングのタスクとテクニック (テキストの前処理、分類、クラスタリングなど) のいくつかについて説明し、バイオ医薬品および医療分野でのその応用についても簡単に紹介します。

1. はじめに

テキスト マイニング (TM) は、ソーシャル ネットワーク、医療記録、医療保険データ、ニュース出版物など、さまざまな形式で出現する膨大な量のテキスト データにより、近年大きな注目を集めています。 IDCはレポートの中で、2020年までにデータ量は400億TB(4*(10^22)バイト)に増加し、2010年初頭から50倍増加すると予測している[50]。

テキスト データは典型的な非構造化情報であり、ほとんどの場合に生成できる最も単純な形式のデータの一つです。人間は構造化されていないテキストを簡単に処理して認識できますが、機械が理解するのは明らかに困難です。言うまでもなく、これらのテキストは確かに貴重な情報と知識の源です。したがって、さまざまなアプリケーションで非構造化テキストを効果的に処理できる方法を設計することが急務となっています。

1. 知識発見とデータマイニング(省略)

2. テキストマイニング手法

  • 情報検索 (IR): 情報検索とは、情報ニーズを満たす非構造化データ セットから情報リソース (通常はドキュメント) を見つける行為です。
  • 自然言語処理 (NLP): 自然言語処理は、コンピューターを使用して自然言語を理解することを目的とした、コンピューター サイエンス、人工知能、言語学のサブフィールドです。
  • テキストからの情報抽出 (IE): 情報抽出は、非構造化または半構造化ドキュメントから情報や事実を自動的に抽出するタスクです。
  • テキスト要約: 多くのテキスト マイニング アプリケーションでは、大量のドキュメント コレクションまたは特定のトピックに関するドキュメントの概要を簡単に示すために、テキスト ドキュメントを要約する必要があります。
  • 教師なし学習法 (テキスト): 教師なし学習法は、クラスタリング手法を使用して類似のテキストを同じカテゴリにグループ化するなど、ラベルのないテキストから隠れたデータ構造を抽出しようとする手法です。
  • 教師あり学習法 (テキスト): 教師あり学習法は、ラベル付けされたトレーニング データから分類子を学習したり関数を推論したりして、未知のデータに対して予測を実行する機械学習手法です。
  • テキストマイニングのための確率的手法:確率的潜在意味解析(pLSA)[64]や文書トピック生成(LDA)[16]などの教師なしトピックモデルや、条件付きランダムフィールド[83]などの教師あり学習法など、テキストマイニングのコンテキストで使用できる確率的手法は数多くあります。
  • テキスト ストリームとソーシャル メディア マイニング: インターネット上には、大量のテキスト データ ストリームを生成できるさまざまなアプリケーションが存在します。
  • 意見マイニングと感情分析: 電子商取引とオンライン ショッピングの出現により、さまざまな製品レビューやユーザーの意見に関して大量のテキストが生成され、増加しています。
  • バイオメディカルテキストマイニング: バイオメディカルテキストマイニングとは、バイオメディカル科学の分野におけるテキストマイニングのタスクを指します。

2. テキスト表現とエンコード

1. テキストの前処理

  • トークン化: トークン化とは、一連の文字をトークン (単語またはフレーズ) に分割し、特定の文字 (句読点など) を削除するタスクです。
  • フィルタリング: フィルタリングは通常、特定の単語を削除するためにドキュメントに対して実行されます。一般的なフィルタリングの 1 つは、ストップワードの削除です。
  • 見出し語化: 見出し語化は、単語の形態素解析のタスクです。つまり、単語のさまざまな語形変化形をグループ化して、単一の項目として解析できるようにします。
  • ステミング: ステミング法は、派生語の語幹 (語根) を取得することを目的としています。ステミングアルゴリズムは言語に大きく依存します。

2. ベクトル空間モデル(省略)

3. 分類

1. ナイーブベイズ分類器

ナイーブ ベイズ分類器は、おそらく最も単純で最も広く使用されている分類器です。異なる用語が独立しており、同じ分布に従うと仮定して、確率モデルを通じてドキュメントのカテゴリ分布をモデル化します。ナイーブ ベイズは、条件付き確率分布に対して条件付き独立性の仮定を立てました。これは強力な仮定であるため、ナイーブ ベイズ法はその名前が付けられました。このいわゆる「ナイーブ ベイズ」の仮定は、多くの実際のアプリケーションでは明らかに間違っていますが、それでも驚くほど優れたパフォーマンスを発揮します。

ナイーブベイズ分類[94]に一般的に使用される2つの主なモデルがあり、どちらも文書内の単語の分布に基づいて各クラスの事後確率を導出することを目的としています。

  • 多変量ベルヌーイモデル: このモデルでは、各ドキュメントはバイナリ特徴ベクトルで表され、ドキュメント内に単語が存在するかどうかを表します。したがって、単語の出現頻度は無視されます。原著論文は[86]に掲載されている。
  • 多項式モデル: 文書を単語の袋として表現することで、文書内の単語 (項目) の出現頻度を捉えることができます。多項式モデルのさまざまなバリエーションが[74,95,99,104]で紹介されています。 McCallum らは、ベルヌーイ モデルと多項式モデルを広範囲に比較し、語彙サイズが小さい場合はベルヌーイ モデルが多項式モデルよりも優れている可能性があり、語彙サイズが大きい場合は多項式モデルが常にベルヌーイ モデルよりも優れていること、また語彙サイズが両方のモデルで最適な状態にある場合は多項式モデルが常に優れているという結論に達しました。

2. 最近傍分類器

最近傍分類器は、隣接データに基づく分類器であり、距離メトリックに基づいて分類を実行します。主な考え方は、同じカテゴリに属する​​文書は、(2.2)で定義されたコサイン類似度などの類似度計算に基づいて、互いに「類似」または近い可能性が高いということです。テスト ドキュメントの分類は、トレーニング セット内の類似ドキュメントのクラス ラベルから推測されます。トレーニングセット内のK近傍をラベルと見なすと、この方法はk近傍分類と呼ばれ、これらのk近傍の最も一般的なクラスをクラスター全体のクラスとして使用できます。k近傍法の詳細については、[59、91、113、122]を参照してください。

3. 決定木分類器

基本的に、決定木はトレーニング サンプルの階層的なツリーであり、サンプルの特徴値を使用してデータのレベルを分離することができ、特徴の分離の順序は通常、情報エントロピーと情報ゲインによって決定されます。言い換えると、決定木は、各ノードまたはブランチで定義された分割基準に基づいて、トレーニング データセットを小さなサブツリーに再帰的に分割できます。

ツリーの各ノードは、トレーニング サンプルのいくつかの特徴に関する判断であり、ノードから下の各ブランチまたはサブブランチはこの特徴値に対応します。ルート ノードからインスタンスを分類するには、まず情報ゲインが最も高い特徴を特定して並べ替える必要があります。次に、このノードを使用してサンプルに特定の特徴があるかどうかを判断し、最後の分類が完了してリーフ ノードに到達するまで、サンプルをその下のブランチに分割します。このプロセスは再帰的に繰り返される[99]。決定木の詳細については[19, 40, 69, 109]を参照してください。

決定木は、勾配ブースティング木などのブースティング アルゴリズムと組み合わせて使用​​されてきました。 [47,121]は決定木分類の精度を向上させるための強化技術について議論した。

4. サポートベクターマシン

サポート ベクター マシン (SVM) は、テキスト分類問題で広く使用されている教師あり学習分類アルゴリズムです。カーネル関数を持たないサポート ベクター マシンは、線形分類器の一種です。テキスト ドキュメントでは、線形分類器はドキュメントの機能を線形に組み合わせて分類の決定を行うモデルです。したがって、線形予測の出力は y = a · x + b と定義できます。ここで、x = (x1, x2, . . . , xn) は正規化されたドキュメント用語頻度ベクトル、a = (a1, a2, . . . , an) は係数ベクトル、b はスカラーです。カテゴリ分類ラベルの予測子 y = a · x + b は、異なるカテゴリの分離超平面として理解できます。カーネル関数のないハードマージンサポートベクターマシンは、線形に分離可能なデータのみを分離できます。

サポートベクターマシンは[34, 137]で初めて導入されました。サポートベクターマシンは、異なるクラス間の「良い」線形分離器を見つけようとします[34, 138]。単一のサポートベクターマシンでは、正と負の2つのクラスしか分離できません[65]。サポート ベクター マシンは、正のサンプルと負のサンプルから最小距離 ξ (最小マージンとも呼ばれる) を持つ超平面を見つけようとします。超平面とサンプル間の距離 ξ を決定するドキュメントはサポート ベクトルと呼ばれ、実際には超平面の実際の位置を指定します。 2 つのカテゴリのドキュメントが線形に分離できない場合は、超平面によって誤分類されるサンプルが存在するはずです。このような線形に分離不可能なデータは、線形サポート ベクター マシンでは処理できません。サポート ベクター マシンの威力はカーネル関数にあります。カーネル関数を使用するソフト マージン サポート ベクター マシンは、極めて強力な堅牢性を備えた非常に強力な非線形分類器になります。

4. クラスタリング

テキスト クラスタリング アルゴリズムは、凝集型クラスタリング アルゴリズム、パーティション アルゴリズム、確率的クラスタリング アルゴリズムなど、さまざまなカテゴリに分類されます。

1. 階層的クラスタリングアルゴリズム

階層的クラスタリング アルゴリズムは、階層的クラスターとして記述できるクラスターのセットを構築します。階層は、上から下へ(分割型と呼ばれる)構築することも、下から上へ(凝集型と呼ばれる)構築することもできます。階層的クラスタリング アルゴリズムは、類似度関数を使用してテキスト ドキュメント間の近さを計算する距離ベースのクラスタリング アルゴリズムです。テキストデータの階層的クラスタリングアルゴリズムの詳細な説明は[101、102、140]にあります。

2. K平均法クラスタリング

K-means クラスタリングは、データ マイニングで広く使用されているセグメンテーション アルゴリズムです。 K 平均法クラスタリングは、テキスト データのコンテキストに基づいて n 個のドキュメントを k 個のグループに分割します。特定のカテゴリに属する​​典型的なデータは、構築されたクラスターの中心の周りに集められます。 k-means クラスタリング アルゴリズムの基本的な形式は次のとおりです。

3. 確率的クラスタリングとトピックモデリング

トピック モデリングは、最近広く注目を集めている新しい確率的クラスタリング アルゴリズムです。トピックモデリング[16、53、64]の主なアイデアは、テキスト文書のコーパスに対して確率的生成モデルを構築することです。トピック モデルでは、ドキュメントはトピックの混合物であり、トピックは単語の確率分布です。

主なトピックモデルには、確率的潜在意味解析(pLSA)[64]と潜在ディリクレ配分(LDA)[16]の2つがあります。 pLSA モデルはドキュメント レベルでの確率モデルを提供しないため、新しい未知のドキュメントに一般化することが困難です。

潜在ディリクレ配分モデルは、収集された文書から主題情報(トピック)を抽出するためのよく知られた教師なし手法である[16, 54]。基本的な考え方は、ドキュメントは潜在的なトピックのランダムな混合物であり、各トピックは単語の確率分布であるということです。

5. 情報抽出

情報抽出 (IE) は、非構造化テキストまたは半構造化テキストから構造化情報を自動的に抽出するタスクです。言い換えれば、情報抽出は、探している情報が事前にわかっている、完全な自然言語理解の限定された形式と見なすことができます。

1. 固有表現認識(NER)

名前付きエンティティは、「Google Inc」、「米国」、「バラク・オバマ」など、現実世界のエンティティを識別する一連の単語です。名前付きエンティティ認識のタスクは、カスタム テキスト内の名前付きエンティティの場所を見つけ、それらを事前定義されたカテゴリ (人、組織、場所など) に区別することです。 NER は辞書のように単純に文字列のマッチングを行うことはできません。その理由は、a) 辞書は通常不完全であり、特定のエンティティ タイプの名前付きエンティティのすべての形式が含まれないからです。 b) 名前付きエンティティは多くの場合、コンテキストに依存します。たとえば、「big apple」は果物の場合もあれば、ニューヨークのニックネームの場合もあります。

2. 隠れマルコフモデル

隠れマルコフモデルでは、ラベル (状態) または観測値を生成するマルコフ過程が、1 つ以上の以前のラベル (状態) または観測値に依存すると想定されます。したがって、観測シーケンスX = (x1, x2, . . . , xn)に対して、ラベルシーケンスY = (y1,y2, . . . ,yn)が与えられると、

隠れマルコフモデルは、名前付きエンティティ認識タスクや音声認識システムで効果的に使用されてきました。隠れマルコフの詳しい説明については[110]を参照してください。

3. 条件付きランダムフィールド

条件付きランダム フィールド (CRF) は、シーケンスのラベル付けのための確率モデルです。 CRF は Lafferty らによって導入されました***以下の観察(ラベルなしデータシーケンス)とY(ラベルシーケンス)では、[83]と同じ条件付きランダムフィールドの概念について言及しています。

条件付きランダムフィールドは情報抽出や音声タグ付けタスクで広く使われている[83]。

VII. 議論

この記事では、テキスト マイニングの分野について簡単に紹介するだけでなく、この分野で広く使用されているいくつかの基本的なアルゴリズムとテクニックの概要も提供しようと努めました。本稿では主に開発とコンテキストの観点からテキストマイニングの分野を概観しており、これらのアルゴリズムや手法についてより詳細に説明することは困難ですが、本稿では多数の関連論文リソースを提供し、この分野についてより深い理解を得たい読者に情報を提供したいと考えています。

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<:  ディープラーニングを用いた医療画像解析: ファイル形式

>>:  Yixue EducationのCui Wei氏:将来、教育分野での授業はロボットに置き換えられるでしょう

ブログ    
ブログ    

推薦する

...

産業AI戦略を成功させる3つの鍵

今日、工業製造業は産業用人工知能への依存度が高まっており、業務上の意思決定者はこれをデジタル変革戦略...

最近、ソラは子供たちの間でパニックを引き起こしています!

昨晩、娘がぼんやりしてリビングルームに立っていたので、私は彼女に尋ねました。「何をしているの?」彼女...

ナレッジグラフの紹介と応用

[[376661]]人間は知識を獲得する過程で、物事の本質にますます注意を払うようになります。人工知...

...

Apple Watchも新型コロナウイルスを検知可能:症状が出る7日前に検知可能

現在、新型コロナウイルスの核酸検査のほとんどは、咽頭ぬぐい液を使って行われている。スマートウォッチを...

自動化が医療にもたらす革命

長年にわたり、自動化はほぼすべての業界に浸透してきました。自動化は、工場の機械が組立ラインの生産を高...

NatureがAIGC禁止令を発令!ビジュアルコンテンツにAIを使用した投稿は受け付けられません

最も権威のある科学雑誌の一つであるネイチャー誌は最近、明確な声明を発表しました。 生成型人工知能 (...

GoogleはAIチップに出産を学習させ、次世代のTPUはAI自身によって設計される

[[405016]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

2025年にはL3自動運転が普及する。まだ手動で運転しているのですか?

最近、中国自動車工学協会副秘書長、国際自動車工学科学技術革新戦略研究所執行理事の侯福神氏は上海モータ...

AI は銀行がますます激化する詐欺の競争に勝つためにどう役立つか

今日のイノベーションのペースが競争だとしたら、世界は猛烈なスピードで変化しています。今日の世界で起こ...

製造業における人工知能の8つの応用シナリオ

人工知能の概念は、60年以上前の1950年代に初めて提案されました。しかし、モノのインターネット、ビ...

機械学習は簡単になっていますが、ソフトウェアエンジニアリングはまだ難しいです

これはレビュー記事です。 それは偏りもあります。 スペシャリストではなく、物事を作ったり問題を解決し...

人工知能は非常に人気があります。PULSE は低品質のモザイク画像を保存し、数秒で高解像度の画像に変換できます。

[51CTO.com オリジナル記事] モザイクとはどういう意味ですか?従来のモザイクは、主に映画...