テキストマイニングの詳細: ツール、タスク、問題、解決策

[51CTO.com クイック翻訳] 現在、世界中のあらゆる場所で大量のデータが絶えず生成されており、その規模は年々拡大しています。これらの豊富なデータは、企業の競争上の優位性と経営資源の基盤を提供します。通常、膨大なデータのマイニングと分類を実現するには、さまざまな自動化された選択および処理プロセスを使用する必要があります。

テキストマイニングの概念は業界でよく言及されます。その本質は、特定のテキストから高品質の情報を自動的に取得するプロセスです。他の種類のデータ分析との主な違いは、入力データがいかなる形式でもフォーマットされないことです。つまり、データを記述するために単純に数学関数を使用することはできません。

今日、テキスト分析、機械学習、ビッグデータは、それぞれ独自の方法でさまざまな企業や事業にビジネス成長のポイントをもたらしています。この記事では、テキストマイニングの課題と、WaveAccess がアプリケーションでこのテクノロジをどのように使用しているかについて説明します。

1. 基本的なテキストマイニングツール

以下の手順に従うことで、テキストマイニングシステムはテキストコーパスから重要な知識を抽出し、特定のテキストが特定のトピックに関連しているかどうかを判断し、そのコンテンツの詳細を明らかにすることができます。

1. ドキュメントの関連性（特定のトピックに関連するテキストの検索）。与えられたトピックは、眼科手術に関する学術論文など、非常に狭い範囲のものになることもあります。

2. 名前付きエンティティ。文書が関連性があるとみなされる場合、システムは、学問分野の名前や議論されている病気の名前など、文書内の特定のエンティティを見つける必要がある場合があります。

3. ドキュメントの種類。ドキュメントはコンテンツに基づいてタグ付けされます。たとえば、製品のレビューは肯定的か否定的かに分類できます。

4. エンティティのリンク。事実そのものに加えて、システムが文書の中で事実に関連する正確な部分を見つけられるかどうかも非常に重要です。たとえば、薬と副作用の関係、または人の名前とその人の仕事に対する否定的なレビューの関係などです。

2. 典型的なテキストマイニングタスク

テキストマイニングは、大規模な非構造化データ管理プロジェクトから有用な知識を抽出するのに役立つだけでなく、対応する投資収益率を向上させるのにも役立ちます。企業にとって、これは、無関係なデータを自動的に削除するだけで、高価な手動処理に頼ることなく、ビッグデータから正しい答えを得ることができることを意味します。

職場でテキストマイニングを使用する例をいくつか見てみましょう。

1. 意味科学文献の検索

テキストマイニングは、膨大な量の科学出版物から関連する記事を見つけるのに役立ち、時間とコストを節約します。

法律上、製品に副作用が発見された場合、欧米の製薬会社は製品を回収し、添付文書などに記載された患者に関する情報を改訂する義務がある。そうですね、企業自身の研究は別として、副作用を発見する主な方法は、他の研究者による科学論文を読むことです。毎年発行される論文の数は膨大であるため、すべてを手作業で処理することはほぼ不可能です。

この問題を解決するために、科学出版社（または出版社と提携しているデータ分析会社）は、顧客（製薬会社）が指定したアルゴリズムと方法に基づいて、自動論文検索サービスを提供しています。クライアント側では、必要な形式で関連記事の概要を受け取った後、購入したい特定の記事を選択できます。

2. 価格設定の公表

下の図に示すように、出版社はこれらのトップクラスの科学論文や研究結果に対して、1 記事あたり 25 ～ 30 米ドルの開始価格を請求します。すると、製薬会社はジレンマに直面します。一方では、製品の仕様を変更したり、製品を市場から撤退させたりするために、製品のすべての副作用を追跡する法的義務があります。一方、特定の薬剤について言及している可能性のあるすべての記事を購入するには費用がかかり、すべてのテキストを処理するのに時間がかかることは言うまでもありません。

WavetAccess では、製薬業界のクライアント向けに自動記事検索ソリューションを開発しました。テキストマイニングプラットフォームを使用して記事とそのメタデータを検索し、クライアントが関連テキストを含む可能性が最も高い記事に対してのみ料金を支払うようにします。

このようなタスクの複雑さを考慮して、次のようなテキストマイニング手法を使用します。標準化されていない書誌のデータについては、別の検索方法を使用し、メタデータに含まれる会社の住所などの情報を解析するために機械学習を使用する必要がある場合もあります。

3. 市場調査

テキストマイニングの関連アプリケーションは、対象企業が所在するソーシャルメディアスペースを特定し、そのスペースにおける企業の認知度レベルを分析するのに役立ちます。

多くの企業では、独自の開発戦略を策定するために、自社製品と競合他社の製品を客観的に評価する必要があります。ここで、自動テキスト処理システムは、多数の情報ソース（学術論文、雑誌、ニュース、製品レビュー Web サイトなど）やさまざまな製品使用レビューを処理するのに適しています。

4. 情報源の信頼性

テキストマイニングでは、さまざまな偽のレビューと公正で正当なレビューをさらに区別する必要もあります。

医薬品分野において、「製品レビュー」とは、信頼できる学術雑誌に掲載された薬物試験結果を指します。業界は学術論文に対して高い基準を設けているため、「偽のレビュー」は出にくいのです。ただし、分析をすべての公開アクセス可能なソース（インターネットを含む）に対象とする場合は、偽のレビューを識別するために、レビューの作成者とソースの信頼性をランク付けする必要があります。学術論文の分野では、これを引用索引（CI）と呼びます。そのため、私たちはこれらの参照要素を記事検索に導入し、読者が与えられた情報源を信頼するかどうかを自分で判断できるように最終レポートに含めました。

関連しているが異なる考慮事項は、感情分析（オピニオンマイニングとも呼ばれます）と呼ばれます。その目的は、特定の対象に対する著者の感情的な態度を評価することです。これは、さまざまなレビューを整理し、対象企業に関する否定的な世論を特定するのにも役立ちます。

5. ナレッジマネジメント

書類を最適化すると、企業は利用可能なデータや文書を把握し、それらに迅速にアクセスできるようになります。

多くの企業は、規模が大きくなるにつれて、大量の知識資産を蓄積します。しかし、これらの資産には、構造が不十分であったり、標準化が不十分であったりするなどの問題がしばしばあります。各部門では、独自の内部文書を引き続き使用している場合もあれば、保存に対する意識がまったくない場合もあります。そして、異なる企業が合併すると、全体として問題が発生し、必要な情報を見つけることがほぼ不可能になります。そこで、これまで蓄積してきた知識をより有効活用するために、テキストマイニングシステムを「活用」する時期が来ています。次の 4 つの側面を実現できます。

さまざまなソースからデータを自動的に収集して正規化します。
メタデータ（ドキュメントのソース、作成者、作成日など）を追加します。
ドキュメントにインデックスを付けて分類します。
ユーザー定義のパラメータに基づいてドキュメントを検索するためのインターフェースを提供します。

さらに、このようなテキストマイニングシステムには、関連するセキュリティ標準に従ったユーザーロールと認証レベルの管理も装備されている必要があります。

6. カスタマーサービス部門の最適化

企業では、さまざまな社内文書に加え、Web サイトから入力されたフォームや注文書のインポートなど、外部から大量のテキストデータを取得する必要があることがよくあります。したがって、テキストマイニングシステムは受信したリクエストを分類し、顧客が必要とする詳細情報を提供できます。注文処理時間を最小限に抑えることで、カスタマーサービス部門はより多くの顧客にサービスを提供でき、ビジネスの収益性が向上します。

7. テキストマイニングで収入を得る方法

当社には、産業グレードのメンテナンスと修理を提供するクライアント企業がいます。 1日あたり最大4,000件の修理依頼が寄せられます。カスタマーサービスマネージャーは、CRM システムに修理エントリを作成し、ポップアップリストで修理のカテゴリとタイプを選択する必要があります。その後、リクエストの数に基づいて、修理チーム間で作業を再分配します。

リクエストは特定の形式で送信されなかったため、テキストマイニングを導入する前は、すべてのフィールドに手動で入力するのに多くの時間を費やす必要がありました。

WavetAccess は、顧客サービス部門がさまざまなリクエストをより適切に分類できるように、未知の形式に基づいたテキストベースのシステムを開発しました。システムは、最も可能性の高いカテゴリのいくつかを事前に入力し、従業員が CRM のポップアップリストで特定の状況をすばやく見つけられるようにします。同時に、このシステムは課金対象項目を識別し、企業に収益をもたらすこともできます。

8. スパムフィルタリング

スパムフィルタリングの目的は、大量のメールストリーム (電子メールとテキストメッセージの両方) を分類して、不要なメッセージを識別することです。そのため、この作業には、高速なアルゴリズムに基づいて大量のデータを判断・処理できるテキストマイニング技術が必要です。

上記の応用事例から、企業が直面するテキストデータは「非標準」であることが多く、その処理目標も多様であることがわかります。したがって、テキストマイニングと意思決定の効率を向上させるために、単一の分析方法のみを使用することはできません。テキストマイニングプロセスのさまざまな開発フェーズと、プロジェクトを最適化するための一般的なアプローチを詳しく見てみましょう。

3. 実装時の情報検索の問題

最も一般的なテキストマイニングタスクの 1 つは、関連するドキュメントを検索し、そこから情報を抽出することです。データ量が増加し続けると、このタスクの自動化の程度が特に重要になります。このようなタスクを実行するための典型的なシステムは、通常、次の 2 つの部分で構成されます。

文書の収集と標準化。
ドキュメントの分類と分析。

これら2つの部分について詳しく説明しましょう。

1. 文書の収集と標準化

このフェーズの目標は次のとおりです。

テキストから構造化されたデータを継続的に収集して抽出します。
ドキュメントに関するメタデータ（作成日、タイトルなど）を収集します。
ドキュメントのテキストとメタデータを標準化します。

データのソースは多様であり、収集方法も柔軟かつ多様であるため、アップロードする前にフォーマットコンバータを使用して対象ドキュメントのフォーマットを処理する必要がある場合があります。具体的なデータ収集および準備タスクは次のとおりです。

ソース文書をスキャンしてデータを収集する

この場合、システムは光学文字認識エンジン (Tesseract などの OCR ツール) を使用して、テキストをセクションと段落に分割します。ただし、光学認識の一般的な問題は、より複雑な形式 (さまざまな列や表など) のテキストに遭遇することが多く、それがシステムによる意味のあるドキュメントの最終的な変換と結合に影響を与えることです。さらに、複数のドキュメントを同時にスキャンするために、システムは特定の属性タグを使用して特定のドキュメントの開始と終了をマークする必要がある場合もあります。

PDFまたはDJVUドキュメントを介してデータを収集する

これらのドキュメント形式はフォーマットされたドキュメントの表示には適していますが、構造化されたデータの保存には適していません。 PDF ファイルと DJVU ファイルでは、表示やユーザーの読み取りを容易にするために記号や単語の位置を保存できますが、これらのファイルには文の境界マーカーはありません。したがって、上記のドキュメントスキャン方法と同様に、複雑な形式、表、画像を含む PDF および DJVU ファイルも、テキストマイニングにさまざまな程度の課題をもたらします。

ウェブソースからのデータ収集

データソースを含むすべての Web サイトやシステムに便利な API があるわけではなく、便利なユーザーインターフェイスだけの場合もあります。この場合、システムは Web クローラーを使用して、つまり Web サイトを分析してデータを収集する必要があります。したがって、一般的に使用される HTML コード分析に加えて、システムでは、このような特殊な問題を解決するためにコンピュータービジョンも使用する必要がある可能性があります。

ユーザーによる手動データアップロード

場合によっては、ユーザーは既に一定量のドキュメント処理をローカルで自動化できる能力を持っていることがあります。次に、システムがリッチフォーマットの大量のドキュメントをアップロードするユーザーをサポートするには、アップロードされたドキュメントにメタデータを追加する必要があります。発行日、著者、ソース、ドキュメントの種類などのメタデータは、特定のトピックをターゲットにしたり、特定の著者の作品を検索したりするなど、後のテキストマイニング操作に役立ちます。

したがって、利用可能なデータが大量にある場合、そのデータのごく一部だけが必要になることがあります。たとえば、医療および医薬品データベース内の特定の会社の医薬品のみに関心がある場合があります。次に、すべてのドキュメントを処理するために正確だがリソースを消費するアルゴリズムを使用するのではなく、キーワードリストにアクセスし、全文インデックスを使用して、必要なドキュメントをすばやく取得する必要があります。複数のソースからデータを収集することが目的である場合は、特定の標準化されたインターフェースを使用して、ドキュメントを迅速かつ効率的に取得する必要があります。ここでは、オープンソースの全文検索プラットフォームである Solr ツールを参照できます。

2. 文書の分類と分析

さまざまなドキュメントを収集して保存し（場合によってはフィルタリングも）、システムはさまざまなテキストマイニングアルゴリズムを呼び出して、対象のドキュメントがトピックに関連しているかどうかを確認し、ドキュメントに含まれる情報を分析します。たとえば、文書内で製品が言及されているかどうかを判断することで、そのコンテキストが「ポジティブ」か「ネガティブ」かを判断できます。その後、システムは、手動または自動でさらに処理するためのドキュメントレポートを生成します。

一般に、テキストマイニングの方法とアルゴリズムは次のグループに分類されます。

テキストの正規化と前処理。
一連のルールを使用して、エンティティとその関係を検索します。
さまざまな統計手法と機械学習を使用します。

上記の方法は通常、いくつかの複雑なシステムに組み込まれ、組み合わせて使用されます。

テキストの正規化と前処理

このフェーズは他のフェーズに先行し、次の内容が含まれます。

文を単語に分けます。
ストップワード（前置詞、間投詞など）を削除します。
残りの単語を正規化し（「people」を「people」、「realized」を「realized」に変更）、文中のその構成要素を特定します。

明らかに、これらの手順はテキストの言語に大きく依存しますが、必ずしも必要なわけではありません。たとえば、一部のテキストマイニングアルゴリズムでは、一時停止の単語からさまざまな情報を収集することもできます。

ルールセット

このアプローチは、特定の分野の専門家によって開発された一連のルールに基づいています。以下はそのようなルールの例です。

会社名が記載されている 3 つの文に記載されている製品名をすべて選択します。
「<会社名> が <サービス名> を提供する」というパターンに一致するサービスを選択します。
会社の製品名が 3 回未満しか記載されていない文書を削除します。

言語仕様

このような規則は、言語を通じて語順を分析することに重点を置いています。たとえば、英語の文章では、中心となる単語は一般的に変更されませんが、単語間の関係は文法と機能語（前置詞など）を通じて伝えられます。

合成言語（ドイツ語、ギリシャ語、ラテン語、ロシア語など）では、単語間の関係は単語の形式を通じて表現され、語順は重要ではありません。

したがって、英語を分析する場合、コア語ではない「サービス」語（前置詞など）が形式と時制を伝える役割を果たします。たとえば、古典的な Word の文章: 「茶色のキツネは怠け者の犬を飛び越える。」

合成言語とは対照的に、英語のこの文では茶色のキツネがオスかメスかを前提とせず、怠け者の犬の性別も明らかではありません。その中でも「キツネ」と「犬」は明確で不変の核心語です。

ルールの利点と欠点

アドバンテージ

トレーニングデータやラベル付けは必要ありません。
システムによって下された決定は明確であり、人間のユーザーに簡単に説明できます。

欠点

十分な精度を与える一連のルールを開発するには、ある程度の労力が必要です。
たとえパターンがわずかに異なるだけでも、既存のルールでは新しいケースの関連データを処理できません。

5. 統計的手法と機械学習

テキストデータは複雑であり、その構造を正規化するのが困難なため、機械学習アプリケーションでは特に複雑になります。特定のコンテキストで許容できる出力を見つけるには、複数の方法やアルゴリズムをテストする必要があります。

よく使用されるアルゴリズムの例をいくつか示します。

テキスト前処理アルゴリズム

単語の正規化とストップワードの削除に加えて、一部のアルゴリズムでは、テキストをベクトルまたはベクトルのシーケンスとしてデジタル形式に変換する必要があります。最も一般的に使用されるテキスト前処理アルゴリズムは次のとおりです。

1.ワンホットエンコーディングは最も単純なアルゴリズムです。テキスト内の単語を、i 番目の位置にゼロ以外の値を持つ N 長のベクトルに変換します。ここで、N は言語辞書の長さ、i は辞書内の単語の位置です。

2.word2vec も単語をベクトル化するためのアルゴリズムのセットです。ワンホットエンコーディングと比較すると、生成されるベクトルははるかに短く、さまざまな実数（整数ではない）が含まれます。 Word2vec は、意味が似ている単語に類似のベクトルを割り当てることができます。

3. Bag of Words は、単語の頻度 (つまり、文書内で単語が出現する回数) に基づいたアルゴリズムです。一般的なテキストをベクトルで記述することはできますが、テキストの構造はほぼ完全に無視されます。

4.TF-IDFは、テキストごとにtf-idf値ベクトルを形成できるアルゴリズムです。ここで、tf-idf 値は、特定のテキスト内の単語の頻度を、コーパス全体におけるその単語の逆頻度で割ったものです。逆周波数はさまざまな方法で計算できます。したがって、基本的な考え方は次のようになります。ある単語が言語で頻繁に使用される場合、その単語に低い値のカテゴリを割り当てます (たとえば、「go」、「work」、「have」、「need」などを含む多くの前置詞はこのカテゴリに属します)。また、その逆の頻度も比較的低くなります。逆に、まれな単語は当然ながら逆頻度が高く、分類値も高くなります。

固有表現認識と関係抽出アルゴリズム

仕事は、特定の用語 (会社名、製品名、サービス名など) を見つけ、タグ付けして分類し、これらのエンティティ間の関係を見つけることです。したがって、次のアルゴリズムが関係する可能性があります。

1. 統計モデルを有向グラフとして表す隠れマルコフモデル (HMM)。

2. 条件付きランダムフィールド (CRF) も統計モデルですが、有向グラフは使用しません。

3. ニューラルネットワーク。LSTM は、処理プロセスを通じてコンテキストデータを順次 (繰り返しなく) 保存できるため、コンテキストを表すことができます。 CNN は、見つかった基本的な特徴パターンに基づいてデータを抽出します。

4. 一般的な機械学習手法。システムが「スライディングウィンドウ」手法を使用する場合、一般的な機械学習手法には、ロジスティック回帰、サポートベクターマシン、単純ベイズ分類器、決定木、および入力として固定された特徴のリストを必要とするその他の手法が含まれます。もちろん、このような方法ではウィンドウの外側のコンテキストは考慮されません。したがって、関連する単語がウィンドウの長さから遠く離れている場合、またはテキストブロック全体に他の種類のコメント (製品の説明に関する否定的なコメントなど) がある場合、これらの情報は無視され、不正確な結果が生成される可能性があります。

分類とトピックモデリングアルゴリズム

このタスクは、ドキュメントの種類や件名など、処理されたドキュメントの簡単な説明を生成することです。したがって、次のアルゴリズムが関係する可能性があります。

1. 潜在ディリクレ配分 (LDA) は、ディリクレ分布に基づく統計モデルです。テキストをさまざまなトピックの組み合わせとして表示できます。

2. 潜在的意味解析 (LSA) は、コーパスを用語ドキュメントマトリックスとして表現し、それを分解してさまざまなドキュメントトピックを定義する方法です。

3. トピックモデルの加法正規化 (ARTM) は、既存の統計モデルと正規化を組み合わせて、テキスト構造をより適切に分析します。

4. bag of words、tf-idf、その他のアルゴリズムの結果を入力として使用する一般的な機械学習手法。

もちろん、さまざまなアルゴリズムのパフォーマンスはタスクごとに異なります。たとえば、一部のアルゴリズムは、さまざまなテキストトピックや名前付きエンティティに対して特に効果的に機能する場合があります。したがって、テキストマイニングシステムを構築するときは、さまざまな方法を試して最適な出力結果を見つけたり、さまざまなテクノロジの結果を組み合わせてテキストマイニングの目的を達成したりすることができます。

統計的手法と機械学習の長所と短所

アドバンテージ