Daguan Data: NLP の概要と自動テキスト分類アルゴリズムの詳細な説明

自然言語処理は人工知能の分野で常に重要なトピックであり、2018年も話題となりました。大量のテキストからタイムリーかつ正確に効果的な情報を取得するために、テキスト分類技術は幅広い注目を集めており、すべての人にさらなる応用と想像の余地をもたらしました。この記事は、Daguan Dataの共同創設者である張建氏のライブ放送コンテンツ「NLPの概要とテキスト自動分類アルゴリズムの詳細説明」に基づいて編集されています。

1. NLPの概要

1. テキストマイニングタスクの種類の分類

テキストマイニングタスクは、カテゴリからシーケンス、シーケンスからカテゴリ、同期 (各入力位置から出力が生成される) シーケンスからシーケンス、非同期シーケンスからシーケンスの 4 つのタイプに大まかに分類できます。

同期されたシーケンス間の例には、中国語の単語分割、名前付きエンティティの認識、品詞のタグ付けなどがあります。シーケンスツーシーケンスアプローチには、機械翻訳と自動要約が含まれます。シーケンスからカテゴリへの変換の例には、テキスト分類や感情分析などがあります。シーケンスのカテゴリ (オブジェクト) の例には、テキスト生成や画像の説明などがあります。

2. テキストマイニングシステムの総合ソリューション

Daguan Data は常にテキストセマンティクスに重点を置いています。テキストマイニングシステムの全体的なソリューションには、NLP 処理のあらゆる側面が含まれています。処理されるテキストの粒度の観点から、段落レベルのアプリケーション、短い文字列レベルのアプリケーション、語彙レベルのアプリケーションに分けることができます。

テキストレベルのアプリケーションには 6 つの側面があり、さまざまな側面で企業のテキストマイニングのニーズをサポートする成熟した製品がすでに存在します。

スパムコメント: 広告、不適切な言葉、低品質のテキストを正確に識別します。

ポルノ防止識別: テキストに含まれるポルノ、政治、反動的なコンテンツを正確に特定します。

タグ抽出: テキストからコアワードを抽出してタグを生成します。

記事分類: 事前に設定された分類システムに従ってテキストを自動的に分類します。

感情分析: ユーザーがテキストを通じて表現した感情の傾向を正確に分析します。

記事トピックモデル: 記事の暗黙のテーマを抽出します。

これらのトップレベルのアプリケーションを実現するために、Daguan Data は短単語列分析レベルから分析技術を習得し、中国語単語分割、固有名詞認識、意味分析、単語列分析などのモジュールを開発しました。

Daguan データテキストマイニングアーキテクチャ図

3. シーケンスラベリングアプリケーション：中国語単語の分割

同期シーケンスからシーケンスへの変換は、実際にはシーケンスのラベル付けの問題であり、おそらく自然言語処理で最も一般的な問題です。シーケンスラベリングのアプリケーションには、中国語の単語分割、固有表現認識、品詞タグ付けなどがあります。シーケンスラベリング問題の入力は観測シーケンスであり、出力はラベルシーケンスまたは状態シーケンスです。

中国語の単語分割を例にとると、「combined into moleculars」という観測シーケンスが処理され、「combined/into/molecules」という単語分割タグシーケンスが出力されます。中国語の単語分割のこのアプリケーションには、辞書ベースの方法、隠れマルコフモデル (HMM)、最大エントロピーモデル、条件付きランダムフィールド (CRF)、ディープラーニングモデル (双方向 LSTM など)、およびいくつかの教師なし学習方法 (凝集度と自由度に基づく) など、多くの処理方法があります。

4. 配列アノテーションアプリケーション: NER

名前付きエンティティ認識: 名前付きエンティティ認識 (NER) は「固有名詞認識」とも呼ばれ、主に人名、地名、機関名、固有名詞など、テキスト内の特定の意味を持つエンティティを識別することを指します。これには通常、エンティティ境界の識別とエンティティカテゴリの決定が含まれます。

固有表現認識には、さまざまなラベル付け方法が採用されています。一般的なラベル付け方法には、IO、BIO、BMEWO、BMEWO+ などがあります。これらのタグの一部は次のような意味を持ちます:

B：始める

I: 単語の次の構成要素

M: ミドル

E: 終了

W: エンティティとしての単語

ほとんどの場合、ラベリングシステムが複雑になるほど精度は高くなりますが、それに応じてトレーニング時間も長くなります。したがって、実際の状況に応じて適切なラベリングシステムを選択する必要があります。通常、実際のアプリケーションプロセスでは、解決するのが最も難しい問題はラベル付けの問題です。したがって、固有表現認識を行う際には、人件費の問題を考慮する必要があります。

5. 英語処理

NLP の分野では、中国語と英語の処理は大まかには似ていますが、細部では違いがあります。 1 つの側面は、中国語では単語の分割の問題を解決する必要があるのに対し、英語では当然この心配はありません。一方、英語の処理では、語形の復元と語根の抽出の問題に直面します。英語には、時制の変更 (made==>make)、単数と複数の変更 (cats==>cat)、語根の抽出 (arabic==>arab) があります。

上記の問題に対処する過程で、必ず言及しなければならないツールが WordNet です。 WordNet は、心理学教授 George A. Miller の指導の下、プリンストン大学認知科学研究所によって作成および管理されている英語辞書です。 WordNet では、名詞、動詞、形容詞、副詞がそれぞれ同義語のネットワークに編成されています。各同義語セットは基本的な意味概念を表し、これらのセットはさまざまな関係によって接続されています。 WordNet を通じて同義語と上位語を取得できます。

6. 単語の埋め込み

テキストを処理するときは、テキストをデジタルで表現可能な形式に変換する必要があります。単語ベクトルに必要なのは、言語を数学的に表現することです。単語ベクトルを実装する方法は 2 つあります。1 つは単語をベクトル内の 1 次元の 0/1 値で表すワンホット表現、もう 1 つは単語を固定次元のベクトルに変換する単語埋め込みです。

Word2vec は、浅い 2 層のニューラルネットワークを使用して新しい単語ベクトルを生成するモデルです。生成された単語埋め込みは、実際には言語モデルの副産物です。ネットワークは単語で表され、隣接する位置にある入力単語を推測する必要があります。 word2vec で単語ベクトルをトレーニングする方法には、cbow (連続単語バッグ) と skip-gram の 2 つがあります。 cbow と skip-gram の違いは、cbow は単語のコンテキスト (周囲の単語のベクトルの合計) を入力して中間の単語を予測するのに対し、skip-gram は中間の単語を入力してその周囲の単語を予測することです。

7. ドキュメントモデリング

コンピュータが実際のテキストを効率的に処理できるようにするには、理想的な形式表現方法を見つける必要があり、このプロセスがドキュメントモデリングです。ドキュメントモデリングでは、ドキュメントの内容を正確に反映できる必要があり、また、異なるドキュメントを区別できる必要があります。ドキュメントモデリングの一般的な方法には、ブールモデル、ベクトル空間モデル (VSM)、確率モデルなどがあります。最も広く使用されているのはベクトル空間モデルです。

2. テキスト分類の主要技術と重要な方法

1. モデルのトレーニングに機械学習を使用する

テキスト分類プロセスには、トレーニング、テキストセマンティクス、テキスト機能処理、トレーニングモデル、モデル評価、出力モデルなど、いくつかの主要なステップが含まれます。ここではいくつかの主要な概念を紹介します。

ドキュメントモデリング: 確率モデル、ブールモデル、VSM。

テキストセマンティクス: 単語の分割、固有表現の認識、品詞のタグ付けなど。

テキスト特徴処理：評価関数（TF-IDF、相互情報量法、期待クロスエントロピー、QEMI、統計的手法、遺伝的アルゴリズムなど）の使用を含む特徴次元削減、特徴ベクトルの重み計算。

サンプル分類トレーニング: ナイーブベイズ分類器、SVM、ニューラルネットワークアルゴリズム、決定木、アンサンブルアルゴリズムなど。

モデル評価: 再現率、精度、F 値。

モデルを出力します。

2. ベクトル空間モデル

ベクトル空間モデルは、テキストマイニングを処理するために一般的に使用されるドキュメントモデリング手法です。 VSM の概念は非常に直感的です。テキストコンテンツの処理をベクトル空間でのベクトル操作に簡素化し、意味的類似性を空間的類似性で表現するため、直感的で理解しやすいものです。

文書が文書空間内でベクトルとして表現される場合、ベクトル間の類似度を計算することによって文書間の類似度を測定できます。その実装の一部を以下に示します。

1) N-gramモデル：特定のコーパスに基づいて、N-gramを使用して文が妥当かどうかを予測または評価できます。

2) TF-IDFモデル：ある単語が文書内に頻繁に出現するが、他の論文にはほとんど出現しない場合、その単語はカテゴリ識別能力が優れているとみなされます。

3) 段落ベクトルモデル: これは実際には単語ベクトルの拡張です。 Gensim の Doc2Vec と Facebook のオープンソース Fasttext ツールもこのアイデアを採用しています。これらは、テキストの単語ベクトルを段落ベクトルとして追加/平均化します。

3. テキスト特徴抽出アルゴリズム

現在、ほとんどの中国語テキスト分類システムでは単語を特徴項目として使用しており、特徴項目として使用される単語は特徴語と呼ばれます。これらの特徴語は、ドキュメント間の類似度やドキュメントとユーザーの目標間の類似度を計算するためのドキュメントの中間表現として使用されます。すべての単語を特徴として使用すると、特徴ベクトルの次元が大きくなりすぎます。効果的な特徴抽出アルゴリズムは、計算の複雑さを軽減するだけでなく、分類の効率と精度を向上させることもできます。

テキスト特徴抽出アルゴリズムには、次の 3 つの側面が含まれます。

1) 元の特徴から、単語頻度やTF-IDF法などのテキスト情報の最も代表的な特徴のいくつかを選択します。

2) 数学的手法に基づいて分類情報にさらに貢献する特徴を見つけます。主な例としては、相互情報量法、情報ゲイン、期待クロスエントロピー、統計的手法などがあります。

3) 主成分分析（PCA）などの特徴量を使用して多変量統計分布を分析します。

4. テキストの重みの計算方法

特徴の重みは、ドキュメント表現における特徴項目の重要性または識別能力を測定するために使用されます。適切な重み計算方法を選択すると、テキスト分類システムの分類効果が大幅に向上します。

特徴量の重みの計算方法は次のとおりです。

1) TF-IDF;

2) 品詞

3) タイトル

4) 場所

5) 統語構造;

6) 専門用語

7) 情報エントロピー

8) 文書と単語の長さ

9) 単語間の関係

10) 単語の直径

11) 単語分布の偏り。

ここでいくつかの点について説明します。単語の直径とは、テキスト内で単語が最初に出現してから最後に出現するまでの距離を指します。単語分布バイアスは、記事内の単語の統計的分布を考慮します。記事全体に均等に分布している単語は、通常、重要な語彙です。

5. 分類器の設計

テキスト分類自体が分類問題であるため、一般的なパターン分類方法をテキスト分類アプリケーションで使用できます。

一般的に使用される分類アルゴリズムの考え方には、次の 4 つがあります。

1) ナイーブベイズ分類器: 特徴項目とカテゴリの結合確率を使用して、テキストのカテゴリ確率を推定します。

2) サポートベクターマシン分類器: 2 つのカテゴリのデータポイントを最適に分割できるベクトル空間内の決定平面を見つけます。主にバイナリ分類問題を解決するために使用されます。

3) KNN 方式: トレーニングセット内の k 個の最も近い隣接テキストを見つけ、これらのテキストの分類に従ってテストドキュメントを分類します。

4) 決定木法: テキスト処理プロセスは、階層的に階層化され分解された複雑なタスクとして扱われます。

6. 分類アルゴリズムの融合

複数の分類器を集約して分類精度を向上させる手法をアンサンブル法と呼びます。

さまざまな分類器の利点を活用し、互いの長所を学び、短所を克服し、最終的に複数の分類器の結果を組み合わせます。 Ensemble は、目的関数 (複数の分類器を組み合わせる) を設定し、トレーニング (単純な加算や多数決ではない) を通じて複数の分類器の組み合わせパラメータを取得できます。

ここで言及したアンサンブルは、一般的に言われるアンサンブル学習とは異なる可能性があります。主にスタッキングのことを指します。

スタッキングとは、モデルをトレーニングして他のモデルを組み合わせることを指します。つまり、最初に複数の異なるモデルをトレーニングし、次に以前にトレーニングしたモデルの出力を入力としてモデルをトレーニングし、最終的な出力を取得します。アンサンブル方式を扱う場合、注意すべき点がいくつかあります。ベースモデル間の相関は可能な限り小さくする必要があり、パフォーマンスに大きな差があってはなりません。

複数のモデルの分類結果がそれほど違わない場合は、重ね合わせの効果は明らかではありません。また、1 つのモデルの効果が他のモデルよりも悪い場合は、全体の効果も妨げられます。

3. ディープラーニングにおけるテキスト分類の応用

1. CNNテキスト分類

テキスト分類に CNN 方式を使用すると、従来の方法に比べていくつかの点で利点があります。

Bag-of-Words モデルに基づくテキスト分類方法では、単語の順序は考慮されません。

畳み込みニューラルネットワーク (CNN) に基づくテキスト分類では、単語の順序に含まれる情報を利用できます。この図は、テキスト分類に CNN を使用する比較的基本的なネットワーク構造を示しています。 CNN モデルは生のテキストを入力として受け取り、人工的な特徴をあまり必要としません。 4 つのレイヤーに分かれた CNN モデルの実装:

最初のレイヤーは単語ベクトルレイヤーです。ドキュメント内の各単語は単語ベクトル空間にマッピングされます。単語ベクトルが k 次元であると仮定すると、n 個の単語がマッピングされた後、n*k 次元の画像を生成することと同じです。

2 番目の層は畳み込み層で、複数のフィルターが単語埋め込み層に作用し、異なるフィルターが異なる特徴マップを生成します。

3 番目の層はプーリング層で、各特徴マップの最大値を取得します。この操作では、3 番目の層の出力はフィルターの数にのみ依存するため、可変長のドキュメントを処理できます。

4 番目の層は完全に接続されたソフトマックス層であり、出力は各カテゴリの確率です。通常、過剰適合を防ぐために途中でドロップアウトが追加されます。

CNN に関連する方法は、通常、この基本モデルを中心に展開され、さまざまなレイヤーで革新が追加されます。

たとえば、最初のモデルでは、入力層を RNN に置き換えて、畳み込み層の入力として RNN によって処理された後のテキストの出力を取得します。たとえば、2 番目の方法では、プーリング層で動的 kmax プーリングを使用して、サンプルセット内のテキストの長さの大きな変動の問題を解決します。たとえば、3 番目のタイプは非常に深いネットワークであり、畳み込み層で複数の層の畳み込みを実行して、長距離の依存関係情報を取得します。

CNN は、さまざまな長さの範囲の特徴を抽出できます。ネットワークの層が多いほど、抽出できるさまざまな範囲の特徴が豊富になります。ただし、CNN の層が多すぎると、勾配拡散、勾配爆発、劣化などの一連の問題が発生します。

これらの問題を解決するために、非常に深いネットワークがショートカットを通じて接続されます。残余ネットワークは、実際には複数のパスで構成されたネットワークです。残余ネットワークは、実際には多数の並列サブネットワークの組み合わせです。残余ネットワークについてコメントし、実際にはアンサンブルと同等であると言う人もいます。

2. RNNとLSTMによるテキスト分類

CNN の問題の 1 つは、filter_size が畳み込み中に固定されることです。つまり、より長いシーケンス情報をモデル化することはできません。これにより、複数の畳み込みを通じてさまざまな範囲の特徴を取得できますが、ネットワークの深さが増加するという代償を伴います。

RNN の登場は、可変長シーケンス情報のモデリングの問題を解決するために行われました。RNN は、各ステップで生成された情報を次のステップに渡します。

まず、入力層の上に双方向 LSTM 層を配置します。LSTM は RNN の改良モデルです。RNN と比較して、文章内の単語間の長距離影響をより効果的に処理できます。双方向 LSTM には、隠れ層に順方向 LSTM と逆方向 LSTM があります。順方向 LSTM は前のコンテキストの特徴情報をキャプチャし、逆方向 LSTM は次のコンテキストの特徴情報をキャプチャします。これにより、単方向 LSTM よりも多くの特徴情報をキャプチャできます。したがって、一般的に、双方向 LSTM は単方向 LSTM や単方向 RNN よりもパフォーマンスが優れています。

物理的な意味での平均化をどのように理解すればよいのでしょうか?これは実際には、このレイヤーでは、2 つの文の各単語が最終的な分類結果に投票すると理解できます。これは、各 BLSTM の出力が、入力単語が、前のすべてのコンテキストと次のすべてのコンテキスト (2 つの文を含む) を確認し、平均プーリングレイヤーを通じて貴重な投票を行った後に、2 つの文が意味的に同じであるかどうかの判断として理解できるためです。

3. 注意モデルと seq2seq

注意モデルは、従来のオートエンコーダのアップグレード版です。従来の RNN エンコーダー/デコーダーモデルの欠点は、前のコンテキストがどれだけ長くても、どれだけの情報が含まれていても、最終的には固定ベクトルに圧縮され、各次元が各入力次元によって同じように影響を受けることです。この問題を解決するには、異なる位置のコンテキストに異なる重みを与えるというアイデアがあります。重みが大きいほど、対応する位置のコンテキストの重要性が増します。

実際に、翻訳の問題を例に挙げてみましょう。「Jack Ma dances very well」は中国語では「Jack Ma dances very well」と翻訳されます。その中で、馬雲はジャック・マーと関連しているはずです。

注意モデルは現在研究のホットスポットであり、テキスト生成、機械翻訳、言語モデルで広く使用されています。

4. 階層的注意ネットワーク

以下に階層型注意ネットワークを紹介します。

単語エンコーディング層は、まず単語を単語ベクトルに変換し、次に双方向 GRU 層を使用して順方向コンテキスト情報と逆方向コンテキスト情報を組み合わせて、隠し層出力を取得します。 2 番目の層は単語注目層です。注意メカニズムの目的は、文の中で最も重要で、文の意味に最も貢献する単語を見つけることです。

単語の重要度を測定するために、u_it とランダムに初期化されたコンテキストベクトル u_w との類似性を使用してそれを表現し、次にソフトマックス演算を通じて正規化された注目重み行列 a_it を取得します。これは文 i の t 番目の単語の重みを表します。単語の重みと組み合わせると、文ベクトル s_i は、これらの文を構成する単語ベクトルの重み付き合計と見なされます。

3 番目の層は文エンコード層であり、双方向 GRU 層を使用して前方コンテキスト情報と後方コンテキスト情報を組み合わせて、隠し層の出力を取得します。

4 番目のレイヤーは、単語注意レイヤーに似た文注意レイヤーです。また、テキスト内の文の重要性を測定するために、文レベルのコンテキストベクトル u_s も提案します。出力は文の重みとも組み合わせられ、全文のベクトル表現は文ベクトルの重み付き合計として扱われます。

最後に、テキスト全体のベクトル表現を使用して、完全に接続されたソフトマックスを通じて直接分類を実行できます。

IV. 事例紹介

1. ニュース分類

ニュースカテゴリは最も一般的なカテゴリです。治療方法には以下のものがあります。

1) 業界固有のコーパスをカスタマイズし、コーパスの知識ベースを定期的に更新し、業界固有のセマンティックモデルを構築します。

2) 場所の特徴、Web ページの特徴を考慮し、オフラインの統計結果を組み合わせて用語の重みを計算し、コアキーワードを取得します。

3) トピックモデルを用いた意味拡張

4) 教師ありおよび半教師ありテキスト分類

2. スパム広告とポルノの識別対策

スパムフィルタリングはテキスト分類の特殊なケースであり、攻撃防止の手段として、ユーザーが検査を回避するためにさまざまな手段を講じる状況に直面することがよくあります。

これらの変換を処理する方法は複数あります。

1 つ目は、散在する特殊記号、同音異義語、簡体字と繁体字の変換、部首の分割と類似形の変換の処理を含め、語形変化した単語を識別して復元することです。

2 つ目は、言語モデルを通じて干渉テキストを識別することです。テキストが支離滅裂な「ナンセンス」であると識別された場合、それはキーワードレビューを回避するために使用されるジャンクテキストである可能性があります。

3 つ目は、トピックとコメント間の関連性の一致を計算して識別することです。

4番目に、複数の表現特徴に基づく分類器モデル認識を使用して、分類の一般化能力を向上させます。

3. 感情分析

感情分析の方法には以下のものがあります。

1) 辞書ベースの感情分析では、主にオンラインで感情辞書を設定し、ルールマッチング（感情語に対応する重み付け）に基づいてサンプルが肯定的か否定的かを識別します。

2) 機械学習に基づく感情分析は、主にバッグオブワードモデルを基本機能として採用し、複雑な感情処理ルールの結果を1次元または多次元機能として使用し、より「柔軟な」方法で感情分析に統合して、バッグオブワードモデルを拡張します。

3) テキスト分類に DNN モデルを使用して、従来の bag-of-words モデルでは長距離依存関係の処理が難しいという欠点を解決します。

4. NLPのその他の応用

Daguan における NLP のその他のアプリケーションには、次のものがあります。

1) ラベル抽出

2) 意見マイニング

3) 推薦システムへの応用

4) 検索エンジンに適用されます。

ラベルを抽出する方法はクラスタリングベースの方法など多数あります。さらに、一部のディープラーニングアルゴリズムでは、教師あり方式によるラベル抽出機能が実装されるようになりました。

意見マイニングの観点では、たとえば、ベッドがひどく壊れていて、よく眠れない、といった具合です。私が抽出したアイデアは「ベッドが壊れている」であり、これには文法と構文の分析が含まれ、関連するコストが抽出されます。

NLP は、検索や推奨など、さまざまな場面で使用されています。たとえば、検索エンジンがユーザーのクエリ内のエラーを処理する場合、チャネルノイズモデルを使用してエラー修正を実行します。

最後に、NLP を愛する友人に、Daguan Data が主催する「Daguan Cup」テキストインテリジェント処理チャレンジというコンテストをお勧めしたいと思います。このコンテストは、自動テキスト分類に基づいています。上記のアルゴリズムを練習したい場合や、詳細に練習したい場合は、コンテストを利用して練習し、自分自身を豊かにすることができます。現在、このコンテストには約 1,400 人が参加しています。コンテストの詳細については、クリックして原文をお読みください。また、7 月 26 日木曜日の夜には、ディープラーニングとインテリジェントテキスト処理に関するライブブロードキャストを皆様に共有する予定です。ご興味がおありの場合は、QR コードをスキャンしてグループに参加し、詳細をご確認ください。

[この記事は51CTOコラムニスト「Daguan Data」によるオリジナル記事です。転載については51CTOコラムまでご連絡ください]

この著者の他の記事を読むにはここをクリックしてください

<<: AIコンピューティングのトレンド分析：4年後には、次のAlphaGoをプレイできる人は誰もいない

>>: Google、人工知能をより有効活用できるよう複数のAIツールをリリース