初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

自然言語処理は AI の最高峰であり、コーパス前処理は自然言語処理の基礎です。

[[336067]]

機械は人間とコミュニケーションできるのでしょうか?人間のようにテキストを理解できますか?これが人工知能に対する誰もが最初に想像するものです。今日、NLP テクノロジーは人間と機械の架け橋として機能します。私たちの生活を見渡すと、音声認識、機械翻訳、質問応答システムなど、NLP 技術がもたらす利便性をいつでも享受できます。

これらのテクニックは奥が深いように思えるかもしれませんが、実際は従うべきルールがあります。アルゴリズムの基本原理を理解すると、突然、おや!と気づくかもしれません。これは理解するのが難しくありません。

この記事を読んで、NLP テクノロジー (コーパス前処理) の基盤がどのように構築されるかを調べてみましょう。次回以降の記事では、NLPにおける特徴抽出や最新のアルゴリズム解釈について、徐々に紹介していきます。

コーパスは、その名前が示すように、通常テキストと呼ばれるものです。テキスト記述のあるテキストはすべてコーパスに分類できます。ただし、この種の生のテキストはモデルのトレーニングに直接使用することはできず、事前の前処理が必要です。

コーパスの前処理方法には、主にデータのクリーニング、単語の分割、品詞のタグ付け、ストップワードの削除が含まれます。

コーパスクリーニング

コーパスクリーニングとは、コーパス内の有用なデータを保持し、ノイズデータを除去することを意味します。一般的なクリーニング方法には、手動による重複排除、アライメント、削除、ラベル付けなどがあります。

次のテキストを例に挙げます。テキストには、漢字だけでなく、数字、英語の文字、句読点などの通常とは異なる文字も含まれており、これらは意味のない情報であるため、クリーンアップする必要があります。

上記の場合と同様に、クリーニング方法は主に正規表現を使用します。この問題を解決するには、短い Python スクリプトを書くことができます。コードは次のとおりです。

洗浄後の結果:

ノイズ データには、クリーンアップする必要がある上記のフォームに加えて、テキストの重複、エラー、省略、異常なども含まれます。クリーニング方法には、手動処理、小さなツールの開発、またはデータをクリーニングするための短いプログラムの作成などがあります。

分詞

データがクリーンアップされたら、次のステップであるテキストのセグメンテーションに進むことができます。テキスト分割とは、テキストを個々の単語に分割することです。一般的に使用される単語分割方法には、ルールベースと統計ベースの単語分割方法があり、統計サンプル コンテンツはいくつかの標準コーパスから取得されます。

たとえば、「Xiao Ming は朝陽区に住んでいます」という文では、コーパス統計後の単語分割の結果は、「Xiao Ming/ は朝陽区に住んでいます」ではなく、「Xiao Ming/ は朝陽区に住んでいます」となることが予想されます。それで、どうやってこれを実現するのでしょうか?

統計的な観点から見ると、これは条件付き確率分布を通じて解決できます。新しい文に対して、さまざまな単語分割方法に対応する結合分布確率を計算し、最大確率に対応する単語分割方法、つまり最適な単語分割を見つけることができます。

これまで、研究者たちは、使いやすい単語分割のための実用的なツールを数多く開発してきました。単語分割に特別な要件がない場合は、これらの単語分割ツールを直接使用できます。

さまざまな単語分割ツールの概要。

品詞タグ付け

品詞タグ付けとは、単語分割結果の各単語の正しい品詞をマークするプロセス、つまり各単語が名詞、動詞、形容詞、またはその他の品詞であるかどうかを判断するプロセスを指します。

品詞タグ付けにはいくつかの重要な機能があります。

まず、曖昧さを排除します。一部の単語は、文脈や使用方法によって意味が異なります。たとえば、「この犬の名前はハッピーです」と「私は今日とても幸せです」という 2 つの文では、「幸せ」は異なる意味を表します。品詞タグ付けによって区別することができます。

次に、単語ベースの機能を強化します。上記の文を例にとると、品詞タグ付けが行われていない場合、2 つの「happy」は頻度 2 の同義語とみなされ、その後の分析でエラーが発生します。

さらに、品詞タグ付けには、標準化、語形の復元、ストップワードの効果的な削除などの機能もあります。

一般的に使用される品詞タグ付け方法には、最大エントロピー品詞タグ付け、HMM 品詞タグ付けなどのルールベースおよび統計ベースのアルゴリズムが含まれます。

次に、品詞タグ付けの例を見てみましょう。自分で試してみることもできます: http://ictclas.nlpir.org/nlpir/

ストップワードを削除する

私たち人間はメッセージを受け取るとき、無効な情報をフィルタリングし、有用な情報を選択します。自然言語の場合、ストップワードを削除するのは非常に賢明な操作です。

中国語でも英語でも、テキストには接続詞、機能語、助詞、および「的」、「吧」、「但」などの接続詞として機能するその他の意味のない単語が含まれています。これらの単語には特別な意味はなく、単に文章をつなげて語調を高める役割を果たします。これらの単語はテキスト分析には役立たないので、単語分割後にデータに対してストップワード処理を実行する必要があります。

しかし、どの種類のストップワードを削除するかを決定する際には注意が必要です。

下の図は、よく使用されるストップワードの一部を示しています。必要に応じて、削除するストップワードを選択できます。

単語の頻度統計

単語頻度統計は、単語を分割した後、テキストの単語頻度をカウントします。目的は、テキストに最も影響を与える単語を見つけることです。これはテキストマイニングの重要な手段です。これらの単語の頻度を数えると、記事が何を強調しているかを理解するのに役立ち、その後のモデル構築が容易になります。

たとえば、四大古典の一つである『紅楼夢』の語頻度上位28語を数えると、次のようになります。

上の写真から、「紅楼夢」の中でどのキャラクターについて最も多く書かれ、曹雪芹がどのキャラクターにもっと注目しているかが分かります。私たちは紅楼夢の研究の専門家ではありませんが、統計的な単語の頻度からいくつかの重要な情報を分析することができます。

「高い建物は地面から立ち上がる。」自然言語処理の超高層ビルの場合、基礎となる実装原理を理解することで、その構築プロセスをよりよく理解できるようになります。

<<:  世界中で人気のGPT-3がなぜ人々の仕事を破壊しているのか?

>>:  AIoT技術の幅広い応用と大きな利点

ブログ    
ブログ    
ブログ    

推薦する

...

GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

マルチモーダル大規模言語モデルは、強力な画像理解および推論機能を発揮します。しかし、現在の観察に基づ...

仕事の未来に向けたスマートデバイスの準備

パンデミック以前は、スマートデバイスは接続できなかった可能性があります。しかし、従業員が自宅からログ...

工業情報化省がロボット産業の「第14次5カ年計画」を発表:2035年までに指定規模以上の製造業でデジタル化が普及する

12月28日、工業情報化部など各部門は「第14次5カ年計画:インテリジェント製造業発展計画」(以下、...

AIリップリーディング、騒音環境でも最大75%の音声認識精度

人は話者の唇の動きを聞いて観察することで会話を認識します。では、AI も同じことができるのでしょうか...

マッキンゼーの中国人工知能レポートは3つの大きな課題に直面している

BAT の幹部は、先日終了した IT リーダーシップ サミットで人工知能に焦点を当てました。ロビン・...

[ホワイトベアおもしろ事実4] パーフェクトワールド:ペットの犬にはロボットがいて、独身の犬にはバーチャルガールフレンドがいる

[[185884]]飼い犬用のロボットを設計した人や、独身者向けのバーチャルガールフレンドを作った人...

AIの急速な発展によってもたらされるエネルギー需要をどう解決するか?

生成 AI テクノロジーは、単純なフレーズを驚くほどリアルな画像に変換し、世界中の人々の想像力をかき...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

教育用人工知能における倫理的リスクを排除する方法

人工知能は国際競争の新たな焦点となりつつあり、同時に人類社会に新たな発展の機会をもたらしています。機...

人工知能は「最優先事項」として挙げられていますが、高等教育機関はこの責任をどのように担うことができるのでしょうか?

人工知能は未来をリードする戦略的技術であり、産業変革の中核的な原動力であり、経済発展の新たな原動力で...

ドローンは5G開発をフィードバックし、インテリジェントな運用と保守の新たなアップグレードを促進する

近年、民生用ドローンの急速な発展と5G商用化の段階的な深化に伴い、ドローンと5Gの関係はますます密接...

人工知能に対する2つのアプローチの戦い

[[248047]] (AIの2つのルート)ホフスタッターは1995年に予測した。 (人工知能におい...