初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

自然言語処理は AI の最高峰であり、コーパス前処理は自然言語処理の基礎です。

[[336067]]

機械は人間とコミュニケーションできるのでしょうか?人間のようにテキストを理解できますか?これが人工知能に対する誰もが最初に想像するものです。今日、NLP テクノロジーは人間と機械の架け橋として機能します。私たちの生活を見渡すと、音声認識、機械翻訳、質問応答システムなど、NLP 技術がもたらす利便性をいつでも享受できます。

これらのテクニックは奥が深いように思えるかもしれませんが、実際は従うべきルールがあります。アルゴリズムの基本原理を理解すると、突然、おや!と気づくかもしれません。これは理解するのが難しくありません。

この記事を読んで、NLP テクノロジー (コーパス前処理) の基盤がどのように構築されるかを調べてみましょう。次回以降の記事では、NLPにおける特徴抽出や最新のアルゴリズム解釈について、徐々に紹介していきます。

コーパスは、その名前が示すように、通常テキストと呼ばれるものです。テキスト記述のあるテキストはすべてコーパスに分類できます。ただし、この種の生のテキストはモデルのトレーニングに直接使用することはできず、事前の前処理が必要です。

コーパスの前処理方法には、主にデータのクリーニング、単語の分割、品詞のタグ付け、ストップワードの削除が含まれます。

コーパスクリーニング

コーパスクリーニングとは、コーパス内の有用なデータを保持し、ノイズデータを除去することを意味します。一般的なクリーニング方法には、手動による重複排除、アライメント、削除、ラベル付けなどがあります。

次のテキストを例に挙げます。テキストには、漢字だけでなく、数字、英語の文字、句読点などの通常とは異なる文字も含まれており、これらは意味のない情報であるため、クリーンアップする必要があります。

上記の場合と同様に、クリーニング方法は主に正規表現を使用します。この問題を解決するには、短い Python スクリプトを書くことができます。コードは次のとおりです。

洗浄後の結果:

ノイズ データには、クリーンアップする必要がある上記のフォームに加えて、テキストの重複、エラー、省略、異常なども含まれます。クリーニング方法には、手動処理、小さなツールの開発、またはデータをクリーニングするための短いプログラムの作成などがあります。

分詞

データがクリーンアップされたら、次のステップであるテキストのセグメンテーションに進むことができます。テキスト分割とは、テキストを個々の単語に分割することです。一般的に使用される単語分割方法には、ルールベースと統計ベースの単語分割方法があり、統計サンプル コンテンツはいくつかの標準コーパスから取得されます。

たとえば、「Xiao Ming は朝陽区に住んでいます」という文では、コーパス統計後の単語分割の結果は、「Xiao Ming/ は朝陽区に住んでいます」ではなく、「Xiao Ming/ は朝陽区に住んでいます」となることが予想されます。それで、どうやってこれを実現するのでしょうか?

統計的な観点から見ると、これは条件付き確率分布を通じて解決できます。新しい文に対して、さまざまな単語分割方法に対応する結合分布確率を計算し、最大確率に対応する単語分割方法、つまり最適な単語分割を見つけることができます。

これまで、研究者たちは、使いやすい単語分割のための実用的なツールを数多く開発してきました。単語分割に特別な要件がない場合は、これらの単語分割ツールを直接使用できます。

さまざまな単語分割ツールの概要。

品詞タグ付け

品詞タグ付けとは、単語分割結果の各単語の正しい品詞をマークするプロセス、つまり各単語が名詞、動詞、形容詞、またはその他の品詞であるかどうかを判断するプロセスを指します。

品詞タグ付けにはいくつかの重要な機能があります。

まず、曖昧さを排除します。一部の単語は、文脈や使用方法によって意味が異なります。たとえば、「この犬の名前はハッピーです」と「私は今日とても幸せです」という 2 つの文では、「幸せ」は異なる意味を表します。品詞タグ付けによって区別することができます。

次に、単語ベースの機能を強化します。上記の文を例にとると、品詞タグ付けが行われていない場合、2 つの「happy」は頻度 2 の同義語とみなされ、その後の分析でエラーが発生します。

さらに、品詞タグ付けには、標準化、語形の復元、ストップワードの効果的な削除などの機能もあります。

一般的に使用される品詞タグ付け方法には、最大エントロピー品詞タグ付け、HMM 品詞タグ付けなどのルールベースおよび統計ベースのアルゴリズムが含まれます。

次に、品詞タグ付けの例を見てみましょう。自分で試してみることもできます: http://ictclas.nlpir.org/nlpir/

ストップワードを削除する

私たち人間はメッセージを受け取るとき、無効な情報をフィルタリングし、有用な情報を選択します。自然言語の場合、ストップワードを削除するのは非常に賢明な操作です。

中国語でも英語でも、テキストには接続詞、機能語、助詞、および「的」、「吧」、「但」などの接続詞として機能するその他の意味のない単語が含まれています。これらの単語には特別な意味はなく、単に文章をつなげて語調を高める役割を果たします。これらの単語はテキスト分析には役立たないので、単語分割後にデータに対してストップワード処理を実行する必要があります。

しかし、どの種類のストップワードを削除するかを決定する際には注意が必要です。

下の図は、よく使用されるストップワードの一部を示しています。必要に応じて、削除するストップワードを選択できます。

単語の頻度統計

単語頻度統計は、単語を分割した後、テキストの単語頻度をカウントします。目的は、テキストに最も影響を与える単語を見つけることです。これはテキストマイニングの重要な手段です。これらの単語の頻度を数えると、記事が何を強調しているかを理解するのに役立ち、その後のモデル構築が容易になります。

たとえば、四大古典の一つである『紅楼夢』の語頻度上位28語を数えると、次のようになります。

上の写真から、「紅楼夢」の中でどのキャラクターについて最も多く書かれ、曹雪芹がどのキャラクターにもっと注目しているかが分かります。私たちは紅楼夢の研究の専門家ではありませんが、統計的な単語の頻度からいくつかの重要な情報を分析することができます。

「高い建物は地面から立ち上がる。」自然言語処理の超高層ビルの場合、基礎となる実装原理を理解することで、その構築プロセスをよりよく理解できるようになります。

<<:  世界中で人気のGPT-3がなぜ人々の仕事を破壊しているのか?

>>:  AIoT技術の幅広い応用と大きな利点

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

チャットボット vs モバイルアプリ: 未来はどちらの手に?

[[272171]]チャットボットとモバイルアプリの戦いは、常に業界で最も議論されているトピックの...

「顔認識」時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

スタートアップ企業がAIと患者チップを組み合わせて医薬品開発を加速

動物実験の必要性は新薬発見のプロセスにとって残念な事実であり、マウスは特に人間を正確に模倣しているわ...

600以上のベーキングレシピを分析し、機械学習を使用して新製品を開発しました

焼き菓子は、世界中のさまざまな料理の中で常に重要な位置を占めてきました。柔らかいパン、繊細なケーキ、...

IIoTとAIは大きな課題に直面している

AI は IIoT から生成される膨大な量のデータを管理できるため、その基盤となるアーキテクチャはセ...

Google: 2020年5月のコアアルゴリズムアップデート、多数のウェブサイトに影響

Google のアルゴリズムは毎年何百回も更新されます (Google は通常、これらの更新について...

具現化された知能の新時代! VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します

既存の大規模言語モデル、画像生成モデルなどは、少数のモーダルデータに対してのみ動作し、人間のように物...

メタバース: 新たな人間コミュニティか、それとも徹底的な監視による「金儲けの道具」か?

バーチャルリアリティヘッドセットは何年も前から市場に出回っており、多くのティーンエイジャーもこれらの...

AIは生産性を低下させるでしょうか?今のところは出演はありません!

[[286440]] ▲ イラスト出典:エドモン・デ・ハロ2016年、ロンドンに拠点を置くアルファ...

人工知能の長所と短所をどのように見ていますか?

人工知能は、人間の生活に強固な物質的基盤を築くだけでなく、より多くの人々を単純で退屈な反復作業から解...

実践 | 人工知能が小売体験を向上させる 20 の例

小売体験は長年にわたってあまり変わっていません。つまり、店に入って、適切な製品を見つけて、それを購入...

無人バスに乗ってみませんか?テクノロジーは未来を変えることができるでしょうか?

無人運転車の概念は古くから存在し、無人運転車は時折ニュースの見出しにも登場します。しかし、無人運転車...

バーチャル試着室テクノロジーの仕組み

[51CTO.com クイック翻訳]テクノロジーの進歩と発展により、バーチャル試着室が人々の生活に入...

オイラー誕生!中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

[[255980]]ついに待望の登場です! Alibaba は、主要なオープンソース プロジェクトで...

ディープラーニングベースの対話状態追跡のレビュー

[[408715]] 1. はじめに1.1 研究の背景インターネットと個人用スマート端末の普及と幅広...