初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

初心者のための NLP: 先のことを心配せずに、1 つの記事でコーパスの前処理を理解しましょう

自然言語処理は AI の最高峰であり、コーパス前処理は自然言語処理の基礎です。

[[336067]]

機械は人間とコミュニケーションできるのでしょうか?人間のようにテキストを理解できますか?これが人工知能に対する誰もが最初に想像するものです。今日、NLP テクノロジーは人間と機械の架け橋として機能します。私たちの生活を見渡すと、音声認識、機械翻訳、質問応答システムなど、NLP 技術がもたらす利便性をいつでも享受できます。

これらのテクニックは奥が深いように思えるかもしれませんが、実際は従うべきルールがあります。アルゴリズムの基本原理を理解すると、突然、おや!と気づくかもしれません。これは理解するのが難しくありません。

この記事を読んで、NLP テクノロジー (コーパス前処理) の基盤がどのように構築されるかを調べてみましょう。次回以降の記事では、NLPにおける特徴抽出や最新のアルゴリズム解釈について、徐々に紹介していきます。

コーパスは、その名前が示すように、通常テキストと呼ばれるものです。テキスト記述のあるテキストはすべてコーパスに分類できます。ただし、この種の生のテキストはモデルのトレーニングに直接使用することはできず、事前の前処理が必要です。

コーパスの前処理方法には、主にデータのクリーニング、単語の分割、品詞のタグ付け、ストップワードの削除が含まれます。

コーパスクリーニング

コーパスクリーニングとは、コーパス内の有用なデータを保持し、ノイズデータを除去することを意味します。一般的なクリーニング方法には、手動による重複排除、アライメント、削除、ラベル付けなどがあります。

次のテキストを例に挙げます。テキストには、漢字だけでなく、数字、英語の文字、句読点などの通常とは異なる文字も含まれており、これらは意味のない情報であるため、クリーンアップする必要があります。

上記の場合と同様に、クリーニング方法は主に正規表現を使用します。この問題を解決するには、短い Python スクリプトを書くことができます。コードは次のとおりです。

洗浄後の結果:

ノイズ データには、クリーンアップする必要がある上記のフォームに加えて、テキストの重複、エラー、省略、異常なども含まれます。クリーニング方法には、手動処理、小さなツールの開発、またはデータをクリーニングするための短いプログラムの作成などがあります。

分詞

データがクリーンアップされたら、次のステップであるテキストのセグメンテーションに進むことができます。テキスト分割とは、テキストを個々の単語に分割することです。一般的に使用される単語分割方法には、ルールベースと統計ベースの単語分割方法があり、統計サンプル コンテンツはいくつかの標準コーパスから取得されます。

たとえば、「Xiao Ming は朝陽区に住んでいます」という文では、コーパス統計後の単語分割の結果は、「Xiao Ming/ は朝陽区に住んでいます」ではなく、「Xiao Ming/ は朝陽区に住んでいます」となることが予想されます。それで、どうやってこれを実現するのでしょうか?

統計的な観点から見ると、これは条件付き確率分布を通じて解決できます。新しい文に対して、さまざまな単語分割方法に対応する結合分布確率を計算し、最大確率に対応する単語分割方法、つまり最適な単語分割を見つけることができます。

これまで、研究者たちは、使いやすい単語分割のための実用的なツールを数多く開発してきました。単語分割に特別な要件がない場合は、これらの単語分割ツールを直接使用できます。

さまざまな単語分割ツールの概要。

品詞タグ付け

品詞タグ付けとは、単語分割結果の各単語の正しい品詞をマークするプロセス、つまり各単語が名詞、動詞、形容詞、またはその他の品詞であるかどうかを判断するプロセスを指します。

品詞タグ付けにはいくつかの重要な機能があります。

まず、曖昧さを排除します。一部の単語は、文脈や使用方法によって意味が異なります。たとえば、「この犬の名前はハッピーです」と「私は今日とても幸せです」という 2 つの文では、「幸せ」は異なる意味を表します。品詞タグ付けによって区別することができます。

次に、単語ベースの機能を強化します。上記の文を例にとると、品詞タグ付けが行われていない場合、2 つの「happy」は頻度 2 の同義語とみなされ、その後の分析でエラーが発生します。

さらに、品詞タグ付けには、標準化、語形の復元、ストップワードの効果的な削除などの機能もあります。

一般的に使用される品詞タグ付け方法には、最大エントロピー品詞タグ付け、HMM 品詞タグ付けなどのルールベースおよび統計ベースのアルゴリズムが含まれます。

次に、品詞タグ付けの例を見てみましょう。自分で試してみることもできます: http://ictclas.nlpir.org/nlpir/

ストップワードを削除する

私たち人間はメッセージを受け取るとき、無効な情報をフィルタリングし、有用な情報を選択します。自然言語の場合、ストップワードを削除するのは非常に賢明な操作です。

中国語でも英語でも、テキストには接続詞、機能語、助詞、および「的」、「吧」、「但」などの接続詞として機能するその他の意味のない単語が含まれています。これらの単語には特別な意味はなく、単に文章をつなげて語調を高める役割を果たします。これらの単語はテキスト分析には役立たないので、単語分割後にデータに対してストップワード処理を実行する必要があります。

しかし、どの種類のストップワードを削除するかを決定する際には注意が必要です。

下の図は、よく使用されるストップワードの一部を示しています。必要に応じて、削除するストップワードを選択できます。

単語の頻度統計

単語頻度統計は、単語を分割した後、テキストの単語頻度をカウントします。目的は、テキストに最も影響を与える単語を見つけることです。これはテキストマイニングの重要な手段です。これらの単語の頻度を数えると、記事が何を強調しているかを理解するのに役立ち、その後のモデル構築が容易になります。

たとえば、四大古典の一つである『紅楼夢』の語頻度上位28語を数えると、次のようになります。

上の写真から、「紅楼夢」の中でどのキャラクターについて最も多く書かれ、曹雪芹がどのキャラクターにもっと注目しているかが分かります。私たちは紅楼夢の研究の専門家ではありませんが、統計的な単語の頻度からいくつかの重要な情報を分析することができます。

「高い建物は地面から立ち上がる。」自然言語処理の超高層ビルの場合、基礎となる実装原理を理解することで、その構築プロセスをよりよく理解できるようになります。

<<:  世界中で人気のGPT-3がなぜ人々の仕事を破壊しているのか?

>>:  AIoT技術の幅広い応用と大きな利点

ブログ    
ブログ    
ブログ    

推薦する

AI ライティングの限界はどこにあるのでしょうか?

[[248875]]画像出典: Visual China本質的に、この記事は AI ライティングを...

利便性を超えて:スマートホームは信頼できるのか?

映画鑑賞の夜に快適なアームチェアに腰を下ろすと、プロジェクターが起動し、スマートライトが自動的に暗く...

AIが復活! GPT-3を使用して亡くなった婚約者を複製し、アメリカ人男性は愛する人をデジタル形式で永遠に生きさせました

「死は本当の消滅ではないが、忘却は永遠の消失である。」なくなってしまったとしても忘れないでください。...

2022 年に AI が組織のランサムウェア防御を強化する方法

ランサムウェアは個人や企業にとって深刻な脅威になりつつありますが、人工知能はそれを軽減するのに役立ち...

米メディア:人工知能(AI)は、人間の推論の欠点を伴わずにコンピューティングの利点を実現する

[[334808]]ミラロのコメント – 今日の軍事コンピューティングに関連するものはすべて人工知能...

産業用ロボットの開発動向

産業用ロボットは、さまざまな産業用タスクを自動的に実行できる一種の機器として、製造、組み立て、梱包、...

工業情報化部:チップやオペレーティングシステムなどのトップレベルの基盤にブレークスルーがなければ、AI業界は空中楼閣になるだろう

12月17日、浙江省徳清国際会議センターで2019年中国スマート企業発展フォーラムが開催され、工業情...

...

...

大躍進!科学者たちは、2050年までに人類は不死になるだろうと発表しました。人工知能のもとでの必然?

2050年には人類は「不死」になる!このトピックを見て驚きましたか?驚きましたか?不死は、すべての...

自動運転技術アーキテクチャ:安全でインテリジェントな交通システムの構築

人工知能分野における重要なイノベーションとして、自動運転技術は将来の交通の様相を徐々に変えつつありま...

JD.com、ビリビリ、ピンドゥオドゥオなど中国企業88社が米国の上場廃止前リストに含まれ、中国コンセプト株がクリアされる可能性

半月も経たないうちに、第6波がまたやってきました!現地時間5月4日、米証券取引委員会は再び「上場廃止...

30% のトークンで SOTA パフォーマンスを達成、Huawei Noah 軽量ターゲット検出器 Focus-DETR が効率を 2 倍に

現在、DETR モデルはターゲット検出の主流のパラダイムとなっています。しかし、DETRアルゴリズム...

2021年の中国人工知能産業の市場状況と競争環境の分析

[[408951]]人工知能は未来をリードする戦略的な技術であり、国際競争の焦点にもなっています。わ...

iOS 18 の新機能がついに公開されました!

今年は生成AI技術が大変人気です。ChatGPTの登場以来、多くの大規模な生成AIモデルが雨後の筍の...