自然言語処理シーケンスモデル——HMM隠れマルコフモデル

自然言語処理シーケンスモデル——HMM隠れマルコフモデル

前回の記事では、主にテキストコーパスの抽出と前処理のプロセスについて説明しました。次のステップは、コアステップ、つまり処理モデルの習得に入ります。処理モデルのセクションは非常に長くなります。モデルによって長所と短所が異なるため、この領域を総合的に把握する必要があります。

ディープラーニング技術が自然言語処理分野に適用される前は、自然言語処理分野で最も一般的なモデルは確率統計に基づいていました。最もコアとなるモデルはHMM(隠れマルコフモデル)です。この記事で読者のために HMM の謎を解き明かしましょう。このモデルを習得するには、確率論に関する一定の基礎知識が必要であることを事前に指摘しておきます。ほとんどの学部の上級数学コースには確率論コースが含まれているため、この内容についてはあまり詳しく説明しません。

1. 確率モデル

HMM モデルを習得する前に、まず確率モデルを習得する必要があります。名前が示すように、確率モデルは学習タスクを計算変数の確率分布に縮小するモデルです。自然言語処理の分野では、異なる単語間の関連性や区別は確率分布の形で表現されます。確率モデルは、人生で観察されるいくつかの現象に基づいて、未知の出来事を推測し、推定するために提案されています。確率モデルでは、このような推測や推定は推論とも呼ばれます。推論の本質は、既存または観測可能な変数を使用して、未知の変数の条件付き分布を推論することです。

1.1. 生成モデルと識別モデル

現在、確率モデルは生成モデルと識別モデルの 2 つのカテゴリに分けられます。上の図からわかるように、確率モデルは観測可能な変数を通じて未知の変数の分布を推測します。したがって、生成モデルと判別モデルの違いをよりよく理解するために、観測可能な変数をX、推測する未知の変数をYと名付けることができます。生成モデルの場合、学習する必要があるのは X と Y の間の結合確率分布 P(X,Y) であり、識別モデルでは条件付き確率分布 P(Y|X) を学習します。結合確率分布と条件付き確率分布については、すでに確率論の基礎理論となっているため、ここでは詳しくは触れません。詳しくない読者は各自で調べることをお勧めします。

異なる確率分布を持つこれら 2 つのモデルでは、それぞれのモデルの機能が異なります。たとえば、与えられた観測値 X に対して、条件付き確率分布 P(Y|X) を使用すると、未知の値 Y を簡単に導き出すことができます (P(Y)=P(X)*P(Y|X))。したがって、分類問題の場合、判別モデルを直接使用することができます。つまり、特定の X に対してどの Y の確率が最大であるかを観察し、それがどのカテゴリに属する​​かを判断できます。したがって、判別モデルは分類タスクに適しており、分類タスクにおいて大きな利点があります。生成モデルに関しては、結合確率分布を条件付き確率分布に変換する、つまり、生成モデルを識別モデルに変換して分類タスクを実行しない限り、モデルを分類タスクに直接使用することは困難です。ただし、生成モデルは分類問題を扱うために主に使用されるわけではありません。特別な用途があります。後で説明する HMM は生成モデルです。ここでは秘密にしておきます。

1.2. 確率的グラフィカルモデル

生成モデルと識別モデルの主なプロセスとタスクを習得した後は、確率的グラフィカル モデルの基本も理解する必要があります。変数間の関係を表現するための表現ツールとしてグラフ構造を使用する確率モデルです。ここでのグラフは、データ構造におけるグラフの構造に似ており、ノードとノードを接続するエッジで構成されています。確率的グラフィカル モデルでは、ノードは通常、ランダム変数を表すために使用され、ノード間のエッジは異なる変数間の確率的関係を表します。同時に、データ構造と同様に、エッジも有向と無向に分けられ、有向グラフモデル(ベイジアンネットワーク)と無向グラフモデル(マルコフネットワーク)に分類されます。 HMM の名前には「マルコフ」が含まれていますが、HMM モデルはベイジアン ネットワークの一種なので、ここでは混同しないでください。

HMM は最も一般的な動的ベイジアン ネットワーク、つまり変数シーケンスをモデル化し、有向グラフ モデルに属するベイジアン ネットワークです。後続の HMM モデルをよりよく理解するために、ここではまずマルコフ連鎖を紹介します。マルコフ連鎖は、一連の可能性のあるイベントを記述するランダム プロセス モデルであり、この一連のイベントの確率は前のイベントのみに依存します。次の図に示すように:

このグラフは単純なマルコフ連鎖です。グラフ内の 2 つのノードはそれぞれ晴れの日と雨の日のイベントを表し、グラフ内のノード間のエッジはイベント間の遷移確率を表します。つまり、晴れた日の後には、晴れが続く確率が 0.9、雨が降る確率が 0.1 です。また、雨の日の後には、晴れが続く確率が 0.4、雨が降り続ける確率が 0.6 です。したがって、このモデルによる今日の天気の予測は、昨日の天気にのみ関連しており、一昨日やそれ以前の天気とは関係ありません。したがって、マルコフ連鎖から、前日の天気がわかれば、今日の天気の可能性を推測できることがわかります。

2. HMM — 隠れマルコフモデル

確率モデルを習得した上で、HMM モデルをさらに習得すると、HMM モデルに対する読者の理解が深まります。 HMM は一種の確率モデル、つまり時系列の確率モデルです。

2.1. シーケンスモデル

HMM は、変数が状態変数と観測変数の 2 つのグループに分けられる時系列確率モデルです。それぞれが時系列であり、各状態または観測値は次の図に示すように瞬間に対応します (矢印は依存関係を表します)。

上図では、状態変数は…、観測変数は…です。一般的に言えば、状態シーケンスは隠されている、つまり観察できないため、状態変数は隠れた変数であり、これが HMM の Hidden の理由です。この隠された観測不可能な状態シーケンスは、マルコフ連鎖によってランダムに生成されます。これは、HMM の最初の M、つまりマルコフの意味です。同時に、一般的な HMM の状態変数はすべて離散的であり、観測変数の値は離散的または連続的のいずれかになります。以下の説明では、説明の便宜上、状態変数と観測変数の両方が離散的である場合についてのみ説明します。これは、ほとんどのアプリケーションでも同様です。

2.2. 基本的な前提

HMM モデルは、次の 2 つの基本的な仮定に基づいています。

1. 任意の時刻 t における隠れマルコフ連鎖の状態は、前の時刻 (t-1) の状態にのみ依存し、他の時刻の状態や観測とは独立していると仮定します。この仮定は同次マルコフ仮定とも呼ばれ、式は次のように表されます。

P( … )= P( ), t=1,2,…k

2. 任意の時点の観測は、その時点のマルコフ連鎖の状態にのみ依存し、他の観測や状態からは独立していると仮定します。この仮定は観測独立仮定とも呼ばれ、式は次のように表されます。

P( … … )= P( )

2.3.HMM決定条件

HMMモデルを決定するための条件は、2つの空間と3つのパラメータセットです。2つの空間とは、前述の観測値空間と状態値空間、つまり観測空間Wと状態空間Sです。これら 2 つの空間を決定した後、3 セットのパラメーター、つまり 3 つの確率行列が必要になります。彼らです:

  • 初期状態確率:モデルの各状態が初期瞬間に現れる確率。確率行列は各状態の初期確率値を表し、通常は =(,…) と定義されます。ここで、はモデルの初期状態が次の確率であることを示します。
  • 状態遷移確率:つまり、モデルが異なる状態間で切り替わる確率です。確率行列は通常 A= として定義され、A= は任意の時点で状態が次の状態に変化する確率を表します。
  • 出力観測確率:モデルは現在の状態に基づいて異なる観測値の確率を取得します。確率行列は通常、B= として定義されます。ここで、は状態が のときに任意の時点で観測値が得られる確率を表します。 (この確率行列は、確率が分かっている場合と分からない場合とがある場合のためのものです)。

上記の状態空間S、観測空間O、および3つのパラメータセット= [A、B、]を使用して、HMMモデルを決定できます。

2.4.HMMは問題を解決する

HMM モデルを決定したら、そのモデルを使用して、確率計算問題、予測問題、学習問題などの一連の問題を解決する必要があります。

  1. 確率計算問題、つまり評価問題は、与えられたモデルのパラメータを設定し、与えられた観測シーケンスとモデルとの一致度合いを見つけることです。
  2. 予測問題、つまりデコード問題は、与えられたモデルのパラメータを設定し、観測シーケンスが与えられた場合に最も可能性の高い(最大の確率値を持つ)対応するロードシーケンスを見つけることです。
  3. 学習問題、つまりトレーニング問題は、観測シーケンスと状態シーケンスが与えられた場合に、観測シーケンスの確率がモデルパラメータの下で最大化されるようにモデルのパラメータを推定することです。つまり、観測されたデータをより適切に表現できるようにモデルをトレーニングするということです。

上記 3 つの質問のうち、最初の 2 つは、モデル パラメータがわかっている場合 (モデルが決定されている場合) にモデルをどのように使用するかに関する質問であり、3 つ目の質問は、トレーニングを通じてモデル パラメータを取得する (モデルを決定する) 方法に関する質問です。

3. モデル学習アルゴリズム

HMM モデルの学習アルゴリズムは、異なるトレーニング データに応じて、教師あり学習と教師なし学習に分けられます。これら 2 つの学習方法は、将来のディープラーニング技術モデルでも最も広く使用されるようになります。つまり、モデルの場合、トレーニング データに観測値 (観測シーケンス) と状態値 (状態シーケンス) の両方が含まれており、両者の対応がマークされている (つまり、トレーニング前に対応が決定されている) 場合、使用される学習アルゴリズムは教師あり学習です。それ以外の場合、対応する状態シーケンスが明確でない観測シーケンスについては、教師なし学習アルゴリズムを使用してトレーニングします。

3.1. 教師あり学習

モデルのトレーニングプロセス中、トレーニングデータは観測シーケンスと対応する状態シーケンスのサンプルペアで構成されます。つまり、トレーニングデータには観測シーケンスだけでなく、各観測値に対応する状態値も含まれており、これらはすべてトレーニング前にわかっています。この方法では、頻度を使用して確率を推定できます。まず、訓練データ中の状態値と観測値を数えると状態空間(、…)が得られ、観測変数は(、…)となる。そして、サンプルが時刻 t で状態にあり、時刻 t+1 で状態が属する頻度がである場合、頻度を使用して推定状態遷移確率を次のように表すことができます。

サンプルの状態が で観測頻度が の場合、観測確率はこの頻度によって次のように表すことができます。

初期状態確率は、トレーニング データ内の初期状態を持つすべてのサンプルの頻度です。したがって、教師あり学習では、トレーニングデータに対して統計的推定を実行することで、モデルの対応するパラメータ = [A、B、]を取得できます。

3.2. 教師なし学習

教師なし学習とは、トレーニングデータには観測値(観測シーケンス)しかなく、対応する状態シーケンスがないことを意味します。そのため、状態シーケンスSは実際には隠れた状態にあり、頻度によって確率を直接推定することはできません。このアルゴリズムには、学習するための順方向-逆方向アルゴリズムに似た特別な Baum-Welch アルゴリズムがあります。このアルゴリズムは、クラスタリング アルゴリズムで使用される EM アルゴリズムに似ています。つまり、反復的な思考を使用して、欠損データの場合のパラメータ推定問題を解決します。基本的なプロセスは、与えられた観測データに基づいてモデル パラメータの値を推定し、前のステップで推定されたパラメータ値に基づいて欠損データの値を推定し、推定された欠損データと以前の観測データに基づいてパラメータ値を再推定し、収束して反復が終了するまで繰り返し反復することです。

4. まとめ

自然言語処理にディープラーニングモデルが使用される前は、自然言語分野のシーケンスデータの処理には確率統計モデルが使用されていました。具体的な確率統計モデルには、HMMとCRFがあります。最も中核となるのはHMMモデルであり、CRFもHMMに似たモデルです。

この記事では主に HMM モデルについて説明します。これにより、読者は HMM モデルをより包括的に理解できるようになります。スペースの制約により、CRF モデルについては後で説明します。このモデルも HMM に基づいて拡張されており、その適用性は HMM モデルよりも低くなります。したがって、HMM モデルを習得することが重要です。同時に、自然言語処理の分野におけるディープラーニング技術のボトルネック問題 (大幅な改善を達成するのが難しい) を考慮して、考え方を変えて、確率統計モデル HMM を使用して対処することを検討し、良い結果を達成できる可能性があります。

著者について

51CTO コミュニティ エディターの Xifan は、e コマースの人工知能研究開発センターのビッグデータ技術部門で勤務し、推奨アルゴリズムの開発に携わっていました。現在、私は知能ネットワークとビッグデータを研究している大学院生です。主な専門分野は、推奨アルゴリズム、NLP、CV です。Java、Python、Scala などのコーディング言語を使用しています。


<<:  シングルチッププロセッサの終焉?アップルとNVIDIAはマルチチップパッケージングに興味を持っており、相互接続技術が鍵となる

>>:  トレーニングは不要、自動的にスケーラブルなビジュアルトランスフォーマーが登場

ブログ    
ブログ    

推薦する

20200202 千年に一度の対称性の日、すべての「回文アルゴリズム」をキャッチする時が来ました!

[[313923]]今日は2020年2月2日、「千年に一度の対称の日」として知られています。202...

新しい報告書によると、AIはディープフェイクから人々を保護できない

Data & Society の新しいレポートでは、機械学習を使用して改変されるディープフェ...

消費者の95%は買い物中にロボットと話したくない

オラクルが市場調査会社ウェイクフィールド・リサーチおよびニューヨークに拠点を置く小売コンサルティング...

テストへの道はどこにあるのでしょうか? YOLOv8 の究極ガイド

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

実際に大規模な戦争を指揮しているのはビッグデータと人工知能なのでしょうか?

ビッグデータと人工知能はどれほどの力を持っているのでしょうか。ほとんどの人はまだそれを直感的に理解し...

...

人工知能はノーベル賞レベルにまで発展した

人工知能(AI)はノーベル賞の領域に入った。最近の研究により、人々にこのような感覚を与えるものが生み...

AES と RSA 暗号化アルゴリズムの違いと適用可能なシナリオの簡単な分析

[[438491]]情報データ伝送のセキュリティは、常に非常に重要なテーマです。プログラマーとして働...

Appleのアプリランキングアルゴリズム調整の裏側:ランキング管理企業が一夜にして沈黙

4月1日早朝のニュース:3月初旬から、AppleはAppランキングアルゴリズムを徐々に調整し、ランキ...

強くお勧めします!国内無料チャットGPT

導入GPT4がリリースされてから半年以上が経ち、皆さんもある程度は理解できたかと思います。しかし一方...

ディープニューラルネットワークを使用してNER固有表現抽出の問題を解決する

この記事は次のように構成されています。固有表現抽出 (NER) とはどのように識別しますか? cs2...

AI、新たなアリババとテンセント

インターネット時代の恩恵が徐々に薄れていくにつれ、プレイヤーは次の発展のトレンドを求めて模索と実践を...

調査結果:人工知能はクリエイターにより多くのファンと収入をもたらす可能性がある

7月18日、DescriptとIpsosがポッドキャストや動画の制作者1,004人を対象に実施した調...

研究者らがRSA公開鍵生成アルゴリズムの脆弱性を発見

北京時間2月15日、研究者グループが、機密性の高いオンライン通信や取引を暗号化するためにRSAアルゴ...