自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド

自然言語処理シーケンスモデル - CRF 条件付きランダムフィールド

シーケンスモデルにおけるHMM(隠れマルコフモデル)を習得した後は、別のシーケンスモデルであるCRFを習得する必要があります。これら2つのモデルは、自然言語処理シーケンスモデルの中核モデルだからです。これまで紹介した HMM などの確率的有向グラフ モデル、つまりベイジアン ネットワークでは、対応する確率的無向グラフ モデルはマルコフ ネットワークまたはマルコフ ランダム フィールド (MRF) と呼ばれます。この記事で紹介する CRF は、マルコフ ランダム フィールドの一種です。

1. マルコフ確率場

マルコフランダムフィールドはマルコフネットワークとも呼ばれ、無向グラフィカルモデルでもあります。確率的グラフィカル モデルに基づいて、無向グラフィカル モデルの場合は、まず無向グラフィカル モデルの基本概念をある程度理解する必要があります。

1.1. MRF関連の概念

無向グラフ モデル MRF に固有の概念は次のとおりです。

  • クリーク:任意の 2 つのノードがエッジで接続されているグラフ内のノードのサブセット。
  • 最大クリーク:他のノードを追加しても形成できないクリーク。たとえば、下の図には、{1,2}、{1,3}、{2,3}、{2,4}、{3,4}、{3,5}、{3,6}、{1,3}、{1,2,3}、{2,3,4} があり、最大クリークは {1,2,3}、{2,3,4}、{3,5}、{3,6} です。

  • ポテンシャル関数 (因子とも呼ばれる):変数のサブセット上で定義される非負の実関数。確率分布関数を定義するために使用されます。マルコフ確率場では、複数の変数間の結合確率分布は、クリークに基づく複数のポテンシャル関数の積に分解でき、各ポテンシャル関数は 1 つのクリークにのみ関連付けられます。
  • 特性関数:通常は、データのいくつかの可能性のある経験的特性を特徴付けるために使用される実数値関数です。たとえば、次のような特性関数があります。

1.2. ハマスリー・クリフォードの定理

ポテンシャル関数とクラスターの理論的理解に基づいて、ランダム場に関する基本定理、すなわちハマースリー・クリフォード定理が導出されます。この定理の具体的な定義は次のとおりです。N 個の変数を持つマルコフ確率場の場合 (既知の変数は )、これらの変数のすべてのクラスターの集合は T であり、クラスターに対応する変数の集合は と表されます。この場合、対応する結合確率は次のようになります。

上記の式では、クラスター S に対応するポテンシャル関数であり、クラスター内の変数間の関係をモデル化するために使用されます。 計算が難しく、一般に正確な値を必要としない正規化係数です。グループが最大グループでない場合は、非最大グループは最大グループの特性に属さなければならないため、最大グループを使用して非最大グループの結合確率を置き換える計算を行うことができます。つまり、次のようになります。

上記の式はすべての最大群の集合です。ハマーズリー・クリフォードの定理はランダム フィールドの基本定理であり、マルコフ ランダム フィールドが正の確率分布として表現されるための必要十分条件です。 1.1 のグラフの例の場合、結合確率は次のようになります。

1.3. 分離集合とマルコフ特性

さまざまなマルコフ特性を習得する前に、まず分離集合の概念を理解する必要があります。分離集合の定義は次のとおりです。A、B、C はすべてマルコフランダムフィールド内のノード集合であるとします。集合 A から集合 C へのノードが集合 B 内のノードを通過する必要がある場合は、集合 A と集合 C は集合 B によって分離されていると言え、集合 B が分離集合となります。次の図に示すように:

分離集合の概念により、以下のマルコフ特性を理解するのは比較的簡単です。マルコフ特性の定義は、ランダムプロセスに現在の状態とすべての過去の状態が与えられた場合、その将来の状態の条件付き確率分布は現在の状態のみに依存します。つまり、現在の状態が与えられている限り、将来の状態は過去の状態から独立しており、条件付きで独立しています。ランダムプロセスにもマルコフ特性があります。同様に、マルコフランダムフィールドでは、マルコフ特性は、現在の状態が無向グラフのノードとみなされ、過去の状態がエッジによって現在の状態ノードに接続された他のノードであると解釈できます。マルコフ特性と次の図から、次のことがわかります。

  • グローバル マルコフ特性: ノード セット A と C が無向グラフ内のノード セット B によって区切られた任意のノード セットである場合、ランダム変数 Y Bが与えられると、ランダム変数 Y Aと Y C は条件付きで独立します。上の図に示すように、ノード 1 と 2 はノード 6 と 7 から条件付きで独立しています。
  • ローカル マルコフ特性: X を無向グラフ内の任意のノード、T を X にエッジで接続されたすべてのノード、無向グラフ内の残りのノードを S とします。この場合、ランダム変数 Y Tが与えられると、ランダム変数 Y Xと Y S は条件付きで独立します。上の図に示すように、ノード 2 はノード 1 と 5 に接続されています。つまり、ノード 1 と 5 が与えられている場合、ノード 2 は残りのノード 3、4、6、および 7 から条件付きで独立しています。
  • ペアワイズマルコフ特性: 無向グラフ内の V と C が、エッジによって直接接続されていない任意の 2 つのノードであり、グラフ内の他のノードの集合が S で表されているとします。この場合、ランダム変数 Y Sが与えられると、ランダム変数 Y Vと Y C は条件付きで独立します。上の図に示すように、ノード 2 と 6 を直接接続するエッジはないため、残りのノードは 1、3、4、5、および 7 になります。これらのノードを考えると、ノード 2 と 6 は条件付きで独立しています。

要約すると、これら 3 つのマルコフ特性は相互に相関しており、同等です。ローカル マルコフ特性はグローバル マルコフ特性を通じて取得でき、ペアワイズ マルコフ特性はローカル マルコフ特性を通じて取得でき、グローバル マルコフ特性はペアワイズ マルコフ特性を通じて導出できます。したがって、3 つの特性のいずれかを満たす無向グラフは、マルコフ確率場 (MRF) と呼ばれます。

2. 条件付きランダムフィールド - CRF

上記の説明により、読者はマルコフランダムフィールド、つまりマルコフ無向グラフの基本的な把握と理解を得ることができます。これを基に、本論文では条件付きランダムフィールド CRF を紹介します。

2.1.CRF

上記から、CRF モデルは無向グラフ モデルの一種ですが、マルコフ ランダム フィールド (MRF) とは異なることがわかります。主な違いは、MRF モデルが生成モデルであるのに対し、CRF モデルは条件付き分布をモデル化する識別モデルであることです。両者の間には関連性もあり、CRF は条件付きマルコフ確率場、つまり与えられた確率変数の条件下でのマルコフ確率場です。

CRF の基本的な定義は、X と Y をランダム変数とし、X が与えられたときの Y の条件付き確率分布です。ランダム変数 Y が無向グラフのマルコフランダムフィールドを形成する場合、条件付き確率分布は CRF と呼ばれます。マルコフ性に対応して、ランダム変数 Y が無向グラフを構成し、グラフ内の各変数 Y がマルコフ性(グローバル マルコフ性、ローカル マルコフ性、およびペアワイズ マルコフ性の少なくとも 1 つ)を満たす場合、CRF と呼ばれることがわかります。ここで、X は入力変数、つまりラベルを付ける必要がある観測シーケンスであり、Y は状態またはラベル シーケンスを表す出力変数です。自然言語処理の分野では、入力変数Xと出力変数Yが同じグラフ構造を持つことが一般的です。

2.2. CRFリニアチェーン

実際のアプリケーションでは、CRF の最も一般的に使用されるケースは線形チェーン CRF であり、線形チェーンの構造は次のとおりです。

一般に、X と Y が同じグラフ構造を持つ場合、線形チェーン構造は次のようになります。

上の図では、X は観測シーケンス、Y は状態シーケンスです。同時に、与えられたランダム変数シーケンスXの条件下で、ランダム変数シーケンスYがシーケンスXの条件付き確率分布P(YIX)に対して条件付きランダムフィールドを構成する場合、ランダム変数Yはマルコフ特性も満たします。式は次のとおりです。

つまり、Y の現在の状態は、前後の 2 つの接続された状態とのみ関連し、他の状態からは独立しており、線形の接続関係を形成します。このとき、P(YIX)は条件付きランダムフィールドと呼ばれます。これに応じて、Xは入力または観測シーケンス、Yは出力または状態シーケンスです。

2.3. CRF関連の計算

適切なポテンシャル関数を選択した後、ここでは指数関数を選択します。特性関数を導入することで、条件付き確率を次のように得ることができます。

このうち、 tksk はそれぞれ特性関数です。tkエッジ上の特性関数として定義され、転送機能とも呼ばれ、現在のノードと前のノードに依存します。skノード上の特性関数として定義され、状態機能とも呼ばれ、現在のノードのみに依存します。一般的に、t kと s kの値は 1 または 0 です。つまり、特性条件が満たされている場合は 1 になり、満たされていない場合は 0 になります。 λ kμ k はそれぞれ t kと s kに対応する重みです。 Z(x)は、P(YIX)が確率分布であることを保証するための正規化係数です。

上記の式をよりよく理解するために、簡単な例を見てみましょう。たとえば、入力観測シーケンス XX 3( X 1X 2 X 3 )であり、対応する状態シーケンス Y が( Y 1Y 2 Y 3 )であるとします。ここでY 1Y 2 Y 3の値は 1 または 2 です。最初の接続エッジでは、フィーチャと重みを次のように設定します。

対応する特性関数は次のようになります。

上記の式に従って、対応する重みを与えると、次のように記述できます。

このことから、状態の正規化されていない条件付き確率は次のように計算できます (正規化係数 Z で割る必要はありません)。

3. CRFモデルで解決される3つの問題

以前の HMM モデルと比較して、CRF モデルでは、確率計算問題、予測問題、学習問題という 3 つの問題を解決する必要があります。

  • 確率計算問題:確率計算問題の場合、与えられた既知の情報は通常、CRF モデルの条件付き確率分布 P(YIX)、観測シーケンス X、および状態シーケンス Y であり、解決目標は特定の条件付き確率とそれに対応する数学的期待値です。解法は基本的に順逆計算法です。
  • 予測問題:予測問題の場合、与えられた既知の情報は通常、CRF モデルの条件付き確率分布 P(YIX) と観測シーケンス X です。解決の目標は、条件付き確率を最大化する状態シーケンス Y を見つけること、つまり、観測シーケンスに対応する状態を解決することです。解法は基本的に関数計算です。
  • 学習問題:学習問題は、モデルトレーニングパラメータ解決問題とも呼ばれます。CRF モデルに必要なパラメータは、与えられたデータセット (観測シーケンスや状態シーケンスなど) を通じて解決されます。通常使用される方法は、モデルトレーニングで一般的に使用されるスケール反復法 (勾配降下アルゴリズムなど) です。

4. まとめ

HMM モデルと比較すると、CRF モデルの計算プロセスはより複雑ですが、CRF モデルの全体的な理解にはほとんど影響しません。CRF モデルと HMM モデルが実際のアプリケーションで解決する必要がある 3 つの問題を理解し、特定の問題で与えられた既知の条件に基づいて解決目標を達成するだけで済みます。

自然言語処理の分野では、確率統計モデルを習得するということは、実際には HMM モデルと CRF モデルを習得することを意味します。自然言語処理の分野でディープラーニング技術が使用される前から、HMMやCRFモデルが普及していましたが、自然言語処理の分野でディープラーニング技術のボトルネック問題を解決するには、考え方を変えて確率統計モデルを使用して対処することを検討したほうが良いでしょう。そうすれば良い結果が得られるかもしれません。

著者について

51CTO コミュニティ エディターの Xifan は、e コマースの人工知能研究開発センターのビッグデータ技術部門で勤務し、推奨アルゴリズムの開発に携わっていました。現在、私は知能ネットワークとビッグデータを研究している大学院生です。主な専門分野は、推奨アルゴリズム、NLP、CV です。Java、Python、Scala などのコーディング言語を使用しています。

<<:  MNISTとCIFAR 10を100%の精度で「解いた」と主張する人もいる

>>:  8つの一般的な確率分布の式と視覚化

ブログ    

推薦する

人工知能技術はゴミリサイクルに革命的な変化をもたらすかもしれない

新たな研究によると、最先端の人工知能が英国の廃棄物リサイクル方法に革命をもたらす可能性があるという。...

C# のデータ構造とアルゴリズムにおけるキューの簡単な分析

C# のデータ構造とアルゴリズムのキューは、リストの先頭での削除操作とリストの末尾での挿入操作のみを...

ビッグモデルが明らかに:ユーザーレビューから金脈を抽出する方法

著者 | 崔昊レビュー | Chonglouまとめこの論文では、大規模な言語モデルと LangCha...

没入型環境向けロボットの開発における3つの課題

[51CTO.com 速訳] 最近、FacebookはMessengerプラットフォーム上のチャット...

人工知能とビッグデータの隠れた危険性とは何でしょうか?

データの不足からデータの豊富さへと、近年利用可能なデータの量は飛躍的に増加し、ビッグデータはどこにで...

...

...

2021年のAIチップの在庫:「2つの壁」を破り、ストレージとコンピューティングを統合することがトレンドに

​​著者: 張傑【51CTO.comオリジナル記事】 AI チップはなぜ必要なのでしょうか?新しいイ...

OpenAI は大規模なモデル ストアを立ち上げる予定で、開発者は製品を棚に置くことができます。

最近、OpenAIの人気が高まっています。GPTモデル機能のアップデートからセキュリティ問題まで、世...

...

自動運転のためのマルチモーダルセンサーフュージョンの簡単な分析

マルチモーダル融合は、知覚ベースの自動運転システムにおける基本的なタスクであり、最近多くの研究者の関...

台北の5G自動運転バスが試乗開始

「台北市信義路バスレーン自動運転バスイノベーション実験プロジェクト」は台北市で長らくテストされており...

2019 年に注目すべき 10 社のクールなロボット スタートアップ

[51CTO.com クイック翻訳] ロボットは登場しましたが、現在はほとんど世間の注目を浴びていま...

3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。

3D編集はゲームやバーチャルリアリティなどの分野で重要な役割を果たします。しかし、これまでの3D編...

人工知能のコミュニケーション:コンテキストは業界マネージャーにとって成功への道

SymphonyAI のマーケティング責任者として、私は企業における人工知能 (AI) のあらゆるア...