シーケンスモデルにおけるHMM(隠れマルコフモデル)を習得した後は、別のシーケンスモデルであるCRFを習得する必要があります。これら2つのモデルは、自然言語処理シーケンスモデルの中核モデルだからです。これまで紹介した HMM などの確率的有向グラフ モデル、つまりベイジアン ネットワークでは、対応する確率的無向グラフ モデルはマルコフ ネットワークまたはマルコフ ランダム フィールド (MRF) と呼ばれます。この記事で紹介する CRF は、マルコフ ランダム フィールドの一種です。 1. マルコフ確率場マルコフランダムフィールドはマルコフネットワークとも呼ばれ、無向グラフィカルモデルでもあります。確率的グラフィカル モデルに基づいて、無向グラフィカル モデルの場合は、まず無向グラフィカル モデルの基本概念をある程度理解する必要があります。 1.1. MRF関連の概念無向グラフ モデル MRF に固有の概念は次のとおりです。
1.2. ハマスリー・クリフォードの定理ポテンシャル関数とクラスターの理論的理解に基づいて、ランダム場に関する基本定理、すなわちハマースリー・クリフォード定理が導出されます。この定理の具体的な定義は次のとおりです。N 個の変数を持つマルコフ確率場の場合 (既知の変数は )、これらの変数のすべてのクラスターの集合は T であり、クラスターに対応する変数の集合は と表されます。この場合、対応する結合確率は次のようになります。 上記の式では、クラスター S に対応するポテンシャル関数であり、クラスター内の変数間の関係をモデル化するために使用されます。 計算が難しく、一般に正確な値を必要としない正規化係数です。グループが最大グループでない場合は、非最大グループは最大グループの特性に属さなければならないため、最大グループを使用して非最大グループの結合確率を置き換える計算を行うことができます。つまり、次のようになります。 上記の式はすべての最大群の集合です。ハマーズリー・クリフォードの定理はランダム フィールドの基本定理であり、マルコフ ランダム フィールドが正の確率分布として表現されるための必要十分条件です。 1.1 のグラフの例の場合、結合確率は次のようになります。 1.3. 分離集合とマルコフ特性さまざまなマルコフ特性を習得する前に、まず分離集合の概念を理解する必要があります。分離集合の定義は次のとおりです。A、B、C はすべてマルコフランダムフィールド内のノード集合であるとします。集合 A から集合 C へのノードが集合 B 内のノードを通過する必要がある場合は、集合 A と集合 C は集合 B によって分離されていると言え、集合 B が分離集合となります。次の図に示すように: 分離集合の概念により、以下のマルコフ特性を理解するのは比較的簡単です。マルコフ特性の定義は、ランダムプロセスに現在の状態とすべての過去の状態が与えられた場合、その将来の状態の条件付き確率分布は現在の状態のみに依存します。つまり、現在の状態が与えられている限り、将来の状態は過去の状態から独立しており、条件付きで独立しています。ランダムプロセスにもマルコフ特性があります。同様に、マルコフランダムフィールドでは、マルコフ特性は、現在の状態が無向グラフのノードとみなされ、過去の状態がエッジによって現在の状態ノードに接続された他のノードであると解釈できます。マルコフ特性と次の図から、次のことがわかります。
要約すると、これら 3 つのマルコフ特性は相互に相関しており、同等です。ローカル マルコフ特性はグローバル マルコフ特性を通じて取得でき、ペアワイズ マルコフ特性はローカル マルコフ特性を通じて取得でき、グローバル マルコフ特性はペアワイズ マルコフ特性を通じて導出できます。したがって、3 つの特性のいずれかを満たす無向グラフは、マルコフ確率場 (MRF) と呼ばれます。 2. 条件付きランダムフィールド - CRF上記の説明により、読者はマルコフランダムフィールド、つまりマルコフ無向グラフの基本的な把握と理解を得ることができます。これを基に、本論文では条件付きランダムフィールド CRF を紹介します。 2.1.CRF上記から、CRF モデルは無向グラフ モデルの一種ですが、マルコフ ランダム フィールド (MRF) とは異なることがわかります。主な違いは、MRF モデルが生成モデルであるのに対し、CRF モデルは条件付き分布をモデル化する識別モデルであることです。両者の間には関連性もあり、CRF は条件付きマルコフ確率場、つまり与えられた確率変数の条件下でのマルコフ確率場です。 CRF の基本的な定義は、X と Y をランダム変数とし、X が与えられたときの Y の条件付き確率分布です。ランダム変数 Y が無向グラフのマルコフランダムフィールドを形成する場合、条件付き確率分布は CRF と呼ばれます。マルコフ性に対応して、ランダム変数 Y が無向グラフを構成し、グラフ内の各変数 Y がマルコフ性(グローバル マルコフ性、ローカル マルコフ性、およびペアワイズ マルコフ性の少なくとも 1 つ)を満たす場合、CRF と呼ばれることがわかります。ここで、X は入力変数、つまりラベルを付ける必要がある観測シーケンスであり、Y は状態またはラベル シーケンスを表す出力変数です。自然言語処理の分野では、入力変数Xと出力変数Yが同じグラフ構造を持つことが一般的です。 2.2. CRFリニアチェーン実際のアプリケーションでは、CRF の最も一般的に使用されるケースは線形チェーン CRF であり、線形チェーンの構造は次のとおりです。 一般に、X と Y が同じグラフ構造を持つ場合、線形チェーン構造は次のようになります。 上の図では、X は観測シーケンス、Y は状態シーケンスです。同時に、与えられたランダム変数シーケンスXの条件下で、ランダム変数シーケンスYがシーケンスXの条件付き確率分布P(YIX)に対して条件付きランダムフィールドを構成する場合、ランダム変数Yはマルコフ特性も満たします。式は次のとおりです。 つまり、Y の現在の状態は、前後の 2 つの接続された状態とのみ関連し、他の状態からは独立しており、線形の接続関係を形成します。このとき、P(YIX)は条件付きランダムフィールドと呼ばれます。これに応じて、Xは入力または観測シーケンス、Yは出力または状態シーケンスです。 2.3. CRF関連の計算適切なポテンシャル関数を選択した後、ここでは指数関数を選択します。特性関数を導入することで、条件付き確率を次のように得ることができます。 このうち、 tkとsk はそれぞれ特性関数です。tkはエッジ上の特性関数として定義され、転送機能とも呼ばれ、現在のノードと前のノードに依存します。skはノード上の特性関数として定義され、状態機能とも呼ばれ、現在のノードのみに依存します。一般的に、t kと s kの値は 1 または 0 です。つまり、特性条件が満たされている場合は 1 になり、満たされていない場合は 0 になります。 λ kとμ k はそれぞれ t kと s kに対応する重みです。 Z(x)は、P(YIX)が確率分布であることを保証するための正規化係数です。 上記の式をよりよく理解するために、簡単な例を見てみましょう。たとえば、入力観測シーケンス XX 3が( X 1 、 X 2 、 X 3 )であり、対応する状態シーケンス Y が( Y 1 、 Y 2 、 Y 3 )であるとします。ここで、 Y 1 、 Y 2 、 Y 3の値は 1 または 2 です。最初の接続エッジでは、フィーチャと重みを次のように設定します。 対応する特性関数は次のようになります。 上記の式に従って、対応する重みを与えると、次のように記述できます。 このことから、状態の正規化されていない条件付き確率は次のように計算できます (正規化係数 Z で割る必要はありません)。 3. CRFモデルで解決される3つの問題以前の HMM モデルと比較して、CRF モデルでは、確率計算問題、予測問題、学習問題という 3 つの問題を解決する必要があります。
4. まとめHMM モデルと比較すると、CRF モデルの計算プロセスはより複雑ですが、CRF モデルの全体的な理解にはほとんど影響しません。CRF モデルと HMM モデルが実際のアプリケーションで解決する必要がある 3 つの問題を理解し、特定の問題で与えられた既知の条件に基づいて解決目標を達成するだけで済みます。 自然言語処理の分野では、確率統計モデルを習得するということは、実際には HMM モデルと CRF モデルを習得することを意味します。自然言語処理の分野でディープラーニング技術が使用される前から、HMMやCRFモデルが普及していましたが、自然言語処理の分野でディープラーニング技術のボトルネック問題を解決するには、考え方を変えて確率統計モデルを使用して対処することを検討したほうが良いでしょう。そうすれば良い結果が得られるかもしれません。 著者について51CTO コミュニティ エディターの Xifan は、e コマースの人工知能研究開発センターのビッグデータ技術部門で勤務し、推奨アルゴリズムの開発に携わっていました。現在、私は知能ネットワークとビッグデータを研究している大学院生です。主な専門分野は、推奨アルゴリズム、NLP、CV です。Java、Python、Scala などのコーディング言語を使用しています。 |
<<: MNISTとCIFAR 10を100%の精度で「解いた」と主張する人もいる
新たな研究によると、最先端の人工知能が英国の廃棄物リサイクル方法に革命をもたらす可能性があるという。...
C# のデータ構造とアルゴリズムのキューは、リストの先頭での削除操作とリストの末尾での挿入操作のみを...
著者 | 崔昊レビュー | Chonglouまとめこの論文では、大規模な言語モデルと LangCha...
[51CTO.com 速訳] 最近、FacebookはMessengerプラットフォーム上のチャット...
データの不足からデータの豊富さへと、近年利用可能なデータの量は飛躍的に増加し、ビッグデータはどこにで...
著者: 張傑【51CTO.comオリジナル記事】 AI チップはなぜ必要なのでしょうか?新しいイ...
最近、OpenAIの人気が高まっています。GPTモデル機能のアップデートからセキュリティ問題まで、世...
マルチモーダル融合は、知覚ベースの自動運転システムにおける基本的なタスクであり、最近多くの研究者の関...
「台北市信義路バスレーン自動運転バスイノベーション実験プロジェクト」は台北市で長らくテストされており...
[51CTO.com クイック翻訳] ロボットは登場しましたが、現在はほとんど世間の注目を浴びていま...
3D編集はゲームやバーチャルリアリティなどの分野で重要な役割を果たします。しかし、これまでの3D編...
SymphonyAI のマーケティング責任者として、私は企業における人工知能 (AI) のあらゆるア...