トピックモデルに適した定量評価指標を見つけるにはどうすればよいでしょうか?これは人気のある方法の要約です

トピックモデルに適した定量評価指標を見つけるにはどうすればよいでしょうか?これは人気のある方法の要約です

LDA (潜在的ディリクレ分布) や Biterm などの統計トピック モデルを適用することで、大量のテキストから情報を要約して抽出することが可能になります。しかし、抽出されたトピックの品質や定量的な分析・評価の実施方法については、まだ明確な基準がありません。

同時に、ニューラルネットワークの発展に伴い、トピックモデルではエンコーディング・デコーディングやGANなどの教師なしモデルが使われるようになり、これらのモデルによって生成されたトピックの有効性を判断することがより重要になってきています。同時に、これらのニューラルネットワーク自体も評価方法の一つとして利用することができます。

この記事では、トピック モデルの評価指標について説明し、現在普及している評価方法をまとめ、この分野における将来の可能性のある開発方向を展望します。

1. トピックモデル

一般的に、トピック モデルは、一連のドキュメント内の抽象的なトピックを検出するために使用される統計モデルです。一般的に、これらのトピックは一連の単語によって表されます。記事に中心となる考えがある場合、特定の単語がより頻繁に表示されます。たとえば、記事が犬についてのものであれば、「犬」や「骨」という単語がより頻繁に登場します。記事が猫についてのものであれば、「猫」や「魚」といった単語がより頻繁に登場します。 「this」や「and」などの一部の単語は、おそらく両方の記事にほぼ同じ頻度で登場します。記事の 10% が猫に関するもので、90% が犬に関するものであれば、犬関連のキーワードは猫関連のキーワードの約 9 倍の頻度で表示されます。トピック モデルは、数学的なフレームワークを使用してドキュメントのこの特性を反映します。

図 1 に示すように、トピック (事前に決定) は一番左にあり、テキスト内の異なる色は異なるトピックに対応しています。たとえば、黄色は犬に対応する可能性があるため、テキスト内の犬に関連するすべての単語は黄色でマークされます。このようにして、最終的に各トピックの可能なトピック分布を取得できます。

図 1: トピック モデル (出典: https://medium.com/@tengyuanchang/%E7%9B%B4%E8%A7%80%E7%90%86%E8%A7%A3-lda-latent-dirichlet-allocation-%E8%88%87%E6%96%87%E4%BB%B6%E4%B8%BB%E9%A1%8C%E6%A8%A1%E5%9E%8B-ab4f26c27184)

本稿ではトピックモデルの定量的な評価指標の紹介が中心となるため、トピックモデルの詳細については説明しません。トピックモデルの基礎知識がない場合は、Machine Heart が公開している初心者向けのチュートリアルをご覧ください。必要に応じて入手できます。同時に、チュートリアルで説明した確率モデルに加えて、いくつかのディープラーニング モデル (GAN、Encoding-Decoding など) もこの分野に参入し始めています。たとえば、GAN ベースの ATM (Adversarial-neural Topic Model) は優れたパフォーマンスを発揮しています。

上記のトピック モデルを観察すると、確率モデル LDA とディープラーニング モデル ATM の両方が、これらのモデルをどのように評価するか、またこれらのモデルによって抽出されたトピックは本当に役立つのかという問題に直面していることがわかります。言い換えれば、これらのモデルが抽出したものは本当にトピックを表現しているのでしょうか?非常に簡単な例を挙げると、トピック モデルがトピック (多くの単語) を抽出する場合、モデルが優れている場合、これらの単語は同じトピックを表現できるはずです。モデルが優れていない場合、これらの単語は表面的には一貫していますが、実際には矛盾しています。一般的に、トピックの数が多いほど、より識別的な結果が得られますが、逆に、トピックの数が多いと、意味のない結果が得られることが多くなり、トピックの中には数語のみで構成され、トピックとはまったく関係のないものもあります。さらに、専門家の実験により、夫婦が調和しているように見えても、実際には互いに対立している状況には主に 4 つのタイプがあることがわかりました。

a. 単語ペアの伝達を通じて結び付けられたトピック。例えば、「砂糖」「サトウキビ」「甘酸っぱいスペアリブ」。砂糖はサトウキビから来ており(テーマは「お菓子」でよい)、甘酸っぱいスペアリブには砂糖が加えられています(テーマは「料理」でよい)が、甘酸っぱいスペアリブとサトウキビではテーマを形成することが困難です。しかし、関係転移(「砂糖」で結び付けられる)では、これら 3 つの単語は同じ主語に置かれます。

b. 異常な言葉。アルゴリズムのエラーなどにより、このトピックにはまったく関係のない単語が表示されます。

c. 関係が不明瞭である。単語間に明確なつながりはありません。

d. 不均衡。単語同士のつながりは非常に明確ですが、「科目」や「宿題」など単語の意味が非常に幅広く、明確なテーマを決めることが困難です。

本稿の残りの部分では、まず 2 種類の評価モデルを紹介し、次にこれらの評価モデルの効果を分析し、最後に評価モデルの開発について展望します。

2. モデル内の知識を使用したトピックモデルの評価

現在の評価方法のほとんどは、モデルの品質を判断するためにいくつかのパラメータまたは単語間の接続を使用しており、モデルから取得されたものを直接使用してトピック モデルを測定する方法はほとんどありません。 Xing[4]は最近、ギブスサンプリング法で推定された分布に基づいたいくつかの評価方法を提案した。

2.1 テーマの安定性

LDA のギブスサンプリングの過程では、文書が与えられたときのトピックの分布と、トピックが与えられたときの単語の分布 (Φ) の 2 つの分布が生成 (推定) されます。トピックの安定性は、主に 2 番目の分布を考慮します。

式に示されているように、与えられたトピックkに対して、すべてのギブスサンプラーによって抽出された単語分布の平均値と各ギブスサンプラーによって抽出された単語分布の類似度を計算し(元の論文[4]では、この類似度を計算するためにコサイン類似度、ユークリッド距離、KLダイバージェンス、ジャカード類似度を使用しました)、合計を取ってこのトピックのトピック安定性を取得する必要があります。

式から明らかなように、以前の計算方法と比較して、トピック安定性にはパラメータと冗長なコーパスは必要ありません。ただし、一般的な単語の中には頻度が高いものもあり、トピックに出現するとトピックの安定性が非常に高くなりますが、トピックとは関係がないため、トピックの安定性が高くなる非常に悪いトピックが発生することがあります。

2.2 トピックの離散性

前のセクションで述べたように、ギブスサンプリングでは 2 つの分布が生成されますが、トピック安定性では 2 番目の分布を使用します。つまり、単語の観点からトピックの品質を判断します。このセクションの分散では最初の分布を使用します。つまり、ドキュメント レベルに注目します。通常、このパラメータは複数のギブス サンプラーの結果を平均することによって取得されます。同時に、これらのギブス サンプラーの結果から、標準偏差も取得できます。ただし、標準偏差は敏感すぎるため、より安定した結果を得るために、平均を偏差で割って分散係数 (cv) を取得することもできます。一般的に、平均と変動係数の両方を使用してトピックの品質を識別できます。良いトピックの平均と変動係数は比較的小さく、逆もまた同様です。 NYTコーパスのテストでは、これら3つの評価基準の効果を下の図に示します。

図2: 得られた3つの評価結果 (出典: https://arxiv.org/abs/1909.03524)

図 2 では、青は良いトピック (3.4 ポイント)、オレンジは悪いトピック (1 ポイント) を表しています。 cv のみが 2 つのトピック間で最大の識別力を持っていることがわかります。一方、平均 (mu) と標準偏差 (sigma) における青とオレンジの識別力は大きくなく、良いトピックと悪いトピックを区別することが難しいことを意味します。

したがって、cv はトピックの離散性を特徴付ける最良の方法であり、特定のトピック k のトピックの離散性の計算式は次のように表すことができます。

D は D 番目の記事を表し、k はトピック k を表します。

3. 手動評価結果をシミュレートする

最初のセクションでは、トピック モデルにおけるさまざまな一般的なエラーについて説明しました。これらのエラーに基づいて、多くの人がさまざまな方法を提案してきました。これらの方法 (この記事の後半で説明する方法を含む) はすべて、上記の問題の 1 つ以上を解決することを目的としています。現在、従来の方法の多くは目視検査や事前の知識を活用しており、一般的な方法も数多くあります。最も直感的な方法は、抽出されたトピックの良し悪しを人間に判断させることですが、当然ながら、この方法には多くの人的資源、物的資源、時間が必要になります。そのため、人々は数式やアルゴリズムを使用して人間の判断の結果をシミュレートし、推定する方法を模索し始めました。人間の判断方法は主に直接的な方法と間接的な方法(詳細は後述)に分かれており、人間の判断をシミュレートするアルゴリズムも大きくこの2つに分けられます。もちろん、これらの方法には多くの分類がありますが、このセクションでは主に手動評価の結果をシミュレートする部分を紹介するため、直接法と間接法に分類します。

いくつかの方法は直接法と呼ばれます。これらの方法は主に言語の内部特性に基づいて判断します。たとえば、Newman et al. (2010) によって提案された Topic Coherence は、トピック語間の一貫性を計算するために PMI (Pairwise Pointwise Mutual Information) を使用します。その後、他の人もこの一貫性の計算方法を改良しましたが、本質的には一貫性を計算しています (詳細は後述します)。いくつかの方法は間接法と呼ばれます。これらの方法は、言語の内部特性に基づいて直接判断するのではなく、下流タスクでのパフォーマンスやテストセットでのパフォーマンス (パープレキシティ) などの他の方法を使用します。含む。このセクションの残りの部分では、これらの方法について詳しく説明します。

3.1 困惑

簡単に言えば、混乱とは、テスト セットでのトピック モデルのパフォーマンスを計算するために確率を使用することです。混乱が少ないほど、トピック モデルは優れています。具体的には、トピック分布を与えられたドキュメントの対数尤度を計算します。次の式では、Phi は指定されたトピック マトリックスを表し、α パラメーターはトピックの分布を決定し、w は予測する記事 (d、α でトレーニングされた記事のトピックと同じ) を指します。

対数尤度を取得したら、パープレキシティは簡単に計算できます。計算式は次のとおりです (ここでの分母は通常、記事内の単語数です)。

定義によれば、対数尤度が高いほど、抽出されたトピックが特定のトピックを表現する能力が高く、抽出されたトピックの品質が高く、混乱が少ないことになります。ただし、ここで対数尤度を計算する方法はありません。Wallach09a (http://dirichlet.net/pdf/wallach09evaluation.pdf) は尤度を推定するためのいくつかの方法を提案しています。興味があれば、自分で調べてみてください。効果があまり良くないため (理由は後で紹介します)、ここでは計算方法について詳しく説明しません。

しかし、この方法の有効性をテストするために、Amazon Mechanical Turk プラットフォームで大規模な実験が行われました。研究者たちは、困惑度に基づいて各トピックで最も可能性の高い 5 つの単語グループを見つけ、次に 6 番目の単語グループをランダムに追加し、参加者にこのランダムに追加された単語グループを見つけるように依頼しました。

すべての参加者が外れ値の単語を識別できる場合、抽出されたトピックは優れており、特定のトピックを説明できるとみなすことができます。しかし、多くの人が 5 つの通常の単語グループのうち 1 つを異常と認識した場合、それはこれらの単語間のつながりに論理性を見出すことができないことを意味し、このテーマが十分ではないと結論付けることもできます。これは、説明しているトピックが明確ではないためです。この実験は、混乱の結果が人間の判断結果とあまり相関していないことを示しています。

3.2 一貫性

多くのシナリオでは混乱はうまく機能しないため、このセクションでは最後の方法であるトピックの一貫性に焦点を当てます。トピックの一貫性は、主にトピック内の単語が一貫しているかどうかを測定するために使用されます。では、これらの言葉はどのようにして一貫性があると考えられるのでしょうか?単語が互いにサポートし合っている場合、単語のグループは首尾一貫しています。つまり、複数のトピックの単語をまとめて、完全なクラスタリングを使用してクラスタ化すると、同じトピックの単語は同じカテゴリに分類されるはずです。定義によれば、最初のセクションで述べた 4 つの問題のうち最初の 3 つは、テーマの一貫性を通じて解決できることがわかります。

Newman et al. (2010) がトピックの一貫性を計算するために PMI を使用することを提案した後、Mimno et al. (2011) はトピックの一貫性の概念に基づいて、条件付き確率ベースの方法を使用して一貫性を計算しました。同じ年に、Musat et al. (2011) もトピック間の接続を取得するために WordNet の階層概念を使用することを提案しました。その後、Aletras と Stevenson (2013a) も分布の類似性に基づいて一貫性を計算する方法を提案しました。現在、いくつかの一般的なメソッド(Roder et al. (2015) によって整理され、直接呼び出すことができる関数として Gensim にパッケージ化されている)は次のとおりです({ゲーム、スポーツ、ボール、チーム} を含むトピックがあると仮定)。

PMI: 他の計算方法を理解するには、まず PMI の計算方法を確認する必要があります (下の図を参照)。次の 2 つの方法では、イプシロンが小さいほど、結果も小さくなります。この式は少しわかりにくいかもしれませんが、問題ありません。今は脇に置いておいてください。後で例を見ると、この式は簡単に理解できるようになります。

C_uci: この方法は、カリフォルニア大学アーバイン校 (UCI) の David Newman 氏によって提案されたため、UCI 法と呼ばれています。この方法の基本原理は、スライディング ウィンドウに基づいて、特定のトピック内のすべての単語ペア (ワンセット セグメンテーション) のポイントごとの相互情報量 (PMI) を計算することです。

したがって、上記の例のトピック {ゲーム、スポーツ、ボール、チーム} の UCI スコアは次のようになります。
C_umass: この方法は、マサチューセッツ大学 (UMASS) の Hanna M. Wallach らによって提案されたため、UMASS 法と呼ばれています。この方法の基本原理は、文書の同時実行カウントに基づいており、1 つ前の単語 (各単語は、その前の単語とのみ単語のペアを形成します) のセグメンテーションと対数条件付き確率を使用して一貫性を計算します。
したがって、今の例題の UMass スコアは次のようになります。
C_npmi: このメソッドは、正規化された点単位の相互情報量 (NPMI) を使用します。これは C_uci と非常に似ていますが、PMI が NPMI に置き換えられ、C_uci の拡張バージョンと見なされる点が異なります。具体的には、NPMI の計算方法は下図のようになります。

C_v (分散係数): この方法はスライディング ウィンドウに基づいており、トピック ワードに対して 1 セットのセグメンテーションを実行し (セット内の任意の 2 つの単語は比較用の単語ペアを形成します)、正規化されたポイントワイズ相互情報量 (NPMI) とコサイン類似度を使用して間接的に一貫性を取得します。

C_p: この方法もスライディング ウィンドウに基づいていますが、単語分割方法は 1 つ前 (各単語は前後の単語とのみ単語ペアを形成します) であり、一貫性を特徴付けるために Fitelson 相関が使用されます。

3.3 手動判定結果のシミュレーション

3.3.1 間接的な方法

前述のように、手動識別方法も直接法と間接法の 2 つのカテゴリに分けられます。間接的な手動識別方法は異常単語検出と呼ばれ、主にトピック モデルによって抽出された各トピックに異常単語を追加し、人々にこの異常単語を見つけるように依頼します。

この間接的な手動判断の結果をシミュレートするために、Jey Han Lau (2014) は、手動判断に送られた主題語から語間の関係性を抽出しました。抽出方法は次のとおりです。

これらの特徴が組み合わされ、ランキング SVM 回帰を使用して異常な単語が検索されます。同時に、Jey は NPMI を使用して単語間の接続特徴も抽出しました。最終結果は次の図に示されています。

相関比較結果(出典:https://www.aclweb.org/anthology/E14-1056.pdf)

この図は、Jey の方法 (WI-Auto-PMI、WI-Auto-NPMI) と手動判定 (WI-Human) の相関関係を示しています。これらの方法で得られた結果は、手動判定で得られた結果と比較的一致していることがわかります。

3.3.2 直接法

もう 1 つの手動の方法は直接法と呼ばれ、比較的単純で大まかなもので、人々に各トピックを直接評価するよう依頼します。この直接的なアプローチでは、Jey は次の 4 つの方法を使用してトピックにスコアを付けました。

OC (Observed Coherence)-Auto-PMI: トピック内の単語の PMI を計算します。計算方法は、次の図に示すように、実際には PMI です。  

同様に、Jey 氏は NPMI を使用してトピックにスコアを付け、また対数条件付き確率 (LCP) を使用して次の計算を行いました。


最後に、Jey は Aletras と Stevenson (2013a) の分布類似性 (DS) を使用してトピックにスコアを付けました。最終結果は次の図に示されています。
 

相関比較結果(出典:https://www.aclweb.org/anthology/E14-1056.pdf)

上の図からわかるように、これらの方法の結果はほとんどの場合、手動判断の結果と非常に一致していますが、一部の結果 (PMI など) のみ良好な一貫性を達成できませんでした。

4. 展望と結論

この記事では、主にトピック モデルの既存の問題と現在普及しているトピック モデルの評価方法をいくつか紹介し、主流のトピック モデルの評価方法を簡単に分類します。

将来に向けて、私は2つの主なアイデアを持っています。1つ目は、時代の発展に適応することです。つまり、データセットはますます増え、小さなデータセットの学習モデルもますます増えています。これらのデータセットをより良く使用する方法、または小さなデータセットに適した処理方法を見つける方法はすべて、試してみる価値のある方向性です。教師ありモデルを直接使用してトピックモデルを評価することもできます。2つ目は、本質的な問題を常に覚えておくことです。これが、この記事の最初のセクションでトピックモデルの一般的なエラーを提示した理由です。評価方法の本質は、これらのエラーを見つけることです。これらの専門家の肩の上に立って、これらの一般的なエラーを分割して克服し、さまざまなモデルを使用してさまざまなエラーを解決したり、これらのエラーの共通の特性を見つけてより一般的なモデリングを完了したりすることができます。これらはすべて、この分野で探求できる方向性です。もちろん、この分野には将来の発展の方向性が数多くあり、ここではいくつかのアイデアを提示しているだけです。

この探索プロセスを楽しんでいただければ幸いです。

<<:  アルゴリズム取引システム用のデータベースはどのように選択すればよいでしょうか?

>>:  AIは役に立たないなんて誰が言ったのでしょうか?パンデミックの間、AIは人類のために多くのことを行ってきました...

ブログ    
ブログ    
ブログ    

推薦する

...

Huawei の徐文偉氏: インテリジェントな未来を構想する (HC カンファレンス PPT + スピーチ全文)

第3回HUAWEI CONNECT 2018が2018年10月10日に上海万博展示コンベンションセン...

...

AIoT: 人工知能 (AI) とモノのインターネット (IoT) が出会うとき

AIoT: AIとモノのインターネットが出会うときモノのインターネット (IoT) は私たちの日常生...

待望のAIは人工知能か、それとも人工的な愚かさか?

[[399557]]人工知能という言葉が初めて世間の注目を集めたのは、1956 年にダートマス大学...

...

...

...

2020 年に台頭する AI と機械学習の 6 つのトレンド

人工知能ソリューションの市場は急速に成長を続けており、数百億ドルの収益をもたらしています。調査会社I...

米国エネルギー省、AIによる科学的発見の自動化を支援するために1,600万ドルを投資

技術の複雑さが年々増すにつれ、科学的な革新と発見への扉がより多くの分野に開かれています。現在の問題は...

マスクは困った状況だ! Grok AI は ChatGPT を盗用した疑いがあるのでしょうか? ?

みなさんこんにちは。Ergouです。マスク氏は今日、困った状況に陥っている! X (Twitter)...

...