実践的な知識 | 教師なし学習の基礎に関する包括的な理解

1. 教師なし学習

教師なし学習の特徴は、モデルが学習するデータにラベルがないことです。そのため、教師なし学習の目標は、このラベルのないサンプルを学習することで、データの固有の特徴や法則を明らかにすることであり、クラスタリングはその代表的な例です。教師あり学習と比較すると、教師あり学習は与えられた基準（ここでの基準はラベルを指します）に従って学習するのに対し、教師なし学習はデータの相対的な基準（データ間に違いがあります）に従って学習します。分類を例に挙げてみましょう。子供の頃、猫と犬を区別していたとき、他の人から「これは猫で、あれは犬だよ」と言われました。やがて、猫や犬に遭遇したときに、それらを区別できるようになります（そして、それが猫か犬かを知ることができます）。これが教師あり学習の結果です。しかし、子供の頃に猫と犬の区別を誰も教えてくれなかったのに、猫と犬には違いがあることに気づいた場合、猫と犬は 2 種類の動物であるはずです (区別はできても、猫と犬の概念はわかりません)。これが教師なし学習の結果です。

クラスタリングはまさにこれを実行し、データの特性に応じてデータを複数の重複しないサブセット (各サブセットはクラスターと呼ばれます) に分割します。このような分割により、クラスターはいくつかの潜在的な概念に対応する可能性がありますが、これらの概念は手動で要約および定義する必要があります。

クラスタリングは、データの潜在的な特性を見つけるために使用でき、他の学習タスクの前段階としても使用できます。例えば、一部のビジネスアプリケーションでは、新規ユーザーのタイプを識別する必要がありますが、「ユーザータイプ」を定義するのは困難です。そのため、ユーザーをクラスタリングし、クラスタリング結果に基づいて各クラスタをクラスとして定義することができます。次に、これらのクラスに基づいてモデルをトレーニングし、新規ユーザーのタイプを識別します。

2. クラスタリングのパフォーマンス測定

クラスタリングには独自のパフォーマンスメトリックがあり、これは教師あり学習の損失関数に似ています。パフォーマンスメトリックがなければ、クラスタリング結果の品質を判断することは不可能です。

クラスタリング性能には、大きく分けて 2 種類あります。1 つはクラスタリング結果を参照モデルと比較するものであり、外部指標と呼ばれます。もう 1 つは、他のモデルを参照せずにクラスタリング結果を直接調べるもので、内部指標と呼ばれます。

外部指標を紹介する前に、以下の定義を示します。サンプルセットでは、各サンプルに個別の番号を付けることができます。この番号を使用して、番号 ij のサンプルが同じクラスターに属していることを示します。i<j の場合、重複を回避できます。したがって、

a は、サンプル ij がクラスタリング結果で同じクラスターに属し、参照モデルでも同じクラスターに属していることを意味します。 b は、クラスタリング結果ではサンプル ij が同じクラスターに属しているが、参照モデルではサンプル ij が同じクラスターに属していないことを意味します。 c と d についても同様です。上記は、クラスタリング結果と参照モデル結果にペアワイズサンプルが表示される可能性のある状況を定義しています。

よく使われる外部指標は以下のとおりです。

上記のパフォーマンスメトリックの結果はすべて [0,1] の範囲内にあり、結果が大きいほどパフォーマンスは向上します。

参照モデルがない場合、クラス内のポイントが十分に近く、クラス間のポイントが十分に離れていることが、適切なクラスタリング結果になるはずです。これは、内部インジケーターが説明する内容です。内部指標については、まず次のことを定義する必要があります。

一般的に使用される内部指標には以下が含まれる。

DBI値が小さいほどクラスタリング効果は良好です。逆に、DI値が大きいほどクラスタリング効果は良好です。

3. 距離測定

サンプルポイント分布空間では、2 つのサンプルポイントが互いに非常に近い場合、サンプルポイントは同じクラスターに属すると考えられます。サンプルが離れている場合、それらは同じクラスターに属しているとは見なされません。もちろん、ここでの距離は単純な数値ではなく相対的な概念です。 VDM (Value Difference Metric) 距離を使用できます。

上記は、属性 u 上の 2 つの離散値 a と b 間の VDM 距離を表しています。属性 u の値が a であるサンプルの数は、i 番目のサンプルクラスター内の属性 u の値が a であるサンプルの数を表し、k はサンプルクラスターの数です。

距離メトリックは、異なるカテゴリ間の類似性を説明するため、クラスタリングにおいて非常に重要です。距離が大きいほど、類似性は小さくなります。異なる概念の類似性メトリックは異なるため、実際のタスクでは、サンプルを通じて適切な距離計算式を決定する必要があり、これは距離メトリック学習によって実現できます。

4. 一般的な距離アルゴリズム

k平均法

K-means は、一般的に使用される高速クラスタリング手法です。この手法では、学習の開始時に複数のクラスターセンターをランダムに設定し、サンプルポイントはそれに最も近いクラスターセンターに属します。したがって、各クラスターセンターには独自のサンプルセットが存在します。各反復では、各クラスターセンターが独自のサンプルセットを見つけ、所属するサンプルセットに基づいてセンターの位置 (平均) を計算し、クラスターセンターをそこに移動します。クラスタリング結果が変わらないまで。 K-means は球状クラスターには効果的ですが、他のクラスターにはそれほど効果的ではありません。

クラスターセンターの設定に関しては、実際には異なる数のクラスターセンターを設定し、クラスタリングのパフォーマンスメトリックに基づいて最適な数のクラスターセンターを選択することがよくあります。

上記はスイカデータセットのクラスタリングプロセスです。

ベクトル量子化の学習

LVQ は K-means アルゴリズムと非常によく似ており、どちらもクラスターの中心を移動することでクラスタリングを実現します。違いは、LVQ ではデータサンプルにカテゴリラベルがあると想定し、この教師あり情報を使用してクラスタリングを支援することです。アルゴリズムのプロセスは以下のとおりです

上記のアルゴリズムのプロセスは、次のように簡単にまとめることができます。ランダムに選択されたポイントがクラスターセンターのカテゴリに対応しない場合は、クラスターセンターをサンプルポイントから遠ざけ、対応する場合はサンプルポイントの近くに移動させます。反復処理の後、任意のサンプル x は、それに最も近いプロトタイプベクトルによって表されるクラスターに割り当てられます。

上記は、スイカデータセットでの LVQ クラスタリングのプロセスです。

ガウス混合クラスタリング

ガウス混合クラスタリングは確率モデルを用いてクラスタリングのプロトタイプを表現する。ガウス混合分布は次のように定義できる。

ここでは混合係数、です。ガウス混合クラスタリングを使用するのは、実際にはサンプルがガウス混合分布からサンプリングされていると仮定した結果です。サンプルについては計算できる

サンプルがi番目のガウス分布によって生成される事後確率を求め、この確率を***にする分布のカテゴリをサンプルのカテゴリとする。 EM アルゴリズムとともに、ガウス混合モデルの詳細な紹介も行われます。

密度クラスタリング

名前が示すように、密度クラスタリングはサンプル密度の観点からサンプル間の相関関係を調べます。その典型的なアルゴリズムは DBSCAN であり、サンプル近傍とサンプル近傍内の最小サンプルポイント数を基準としてコアオブジェクトを設定します。コアオブジェクトが密度接続されている場合は、同じクラスターにマージされます。したがって、DBSCAN クラスタリング結果のクラスターは、最も密度接続の高いサンプルのセットです。以下は DBSCAN のいくつかの概念の定義です。

上記では、MinPts = 3 であり、破線はコアオブジェクトの近傍を示しています。 X1 と X2 の密度は直接接続され、X1 と X3 の密度は X3 に到達でき、X4 の密度は接続されます。

DBSCAN は、十分に高密度の領域をクラスターに分割し、ノイズの多い空間データベース内で任意の形状のクラスターを見つけることができます。

階層的クラスタリング

階層的クラスタリングは、まずすべてのサンプルを 1 つのクラスにグループ化し、次にクラス間の距離を計算し、距離が最小の 2 つのクラスを結合することから始まります。上記の説明から、階層的クラスタリングは、クラスカルのアルゴリズムを使用して最小全域木を構築することに似ていますが、階層的クラスタリングの現在のカテゴリ数が指定されたカテゴリ数まで減少すると終了します。ここで階層的クラスタリングで使用されるクラスターは、異なるカテゴリ間の平均距離です。

階層的クラスタリングでは多くの距離を計算する必要があるため、大規模なデータセットでの使用には適していません。

<<: クラウドネイティブが新たな標準になりますが、人工知能はそれに備えていますか?

>>: 快手 - ICIP 2019 モバイルビデオ修復コンテストの登録開始