実践的な知識 | 教師なし学習の基礎に関する包括的な理解

実践的な知識 | 教師なし学習の基礎に関する包括的な理解

1. 教師なし学習

教師なし学習の特徴は、モデルが学習するデータにラベルがないことです。そのため、教師なし学習の目標は、このラベルのないサンプルを学習することで、データの固有の特徴や法則を明らかにすることであり、クラスタリングはその代表的な例です。教師あり学習と比較すると、教師あり学習は与えられた基準(ここでの基準はラベルを指します)に従って学習するのに対し、教師なし学習はデータの相対的な基準(データ間に違いがあります)に従って学習します。分類を例に挙げてみましょう。子供の頃、猫と犬を区別していたとき、他の人から「これは猫で、あれは犬だよ」と言われました。やがて、猫や犬に遭遇したときに、それらを区別できるようになります(そして、それが猫か犬かを知ることができます)。これが教師あり学習の結果です。しかし、子供の頃に猫と犬の区別を誰も教えてくれなかったのに、猫と犬には違いがあることに気づいた場合、猫と犬は 2 種類の動物であるはずです (区別はできても、猫と犬の概念はわかりません)。これが教師なし学習の結果です。

クラスタリングはまさにこれを実行し、データの特性に応じてデータを複数の重複しないサブセット (各サブセットはクラスターと呼ばれます) に分割します。このような分割により、クラスターはいくつかの潜在的な概念に対応する可能性がありますが、これらの概念は手動で要約および定義する必要があります。

クラスタリングは、データの潜在的な特性を見つけるために使用でき、他の学習タスクの前段階としても使用できます。例えば、一部のビジネスアプリケーションでは、新規ユーザーのタイプを識別する必要がありますが、「ユーザータイプ」を定義するのは困難です。そのため、ユーザーをクラスタリングし、クラスタリング結果に基づいて各クラスタをクラスとして定義することができます。次に、これらのクラスに基づいてモデルをトレーニングし、新規ユーザーのタイプを識別します。

2. クラスタリングのパフォーマンス測定

クラスタリングには独自のパフォーマンス メトリックがあり、これは教師あり学習の損失関数に似ています。パフォーマンス メトリックがなければ、クラスタリング結果の品質を判断することは不可能です。

クラスタリング性能には、大きく分けて 2 種類あります。1 つはクラスタリング結果を参照モデルと比較するものであり、外部指標と呼ばれます。もう 1 つは、他のモデルを参照せずにクラスタリング結果を直接調べるもので、内部指標と呼ばれます。

外部指標を紹介する前に、以下の定義を示します。サンプル セットでは、各サンプルに個別の番号を付けることができます。この番号を使用して、番号 ij のサンプルが同じクラスターに属していることを示します。i<j の場合、重複を回避できます。したがって、

a は、サンプル ij がクラスタリング結果で同じクラスターに属し、参照モデルでも同じクラスターに属していることを意味します。 b は、クラスタリング結果ではサンプル ij が同じクラスターに属しているが、参照モデルではサンプル ij が同じクラスターに属していないことを意味します。 c と d についても同様です。上記は、クラスタリング結果と参照モデル結果にペアワイズサンプルが表示される可能性のある状況を定義しています。

よく使われる外部指標は以下のとおりです。

上記のパフォーマンス メトリックの結果はすべて [0,1] の範囲内にあり、結果が大きいほどパフォーマンスは向上します。

参照モデルがない場合、クラス内のポイントが十分に近く、クラス間のポイントが十分に離れていることが、適切なクラスタリング結果になるはずです。これは、内部インジケーターが説明する内容です。内部指標については、まず次のことを定義する必要があります。


一般的に使用される内部指標には以下が含まれる。

DBI値が小さいほどクラスタリング効果は良好です。逆に、DI値が大きいほどクラスタリング効果は良好です。

3. 距離測定

サンプル ポイント分布空間では、2 つのサンプル ポイントが互いに非常に近い場合、サンプル ポイントは同じクラスターに属すると考えられます。サンプルが離れている場合、それらは同じクラスターに属しているとは見なされません。もちろん、ここでの距離は単純な数値ではなく相対的な概念です。 VDM (Value Difference Metric) 距離を使用できます。

上記は、属性 u 上の 2 つの離散値 a と b 間の VDM 距離を表しています。属性 u の値が a であるサンプルの数は、i 番目のサンプル クラスター内の属性 u の値が a であるサンプルの数を表し、k はサンプル クラスターの数です。

距離メトリックは、異なるカテゴリ間の類似性を説明するため、クラスタリングにおいて非常に重要です。距離が大きいほど、類似性は小さくなります。異なる概念の類似性メトリックは異なるため、実際のタスクでは、サンプルを通じて適切な距離計算式を決定する必要があり、これは距離メトリック学習によって実現できます。

4. 一般的な距離アルゴリズム

k平均法

K-means は、一般的に使用される高速クラスタリング手法です。この手法では、学習の開始時に複数のクラスター センターをランダムに設定し、サンプル ポイントはそれに最も近いクラスター センターに属します。したがって、各クラスター センターには独自のサンプル セットが存在します。各反復では、各クラスター センターが独自のサンプル セットを見つけ、所属するサンプル セットに基づいてセンターの位置 (平均) を計算し、クラスター センターをそこに移動します。クラスタリング結果が変わらないまで。 K-means は球状クラスターには効果的ですが、他のクラスターにはそれほど効果的ではありません。

クラスター センターの設定に関しては、実際には異なる数のクラスター センターを設定し、クラスタリングのパフォーマンス メトリックに基づいて最適な数のクラスター センターを選択することがよくあります。

上記はスイカデータセットのクラスタリングプロセスです。

ベクトル量子化の学習

LVQ は K-means アルゴリズムと非常によく似ており、どちらもクラスターの中心を移動することでクラスタリングを実現します。違いは、LVQ ではデータ サンプルにカテゴリ ラベルがあると想定し、この教師あり情報を使用してクラスタリングを支援することです。アルゴリズムのプロセスは以下のとおりです

上記のアルゴリズムのプロセスは、次のように簡単にまとめることができます。ランダムに選択されたポイントがクラスター センターのカテゴリに対応しない場合は、クラスター センターをサンプル ポイントから遠ざけ、対応する場合はサンプル ポイントの近くに移動させます。反復処理の後、任意のサンプル x は、それに最も近いプロトタイプ ベクトルによって表されるクラスターに割り当てられます。

上記は、スイカデータセットでの LVQ クラスタリングのプロセスです。

ガウス混合クラスタリング

ガウス混合クラスタリングは確率モデルを用いてクラスタリングのプロトタイプを表現する。ガウス混合分布は次のように定義できる。

ここで は混合係数、 です。ガウス混合クラスタリングを使用するのは、実際にはサンプルがガウス混合分布からサンプリングされていると仮定した結果です。サンプルについては計算できる

サンプルがi番目のガウス分布によって生成される事後確率を求め、この確率を***にする分布のカテゴリをサンプルのカテゴリとする。 EM アルゴリズムとともに、ガウス混合モデルの詳細な紹介も行われます。

密度クラスタリング

名前が示すように、密度クラスタリングはサンプル密度の観点からサンプル間の相関関係を調べます。その典型的なアルゴリズムは DBSCAN であり、サンプル近傍とサンプル近傍内の最小サンプルポイント数を基準としてコアオブジェクトを設定します。コアオブジェクトが密度接続されている場合は、同じクラスターにマージされます。したがって、DBSCAN クラスタリング結果のクラスターは、最も密度接続の高いサンプルのセットです。以下は DBSCAN のいくつかの概念の定義です。


上記では、MinPts = 3 であり、破線はコア オブジェクトの近傍を示しています。 X1 と X2 の密度は直接接続され、X1 と X3 の密度は X3 に到達でき、X4 の密度は接続されます。

DBSCAN は、十分に高密度の領域をクラスターに分割し、ノイズの多い空間データベース内で任意の形状のクラスターを見つけることができます。

階層的クラスタリング

階層的クラスタリングは、まずすべてのサンプルを 1 つのクラスにグループ化し、次にクラス間の距離を計算し、距離が最小の 2 つのクラスを結合することから始まります。上記の説明から、階層的クラスタリングは、クラスカルのアルゴリズムを使用して最小全域木を構築することに似ていますが、階層的クラスタリングの現在のカテゴリ数が指定されたカテゴリ数まで減少すると終了します。ここで階層的クラスタリングで使用されるクラスターは、異なるカテゴリ間の平均距離です。

階層的クラスタリングでは多くの距離を計算する必要があるため、大規模なデータ セットでの使用には適していません。

<<:  クラウド ネイティブが新たな標準になりますが、人工知能はそれに備えていますか?

>>:  快手 - ICIP 2019 モバイルビデオ修復コンテストの登録開始

ブログ    
ブログ    

推薦する

...

...

...

ソフトウェア配信における機械学習の活用方法

現代のほとんどのソフトウェア チームにとって、ソフトウェアの配信は継続的なプロセスです。ソフトウェア...

...

618 プロモーション開始、Huice が小売業者が数分で速達を実現できるようにする方法を公開

618ショッピングフェスティバルのさまざまな成果が発表されたばかりで、「数分以内に配達」のスピードが...

Google が新モデル EfficientNet をオープンソース化: 画像認識効率が 10 倍に向上、パラメータが 88% 削減

畳み込みニューラル ネットワークは通常、限られたリソースで開発され、その後、条件が許せば、より高い精...

ドラッグアンドドロップ機械学習の愛と憎しみ

ドラッグアンドドロップ機械学習は、私が長い間考えてきたものです。 1. 過去世と現在世ドラッグ アン...

ロンドンの顔認識で誤った人物が逮捕される:合理的な使用が鍵

顔認識の応用範囲は、アクセス制御やデバイスログインから空港や公共エリアの監視まで、非常に広範囲にわた...

...

企業が大型モデルに「参入」する場合、なぜ大手メーカーによる生産が推奨されるのでしょうか?

GPT-3.5が海外で発売されてからまだ1年も経っていないし、文心易言が国内で発売されてからまだ半...

IDC、2021年の中国の人工知能市場に関する10の予測を発表

インターナショナル・データ・コーポレーション(IDC)は、「IDC FutureScape:世界の人...

...

AI、ブロックチェーン、ビッグデータなど最先端の技術動向を明らかにする新刊書籍「風向」が発売

2018年12月8日、中国国家管弦楽団コンサートホールで、中国工業情報化出版メディアグループが主催し...

機械学習により顕微鏡検査がこれまで以上に向上

機械学習は、最も優れた顕微鏡のいくつかがより鮮明に見え、より速く動作し、より多くのデータを処理するの...