実践的な知識 | 教師なし学習の基礎に関する包括的な理解

実践的な知識 | 教師なし学習の基礎に関する包括的な理解

1. 教師なし学習

教師なし学習の特徴は、モデルが学習するデータにラベルがないことです。そのため、教師なし学習の目標は、このラベルのないサンプルを学習することで、データの固有の特徴や法則を明らかにすることであり、クラスタリングはその代表的な例です。教師あり学習と比較すると、教師あり学習は与えられた基準(ここでの基準はラベルを指します)に従って学習するのに対し、教師なし学習はデータの相対的な基準(データ間に違いがあります)に従って学習します。分類を例に挙げてみましょう。子供の頃、猫と犬を区別していたとき、他の人から「これは猫で、あれは犬だよ」と言われました。やがて、猫や犬に遭遇したときに、それらを区別できるようになります(そして、それが猫か犬かを知ることができます)。これが教師あり学習の結果です。しかし、子供の頃に猫と犬の区別を誰も教えてくれなかったのに、猫と犬には違いがあることに気づいた場合、猫と犬は 2 種類の動物であるはずです (区別はできても、猫と犬の概念はわかりません)。これが教師なし学習の結果です。

クラスタリングはまさにこれを実行し、データの特性に応じてデータを複数の重複しないサブセット (各サブセットはクラスターと呼ばれます) に分割します。このような分割により、クラスターはいくつかの潜在的な概念に対応する可能性がありますが、これらの概念は手動で要約および定義する必要があります。

クラスタリングは、データの潜在的な特性を見つけるために使用でき、他の学習タスクの前段階としても使用できます。例えば、一部のビジネスアプリケーションでは、新規ユーザーのタイプを識別する必要がありますが、「ユーザータイプ」を定義するのは困難です。そのため、ユーザーをクラスタリングし、クラスタリング結果に基づいて各クラスタをクラスとして定義することができます。次に、これらのクラスに基づいてモデルをトレーニングし、新規ユーザーのタイプを識別します。

2. クラスタリングのパフォーマンス測定

クラスタリングには独自のパフォーマンス メトリックがあり、これは教師あり学習の損失関数に似ています。パフォーマンス メトリックがなければ、クラスタリング結果の品質を判断することは不可能です。

クラスタリング性能には、大きく分けて 2 種類あります。1 つはクラスタリング結果を参照モデルと比較するものであり、外部指標と呼ばれます。もう 1 つは、他のモデルを参照せずにクラスタリング結果を直接調べるもので、内部指標と呼ばれます。

外部指標を紹介する前に、以下の定義を示します。サンプル セットでは、各サンプルに個別の番号を付けることができます。この番号を使用して、番号 ij のサンプルが同じクラスターに属していることを示します。i<j の場合、重複を回避できます。したがって、

a は、サンプル ij がクラスタリング結果で同じクラスターに属し、参照モデルでも同じクラスターに属していることを意味します。 b は、クラスタリング結果ではサンプル ij が同じクラスターに属しているが、参照モデルではサンプル ij が同じクラスターに属していないことを意味します。 c と d についても同様です。上記は、クラスタリング結果と参照モデル結果にペアワイズサンプルが表示される可能性のある状況を定義しています。

よく使われる外部指標は以下のとおりです。

上記のパフォーマンス メトリックの結果はすべて [0,1] の範囲内にあり、結果が大きいほどパフォーマンスは向上します。

参照モデルがない場合、クラス内のポイントが十分に近く、クラス間のポイントが十分に離れていることが、適切なクラスタリング結果になるはずです。これは、内部インジケーターが説明する内容です。内部指標については、まず次のことを定義する必要があります。


一般的に使用される内部指標には以下が含まれる。

DBI値が小さいほどクラスタリング効果は良好です。逆に、DI値が大きいほどクラスタリング効果は良好です。

3. 距離測定

サンプル ポイント分布空間では、2 つのサンプル ポイントが互いに非常に近い場合、サンプル ポイントは同じクラスターに属すると考えられます。サンプルが離れている場合、それらは同じクラスターに属しているとは見なされません。もちろん、ここでの距離は単純な数値ではなく相対的な概念です。 VDM (Value Difference Metric) 距離を使用できます。

上記は、属性 u 上の 2 つの離散値 a と b 間の VDM 距離を表しています。属性 u の値が a であるサンプルの数は、i 番目のサンプル クラスター内の属性 u の値が a であるサンプルの数を表し、k はサンプル クラスターの数です。

距離メトリックは、異なるカテゴリ間の類似性を説明するため、クラスタリングにおいて非常に重要です。距離が大きいほど、類似性は小さくなります。異なる概念の類似性メトリックは異なるため、実際のタスクでは、サンプルを通じて適切な距離計算式を決定する必要があり、これは距離メトリック学習によって実現できます。

4. 一般的な距離アルゴリズム

k平均法

K-means は、一般的に使用される高速クラスタリング手法です。この手法では、学習の開始時に複数のクラスター センターをランダムに設定し、サンプル ポイントはそれに最も近いクラスター センターに属します。したがって、各クラスター センターには独自のサンプル セットが存在します。各反復では、各クラスター センターが独自のサンプル セットを見つけ、所属するサンプル セットに基づいてセンターの位置 (平均) を計算し、クラスター センターをそこに移動します。クラスタリング結果が変わらないまで。 K-means は球状クラスターには効果的ですが、他のクラスターにはそれほど効果的ではありません。

クラスター センターの設定に関しては、実際には異なる数のクラスター センターを設定し、クラスタリングのパフォーマンス メトリックに基づいて最適な数のクラスター センターを選択することがよくあります。

上記はスイカデータセットのクラスタリングプロセスです。

ベクトル量子化の学習

LVQ は K-means アルゴリズムと非常によく似ており、どちらもクラスターの中心を移動することでクラスタリングを実現します。違いは、LVQ ではデータ サンプルにカテゴリ ラベルがあると想定し、この教師あり情報を使用してクラスタリングを支援することです。アルゴリズムのプロセスは以下のとおりです

上記のアルゴリズムのプロセスは、次のように簡単にまとめることができます。ランダムに選択されたポイントがクラスター センターのカテゴリに対応しない場合は、クラスター センターをサンプル ポイントから遠ざけ、対応する場合はサンプル ポイントの近くに移動させます。反復処理の後、任意のサンプル x は、それに最も近いプロトタイプ ベクトルによって表されるクラスターに割り当てられます。

上記は、スイカデータセットでの LVQ クラスタリングのプロセスです。

ガウス混合クラスタリング

ガウス混合クラスタリングは確率モデルを用いてクラスタリングのプロトタイプを表現する。ガウス混合分布は次のように定義できる。

ここで は混合係数、 です。ガウス混合クラスタリングを使用するのは、実際にはサンプルがガウス混合分布からサンプリングされていると仮定した結果です。サンプルについては計算できる

サンプルがi番目のガウス分布によって生成される事後確率を求め、この確率を***にする分布のカテゴリをサンプルのカテゴリとする。 EM アルゴリズムとともに、ガウス混合モデルの詳細な紹介も行われます。

密度クラスタリング

名前が示すように、密度クラスタリングはサンプル密度の観点からサンプル間の相関関係を調べます。その典型的なアルゴリズムは DBSCAN であり、サンプル近傍とサンプル近傍内の最小サンプルポイント数を基準としてコアオブジェクトを設定します。コアオブジェクトが密度接続されている場合は、同じクラスターにマージされます。したがって、DBSCAN クラスタリング結果のクラスターは、最も密度接続の高いサンプルのセットです。以下は DBSCAN のいくつかの概念の定義です。


上記では、MinPts = 3 であり、破線はコア オブジェクトの近傍を示しています。 X1 と X2 の密度は直接接続され、X1 と X3 の密度は X3 に到達でき、X4 の密度は接続されます。

DBSCAN は、十分に高密度の領域をクラスターに分割し、ノイズの多い空間データベース内で任意の形状のクラスターを見つけることができます。

階層的クラスタリング

階層的クラスタリングは、まずすべてのサンプルを 1 つのクラスにグループ化し、次にクラス間の距離を計算し、距離が最小の 2 つのクラスを結合することから始まります。上記の説明から、階層的クラスタリングは、クラスカルのアルゴリズムを使用して最小全域木を構築することに似ていますが、階層的クラスタリングの現在のカテゴリ数が指定されたカテゴリ数まで減少すると終了します。ここで階層的クラスタリングで使用されるクラスターは、異なるカテゴリ間の平均距離です。

階層的クラスタリングでは多くの距離を計算する必要があるため、大規模なデータ セットでの使用には適していません。

<<:  クラウド ネイティブが新たな標準になりますが、人工知能はそれに備えていますか?

>>:  快手 - ICIP 2019 モバイルビデオ修復コンテストの登録開始

ブログ    

推薦する

AIの次の目的地:リアルタイムサービス

リアルタイムサービスの波が徐々に私たちの日常生活に浸透するにつれ、コンピューティングインフラストラク...

最高データおよび分析責任者は、AI 投資の収益をどのように見ているのでしょうか?

[[344785]] 2020 年の夏、同僚の Laks Srinivasan と私は、RoAI ...

...

JD.comのインテリジェントな顧客サービス、JD.comの11.11は再び「高い感情的知性」を実証

チャットボックスを閉じた後、Li Li はカスタマーサービスとの先ほどの会話を思い出しました。製品紹...

私の国の医薬品人工知能市場は急速な成長期に入っている

3月23日から26日まで、2021年重大健康産業(重慶)博覧会と第6回双品会が重慶で開催されました。...

中国科学院研究員蔡少偉:SATソルバーEDA基本エンジン

[[441194]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

ディープラーニングは錬金術のようなものです。どんな迷信的な習慣がありますか?ユーザー: ランダムシード=42 は良い結果をもたらします

[[441423]]機械学習分野の研究者は皆、パラメータ調整という課題に直面していますが、言うほど簡...

人工知能がブルーカラーの仕事に取って代わると、どのような影響があるでしょうか?

AI と ML をより多くのタスクに統合すると、短期的には多くのメリットが得られますが、長期的には...

ロボット工学の可能性を解き放つ:産業に革命を起こし、人々の生活を向上させる

ロボット工学は、SF の世界の概念から、あらゆる分野を変え、人間の生活を向上させる現実のものへと進化...

フェイフェイ・リーのチームの新しい作品: AI 透視眼、障害物を通して見る、そして人体のレンダリングと遮蔽における新たなブレークスルー

人物画像のビデオレンダリングは、AR/VR、映画、医療などの分野で広く使用されています。単眼カメラか...

...

顔を自由に編集! Adobe が新世代の GAN アーティファクトを発表: 最大 35 の顔属性の変更をサポート

画像合成における重要な問題は、画像内のエンタングルメント問題です。たとえば、人物の顔にあるすべてのひ...

中小企業はデジタル変革の悪循環からどのように抜け出すことができるでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

先日の清明節にはドローンが頻繁に登場しました!

近年、飛行制御、ナビゲーション、センシングなどの技術の急速な発展に伴い、ドローン業界はますます大きく...