今日は、機械学習の教師なし学習における一般的なクラスタリング手法をいくつか紹介したいと思います。 教師なし学習では、データにラベルが付いていないため、教師なし学習で必要なのは、この一連のラベルなしデータをアルゴリズムに入力し、アルゴリズムにデータに暗黙的に含まれる構造を見つけさせることです。下の図のデータから、データセット内のポイントを 2 つの別々のポイント セット (クラスター) に分割できるという構造が見つかります。これらのクラスターを循環させることができるアルゴリズムは、クラスタリング アルゴリズムと呼ばれます。 クラスタリングアルゴリズムの応用
クラスター分析の目的は、同じクラスターに割り当てられた観測値間のペアワイズ差が、異なるクラスター内の観測値間の差よりも小さくなるように、観測値をグループ (「クラスター」) に分割することです。クラスタリング アルゴリズムは、組み合わせアルゴリズム、ハイブリッド モデリング、パターン検索の 3 つのカテゴリに分類されます。 一般的なクラスタリング アルゴリズムには次のようなものがあります。
K平均法K-means アルゴリズムは、最も人気のあるクラスタリング手法の 1 つです。 K 平均法は、1957 年にベル研究所のスチュアート ロイドによって提案されました。当初はパルス符号変調に使用されていましたが、アルゴリズムは 1982 年まで公開されませんでした。 1965 年に Edward W. Forgy が同じアルゴリズムを公開したため、K-Means は Lloyd-Forgy と呼ばれることもあります。 クラスタリングの問題では、ラベルのないデータセットが与えられ、アルゴリズムによってこれらのデータを自動的に一貫したサブセットまたはクラスターに分割できることを期待します。 K-means アルゴリズムは、最も人気があり、広く使用されているクラスタリング アルゴリズムです。 K-means アルゴリズムの直感的な理解:ラベルのないデータセット(上図の左側)があり、それを 2 つのクラスターに分割するとします。次に、K 平均法アルゴリズムを実行します。具体的な操作は次のとおりです。
内側のループの最初のステップは、クラスター割り当てを実行することです。つまり、各サンプルを走査し、クラスター センターからの距離に基づいて各ポイントを異なるクラスター センターに割り当てます。この例では、データ セットを走査し、各ポイントを赤または青で色付けします。 内側のループの 2 番目のステップは、クラスターの中心を移動して、赤と青のクラスターの中心をそれぞれのポイントの平均 (各ポイント グループの平均位置) に移動することです。 次のステップは、新しいクラスターの中心からの距離に基づいてすべてのポイントを新しいクラスターに割り当て、クラスターの中心の位置が反復で変化しなくなり、ポイントの色も変化しなくなるまでこのサイクルを繰り返すことです。この時点で、K 平均法が集約されたと言えます。このアルゴリズムは、データ内の 2 つのクラスターを非常にうまく見つけ出します。 K-Means アルゴリズムの利点:理解しやすく、計算速度が速く、大規模なデータセットに適しています。 欠点:
階層的クラスタリング階層的クラスタリングは、その名前が示すように、サンプル セットを特定のレベルに従ってクラスタ化します。ここでのレベルは、実際には特定の距離の定義を指します。 階層的クラスタリングの最終的な目標はカテゴリの数を減らすことなので、その動作はツリー図がリーフノードからルートノードに移動するプロセスに似ており、この動作は「ボトムアップ」とも呼ばれます。 より一般的には、階層的クラスタリングでは、初期化された複数のクラスターをツリー ノードとして扱います。各反復で、類似のクラスターが新しい大きなクラスターにマージされ、このプロセスは 1 つのクラスター (ルート ノード) だけが残るまで繰り返されます。 階層的クラスタリング戦略は、凝集型(ボトムアップ)と分割型(トップダウン)の 2 つの基本パラダイムに分けられます。 階層的クラスタリングの反対は、DIANA (Divise Analysis) とも呼ばれる分割クラスタリングで、「トップダウン」方式で動作します。 K-means を適用した結果は、検索するクラスターの数の選択と開始構成の割り当てによって異なります。対照的に、階層的クラスタリング手法ではそのような仕様は必要ありません。代わりに、ユーザーは、2 つの観測グループ間のペアワイズ非類似度に基づいて、観測の (互いに素な) グループ間の非類似度の尺度を指定する必要があります。名前が示すように、階層表現が生成され、階層の各レベルのクラスターは、次の下位レベルのクラスターをマージすることによって作成されます。最下位レベルでは、各クラスターに 1 つの観測値が含まれます。最高レベルでは、すべてのデータを含むクラスターが 1 つだけあります。 アドバンテージ:
欠点:
凝集型クラスタリング凝集型クラスタリングは、各データ ポイントを初期クラスターとして扱い、停止条件に達するまで徐々にそれらをより大きなクラスターにマージするボトムアップ クラスタリング アルゴリズムです。このアルゴリズムでは、各データ ポイントは最初に個別のクラスターとして扱われ、その後、すべてのデータ ポイントが 1 つの大きなクラスターに結合されるまで、クラスターは段階的に結合されます。 アドバンテージ:
欠点:
親和性の伝播アフィニティ伝播 (AP) アルゴリズムは、通常、近隣伝播アルゴリズムまたはアフィニティ伝播アルゴリズムとして翻訳されます。 アフィニティ伝播は、グラフ理論に基づくクラスタリング アルゴリズムであり、データ内の「標本」(代表的なポイント) と「クラスター」(クラスター) を識別することを目的としています。 K-Means などの従来のクラスタリング アルゴリズムとは異なり、Affinity Propagation では、クラスターの数を事前に指定する必要はなく、クラスターの中心をランダムに初期化する必要もありません。代わりに、データ ポイント間の類似性を計算することで、最終的なクラスタリング結果を取得します。 アドバンテージ:
欠点:
平均シフトクラスタリング平均シフト クラスタリングは、密度ベースのノンパラメトリック クラスタリング アルゴリズムです。基本的な考え方は、データ ポイントの密度が最も高い場所 (「局所的最大値」または「ピーク」と呼ばれる) を見つけることで、データ内のクラスターを識別することです。アルゴリズムの中核は、各データ ポイントに対してローカル密度推定を実行し、密度推定の結果を使用してデータ ポイントの移動方向と距離を計算することです。アルゴリズムの中核は、各データ ポイントに対してローカル密度推定を実行し、密度推定の結果を使用してデータ ポイントの移動方向と距離を計算することです。 アドバンテージ:
欠点:
K平均法の二分法二分 K 平均法は、K 平均法アルゴリズムに基づく階層的クラスタリング アルゴリズムです。基本的な考え方は、すべてのデータ ポイントを 1 つのクラスターに分割し、そのクラスターを 2 つのサブクラスターに分割し、各サブクラスターに K 平均法アルゴリズムを個別に適用し、クラスターの数が所定の数に達するまでこのプロセスを繰り返すことです。 このアルゴリズムは、まずすべてのデータ ポイントを 1 つの初期クラスターと見なし、次にこのクラスターに K-Means アルゴリズムを適用し、クラスターを 2 つのサブクラスターに分割して、各サブクラスターの二乗誤差の合計 (SSE) を計算します。次に、二乗誤差の合計が最大となるサブクラスターが選択され、再度 2 つのサブクラスターに分割され、このプロセスがクラスターの所定の数に達するまで繰り返されます。 アドバンテージ:
欠点:
DBスキャンノイズを含むアプリケーションの密度ベース空間クラスタリング (DBSCAN) は、典型的な密度ベースの空間クラスタリング アルゴリズムです。 密度ベースの方法の特徴は、距離ではなく密度に依存するため、距離ベースのアルゴリズムでは「球状の」クラスターしか発見できないという欠点を克服できることです。 DBSCAN アルゴリズムの基本的な考え方は、特定のデータ ポイントについて、その密度が特定のしきい値に達するとクラスターに属し、それ以外の場合はノイズ ポイントとみなされるというものです。 アドバンテージ:
欠点:
光学OPTICS (Ordering Points To Identify the Clustering Structure) は、クラスターの数を自動的に決定し、任意の形状のクラスターを検出し、ノイズの多いデータを処理できる密度ベースのクラスタリング アルゴリズムです。 OPTICS アルゴリズムの中心的な考え方は、特定のデータ ポイントについて、他のポイントまでの距離を計算することで、密度の観点からの到達可能性を決定し、密度ベースの距離グラフを構築するというものです。次に、距離マップをスキャンすることで、クラスターの数が自動的に決定され、各クラスターが分割されます。 アドバンテージ:
欠点:
バーチBIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) は、階層的クラスタリングに基づくクラスタリング アルゴリズムです。大規模なデータ セットを迅速に処理でき、任意の形状のクラスタに優れた効果を発揮します。 BIRCH アルゴリズムの中心的な考え方は、データセットに対して階層的クラスタリングを実行することでデータサイズを徐々に削減し、最終的にクラスター構造を取得することです。 BIRCH アルゴリズムは、CF ツリーと呼ばれる B ツリーに似た構造を使用します。これにより、サブクラスターをすばやく挿入および削除でき、クラスターの品質と効率を確保するために自動的にバランスをとることができます。 アドバンテージ:
欠点:
|
<<: ネット全体が「被験者3」を真似し、メッシ、アイアンマン、二次元の女の子が即勝利
>>: ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功
[[244003]]既存の AI ツールやサービスは、従業員に代わるものではなく、ワークフローの改善...
1. 背景知識 - テキスト画像生成の現状まずは背景知識をご紹介します。テキスト画像生成モデルにつ...
[[279631]]中国の従業員は職場でロボットをより信頼しているのでしょうか?調査によると、中国の...
1. メタ学習1. パーソナライズモデリングの問題点推奨シナリオでは、データの 80% 分布の問題に...
アマゾンの幹部は7月27日、クラウドコンピューティング部門が人工知能サービス「ベッドロック」を試す顧...
[[195041]]機械学習を始めるにあたって、万能のアプローチは存在しません。私たちは皆、少しずつ...
8月31日、OpenAIは今週、原告に数人の作家を含むほぼ同一の集団訴訟2件に応じた。彼らは、Cha...
AI 生成コンテンツは効果的に識別できますか?いくつかの例を見てみましょう。テキストが AI モデル...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
1. 自然言語生成自然言語生成は、構造化されたデータをネイティブ言語に変換する流行のテクノロジーです...
AI(人工知能)は、研究開発を通じて人間の理論、方法、技術、アプリケーション システムをシミュレート...
[[441598]] AI への準備プロセスの多くは組織の変更です。人工知能の利用には、ニューカラー...
今日、世界は、パーソナライズされたエクスペリエンスを提供しながら、人間が重要な決定を下したり、重要な...