判断聚类 n_clusters

news/2024/5/20 8:46:36 标签: 聚类, 机器学习, 人工智能

目录

基本原理

代码实现:

肘部法则(Elbow Method):

轮廓系数(Silhouette Coefficient)

Gap Statistic(间隙统计量):

Calinski-Harabasz Index(Calinski-Harabasz指数):


基本原理

这些方法(肘部法则、轮廓系数、Gap Statistic、Calinski-Harabasz Index)都是用于确定聚类算法中的 n_clusters(簇的数量)参数,但它们之间存在一些区别。下面是它们的主要特点以及适用情况的总结:

  1. 肘部法则(Elbow Method):

    • 特点:通过绘制聚类结果的损失函数值与 n_clusters 的关系图,找到“肘部”处的拐点作为最佳 n_clusters
    • 适用情况:当数据集的聚类结构明显时,该方法通常有效。但是,对于数据集没有明显的肘部的情况,或者肘部并不明显时,该方法可能无法提供确定的最佳 n_clusters
  2. 轮廓系数(Silhouette Coefficient):

    • 特点:计算每个样本的轮廓系数(介于-1和1之间),并计算出所有样本的平均轮廓系数。最大化平均轮廓系数可以确定最佳的 n_clusters
    • 适用情况:适用于各种类型的数据集,尤其是数据分布相对均匀且没有明显的几何形状的聚类结构。需要注意的是,轮廓系数的计算复杂度较高,对于大型数据集可能会有一定的性能开销。
  3. Gap Statistic(间隙统计量):

    • 特点:通过比较聚类结果与随机数据模拟结果的区别,使用统计学原理来选择最佳 n_clusters。Gap Statistic 值越大,表示聚类效果越好。
    • 适用情况:适合于具有明显聚类结构的数据集,对于不同密度、大小和形状的聚类表现较好。需要注意的是,该方法对数据集的假设要求较高,在某些情况下可能会得到不准确的结果。
  4. Calinski-Harabasz Index(Calinski-Harabasz指数):

    • 特点:通过计算聚类之间的离散度与聚类内部的紧密度之比,确定最佳的 n_clusters。Calinski-Harabasz 指数值越大,表示聚类效果越好。
    • 适用情况:适合于具有清晰、凸形状的聚类结构的数据集。对噪声和异常值比较敏感,处理非凸形状的聚类时可能出现一些偏差。

在选择适当的方法时,应综合考虑以下因素:

  • 数据特征:数据集的聚类结构、形状、噪声以及是否具有明显的几何形态等特征。
  • 算法要求:不同的方法可能对数据集的假设和计算复杂度有不同的要求。
  • 领域知识:对数据集具有领域知识,可以帮助理解数据的特点,并选择适合的评估指标和方法。

代码实现:

肘部法则(Elbow Method):

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
# 肘部法则(Elbow Method):绘制不同 n_clusters 下的聚类误差平方和(SSE)曲线。
# 观察 SSE 曲线的形状,找到一个"肘部弯曲点",
# 即在该点后,SSE 的下降速度变得缓慢。
# "肘部弯曲点"对应的 n_clusters 值就是一个合适的选择。
#
# 例如,在上述代码示例中,使用 plt.plot(k_range, sse, 'bx-') 绘制了 SSE 曲线。观察曲线,如果在某个 n_clusters 值处出现明显弯曲,且在该点之后 SSE 的下降速度变得缓慢,那么该 n_clusters 值可以被认为是一个合适的选择。



# 加载Iris数据集
iris = load_iris()

# 构造K-Means聚类模型
model = KMeans()

# 肘部法则选择n_clusters
sse = []
k_range = range(2, 10)  # 需要尝试的n_clusters范围
for k in k_range:
    model.set_params(n_clusters=k)
    model.fit(iris.data)
    sse.append(model.inertia_)

plt.plot(k_range, sse, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('SSE')
plt.title('The Elbow Method')
plt.show()

# 轮廓系数选择n_clusters
silhouette_scores = []
for k in k_range:
    model.set_params(n_clusters=k)
    labels = model.fit_predict(iris.data)
    score = silhouette_score(iris.data, labels)
    silhouette_scores.append(score)

plt.plot(k_range, silhouette_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Silhouette Coefficient')
plt.title('Silhouette Score')
plt.show()

轮廓系数(Silhouette Coefficient)

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 加载Iris数据集
iris = load_iris()

# 构造K-Means聚类模型
model = KMeans()

k_range = range(2, 10)  # 需要尝试的n_clusters范围
silhouette_scores = []
for k in k_range:
    model.set_params(n_clusters=k)
    labels = model.fit_predict(iris.data)
    score = silhouette_score(iris.data, labels)
    silhouette_scores.append(score)

plt.plot(k_range, silhouette_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Silhouette Coefficient')
plt.title('Silhouette Score')
plt.show()
  1. Gap Statistic(间隙统计量):

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances
from sklearn.metrics import silhouette_score
# 选择 Gap Statistic 最大的 n_clusters 值。
# 加载Iris数据集
iris = load_iris()

# 构造K-Means聚类模型
model = KMeans()

k_range = range(2, 10)  # 需要尝试的n_clusters范围
gap_scores = []
for k in k_range:
    model.set_params(n_clusters=k)
    labels = model.fit_predict(iris.data)
    dist_matrix = pairwise_distances(iris.data)
    gap = np.mean(np.log(np.mean(np.min(dist_matrix[:, labels], axis=1))))
    gap_scores.append(gap)

plt.plot(k_range, gap_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Gap Statistic')
plt.title('Gap Statistic')
plt.show()
  1. Calinski-Harabasz Index(Calinski-Harabasz指数):

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import calinski_harabasz_score
# 选择具有最大 Calinski-Harabasz 指数的 n_clusters 值。
# 加载Iris数据集
iris = load_iris()

# 构造K-Means聚类模型
model = KMeans()

k_range = range(2, 10)  # 需要尝试的n_clusters范围
calinski_scores = []
for k in k_range:
    model.set_params(n_clusters=k)
    labels = model.fit_predict(iris.data)
    score = calinski_harabasz_score(iris.data, labels)
    calinski_scores.append(score)

plt.plot(k_range, calinski_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Calinski-Harabasz Index')
plt.title('Calinski-Harabasz Index')
plt.show()


http://www.niftyadmin.cn/n/4979239.html

相关文章

Java之API详解之Object类的详细解析

4 Object类 4.1 概述 tips:重点讲解内容 查看API文档,我们可以看到API文档中关于Object类的定义如下: Object类所在包是java.lang包。Object 是类层次结构的根,每个类都可以将 Object 作为超类。所有类都直接或者间接的继承自该类…

SpringBoot整合 redis key (过期、新增、修改)的三种方式,看这篇就够了

文章目录 原理关于 *notify-keyspace-events*关于redis的消息主题(Topic)重写监听容器注册自定义解析常见整合问题鸣谢 文章主要描述了Springboot整合key变化的三种方式,同时列出了一些整合坑点与概念 原理 SpringBoot整合Redis key变化的原…

NoSQL MongoDB Redis E-R图 UML类图概述

NoSQL NoSQL(Not only SQL)是对不同于传统的关系数据库的数据库管理系统的统称,即广义地来说可以把所有不是关系型数据库的数据库统称为NoSQL。 NoSQL 数据库专门构建用于特定的数据模型,并且具有灵活的架构来构建现代应用程序。NoSQL 数据库使用各种数…

Java实战场景下的ElasticSearch

文章目录 前言一、环境准备二、RsetAPI操作索引库1.创建索引库2.判断索引库是否存在3.删除索引库 二、RsetAPI操作文档1.新增文档2.单条查询3.删除文档4.增量修改5.批量导入6.自定义响应解析方法 四、常用的查询方法1.MatchAll():查询所有2.matchQuery():单字段查询3.multiMatc…

视频汇聚/视频云存储/视频监控管理平台EasyCVR安全检查的相关问题及解决方法

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…

四层负载均衡的NAT模型与DR模型推导 | 京东物流技术团队

导读 本文首先讲述四层负载均衡技术的特点,然后通过提问的方式推导出四层负载均衡器的NAT模型和DR模型的工作原理。通过本文可以了解到四层负载均衡的技术特点、NAT模型和DR模型的工作原理、以及NAT模型和DR模型的优缺点。读者可以重点关注NAT模型到DR模型演进的原…

Thymeleaf解析表达式

首先springThymeleaf必过的点 org.springframework.web.servlet.DispatcherServlet#doDispatch那么先跟入handle()方法 然后跟进handleInternal方法 可以看到mav的获取方法,继续跟进invokeHandlerMethod 继续跟进invokeAndHandle 这里判断returnvalue是否有值…

②matlab桌面和编辑器

目录 matlab编辑器练习 运行脚本 matlab编辑器练习 您可以通过点击灰色代码框在脚本中输入命令。 准备就绪后,您可以通过点击蓝色的提交按钮提交代码。 任务 在脚本中输入命令 r 3。 2.任务 在脚本中添加命令 x pi*r^2。 附加练习 当您在实时编辑器中完成…