机器学习技术-k均值划分聚类算法

1.聚类分析：
聚类(Clustering)是将数据划分成群组(簇)的过程，根据数据本身的自然分布性质，数据变量之间存在着程度不同的相似性(亲疏关系)，按照一定的准则将相似的数据聚集成簇(Cluster)。很多机器学习算法可以分为有监督学习和无监督学习方法。有监督学习方法往往是由已知的结果信息来从数据中推导和验证数据中蕴含的某个能够导出结果的模型或规律。聚类与另一种类似的机器学习方法分类(Classification,)不同，聚类的类别取决于数据本身的自然特性，而分类的类别规则是预先定义好的。所以聚类属于无监督学习方法，而具有预先设定准则的分类则属于有监督学习方法。
根据不同的变量类型，不同的相异度计算方法，也就有了不同的聚类算法。主要包括划分聚类(k均值)算法，层次聚类算法，密度聚类算法等
1.应用k均值方法聚类
k均值算法接受输入参数k,然后将n个数据据点划分为k个聚类以便使所获得的聚类满足：同一聚类中的数据点相似度较高，而不同聚类中的数据点相似度较小。聚类近似度，利用各聚类中数据点的均值所获得一个‘中心数据点’(引力中心)来进行计算的。
k均值算法的工作步骤如下：
1）首先从n个数据点任意选择k个数据点作为初始聚类中心。
2）对于剩下的其他数据点，则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类中心所代表的聚类。
3）然后再计算每个新聚类的中心点（该聚类中所有数据点的均值）。
4）不断重复这一过程，直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数，即为准则函数。
k个聚类有以下特点：各聚类本身尽可能紧凑，而各聚类之间尽可能分开。样本点分类和聚类中心的调整是迭代交替进行的两个过程。
k均值逻辑算法如下：
输入：聚类个数k,以及包含n个数据点的数据库
输出：满足方差最小标准的k个聚类处理流程：
1）从n个数据点任意选择k个数据点作为初始聚类中心。
2）根据簇中数据点的均值，将每个数据点重新赋给最类似的簇。
3）更新簇的均值，即计算每个簇中数据点的均值。
4）循环步骤2）到步骤3），直到每个聚类不再发生变化为止。
相异度计算方法，两个数据点间的距离可以使用以下方法进行计算：
明氏距离（Minkowski Distance）/欧式距离(Euclidean Distance)
k均值方法适合定量数据资料分析，而且再聚类前需要对数据进行标准化。

#应用轮廓系数法对k均值聚类结果评估：
可以通过考察簇的分离情况来评估聚类，利用数据集的数据点之间相似性度量。
轮廓系数的思想：
1）从数据中随机取出第i个数据点，并计算出该点S簇中其他所有数据点的平均距离，记为d(i).
2) 计算该点到所有其他簇中所有数据点的平均距离，并找到最小平均距离，记为Md(i)。
3）计算轮廓系数SC(i)=(Md(i)-d(i))/MAX(d(i)，Md(i)),轮廓系数越接近1，说明该点的划越好。将簇中所有点的轮廓系数取平均值，综合所有簇平均轮廓系数，平均轮廓系数越高的分类方案越优。
具体操作步骤如下：
在这里插入图片描述

机器学习技术-k均值划分聚类算法

相关文章

机器学习技术-层次聚类算法(组平均)-综合层次聚类方法(BIRCH、CURE)

机器学习-密度聚类算法(DBSCAN)

机器学习-特性选择(线性相关法/相关因子SRCF算法/最小描述长度MDL算法)

机器学习-特征抽取(主成分分析法/因子分析法/非负矩阵因子分解NMF算法)

2021.01.25丨conda环境配置

机器学习-关联规则(Apriori算法和FP-树频集算法)

2021.02.03丨quast报错module ‘cgi‘ has no attribute ‘escape‘解决办法

机器学习-分类和预测(logistic回归、支持向量机)