机器学习技术-k均值划分聚类算法

news/2024/5/20 10:37:43 标签: 机器学习, 聚类, 算法

1.聚类分析:
聚类(Clustering)是将数据划分成群组(簇)的过程,根据数据本身的自然分布性质,数据变量之间存在着程度不同的相似性(亲疏关系),按照一定的准则将相似的数据聚集成簇(Cluster)。很多机器学习算法可以分为有监督学习和无监督学习方法。有监督学习方法往往是由已知的结果信息来从数据中推导和验证数据中蕴含的某个能够导出结果的模型或规律。聚类与另一种类似的机器学习方法分类(Classification,)不同,聚类的类别取决于数据本身的自然特性,而分类的类别规则是预先定义好的。所以聚类属于无监督学习方法,而具有预先设定准则的分类则属于有监督学习方法。
根据不同的变量类型,不同的相异度计算方法,也就有了不同的聚类算法。主要包括划分聚类(k均值)算法,层次聚类算法,密度聚类算法
1.应用k均值方法聚类
k均值算法接受输入参数k,然后将n个数据据点划分为k个聚类以便使所获得的聚类满足:同一聚类中的数据点相似度较高,而不同聚类中的数据点相似度较小。聚类近似度,利用各聚类中数据点的均值所获得一个‘中心数据点’(引力中心)来进行计算的。
k均值算法的工作步骤如下:
1)首先从n个数据点任意选择k个数据点作为初始聚类中心。
2)对于剩下的其他数据点,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的聚类中心所代表的聚类
3)然后再计算每个新聚类的中心点(该聚类中所有数据点的均值)。
4)不断重复这一过程,直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数,即为准则函数。
k个聚类有以下特点:各聚类本身尽可能紧凑,而各聚类之间尽可能分开。样本点分类和聚类中心的调整是迭代交替进行的两个过程。
k均值逻辑算法如下:
输入:聚类个数k,以及包含n个数据点的数据库
输出:满足方差最小标准的k个聚类处理流程:
1)从n个数据点任意选择k个数据点作为初始聚类中心。
2)根据簇中数据点的均值,将每个数据点重新赋给最类似的簇。
3)更新簇的均值,即计算每个簇中数据点的均值。
4)循环步骤2)到步骤3),直到每个聚类不再发生变化为止。
相异度计算方法,两个数据点间的距离可以使用以下方法进行计算:
明氏距离(Minkowski Distance)/欧式距离(Euclidean Distance)
k均值方法适合定量数据资料分析,而且再聚类前需要对数据进行标准化。

#应用轮廓系数法对k均值聚类结果评估:
可以通过考察簇的分离情况来评估聚类,利用数据集的数据点之间相似性度量。
轮廓系数的思想:
1)从数据中随机取出第i个数据点,并计算出该点S簇中其他所有数据点的平均距离,记为d(i).
2) 计算该点到所有其他簇中所有数据点的平均距离,并找到最小平均距离,记为Md(i)。
3)计算轮廓系数SC(i)=(Md(i)-d(i))/MAX(d(i),Md(i)),轮廓系数越接近1,说明该点的划越好。将簇中所有点的轮廓系数取平均值,综合所有簇平均轮廓系数,平均轮廓系数越高的分类方案越优。
具体操作步骤如下:
在这里插入图片描述
在这里插入图片描述


http://www.niftyadmin.cn/n/862715.html

相关文章

机器学习技术-层次聚类算法(组平均)-综合层次聚类方法(BIRCH、CURE)

基于层次的聚类方法,是对给定的数据进行层次的分解,直到某种条件满足为止。首先将数据点组成一颗聚类树,根据层次,自底向上或是自顶向下分解。层次的方法可以分为凝聚的方法和分裂的方法。 凝聚的方法,也称为自底向上的…

机器学习-密度聚类算法(DBSCAN)

1.密度聚类 基于密度的聚类算法由于能够发现任意形状的聚类,识别数据集中的噪声点,可伸缩性好等特点,在许多领域有着重要的应用。 密度算法概念: 1)如果一个数据点周围足够稠密,也就是以这个点为中心&…

机器学习-特性选择(线性相关法/相关因子SRCF算法/最小描述长度MDL算法)

1.特性选择 特性选择:为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关和冗余的属性。特性选择用于在建立分类模型后,或者预测模型之前,对原始数据库进行预处理。本节将介绍特性选择的概念,特性…

机器学习-特征抽取(主成分分析法/因子分析法/非负矩阵因子分解NMF算法)

1.特征抽取: 特征抽取是机器学习中另一种十分有用的方法,它与特性选择不同,特征抽取是对数据的特征进行概括和总结,而特性选择则主要是对数据中的不同特征进行比较和选取。 特征抽取是机器学习技术中的一个常用的方法,…

2021.01.25丨conda环境配置

最近新换了服务器,需要重新搭建工作环境,在此整理记录一下环境搭建步骤安装miniconda 下载地址:https://docs.conda.io/en/latest/miniconda.html以Miniconda3 Linux 64-bit为例sh Miniconda3-latest-Linux-x86_64.sh一路空格、yes。注意&…

机器学习-关联规则(Apriori算法和FP-树频集算法)

1.关联规则 世间万物普遍存在着联系,有些联系是我们知道的,比如说有些疾病有遗传问题、肺癌跟吸烟习惯有关联等。更多的联系是我们现在还未知的,需要我们去探索的。机器学习的关联规则算法,可以发现大量数据中项集之间有趣的未知联…

2021.02.03丨quast报错module ‘cgi‘ has no attribute ‘escape‘解决办法

最近采购了新服务器,在上面第一次跑组装,按正常流程要进行组装评估,在使用quast的过程中发生了报错,报错如下: 抓重点,问题在于cgi.escape,里面其实有提示,‘html’:cgi.…

机器学习-分类和预测(logistic回归、支持向量机)

分类问题是通俗易懂的问题,分类技术是应用广泛的方法和手段。我们把分类和预测统称为推测。分类就是应用已知的一些属性数据去推测一个未知的离散型的属性数据,而这个被推测的属性数据的可取值是预先定义的。要很好地实现这种推测,就需要事先…