机器学习读书笔记之8 - 聚类

news/2024/5/20 7:28:46 标签: 机器学习, 读书笔记, 聚类, Cluster, K-means

       聚类Cluster 是无监督学习的一种,与分类相区别的地方在于:

1. 分类的目的在于将数据进行明确的归属划分,聚类 的目的只是使同一类对象的相似度尽可能大;

2. 聚类 作为非监督学习,不需要训练和学习过程;

       目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。

K-Means算法

        K-Means可以说是聚类算法中最简单、也是应用最多的方法,关键点有两个:

        1)中心用各类别中所有数据的均值表示;

        2)通过迭代算法进行数据更新;

        K-Means算法 结果好坏依赖于对初始聚类中心的选择、容易陷入局部最优解、对K值的选择没有准则可依循、对异常数据较为敏感。

        基于此,在K-Means的基础上诞生了许多变体算法,比如Bradley和Fayyad等,主要改进点在于 降低对中心的依赖,调整迭代过程中重新计算中心方法 等。


层次聚类

       层次聚类的基本步骤: 

 1、初始化过程,将每个样本作为一类;

      计算类间距离D,即样本与样本之间的相似度

      给定阈值T,当相似度小于T时,可以合并

 2、寻找各个类之间最近的两个类,如果距离小于T,执行合并;

 3、计算新合并的这个类 与 原有类之间的相似度;

 4、重复2和3直到 没有可以合并的类,结束。


http://www.niftyadmin.cn/n/904810.html

相关文章

Redis的KEYS命令引起宕机事件

摘要: 使用 Redis 的开发者必看,吸取教训啊! 原文:Redis 的 KEYS 命令引起 RDS 数据库雪崩,RDS 发生两次宕机,造成几百万的资金损失作者:陈浩翔Fundebug经授权转载,版权归原作者所有…

机器学习读书笔记之9 - 逻辑回归

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。本文主要详述逻辑回归模型的基础&#x…

机器学习读书笔记之10 - PCA

通常在特征提取过程中,会遇到一个很严重的问题,那就是特征维度过多,实际上这些特征对于 表示和分类的贡献度不同,那么哪些特征是重要的?哪些是次要的呢? 这时轮到PCA出场了(想必早已名声在外&am…

机器学习读书笔记之11 - 岭回归 LASSO回归

回归 就是 对数据进行拟合,我们常说的 线性回归、高斯回归、SVR、Softmax 都是属于 回归。 最小二乘大家再熟悉不过了,作为入门级的线性回归,可能会遇到的一些问题: (1)参数稳定性和精度问题 如果 观测数据…

Java软件工程的弹幕调试原则

日期:2019.4.25 博客期:061 星期四 今天是把很久之前的那个相关程序——一维数组的最大和的子数组的求取信息,我们今天的任务就是把每一步的信息都要进行输出查看! 如下图: 1 package pvp;2 3 import java.io.File;4 i…

机器学习实践系列之1 - dlib

Dlib 是一个机器学习库,采用C编写(提供C和python接口),里面包含 许多常用机器学习算法。 Dlib 目前已更新到 V19.2。下载及文档可以参见 官网地址: http://www.dlib.net/ml.html 一. 编译 下载的dlib库解压后&#x…

js的常见的三种密码加密方式-MD5加密、Base64加密和解密和sha1加密详解总结

写前端的时候,很多的时候是避免不了注册这一关的,但是一般的注册是没有任何的难度的,无非就是一些简单的获取用户输入的数据,然后进行简单的校验以后调用接口,将数据发送到后端,完成一个简单的注册的流程&a…

机器学习实践系列之2 - GPUImage

最近直播比较火,作者也饶有兴趣的研究了一番,有句话说的好: “每个光鲜亮丽的女主播后面,都有一个技术宅男!”,这里指的就是传说中的美颜相机。 随便找了两张图,作者也不知道是谁,大…