python机器学习——聚类分析简介

news/2024/5/20 7:28:43 标签: 机器学习, 聚类

聚类分析

数据聚类理论理论

一、聚类定义

数据聚类 ( Cluster analysis )是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。

聚类分析是研究“物以类聚”的一种科学有效的方法,由实验测试得到的数据是原始数据,原始数据是没有进行分类的、无规律的、错综复杂的变量,要使得这些数据能够反映出一定的规律性或特殊的分类性,需要对数据或变量进行聚类分析,以使数据或变量呈现一定的分门别类的特征。

关键:聚类的关键是如何度量对象间的相似性。较为常见的用于度量对象的相似度的方法有距离、向量余弦等。

二、聚类与分类区别

聚类与分类的最大不同在于分类的目标事先已知,而聚类则不知道。

② 在分类规则上聚类也与分类不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。

③ 分类是事先定义好类别 ,类别数不变,分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴;聚类则没有事先预定的类别,类别数不确定,聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。

④ 分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等。

注:分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。

三、聚类分析的目的

聚类分析的目的是分析数据是否属于各个独立的分组,使一组中的成员彼此相似,而与其他组中的成员不同。它对一个数据对象的集合进行分析,但与分类分析不同的是,所划分的类是未知的,因此,聚类分析也称为无指导或无监督的( Unsupervised )学习。

四、聚类主要方法

聚类分析的一般方法是将数据对象分组为多个类或簇( Cluster ),在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差异较大。由于聚类分析的上述特征,在许多应用中,对数据集进行了聚类分析后,可将一个簇中的各数据对象作为一个整体对待。

注意:将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇。

常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、 CLARANS 、 BIRCH 、CLIQUE、DBSCAN 等。


http://www.niftyadmin.cn/n/1446804.html

相关文章

什么是3G(转)

3G是英文3rd Generation的缩写,指第三代移动通信技术。相对第一代模拟制式手机(1G)和第二代GSM、TDMA等数字手机(2G),第三代手机一般地讲,是指将无线通信与国际互联网等多媒体通信结合的新一代移动通信系统。它能够处理图像、音乐、视频流等多…

@RequestBody接收不到前端传递过来的json数据

uniRequest.post(/orderParking,{parkingRecord:this.ParkingRecord})我刚开始只是写RequestBody ParkingRecord parkingRecord 一直获取的都是null, 直到用了Map标签才终于获取到参数了 RequestMapping(value "/orderParking",produces"application/json"…

要懂Greenplum索引,心里得有B树!

了解更多Greenplum技术干货,欢迎访问Greenplum中文社区网站 7月24日,Greenplum原厂内核研发马洪旭和大家直播分享了《深入浅出Greenplum内核》系列直播的第四期《Greenplum内核揭秘之B树索引》。相关视频已上传至Greenplum中文社区B站频道,戳…

python机器学习——Kmeans聚类

Kmeans聚类聚类基本思想Kmeans 介绍python 实现参考聚类基本思想 背景: 由于获取带有标签的数据成本比较高(因为需要人工标记),而没有标签的数据却很容易获得。如果我们可以根据样本自身的属性或者说特征,给这写样本进…

秒杀系统架构

一、秒杀业务为什么难做 1)im系统,例如qq或者微博,每个人都读自己的数据(好友列表、群列表、个人信息); 2)微博系统,每个人读你关注的人的数据,一个人读多个人的数据&…

让网站反向连接尽在你的掌握之中(转)

我们都知道,网站的反相链接数量,决定了网站的Link Popularity——当然,反相链接的质量也同样重要——从而最终影响到网站在搜索引擎中的排名。因此,在网站优化过程中,随时掌握有哪些网站、有多少网站建立了指向我们网站…

hysbz 2243 染色(树链剖分)

题目链接&#xff1a;hysbz 2243 染色 题目大意&#xff1a;略。 解题思路&#xff1a;树链剖分线段树的区间合并&#xff0c;但是区间合并比较简单&#xff0c;节点只要记录左右端点的颜色即可。 #include <cstdio> #include <cstring> #include <algorithm&g…

Greenplum峰会 2020 第一场 精彩回顾

获得技术资料内容&#xff0c;请访问Greenplum中文社区网站 为什么Greenplum如此受欢迎&#xff1f;主要基于以下三个原因&#xff1a; 蓬勃发展的开源社区的支持 支撑大规模并行数据分析的优异性能 多云&#xff0c;基础架构原生支持 其中第三条是我们于7月29日进行的Greenp…