数据分析系列 之python语言中的聚类分析

news/2024/5/20 9:22:36 标签: 聚类, 算法, python, 机器学习, 人工智能

1 基础算法
(1) K-means算法:对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。
(2) K-means算法是局部最优解,初始聚类中心一般是随机选择,有可能运行两次的结果稍有不同。
(3) 距离公式常采用欧式距离和余弦相似度公式,前者越小代表距离越小,后者越大代表越相似。

2 算法实现

python">import numpy as np
from scipy.cluster.vq import * vq,kmeans,whiten
listA=[86.0,72.0,94.0,83.0]
listB=[89.0,85.0,97.0,93.0]
listC=[86.0,76.0,96.0,82.0]
data=np.array([listA,listB,listC])
whiten=whiten(data)
#kmeans功能是对数据进行聚类,2代表类别,返回结果是元组
#A,_表示只需要取元组的第一个内容
centroids,_=kmeans(whiten,2)
#vq是矢量量化函数
result,_=vq(whiten,centroids)
print(result)

3 scikit learn工具包解决方法

python">import numpy as np
from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist
import matplotlib.pyplot as plt
from sklearn import datasets
listA=[86.0,72.0,94.0,83.0]
listB=[89.0,85.0,97.0,93.0]
listC=[86.0,76.0,96.0,82.0]
X=np.array([listA,listB,listC])
#fit是一个训练过程
kmeans=KMeans(n_clusters=2).fit(X)
#predict是一个预测过程
pred=kmeans.predict(X)
print(pred)

#注意聚类和分类的区别
#直观理解起来就是:聚类是无标签的,分类是有标签的
#以下为分类的示例,利用SVM算法
from sklearn import datasets
from sklearn import svm
clf=svm.SVC(gamma=0.001,C=100.)
digits=datasets.load_digits()
#fit方法学习,data[:-1]从位置0到位置-1之前的数
clf.fit(digit.data[:-1],digits.target[:-1])
#predict方法预测,data[-1]最后一个位置的数
result=clf.predict(digit.data[-1])
print(result)

4 模型的选择和评估
“肘”方法:绘制出K值和SSE(误差平方和)的对应关系,找到趋于平缓的位置K值即为最佳聚类数。

参考资料:
https://www.icourse163.org/learn/NJU-1001571005?tid=1463102441&from=study#/learn/content?type=detail&id=1240380198&sm=1 用python玩转数据


http://www.niftyadmin.cn/n/1223817.html

相关文章

数据分析系列 之pandas用例分析2

1 前言 本专题参考学习视频和网上其他大神的资料,推出pandas用例分析2,需要分析的主题是男女生电影评分差异分析。 2 原理 2.1 python pandas 中 loc & iloc 用法区别 loc:基于行标签和列标签(x_label、y_label)进…

GIS DAY 2005——『移民:人类旅行』

2005-11-16是GIS日,看到国外很多GIS公司和组织举行很多有趣的活动。可是都两天了,国内怎么就没啥动静嗫?还想趁这个机会多见点世面嗫。。。PS:建了一个JAVA二次开发GIS的QQ群(该群已停止),欢迎有…

数据分析系列 之python中随机森林算法的应用

1 原理 1.1 随机森林算法:随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有…

文件快搜(Quick File Locator) v0.1发布,中文、英文版,by yuchifang

文件快速定位工具,支持可视化查询和命令行查询,支持精确查询和模糊查询,支持查找过滤 下载中文版:http://files.cnblogs.com/realfun/queryer_cn.zip下载英文版:http://files.cnblogs.com/realfun/queryer_en.zip2006年…

数据分析系列 之python中面向对象与GUI的设计

1 面向对象的思想介绍 1.1 这部分可以类比于C和java中类和对象的知识来进行学习; 1.2 类—描述对象的特征;对象—由数据和方法组成; 1.3 抽象的介绍: 类是对象的抽象,类的具体化是对象(模板)&am…

人工智能系列 之深度学习和caffe应用整理笔记1

1 前言 之前用过windows-caffe做过深度学习的训练和应用,以下的专题算是对于caffe和深度学习部分内容的回顾。 其实个人觉得数据分析和深度学习都算人工智能的范畴,整体流程分为以下几步: (1)【数据源的整理以及数据的…

离2006年考研还有一个月

报名时间网上报名时间:2005年10月8 日——10月31日现场报名时间:2005年11月11日——11月14日考试时间安排: 2006年1月14日: 上午8:30——11:30 政治 下午2:30—— 5&…

系统运维系列 之Java语言中解析json嵌套数组(干货亲测)

1 引言: 在数据解析过程中,json格式的数据多用来做前后端数据交互、接口数据交互等,弄清楚Java语言中解析json嵌套数组对于数据交互有着重要意义,本文基于自己的代码编写和逻辑梳理,整理出本篇干货,亲测有效…