K-means聚类方法

news/2024/5/20 7:02:08 标签: kmeans, 聚类, 机器学习

K-means聚类的思想和原理

模型介绍

对于有监督的数据挖掘算法而言,数据集中需要包含标签变量(即因变量y的值)。但在有些场景下,并没有给定的y值,对于这类数据的建模,一般称为无监督的数据挖掘算法,最为典型的当属聚类算法。

K-means聚类算法利用距离远近的思想将目标数据聚为指定的k个簇,进而使样本呈现簇内差异小,簇间差异大的特征。但是具体分为几个类,分成类的标准都不同,没有准确的判定标准说分成哪个最好。

聚类过程

1.从数据中随机挑选k个样本点作为原始的簇中心

2.计算剩余样本与簇中心的距离,并把各样本标记为离k个簇中心最近的类别 

3.不断重复第二步和第三步,直到簇中心的变化趋于稳定,形成最终的k个簇 

4.重新计算各簇中样本点的均值,并以均值作为新的k个簇中心 

 

 原理介绍

Kmeans聚类模型中,对于指定的𝑘k个簇,只有簇内样本越相似,聚类效果越好。基于这个思想,可以理解为簇内样本的离差平方和之和达到最小即可进而可以衍生出Kmeans聚类的目标函数:

Kmeans聚类的思想和原理eans聚类的思想和原理

其中,c表示第 个簇的簇中心,xi 属于第j个簇的样本 nj 表示第 个簇的样本总量。对于该目标函数而言,cj 是未知的参数,要想求得目标函数的最小值,得先知道参数 cj 的值。 

对目标函数求偏导:

令导函数为0:


http://www.niftyadmin.cn/n/5185352.html

相关文章

虚幻C++ day5

角色状态的常见机制 创建角色状态设置到UI上 在MainPlayer.h中新建血量,最大血量,耐力,最大耐力,金币变量,作为角色的状态 //主角状态UPROPERTY(EditDefaultsOnly, BlueprintReadOnly, Category "Playe Stats&…

在原生HTML页面发起axios请求

在原生html页面发起axios请求&#xff0c;首先需要先引入axios文件包&#xff0c;然后按照axios的请求方式发起请求即可&#xff0c;但如果页面在本地&#xff0c;那么请求一般会报错跨域问题&#xff0c;需要部署一下才能正确请求数据&#xff1b; 例子 <!DOCTYPE html&g…

优化奥德赛:揭开训练人工神经网络的本质

一、介绍 近年来&#xff0c;人工智能领域取得了显著的进步&#xff0c;而这场革命的核心是训练人工神经网络 &#xff08;ANN&#xff09; 的复杂过程。这些网络受到人脑的启发&#xff0c;能够从数据中学习复杂的模式和表示。人工神经网络成功的核心是认识到训练它们从根本上…

单日充值破6000万、8天收入破亿,小程序短剧的商业真相

进入2023年以来&#xff0c;短剧发展的速度相当惊人。无论是从短视频平台的用户规模来说&#xff0c;还是从短剧内容的商业效益来看&#xff0c;都进入了双增长的狂飙模式。 小程序指的是在一些APP的小程序平台上&#xff08;多为微信端&#xff0c;抖音、快手等平台也有&…

Scala---元组

1、元组定义 与列表一样&#xff0c;与列表不同的是元组可以包含不同类型的元素。元组的值是通过将单个的值包含在圆括号中构成的。 2、创建元组与取值 val tuple new Tuple&#xff08;1&#xff09; 可以使用newval tuple2 Tuple&#xff08;1,2&#xff09; 可以不使…

优思学院|新版ISO9001:2015质量体系的优势(一)高阶结构

在全球商业环境中&#xff0c;不断提高产品和服务的质量至关重要。因此&#xff0c;国际标准组织&#xff08;ISO&#xff09;于2015年发布了更新的ISO 9001标准&#xff0c;即ISO 9001:2015质量体系标准。这一更新旨在适应不断变化的商业需求和挑战&#xff0c;为组织提供更强…

安装插件时Vscode XHR Failed 报错ERR_CERT_AUTHORITY_INVALID

安装插件时Vscode XHR Failed 报错ERR_CERT_AUTHORITY_INVALID 今天用vscode 安装python插件时报XHR failed,无法拉取应用商城的数据&#xff0c; 报的错如下&#xff1a; ERR_CERT_AUTHORITY_INVALID 翻译过来就是证书有问题 找错误代码的方法&#xff1a; 打开vscode, 按F1…

神经网络常见评价指标AUROC(AUC-ROC)、AUPR(AUC-PR)

神经网络的性能可以通过多个评价指标进行衡量&#xff0c;具体选择哪些指标取决于任务的性质。以下是神经网络中常见的评价指标&#xff1a; 准确性&#xff08;Accuracy&#xff09;&#xff1a; 准确性是最常见的分类任务评价指标&#xff0c;表示模型正确预测的样本数占总样…