聚类与回归

news/2024/5/20 6:59:08 标签: 聚类, 回归, 数据挖掘

聚类

聚类属于非监督式学习(无监督学习),往往不知道因变量。

通过观察学习,将数据分割成多个簇。

回归

回归属于监督式学习(有监督学习),知道因变量。

通过有标签样本的学习分类器

聚类回归的区别

在数据分类过程中,我们可以直接知道回归对应的具体类别名,但是在聚类过程中,我们只能知道聚类对应的类别与xxx是同一种类别。

比如:我们在使用分类处理一些水果时,我们可以知道某一个水果具体是什么水果,但是聚类我们只能知道这个水果和其他的某些水果是同一种水果,但是我们却不能知道具体的水果类型名是什么。

聚类的基本方法有三大类:

划分方法(K均值、K-Means)

通过反复迭代,先随机分配均值点, 根据均值点形成聚簇,形成聚簇之后,再调整均值点。调整均值点后,再进一步反复进行迭代,最后找到我们相应的聚簇。

层次方法(层次聚类法)

凝聚的(agglomeration)和分裂的(divisive)层次聚类图示

层次聚类有两种方法,一种是自底向上的方法,这种方法称为凝聚法。另一种方法是自下而上的方法,该方法又称为划分的方法。

 凝聚法的过程:我们通过水来凝结成冰。首先根据数据进行相似性计算,把相似的数据形成一个簇,形成了各种小簇,进一步计算簇和簇之间的相似性,如果簇和簇之间的相似性更高,将他们合并形成更大的簇。从㡳向上凝聚,形成我们想要的一个聚簇的一个结束条件时,得到我们想要的一个聚簇(层次聚类的结束条件有很多方法,比如从㡳向上进行聚类时,当聚到第k个聚簇的时候,我们就停止迭代;另外一种,我们当进行迭代时,我们数据的相似性足够高,越往上走,聚簇和聚簇的相似性就会越来越低,当相似性的阈值低到一定程度时,就可以认为我的一个层次聚类停止,如此一来就得到了相应的聚簇,即为我们的层次聚类

霍普金斯统计量

假如求出来的霍普金斯统计量数据接近1,这说明比较符合聚类的要求;若霍普金斯统计量接近0.5,则说明数据接近于均匀分布,不适合对其进行 均匀分布。

聚类的大致流程:

1、通过计算霍普金斯统计量判断数据质量,判断当前数据是否需要聚类

2、通过使用一些方法,如:肘方法。来计算我们需要聚簇的k的数量。

3、在了解了k的数量以后,使用相应的k均值,或者是层次聚类法进行聚类

4、聚类结束后,对聚类的结果进行评估,对于聚类的评估方法通常有两种方法,一种是外在方法,类似于分类,需要有一个基准,用来评价聚类结果的准确率;一种是内在方法,通过我们的轮廓系数,来评价聚类质量的好坏。轮廓系数越接近1,聚类的效果就越好;第三种,聚类中常见的四种特征。


http://www.niftyadmin.cn/n/4935871.html

相关文章

33 | 美国总统数据分析

在这个数据分析项目中,利用Pandas等Python库对美国2020年7月22日至2020年8月20日期间的超过75万条捐赠数据进行了深入的探索和分析。通过这一分析,他们揭示了这段时间内美国选民对总统候选人的偏好和捐款情况。以下是对文章中的主要步骤和内容的进一步描述: 数据集处理: 作…

元宇宙之经济(02)理解NFT

1 NFT是什么? 想象一下,你小时候曾经在操场上集齐过各种不同的贴纸,然后和朋友们交换,这些贴纸有着独特的图案和价值。NFT的概念与此类似,但在数字世界中运作。NFT是一种基于区块链技术的数字资产,每个NFT…

不同版本Idea部署Maven和Tomcat教学

目录 一、2019版Idea 1.1. Maven配置 1.2. Tomcat配置 二、2023版Idea 2.1 Maven配置 2.2. Tomcat配置 一、2019版Idea 1.1. Maven配置 在这篇 http://t.csdn.cn/oetKq 我已经详细讲述了Maven的下载安装及配置,本篇就直接开始实操 : 1. 首先进入设置搜索Mave…

js设置css变量控制页面一行展示指定个数的元素

前置知识: CSS变量之var()函数的应用——动态修改样式 & root的使用 flex相关知识 场景: 动态设置给父元素内子元素设置每行排列几个 通过 document.body.style.setProperty(--itemNum, 5)设置样式变量,然后通过给父元素设置display: f…

从零开始学Python(三)函数与lambda表达式

🥳🥳Welcome Huihuis Code World ! !🥳🥳 接下来看看由辉辉所写的关于Python的相关操作吧 目录 🥳🥳Welcome Huihuis Code World ! !🥳🥳 一.函数 1.函数与方法的区别 2.函数的定…

项目配置中心介绍

目录 什么是配置中心 为什么要有配置中心 配置中心的做法(读取和通知) 配置中心优点: 常用的配置中心中间件 什么是配置中心 配置中心就是用来管理项目当中所有配置的系统,也是微服务系统当中不可或缺的一部分。项目的配置文件不放到本地…

Linux-C++开发项目:基于主从Reactor模式的高性能并发服务器

目录 1.项目介绍2.1项目部署2.2安装版本较高的编译器 2.项目开发过程2.1网络库模块开发2.1.1简单日志宏的实现2.1.2Buffer模块实现2.1.3Socket模块实现2.1.4Channel模块实现2.1.5Poller模块实现2.1.6TimerWheel模块实现2.1.7EventLoop模块实现2.1.8整合测试12.1.9LoopThread模块…

学点Selenium玩点新鲜~,让分布式测试有更多玩法

前 言 我们都知道 Selenium 是一款在 Web 应用测试领域使用的自动化测试工具,而 Selenium Grid 是 Selenium 中的一大组件,通过它能够实现分布式测试,能够帮助团队简单快速在不同的环境中测试他们的 Web 应用。 分布式执行测试其实并不是一…