聚类算法概要及相关知识准备

news/2024/5/20 7:54:09 标签: 算法, 聚类

聚类的概念

聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。
将物理或抽象对象的集合分成由类似对象组成的多个类或簇(cluster)的过程被称为聚类(Clustering)。由聚类所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象相似度较高,与其他簇的对象的相似度较低。相似度是根据描述对象的属性值来度量的,距离是采用度量的方式。
在这里插入图片描述相同点集的不同<a class=聚类方法" />
相同点集的不同聚类方法

类的度量方法

常用的类的度量方法有2种,即距离和相似系数。距离用来度量样品之间的相似性,相似系数用来度量变量之间的相似性。

距离

欧式距离

定义在两个向量(两个点)上:点X和Y的欧式距离为:
在这里插入图片描述

闵可夫斯基距离

两个向量(点)的p阶距离:
在这里插入图片描述
当p=1 时就是曼哈顿距离,p=2 时就是欧式距离。

马氏距离

定义在2个向量(两个点)上,这2个点在同一分布里,点 x和 y的马氏距离为

其中, 是这个分布的协方差。
当 时,马氏距离退化为欧式距离。

海明威距离

定义:在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。即属性值相同,为0;属性值不同,为1。对应的分类属性 的海明威距离为:

在这里插入图片描述

混合距离

对于数据 和 的混合距离为:
在这里插入图片描述
其中,前p个为数值变量,后m-p个为分类变量。

相似度

两个n维向量X和Y,余弦相似性由点积和向量长度给出,如下所示:
在这里插入图片描述

余弦相似度

两个n维向量X和Y,余弦相似性由点积和向量长度给出,如下所示:
在这里插入图片描述

皮尔逊相关系数

假设有两个变量X、Y,那么两变量间的皮尔逊相关系数可通过以下公式计算:
在这里插入图片描述

斯皮尔曼相关系数

在这里插入图片描述

离散属性的相关性

假设有2个变量X,Y。则它们之间的相关系数为:
在这里插入图片描述


http://www.niftyadmin.cn/n/2854.html

相关文章

java自学第三天

vscode配置java运行环境 第一种方法&#xff1a; 1.插件市场找debugger forjava&#xff0c;extension pack for java 2.以管理员身份运行cmd&#xff0c;将路径转换到jdk安装路径&#xff0c;复制下面的命令运行&#xff0c;生成jre。 bin\jlink.exe --module-path jmods …

工作流调度系统Azkaban

1、概述 1.1、工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成&#xff1a; shell脚本程序java程序mapreduce程序hive脚本等各任务单元之间存在时间先后及前后依赖关系,为了很好地组织起这样的复杂执行计划&#xff0c;需要一个工作流调度系统来调度任务的…

Decoder与Encoder重要组件

Decoder与Encoder重要组件 大家知道&#xff0c;Netty从底层Java通道读到ByteBuf二进制数据&#xff0c;传入Netty通道的流水线&#xff0c;随后开始入站处理。在入站处理过程中&#xff0c;需要将ByteBuf二进制类型&#xff0c;解码成Java POJO对象。这个解码过程&#xff0c…

DIV布局个人介绍网页模板代码 家乡海阳个人简介网页制作 简单个人静态HTML网页设计作品 DW个人网站制作成品 web网页制作与实现...

家乡旅游景点网页作业制作 网页代码运用了DIV盒子的使用方法&#xff0c;如盒子的嵌套、浮动、margin、border、background等属性的使用&#xff0c;外部大盒子设定居中&#xff0c;内部左中右布局&#xff0c;下方横向浮动排列&#xff0c;大学学习的前端知识点和布局方式都有…

python毕设 深度学习图像修复算法研究与实现

文章目录1 前言2 什么是图像内容填充修复3 原理分析3.1 第一步&#xff1a;将图像理解为一个概率分布的样本3.2 补全图像3.3 快速生成假图像3.4 生成对抗网络(Generative Adversarial Net, GAN) 的架构3.5 使用G(z)生成伪图像4 在Tensorflow上构建DCGANs1 前言 &#x1f525; …

计算机操作系统学习(六)设备管理

目录 学习建议&#xff1a; 基本内容&#xff1a; 一、设备管理概述&#xff1a; 二、设备管理的任务和功能&#xff1a; 1.建立统一方便且独立于设备的用户界面&#xff1a; 2.记录设备状态&#xff1a; 3.实施设备分配&#xff1a; 4.控制并实现I/O操作&#xff1a; …

docker常用命令(云容器)

目录顺序如下&#xff1a; 一、docker images&#xff08;列出docker中的镜像&#xff09;&#xff1a; 二、docker ps&#xff08;列出正在运行的容器&#xff09;&#xff1a; 三、docker ps -a&#xff08;列出所有的容器&#xff09;&#xff1a; 四、docker start 容器…

【Linux】基本指令(下)

​&#x1f320; 作者&#xff1a;阿亮joy. &#x1f386;专栏&#xff1a;《学会Linux》 &#x1f387; 座右铭&#xff1a;每个优秀的人都有一段沉默的时光&#xff0c;那段时光是付出了很多努力却得不到结果的日子&#xff0c;我们把它叫做扎根 目录&#x1f449;基础指令&…