【机器学习 | 聚类】关于聚类最全评价方法大全,确定不收藏?

news/2024/5/20 10:37:32 标签: 机器学习, 聚类, 人工智能

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

聚类详解

        • ARI评价法(兰德系数)
        • AMI评价法(互信息)
        • V-measure评分
        • FMI评价法
        • 轮廓系数评价法
        • Calinski-Harabasz指数评价法
        • 分类模型评价法

以下是常用的评价算法名称

方法名称真实值最佳值sklearn****函数
ARI评价法(兰德系数)需要1.0adjusted_rand_score
AMI评价法(互信息)需要1.0adjusted_mutual_info_score
V-measure评分需要1.0completeness_score
FMI评价法需要1.0fowlkes_mallows_score
轮廓系数评价法不需要畸变程度最大silhouette_score
Calinski-Harabasz指数评价法不需要相较最大calinski_harabaz_score
  • ARI评价法(兰德系数):ARI通过比较聚类结果和真实分类之间的成对样本相似性来衡量聚类的质量,其数值范围从-1到1,值越高表示聚类结果与真实分类越相似。

  • AMI评价法(互信息):AMI利用互信息的概念衡量聚类结果和真实分类之间的共享信息量,其数值范围也从0到1,值越高表示聚类结果越好。

  • V-measure评分:V-measure综合考虑了聚类结果的均一性和完整性,通过计算均一性和完整性的加权平均得到评分,数值范围也是从0到1。

  • FMI评价法:FMI通过比较聚类结果和真实分类中成对样本关系来评估聚类的相似度,数值范围从0到1,值越高表示聚类结果越好。

  • 轮廓系数评价法:轮廓系数结合了样本与其所属簇的平均距离和样本与其他簇的平均距离来度量聚类结果的紧密度和分离度,数值范围从-1到1。

  • Calinski-Harabasz指数评价法:Calinski-Harabasz指数通过计算簇内离差平方和和簇间离差平方和的比值来评估聚类结果的质量,数值越大表示聚类结果越好。

上表总共列出了6种评价的方法,其中前4种方法均需要真实值的配合才能够评价聚类算法的优劣,后2种则不需要真实值的配合。但是前4种方法评价的效果更具有说服力,并且在实际运行的过程中在有真实值做参考的情况下,聚类方法的评价可以等同于分类算法的评价

除了轮廓系数以外的评价方法,在不考虑业务场景的情况下都是得分越高,其效果越好,最高分值均为1。而轮廓系数则需要判断不同类别数目的情况下其轮廓系数的走势,寻找最优的聚类数目。

在具备真实值作为参考的情况下,几种方法均可以很好地评估聚类模型。在没有真实值作为参考的时候,轮廓系数评价方法和Calinski-Harabasz指数评价方法可以结合使用

ARI评价法(兰德系数)

ARI(Adjusted Rand Index,调整兰德指数)是一种用于衡量聚类结果与真实分类之间的相似度的评价方法。它通过比较聚类结果与真实分类之间的成对样本相似性来计算得分,范围从-1到1,其中1表示完全匹配,0表示随机匹配,-1表示完全不匹配。

ARI的计算公式如下:

A R I = ∑ i j ( n i j 2 ) − [ ∑ i ( a i 2 ) ∑ j ( b j 2 ) ] / ( n 2 ) 1 2 [ ∑ i ( a i 2 ) + ∑ j ( b j 2 ) ] − [ ∑ i ( a i 2 ) ∑ j ( b j 2 ) ] / ( n 2 ) ARI = \frac{{\sum_{ij} \binom{n_{ij}}{2} - [\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}]/\binom{n}{2}}}{{\frac{1}{2} [\sum_i \binom{a_i}{2} + \sum_j \binom{b_j}{2}] - [\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}]/\binom{n}{2}}} ARI=21[i(2ai)+j(2bj)][i(2ai)j(2bj)]/(2n)ij(2nij)[i(2ai)j(2bj)]/(2n)

其中, n n n是样本总数, n i j n_{ij} nij表示同时被聚类结果和真实分类划分为同一簇的样本对数量, a i a_i ai表示被聚类结果划分为第 i i i簇的样本数量, b j b_j bj表示被真实分类划分为第 j j j类的样本数量。

AMI评价法(互信息)

AMI(Adjusted Mutual Information,调整互信息)是一种用于评估聚类结果与真实分类之间的相似度的指标。它基于信息论中的互信息概念,度量聚类结果和真实分类之间的共享信息量。

AMI的计算公式如下:

A M I = I ( X ; Y ) − E [ I ( X ; Y ) ] max ⁡ ( H ( X ) , H ( Y ) ) − E [ I ( X ; Y ) ] AMI = \frac{I(X;Y) - E[I(X;Y)]}{\max(H(X), H(Y)) - E[I(X;Y)]} AMI=max(H(X),H(Y))E[I(X;Y)]I(X;Y)E[I(X;Y)]

其中, I ( X ; Y ) I(X;Y) I(X;Y)表示聚类结果和真实分类的互信息, H ( X ) H(X) H(X) H ( Y ) H(Y) H(Y)分别表示聚类结果和真实分类的熵, E [ I ( X ; Y ) ] E[I(X;Y)] E[I(X;Y)]是互信息的期望值,用于校正由于随机因素引起的误差。

V-measure评分

V-measure是一种用于评估聚类结果的均一性(homogeneity)和完整性(completeness)的综合指标。它结合了这两个度量以平衡聚类结果的质量。

V-measure的计算公式如下:

V = 2 × ( h × c ) ( h + c ) V = \frac{2 \times (h \times c)}{(h + c)} V=(h+c)2×(h×c)

其中, h h h表示聚类结果的均一性, c c c表示聚类结果的完整性。均一性和完整性的计算公式如下:

h = 1 − H ( C ∣ K ) H ( C ) h = 1 - \frac{H(C|K)}{H(C)} h=1H(C)H(CK)

c = 1 − H ( K ∣ C ) H ( K ) c = 1 - \frac{H(K|C)}{H(K)} c=1H(K)H(KC)

其中, H ( C ∣ K ) H(C|K) H(CK)表示给定聚类结果 K K K的条件熵, H ( C ) H(C) H(C)表示真实分类的熵, H ( K ∣ C ) H(K|C) H(KC)表示给定真实分类 C C C的条件熵, H ( K ) H(K) H(K)表示聚类结果的熵。

FMI评价法

FMI(Fowlkes-Mallows Index)是一种用于评估聚类结果与真实分类之间的相似度的指标。它通过比较聚类结果中的成对样本关系与真实分类中的成对样本关系来计算得分。

FMI的计算公式如下:

F M I = T P ( T P + F P ) ( T P + F N ) FMI = \frac{TP}{\sqrt{(TP + FP)(TP + FN)}} FMI=(TP+FP)(TP+FN) TP

其中, T P TP TP表示聚类结果和真实分类中成对样本被划分到同一簇的数量, F P FP FP表示聚类结果中被错误划分到同一簇的样本对数量, F N FN FN表示真实分类中被错误划分到同一簇的样本对数量。

轮廓系数评价法

轮廓系数(Silhouette Coefficient)是一种用于评估聚类结果的紧密度和分离度的指标。它结合了样本与其所属簇的平均距离和样本与其他簇的平均距离,用于衡量聚类结果的质量。

轮廓系数的计算公式如下:

s = b − a max ⁡ ( a , b ) s = \frac{b - a}{\max(a, b)} s=max(a,b)ba

其中, a a a表示样本与其所属簇的平均距离, b b b表示样本与其他簇的平均距离。对于每个样本,轮廓系数的取值范围在-1到1之间,值越接近1表示样本聚类得越好,值越接近-1表示样本更适合被划分到其他簇,值接近0表示样本在两个簇之间的边界。

Calinski-Harabasz指数评价法

Calinski-Harabasz指数是一种用于评估聚类结果的紧密度和分离度的指标。它基于簇内的离差平方和(Within-Cluster Sum of Squares,WCSS)和簇间的离差平方和(Between-Cluster Sum of Squares,BCSS),用于衡量聚类结果的质量。

Calinski-Harabasz指数的计算公式如下:

C H = BCSS / ( k − 1 ) WCSS / ( n − k ) CH = \frac{{\text{BCSS}/(k-1)}}{{\text{WCSS}/(n-k)}} CH=WCSS/(nk)BCSS/(k1)

其中, k k k表示簇的数量, n n n表示样本的总数。Calinski-Harabasz指数的值越大表示聚类结果的质量越好。

分类模型评价法

最后一种评价(evaluation)方法是分类(classification)。通过使用 k-means标签训练分类模型,然后在单独的数据子集中对其进行测试,我们可以看到分类器的表现良好,并不是完全任意的。说明学习效果良好,且存在可分类的特征。
在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞
					🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩
					 	 🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

http://www.niftyadmin.cn/n/5215656.html

相关文章

Drools Rule Language 学习笔记

Drools Rule Language 1 Packages in DRL 可以有多个packages但推荐只用一个packageexample: package org.mortgages; 2 Import statements in DRL 2.1 You specify the package and data object in the format packageName.objectName, with multiple imports …

京东APP在哪里找到如何申请价格保护查看购买商品价格保护情况的记录信息?

京东价格保护是一项优质售后服务,用户在京东购买商品后,如果该商品在保护期内降价,用户可以申请价格保护,京东将补差价或返还京豆。这项服务旨在保障用户权益,让用户在购买商品时更加安心。用户在购买商品后&#xff0…

华为OD机试真题-分月饼-2023年OD统一考试(C卷)

题目描述: 题目描述: 中秋节,公司分月饼,m个员工,买了n个月饼,m<=n,每个员工至少分1个月饼,但可以分多个,单人分到最多月饼的个数是Max1,单人分到第二多月饼个数是Max2,Max1-Max2 <= 3,单人分到第n-1多月饼个数是Max(n-1),单人分到第n多月饼个数是Max(n),M…

vs动态库生成过程中还存在静态库

为什么VS生成动态库dll同时还会生成lib静态库 动态库与静态库&#xff08;Windows环境下&#xff09; ​ 动态库和静态库都是一种可执行代码的二进制形式&#xff0c;可以被操作系统载入内存执行。 ​ 静态库实际上是在链接时被链接到exe的&#xff0c;编译后&#xff0c;静态…

浏览器v8垃圾回收机制和内存泄漏分析-初级

借鉴&#xff1a;一文搞懂V8引擎的垃圾回收 - 掘金 (juejin.cn) 聊聊V8引擎的垃圾回收 - 掘金 (juejin.cn) 内存泄漏方向&#xff1a; 1、全局变量 未手动清除 2、定时器 未手动清除 3、闭包中使用了匿名函数 未手动清除 4、dom被赋值使用后 未手动清除 其他解决方式 1、…

QThreadStorage使用介绍

作者:令狐掌门 技术交流QQ群:675120140 csdn博客:https://mingshiqiang.blog.csdn.net/ 文章目录 什么是线程数据存储Qt中的线程数据存储`QThreadStorage` 的用法:代码示例什么是线程数据存储 线程数据存储是指为每个线程在程序中分配和管理数据的过程。它主要用于并发编程…

mysql高级知识点

一、mysql架构 连接层&#xff1a;负责接收客户端的连接请求&#xff0c;可以进行授权、认证(验证账号密码)。服务层&#xff1a;负责调用sql接口&#xff0c;对sql语法进行解析&#xff0c;对查询进行优化&#xff0c;缓存。引擎层&#xff1a;是真正进行执行sql的地方&#x…

flex布局实战之自动填充剩余

案例目标 文字部分自适应并且居中 图中是一个弹窗&#xff0c;我现在使用flex的布局来实现&#xff0c;标题和关闭按钮。因为是uni-app,所以标签是view 。你可以自行替换为 代码 <view class"popup-box"><view class"title"><view class&…