指标介绍
聚类有效性评价指标外部AR,RI,MI,HI
聚类有效性评价指标是用于评估聚类结果质量的工具,它们帮助研究人员理解聚类算法的性能以及聚类结果与真实标签或预期结构之间的符合程度。外部指标主要考察聚类结果与真实类别之间的关系。以下是关于AR(Adjusted Rand Index,调整兰德系数)、RI(Rand Index,兰德系数)、MI(Mirkin Index,米尔金指数)和HI(Hubert-Arabie Index,哈伯特-阿拉比指数)的详细解释:
Adjusted Rand Index (AR)
调整兰德系数是对兰德系数的一种改进,它考虑了聚类数量和样本数量对指标的影响,从而更加公正地评估聚类效果。AR的值范围在-1到1之间,值越大表示聚类效果越好。当AR接近1时,说明聚类结果与真实标签非常一致;当AR接近0时,表示聚类结果是随机的;而当AR接近-1时,则说明聚类结果与真实标签完全不一致。
Rand Index (RI)
兰德系数是一种基于对象分配的指标,它计算了正确分配和错误分配的对象数量的比例。RI的值范围在0到1之间,值越大说明聚类效果越好。RI衡量的是聚类结果与真实标签之间的相似性,当聚类结果与真实标签完全一致时,RI值为1;当聚类结果是随机的时,RI值接近于聚类数量和样本数量的函数。
Mirkin Index (MI)
米尔金指数是兰德指数的一种变换形式,它考虑了聚类中不同类别之间的重叠程度。MI可以反映聚类结果中不同类别之间的区分度,值越大表示聚类效果越好。MI对于评估聚类算法的边界识别能力特别有用,因为它能够捕捉到聚类边界附近的样本分配情况。