【非监督学习 | 聚类】聚类算法类别大全 距离度量单位大全

news/2024/5/20 8:46:34 标签: 算法, 学习, 聚类

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

聚类算法

聚类算法是一种无监督学习的机器学习算法,用于将数据集中的样本划分为具有相特征的组或簇。其目标划分的原则是组内(内部)距离最小化,而组间(外部)距离最大化。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体,并且概括出每一类消费者的消费模式或消费习惯。同时,聚类分析也可以作为数据分析算法中其他分析算法的一个预处理步骤,如异常值识别、连续型特征离散化等。

以下是基于不同方法的算法类别表

算法类别包括的主要算法优缺点分析
划分(分裂)方法K-Means算法(K-平均),K-MEDOIDS算法(K-中心点)和CLARANS算法(基于选择的算法)。优点:简单且易于实现,对处理大数据集和高维数据具有良好的可扩展性。缺点:对初始聚类中心的选择敏感,可能收敛到局部最优解,对异常值和噪声敏感。
层次分析方法BIRCH算法(平衡迭代规约和聚类),CURE算法(代表点聚类)和CHAMELEON算法(动态模型)。优点:可以自动发现任意形状和大小的聚类,不需要预先指定聚类个数。缺点:对于大数据集,计算成本较高,可能受到噪声和异常点的干扰。
基于密度的方法DBSCAN算法(基于高密度连接区域),DENCLUE算法(密度分布函数)和OPTICS算法(对象排序识别)。优点:能够发现任意形状的聚类,对噪声和异常值具有较好的鲁棒性。缺点:对于高维数据和具有不同密度聚类的数据集效果较差,需要事先指定一些参数。
基于网格的方法STING算法(统计信息网络),CLIOUE算法聚类高维空间)和WAVE-CLUSTER算法(小波变换)。优点:对于高维数据和大规模数据集有良好的可扩展性,能够处理不同形状和大小的聚类。缺点:对初始网格的选择敏感,可能受到数据分布的影响。

以下是常用的聚类算法

聚类算法模型所需参数适用范围距离度量优缺点
K-means簇的数量数值型数据欧几里德距离优点:简单易实现,计算效率高;缺点:对初始聚类中心敏感,不适用于非凸形状的簇
层次聚类(Hierarchical Clustering)距离或相似度的度量方法数值型或类别型数据可选多种距离度量方法,如欧几里德距离、曼哈顿距离等优点:不需要预先指定簇的数量,可用于发现任意形状的簇;缺点:计算复杂度高,不适用于处理大规模数据
DBSCAN邻域半径(epsilon)和最小邻域样本数(min_samples)数值型或类别型数据基于密度的距离度量优点:能够发现任意形状的簇,对初始聚类中心不敏感;缺点:对参数的选择敏感,不适用于高维数据
密度聚类(Density-Based Clustering)邻域密度阈值数值型或类别型数据基于密度的距离度量优点:对噪声数据和离群点具有较好的鲁棒性;缺点:对参数的选择敏感
局部离群因子(Local Outlier Factor,LOF)邻域大小(k)数值型或类别型数据基于密度的距离度量优点:能够检测出离群点和数据集中的聚类结构;缺点:对数据集中的局部结构敏感
高斯混合模型(Gaussian Mixture Model,GMM)簇的数量数值型数据基于概率模型的距离度量优点:能够对数据进行软聚类,灵活性高;缺点:对初始聚类中心敏感,计算复杂度高

以下是常用的聚类中的距离度量算法及其介绍,以及相应的优缺点分析:

名称介绍优缺点分析
欧氏距离(Euclidean Distance)欧氏距离是最常用的距离度量算法之一,它衡量两个向量之间的直线距离。在欧氏空间中,两个向量的欧氏距离等于它们各个维度差值的平方和的开方。优点:简单直观,易于理解和计算。缺点:对异常值敏感,受维度灾难影响。
曼哈顿距离(Manhattan Distance)曼哈顿距离衡量两个向量之间沿坐标轴的总距离。在二维空间中,曼哈顿距离等于两个点横坐标差的绝对值加上纵坐标差的绝对值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
切比雪夫距离(Chebyshev Distance)切比雪夫距离是衡量两个向量之间的最大维度差值。在二维空间中,切比雪夫距离等于两个点横坐标差的最大绝对值和纵坐标差的最大绝对值中的较大值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
闵可夫斯基距离(Minkowski Distance)闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广,它通过参数p来控制距离的计算方式。当p=1时,闵可夫斯基距离等同于曼哈顿距离;当p=2时,等同于欧氏距离。优点:灵活性强,可以根据需求选择不同的参数p。缺点:对于参数p的选择较为敏感。
马氏距离(Mahalanobis Distance)马氏距离考虑了数据集的协方差矩阵,通过将数据映射到一个空间中,使得在该空间中的欧氏距离与原始空间中的马氏距离等价。马氏距离可以解决特征之间的相关性和尺度不同的问题。优点:考虑了特征之间的相关性,适用于高维数据。缺点:需要估计协方差矩阵,计算复杂度较高。
皮尔逊相关系数(Pearson Correlation Coefficient)皮尔逊相关系数衡量两个向量之间的线性相关性。它的取值范围在-1到1之间,其中-1表示完全负相关,1表示完全正相关,0表示无相关性。优点:可以衡量线性相关性,不受尺度变换影响。缺点:只能衡量线性相关性,对于非线性关系不敏感。
余弦相似度(Cosine Similarity)余弦相似度衡量两个向量之间的夹角余弦。它通过计算两个向量的内积除以它们的模的乘积来衡量相似度。余弦相似度的取值范围在-1到1之间,其中1表示完全相似,-1表示完全相反,0表示无相似性。优点:对于稀疏向量计算高效,不受维度灾难影响。缺点:不考虑维度之间的差异。

其中大部分算法都可以通过sklearn 库进行实现.

在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞
					🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩
					 	 🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

http://www.niftyadmin.cn/n/5218545.html

相关文章

idea创建不了spring2.X版本,无法使用JDK8,最低支持JDK17 , 如何用idea创建spring2.X版本,使用JDK8解决方案

🧸欢迎来到dream_ready的博客,📜相信您对博主首页也很感兴趣o (ˉ▽ˉ;) 📜jdk17安装全方位手把手安装教程 / 已有jdk8了,安装JDK17后如何配置环境变量 / 多个不同版本的JDK,如何配置环境变量&a…

位图/布隆过滤器+海量数据处理总结

位图 题目: 第一种方法:二分查找。虽然二分的时间复杂度为o(log n),但是这个方法是不可行的,我们就算假设这40亿个数据是已经排序完成了的数据,但是40亿个整数在内存需要消耗的内存就是差不多16G,这个消耗是非常巨大的…

(七)上市企业实施IPD成功案例分享之——波音

有数据统计,早在疫情前的2019年,全球民用航空运输的旅客数量就已经达到了45亿人的峰值。其中,中国民航总计运输6.6亿人次。而只要出行坐飞机,就会发现机型大都是波音。事实上,波音公司垄断了全球几近一半的民航大飞机&…

小红书品牌投放须知,母婴产品软文怎么写?

母婴产品软文是为了传播和销售母婴产品而创作的一种文案形式。今天,我们为大家带来小红书品牌投放须知,母婴产品软文怎么写? 母婴产品软文不仅要吸引目标受众的注意力,还要准确地传达产品的特点和优势,让消费者产生购买…

瓶盖内的条码需要注意哪些?,才能帮助企业有效搭建与消费者沟通~

在不断发展的消费品领域,特别是饮料行业,组织不断寻求创造性的方法来扩大客户参与度、增强品牌忠诚度并消除假冒产品。一种获得认可的新兴方法是在瓶盖和瓶盖上实施DataMatrix 条形码扫描。这种创新方法提供了许多好处,从改善消费者互动到强化…

阿里云ACE认证之国际版与国内版对比!

大厂疯狂裁员,互联网行业迎来寒冬,技术人员被动陷入疯狂内卷。在愈加内卷的IT领域,“云计算”作为少有的蓝海,无疑是打工人未来实现职场提升、摆脱内卷的绝佳选择! 对于云计算行业的人来说,最值得考的肯定是…

多集群部署中的 Kubernetes 弹性 (RTO/RPO)

啊,Kubernetes!我们DevOps挑战的万灵药。 Kubernetes是一个开源的容器编排工具,本应加速软件交付、保护我们的应用程序、降低成本并减少我们的头痛问题,对吗? 不过说真的,Kubernetes已经彻底改变了我们编…

【沐风老师】3DMAX快速地板屋顶墙面铺设插件使用方法详解

3DMAX快速地板屋顶墙面铺设插件使用教程 3DMAX快速地板屋顶墙面铺设插件,一键生成各种地板、墙面纹理模型,是一款非常实用的室内设计和建筑建模插件。 【适用版本】 3dMax7或更新版本 【安装方法】 该插件无需安装,直接在建模过程中使用&a…