无监督学习-聚类算法(k-means)

news/2024/5/20 9:22:47 标签: 算法, 学习, 聚类

无监督学习-聚类算法

1、聚类介绍

1.1、聚类作用

  • 知识发现
  • 异常值检测
  • 特征提取 数据压缩的例子

1.2、有监督与无监督学习

有监督

  • 给定训练集X和标签Y
  • 选择模型
    • 学习(目标函数的最优化)
    • 生成模型(本质上是一组参数、方程)

根据生成的一组参数进行预测分类任务

无监督

  • 拿到的数据只有X没有标签,只能根据X的相似程度做一些事情
  • Clustering 聚类
    • 对于大量未标注的数据集,按照内在的相似性来分为多个类别(簇)目标:类别内相似度大,类别内相似度大,类别间相似小
    • 也可以用来改变数据的维度,可以将聚类结果作为一个维度添加到训练数据中。
    • 降维算法,数据特征变少

1.3 聚类算法

在这里插入图片描述
图片来源:https://scikit-learn.org.cn/view/108.html


1.4 数据间的相似度

  • 每一条数据都可以理解为多维空间中的一个点。
  • 可以根据点和点之间的距离来评价数据间的相似度

1.5 余弦距离

将数据看做空间的中的点的时候,评价远近可以用欧式距离或者是余弦距离
计算过程如下:

  • 将数据映射为高维空间中的点(向量)
  • 计算向量间的余弦值
  • 取值范围[-1,+1]趋于近于1代表相似,越趋于-1代表方向相反,0代表正交
    c o s θ = a ⋅ b ∣ ∣ a ∣ ∣ 2 ∣ ∣ b ∣ ∣ 2 cos\theta = \frac{a \cdot b}{||a||_2||b||_2} cosθ=∣∣a2∣∣b2ab

c o s θ = x 1 x 2 + y 1 y 2 x 1 2 + y 1 2 × x 2 2 + y 2 2 cos\theta = \frac{x_1x_2 + y_1y_2}{\sqrt{x_1^2 + y_1^2} \times \sqrt{x_2^2 + y_2^2}} cosθ=x12+y12 ×x22+y22 x1x2+y1y2

  • 余弦相似度可以评价文章的相似度,从而实现对文章,进行分类。

K-means

2.1 聚类原理

  • 将N个样本映射到k个簇中
  • 将每个簇至少有一个样本
    基本思路:
  • 先给定k个划分,迭代样本与簇的隶属关系,每次都比前一次好一些
  • 迭代若干次就能得到比较好的结果

2.2 K-means 算法原理

算法步骤:

  • 选择k个初始的簇中心
  • 逐个计算每个样本到簇中心的距离,将样本归属到距离最小的那个簇中心的簇中
  • 每个簇内部计算平均值,更新簇中心
  • 开始迭代
    在这里插入图片描述
    聚类的过程:
    在这里插入图片描述

2.4 k-means 损失函数

∑ i = 0 n min ⁡ μ j ∈ C ( ∣ ∣ x i − μ j ∣ ∣ 2 ) \sum\limits_{i=0}^{n}\underset{\mu_j \in C}\min(||x_i - \mu_j||^2) i=0nμjCmin(∣∣xiμj2)

  • 其中 μ j = 1 ∣ C j ∣ ∑ x ∈ C j x \mu_j = \frac{1}{|C_j|}\sum\limits_{x \in C_j}x μj=Cj1xCjx 是簇的均值向量,或者说是质心。

  • 其中 ∣ ∣ x i − μ j ∣ ∣ 2 ||x_i - \mu_j||^2 ∣∣xiμj2代表每个样本点到均值点的距离(其实也是范数)。

2.5 K-means 执行过程

在这里插入图片描述

愿君前程似锦,未来可期去💯,感谢您的阅读,如果对您有用希望您留下宝贵的点赞和收藏
本文章为本人学习笔记,如有请侵权联系,本人会立即删除侵权文章。可以一起学习共同进步谢谢,如有请侵权联系,本人会立即删除侵权文章。


http://www.niftyadmin.cn/n/5301732.html

相关文章

Java虚拟机介绍

JVM是一种用于计算设备的规范,它是一个虚拟出来的计算机,是通过在实际的计算机上仿真模拟计算机的各个功能来实现的。Java语言的一个非常重要的特点就是与平台的无关性。而使用Java虚拟机是实现这一特点的关键。每个Java虚拟机都着一个清晰的任务&#x…

LeetCode 32:最长有效括号

一、题目描述 给你一个只包含 ( 和 ) 的字符串,找出最长有效(格式正确且连续)括号子串的长度。 示例 1: 输入:s "(()" 输出:2 解释:最长有效括号子串是 "()"示例 2&…

【vue】Easy Player实现视频播放:

文章目录 一、效果:二、文档:三、实现:【1】安装插件:【2】引入js文件:【3】使用: 四、方法: 一、效果: 二、文档: GitCode - EasyPlayer.js npm-easydarwin/easyplayer…

JWT(JSON Web Tokens)入门与Java实践

一、JWT简介 在现代Web应用中,身份验证和授权是确保系统安全性的关键环节。JSON Web Tokens(JWT)是一种开放标准(RFC 7519),它定义了一种紧凑且自包含的方式,用于在网络之间安全地传输信息。JW…

NGUI基础-图集制作(保姆级教程)

目录 图集是什么 如何打开图集制作工具 制作步骤 图集的三个关键配置 相关参数介绍 Atlas Material Texture Padding Tim Alpha PMA shader Unity Packer TrueColor Auto-upgrade Force Square Pre-processor 图集是什么 Unity图集(Sprite Atlas&…

挑战存储“不可能之三角”:用自研技术引领存储性能突破

科技云报道原创。 存储,是数字化时代的“粮仓”。它承载着企业的海量数据,是企业数字化转型的基础。 然而,随着非结构化数据在生产业务中的广泛应用,各行各业正在经历数据量的爆炸式增长。虽然分布式存储在大众认知内具有高性价…

贝叶斯推断:细谈贝叶斯变分和贝叶斯网络

1. 贝叶斯推断 统计推断这件事大家并不陌生,如果有一些采样数据,我们就可以去建立模型,建立模型之后,我们通过对这个模型的分析会得到一些结论,不管我们得到的结论是什么样的结论,我们都可以称之为是某种推…

MCMC:Metropolis-Hastings抽样

马尔可夫链有两个要素: 一步转移概率矩阵:初始分布: 如果这两个要素都确定了,这个链的转移行为就被完全确定下来了。我们就可以求得极限分布 ,只需解下面这个方程即可。 但是MCMC试图解决的问题刚好是反过来。即已知…