【聚类】谱聚类解读、代码示例

news/2024/5/20 9:22:39 标签: 聚类, 机器学习, 算法

聚类】谱聚类详解、代码示例

文章目录

1. 介绍

聚类的基本原理:

  • 把所有数据看成空间中的点,这些点之间可以用变连接起;
  • 距离较远的两个点之间的边权重较低,而距离较近的两个点之间的边权重较高;
  • 通过对所有数据点组成的图进行切图,让切图后的不同的子图间边权重和尽可能小(即距离远),而子图内的边权重和尽可能高(即距离近)。

难点:

  • 如何构建图?
  • 如何切分图?

2. 方法解读

2.1 先验知识

2.1.1 无向权重图

在这里插入图片描述

2.1.2 拉普拉斯矩阵

在这里插入图片描述

2.2 构建图(第一步)

2.2.1 ϵ \epsilon ϵ 邻近法

在这里插入图片描述

2.2.2 k 近邻法

在这里插入图片描述

2.2.3 全连接法

比前两种方法,第三种方法所有的点之间的权重值都大于0,因此称之为全连接法。

  • 可以选择不同的核函数来定义边权重,常用的有多项式核函数,高斯核函数和Sigmoid核函数。
  • 最常用的是高斯核函数 RBF
    在这里插入图片描述

2.3 切图(第二步)

在这里插入图片描述
其中 A i ˉ \bar {\text{A}_i} Aiˉ A \text{A} A 的补集。

进而,如何切图使子图内的点权重高,子图之间的点权重低?

2.3.1 最小化 cut (A1, A2, . . . Ak) \text{cut (A1, A2, . . . Ak)} cut (A1, A2, . . . Ak)

一个自然的想法就是最小化 cut (A1, A2, . . . Ak) \text{cut (A1, A2, . . . Ak)} cut (A1, A2, . . . Ak),但是可以发现,这种极小化的切图存在问题,如下图:
在这里插入图片描述

  • 为了避免最小切图导致的切图效果不佳,我们需要对每个子图的规模做出限定;
  • 一般来说,有两种切图方式,第一种是 RatioCut,第二种是 Ncut。

2.3.2 RatioCut 切图

对于每个切图,不仅要考虑最小化 cut (A1, A2, . . . Ak) \text{cut (A1, A2, . . . Ak)} cut (A1, A2, . . . Ak),还要考虑最大化每个子图样本的个数,即最小化 RatioCut函数:
在这里插入图片描述
在这里插入图片描述

  • 这里需要提一下, h i h_i hi是正交基,但并不是单位正交基,因为 h i T h i = 1 ∣ A j ∣ {h_i}^Th_i = \frac{1}{|A_j|} hiThi=Aj1,而不是1。但是不影响后面结论。

2.3.3 Ncut切图

在这里插入图片描述
在这里插入图片描述

3. 谱聚类流程

3.1 输入与输出

  • 输入:样本集 D = ( x 1 , x 2 , . . . , x n ) D=(x_1, x_2,...,x_n) D=(x1,x2,...,xn),邻接矩阵的生成方式,降维后的维度k1,聚类方法,聚类后的簇个数k2;
  • 输出: 簇划分 C ( c 1 , c 2 , . . . , c k 2 ) C ( c_1, c_2,. . .,c_{k2}) C(c1,c2,...,ck2)

3.2 一般流程

  • 根据邻接矩阵生成方式构建邻接矩阵W,构建度矩阵D;
  • 计算出拉普拉斯矩阵L;
  • 构建标准化后的拉普拉斯矩阵 D − 1 2 L D − 1 2 D^{-\frac {1}{2}}LD^{-\frac {1}{2}} D21LD21
  • ​计算 D − 1 2 L D − 1 2 D^{-\frac {1}{2}}LD^{-\frac {1}{2}} D21LD21最小的k1个特征值所各自对应的特征向量f;
  • 将各自对应的特征向量f组成的矩阵按行标准化,最终组成n × k1 维矩阵F;
  • 对F 中的每一行作为一个k1维样本,共n个样本,用输入的聚类方法进行聚类聚类个数为k2;
  • 得到簇划分 C ( c 1 , c 2 , . . . , c k 2 ) C ( c_1, c_2,. . .,c_{k2}) C(c1,c2,...,ck2)

4. 代码演示

import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import cluster, datasets
from sklearn.preprocessing import StandardScaler

np.random.seed(0)

# 数据构造
n_samples = 1500
noisy_circles = datasets.make_circles(n_samples=n_samples, factor=0.2, noise=0.05)
noisy_moons = datasets.make_moons(n_samples=n_samples, noise=0.05)
blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)

data_sets = [
    (noisy_circles, {"n_clusters": 3}),
    (noisy_moons, {"n_clusters": 2}), 
    (blobs, {"n_clusters": 3})
]
colors = ["#377eb8", "#ff7f00", "#4daf4a"]
affinity_list = ['rbf', 'nearest_neighbors']

plt.figure(figsize=(20, 15))

for i_dataset, (dataset, algo_params) in enumerate(data_sets):
    params = algo_params
    
    X, y = dataset
    X = StandardScaler().fit_transform(X)

    for i_affinity, affinity_strategy in enumerate(affinity_list):
        spectral = cluster.SpectralClustering(
            n_clusters=params['n_clusters'],
            eigen_solver='arpack', 
            affinity=affinity_strategy
        )

        spectral.fit(X)

        y_pred = spectral.labels_.astype(int)

        y_pred_colors = []

        for i in y_pred:
            y_pred_colors.append(colors[i])
        
        plt.subplot(3, 4, 4*i_dataset+i_affinity+1)
        plt.title(affinity_strategy)
        plt.scatter(X[:, 0], X[:, 1], color=y_pred_colors)

# plt.show()
plt.savefig("a.jpg")

在这里插入图片描述

5. 总结

  • 优点:
    • 聚类只需要数据之间的邻接矩阵,因此对于处理稀疏数据的聚类很有效。这点传统聚类算法比如K-Means很难做到;
    • 由于使用了降维,因此在处理高维数据聚类时的复杂度比传统聚类算法好。
  • 缺点:
    • 如果最终聚类的维度非常高,则由于降维的幅度不够,谱聚类的运行速度和最后的聚类效果均不好;
    • 聚类效果依赖于邻接矩阵,不同的邻接矩阵得到的最终聚类效果可能很不同。

6. 参考

【1】https://blog.csdn.net/qq_42735631/article/details/121010760


http://www.niftyadmin.cn/n/103675.html

相关文章

每日十问4c++-复合类型

1.如何声明下述数据?a. actor 是由 30个 char 类型的值组成的数组。 b. betsie是由 100个short 类型的值组成的数组。 c.chuck 是由 13个 float 类型的值组成的数组。 d. dipsea 是由 64个 long double 类型的值组成的数组。 解析: 数组是顺序排列的一组相同类型的数据&…

腾讯前端必会react面试题合集

React-Router的路由有几种模式? React-Router 支持使用 hash(对应 HashRouter)和 browser(对应 BrowserRouter) 两种路由规则, react-router-dom 提供了 BrowserRouter 和 HashRouter 两个组件来实现应用的…

Java【优先级队列】模拟实现 + 【PriorityQueue】介绍

文章目录一、什么是优先级队列二、模拟实现1, 实现堆的基本操作1.1, 创建堆1.2.1, 向下调整1.2, 堆的插入1.2.1, 向上调整1.2, 堆的删除2, 实现优先级队列2.1, offer -- 插入数据2.1, poll -- 删除数据三、Java提供的PriorityQueue1, PriorityQueue说明2, 使用PriorityQueue2.1…

二叉树——二叉搜索树中的众数

二叉搜索树中的众数 链接 给你一个含重复值的二叉搜索树(BST)的根节点 root ,找出并返回 BST 中的所有 众数(即,出现频率最高的元素)。 如果树中有不止一个众数,可以按 任意顺序 返回。 假定…

C/C++语法练习之顺序结构篇

名人说: 如果你问一个善于溜冰的人怎样获得成功时, 他会告诉你:“跌倒了,爬起来”,这就是成功。——牛顿 专栏:牛客刷题 顺序结构篇〇、知识引入一、内容1004-学姐的“Helloworld”1005-乘法表1019-hellowo…

和月薪3W的聊过后,才知道自己一直在打杂...

前几天和一个朋友聊面试,他说上个月同时拿到了腾讯和阿里的offer,最后选择了阿里。 我了解了下他的面试过程,就一点,不管是阿里还是腾讯的面试,这个级别的程序员,都会考察项目管理能力,并且权重…

旅行商问题

【题目来源】https://www.acwing.com/problem/content/description/1645/【问题描述】 “旅行商问题”是这样一个问题:“给出一个城市列表以及每对城市之间的距离,访问每个城市并返回原城市的最短路线是什么?”。 这是组合优化中的一个 NP 难…

P6软件中的前锋线设置

卷首语 所谓前锋线,是指从评估时刻的时标点出发,用点划线一次连接各项活动的实际进展位置所形成的的线段,其通常为折线。 关键路径法 前锋线比较法,是通过在进度计划中绘制实际进度前锋线以判断活动实际进度与计划进度的偏差&a…