【生物信息学】使用谱聚类（Spectral Clustering）算法进行聚类分析

【生物信息学】使用谱聚类（Spectral Clustering）算法进行聚类分析

news/2024/5/20 9:42:03 标签: 算法, 聚类, 数据挖掘

目录

一、实验介绍

二、实验环境

1. 配置虚拟环境

2. 库版本介绍

3. IDE

三、实验内容

0. 导入必要的工具

1. 生成测试数据

2. 绘制初始数据分布图

3. 循环尝试不同的参数组合并计算聚类效果

4. 输出最佳参数组合

5. 绘制最佳聚类结果图

6. 代码整合

一、实验介绍

本实验实现了使用谱聚类（Spectral Clustering）算法进行聚类分析

二、实验环境

本系列实验使用了PyTorch深度学习框架，相关操作如下（基于深度学习系列文章的环境）：

1. 配置虚拟环境

深度学习系列文章的环境

conda create -n DL python=3.7

conda activate DL

pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html

conda install matplotlib

conda install scikit-learn

新增加

conda install pandas

conda install seaborn

conda install networkx

conda install statsmodels

pip install pyHSICLasso

注：本人的实验环境按照上述顺序安装各种库，若想尝试一起安装（天知道会不会出问题）

2. 库版本介绍

软件包	本实验版本	目前最新版
matplotlib	3.5.3	3.8.0
numpy	1.21.6	1.26.0
python	3.7.16
scikit-learn	0.22.1	1.3.0
torch	1.8.1+cu102	2.0.1
torchaudio	0.8.1	2.0.2
torchvision	0.9.1+cu102	0.15.2

新增

networkx	2.6.3	3.1
pandas	1.2.3	2.1.1
pyHSICLasso	1.4.2	1.4.2
seaborn	0.12.2	0.13.0
statsmodels	0.13.5	0.14.0

3. IDE

建议使用Pycharm（其中，pyHSICLasso库在VScode出错，尚未找到解决办法……）

win11 安装 Anaconda（2022.10）+pycharm（2022.3/2023.1.4）+配置虚拟环境_QomolangmaH的博客-CSDN博客https://blog.csdn.net/m0_63834988/article/details/128693741https://blog.csdn.net/m0_63834988/article/details/128693741

三、实验内容

0. 导入必要的工具

import numpy as np
from sklearn.cluster import SpectralClustering
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from numpy import random
from sklearn import metrics

1. 生成测试数据

random.seed(1)
x, y = make_blobs(n_samples=400, centers=4, cluster_std=1.5)

使用make_blobs方法生成了一个包含400个样本的数据集，共有4个聚类中心，每个聚类中心的标准偏差为1.5。

2. 绘制初始数据分布图

plt.scatter(x[:, 0], x[:, 1], c=y, label=len(np.unique(y)))
plt.title("Initial Data Distribution")
plt.show()

将生成的数据集绘制成散点图，不同聚类的样本使用不同的颜色进行标记。

3. 循环尝试不同的参数组合并计算聚类效果

gamma_best = 0
k_cluster_best = 0
CH = 0
for index, gamma in enumerate((1, 1.5, 2, 2.5, 5)):
    for index, k in enumerate((2, 3, 4, 5, 6)):
        y_pred = SpectralClustering(n_clusters=k, gamma=gamma).fit_predict(x)
        print("Calinski-Harabasz Score with gamma=", gamma, "n_clusters=", k, "score:",
              metrics.calinski_harabasz_score(x, y_pred))
        curr_CH = metrics.calinski_harabasz_score(x, y_pred)
        if (curr_CH > CH):
            gamma_best = gamma
            k_cluster_best = k
            CH = curr_CH

使用嵌套的循环尝试不同的参数组合
- 其中gamma代表谱聚类中的高斯核参数
- k代表聚类的簇数。
对于每一组参数，使用SpectralClustering进行聚类，并计算聚类结果的 Calinski-Harabasz 得分（metrics.calinski_harabasz_score）。得分越高表示聚类效果越好。代码会记录得分最高的参数组合。

4. 输出最佳参数组合

print("best gamma:", gamma_best, "best cluster", k_cluster_best)

输出得分最高的参数组合（即最佳的 gamma 和 k）。

5. 绘制最佳聚类结果图

f = plt.figure()
sc = SpectralClustering(n_clusters=k_cluster_best, gamma=gamma_best).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=sc)
plt.title("n_clusters: " + str(k_cluster_best))
plt.show()

6. 代码整合

import numpy as np
from sklearn.cluster import SpectralClustering
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from numpy import random
from sklearn import metrics


SpectralClustering(affinity='rbf', coef0=1, degree=3, gamma=1.0,
                   kernel_params=None, n_clusters=4, n_init=10,
                   n_neighbors=10)

# scikit中的make_blobs方法常被用来生成聚类算法的测试数据，make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据，这些数据可用于测试聚类算法的效果
random.seed(1)
# n_samples：样本数 n_features：int，可选（默认值= 2）centers：要生成的中心数或固定的中心位置 cluster_std: 聚类的标准偏差
x, y = make_blobs(n_samples=400, centers=4, cluster_std=1.5)
plt.scatter(x[:, 0], x[:, 1], c=y, label=len(np.unique(y)))
plt.title("Initial Data Distribution")
plt.show()

gamma_best = 0
k_cluster_best = 0
CH = 0
for index, gamma in enumerate((1, 1.5, 2, 2.5, 5)):
    for index, k in enumerate((2, 3, 4, 5, 6)):
        y_pred = SpectralClustering(n_clusters=k, gamma=gamma).fit_predict(x)
        # 卡林斯基哈拉巴斯得分（Calinski Harabasz score），本质是簇间距离与簇内距离的比值，整体计算过程与方差计算方式类似，也称为方差比标准，
        # 通过计算类内各点与类中心的距离平方和来度量类内的紧密度（类内距离），各个类中心点与数据集中心点距离平方和来度量数据集的分离度（类间距离），
        # 较高的 Calinski Harabasz 分数意味着更好的聚类
        print("Calinski-Harabasz Score with gamma=", gamma, "n_clusters=", k, "score:",
              metrics.calinski_harabasz_score(x, y_pred))
        curr_CH = metrics.calinski_harabasz_score(x, y_pred)
        if (curr_CH > CH):
            gamma_best = gamma
            k_cluster_best = k
            CH = curr_CH

print("best gamma:", gamma_best, "best cluster", k_cluster_best)

f = plt.figure()
sc = SpectralClustering(n_clusters=k_cluster_best, gamma=gamma_best).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=sc)
plt.title("n_clusters: " + str(k_cluster_best))
plt.show()
请详细介绍上述代码

http://www.niftyadmin.cn/n/5063753.html

相关文章

（ubuntu）Docker 安装linux 详情过程

（ubuntu）Docker 安装linux 详情过程

文章目录前言Docker 安装linux第一步：使用dokcker 拉取镜像：第二步：创建本地目录（用于挂载）第三步：（上传配置文件）修改配置文件第四步：创建docker容器第五步: 测试本地连…

阅读更多...

There is already ‘consumerController‘ bean method

There is already ‘consumerController‘ bean method

一、问题描述在控制台中找到异常 Caused by可以看到：There is already consumerController2 bean method Caused by: java.lang.IllegalStateException: Ambiguous mapping. Cannot map userController method public java.util.List<com.yh.pojo.User> c…

阅读更多...

【AI视野·今日NLP 自然语言处理论文速览第四十五期】Mon, 2 Oct 2023

【AI视野·今日NLP 自然语言处理论文速览第四十五期】Mon, 2 Oct 2023

AI视野今日CS.NLP 自然语言处理论文速览 Mon, 2 Oct 2023 Totally 44 papers 👉上期速览✈更多精彩请移步主页 Daily Computation and Language Papers Efficient Streaming Language Models with Attention Sinks Authors Guangxuan Xiao, Yuandong Tian, Beidi C…

阅读更多...

FreeRTOS入门教程（同步与互斥）

FreeRTOS入门教程（同步与互斥）

文章目录前言一、同步与互斥概念二、在FreeRTOS中如何实现同步和互斥三、同步和互斥各类方法对比总结前言前几篇文章一直在围绕FreeRTOS中的任务创建，删除，优先级，调度算法进行讲解，那么从本篇文章开始将围绕同步与互斥来展开…

阅读更多...

WEB 3D 技术，通过node环境创建一个three案例

WEB 3D 技术，通过node环境创建一个three案例

好文章前端3D Three.js 在本地搭建一个官方网站中我们搭建了一个Three的官网现在呢我们就来创建第一个ThreeJs的资源这里呢我们还是选择一个脚手架的开发模式因为现在基本所有的前端都在使用这样的开发方式这里我们创建一个文件夹目录作为我们项目的存放目录我们…

阅读更多...

【MySQL教程】| （1-1） 2023MySQL-8.1.0 安装教程

【MySQL教程】| （1-1） 2023MySQL-8.1.0 安装教程

文章目录一、安装包下载二、安装配置1、解压安装包2、编写MySQL配置文件3、初始化MySQL数据库3、安装mysql服务并启动4、MySQL服务5、连接MySQL6、修改密码三、配置环境变量四、防止mysql自启动拖慢开机时间近日有粉丝问到mysql在win11的安装中遇到一些问题，应粉…

阅读更多...

操作系统初探 - 进程的概念

操作系统初探 - 进程的概念

目录预备知识冯诺依曼和现代计算机结构操作系统的理解进程和PCB的概念 PCB中的信息查看进程信息的指令 - ps pid 进程状态预备知识在学习操作系统之前我们需要先了解一下如下的预备知识。冯诺依曼和现代计算机结构美籍匈牙利科学家冯诺依曼最先提出“程序存…

阅读更多...

BIT-6自定义类型和动态内存管理（11000字详解）

BIT-6自定义类型和动态内存管理（11000字详解）

一：自定义类型 1.1：结构体在生活中，基本数据类型可以描述绝大多数的物体，比如说名字，身高，体重，但是还有一部分物体还不足够被描述，比如说我们该如何完整的描述一本书呢&#xff…

阅读更多...

最新文章