dbscan算法实现鸢尾花聚类(python实现)

news/2024/5/20 8:03:03 标签: 算法, 聚类, python

DBscan算法原理 : 

dbscan算法-CSDN博客

法一(调库) : 

直接调库 : 

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import StandardScaler

# 加载数据集
iris = datasets.load_iris()
X = iris.data

# 数据预处理,标准化数据
scaler = StandardScaler()
X = scaler.fit_transform(X)

# 使用DBSCAN聚类算法
dbscan = DBSCAN(eps=0.5, min_samples=5) # 获取DBSCAN聚类对象
y_pred = dbscan.fit_predict(X)

# 输出聚类结果
print('聚类结果:', y_pred)

# 可视化
pca = PCA(n_components=2)
transformed = pca.fit_transform(X)

print(transformed)

# 绘制聚类结果
plt.scatter(transformed[:, 0], transformed[:, 1], c=y_pred)
plt.xlabel('Component 1')
plt.ylabel('Component 2')
plt.title('DBSCAN Clustering on Iris Dataset')
plt.show()

其中重要的代码也就两行 : 

# 使用DBSCAN聚类算法
dbscan = DBSCAN(eps=0.5, min_samples=5) # 获取DBSCAN聚类对象
y_pred = dbscan.fit_predict(X)

实现效果 : 

法二(手写):

思路 : 根据原理实现,可根据具体注释理解(相信一定能够看懂)

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA

def distance(p1, p2): # 计算两点的欧式距离
    return np.sqrt(np.sum((p1 - p2) ** 2))

def region_query(data, idx , eps): # 获取与data相邻点的下标集合
    neighbors = [] # 创建空邻居列表
    for index, point in enumerate(data):
        if distance(point, data[idx]) <= eps:
            neighbors.append(index)
    return neighbors

def expand_cluster(data, labels, point_index, cluster_label, eps, min_samples): # 对点进行扩展
    neighbors = region_query(data, point_index, eps)
    if len(neighbors) < min_samples:# 领域内少于min_samples --> 为噪声点
        labels[point_index] = -1  # 标记为噪声点
        return False
    else:
        labels[point_index] = cluster_label # 标记为当前标签
        for neighbor_index in neighbors:
            if labels[neighbor_index] == 0:# 该点未访问过
                labels[neighbor_index] = cluster_label
                expand_cluster(data, labels, neighbor_index, cluster_label, eps, min_samples) # 继续找下去 , 递归
        return True

def dbscan(data, eps, min_samples):
    n = len(data) # 求数据的长度
    labels = np.zeros(n)  # 0表示未分类  : 先全部赋值为 0
    cluster_label = 0 # 簇的数量 / 簇的标记 , 每当一个新的聚类被创建时,cluster_label的值会递增,以便为下一个聚类指定不同的标签。

    # 类似于BFS
    for idx in range(n):# 访问所有点
        if labels[idx] == 0:# 当前点未访问
            if expand_cluster(data, labels, idx , cluster_label + 1, eps, min_samples):
                cluster_label += 1

    return labels


# 准备数据准备
iris = datasets.load_iris()
x = iris.data # 导入鸢尾花数据集

# DBSCAN进行聚类
eps = 0.5  # 邻域半径
min_samples = 5  # 最小样本数
labels = dbscan(x, eps, min_samples) # 获取聚类结果

print(labels)

# 可视化
pca = PCA(n_components=2)
transformed = pca.fit_transform(x)

plt.scatter(transformed[:, 0], transformed[:, 1], c=labels)
plt.xlabel('Component 1')
plt.ylabel('Component 2')
plt.title('DBSCAN Clustering on Iris Dataset')
plt.show()

实现效果 : 

具体分类数据 : 


http://www.niftyadmin.cn/n/5446014.html

相关文章

VS Code 跳板机登录服务器(手打密码+秘钥登录)

目录 0.为什么要用跳班机登陆服务器&#xff1f; 1.VS Code插件安装及ssh安装 2.密码链接方式 1&#xff09;添加ssh设置&#xff0c;设置主机 2)设置跳板机 Tips:可以直接通过窗口连接文件管理 3.密钥连接方式&#xff08;更安全更方便&#xff09; 1&#xff09;mac版…

css的border详解

CSS的border属性是一个简写属性&#xff0c;用于设置以下四个边框属性&#xff1a; border-width&#xff1a;定义边框的宽度。可以使用具体的像素值&#xff0c;或者使用预定义的关键字如thin、medium和thick。border-width不支持百分比值。默认情况下&#xff0c;边框的宽度是…

微信小程序实现图片懒加载的4种方案

实现图片懒加载的意义 实现图片懒加载可以提高小程序的性能和用户体验&#xff0c;是微信小程序开发中非常重要的一项优化手段。微信小程序实现图片懒加载的目的主要有以下几点&#xff1a; 提高页面加载速度&#xff1a;图片通常是页面中最耗时的资源&#xff0c;如果一次性…

qt 程序 打包 批处理方式

如果可执行程序包含很多自己写的dll&#xff0c;用cmd 方式 使用 windeployqt 绝对路径打包时比较慢&#xff0c;下面介绍通过bat批处理的方式&#xff0c;将打包命令写在文件中&#xff0c;执行bat文件即可&#xff0c;具体步骤如下&#xff1a; 1.复制 将要打包的a1.dll 等…

33.网络游戏逆向分析与漏洞攻防-游戏网络通信数据解析-游戏登录数据包分析利用

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 如果看不懂、不知道现在做的什么&#xff0c;那就跟着做完看效果 内容参考于&#xff1a;易道云信息技术研究院VIP课 上一个内容&#xff1a;32.网络数据分析…

【QT入门】 Qt自定义信号后跨线程发送信号

往期回顾&#xff1a; 【QT入门】 lambda表达式(函数)详解-CSDN博客 【QT入门】 Qt槽函数五种常用写法介绍-CSDN博客 【QT入门】 Qt实现自定义信号-CSDN博客 【QT入门】 Qt自定义信号后跨线程发送信号 由于Qt的子线程是无法直接修改ui&#xff0c;需要发送信号到ui线程进行修改…

android gdb 调试

gdbgdbserver远程调试技术&#xff08;一&#xff09;——调试环境搭建_gdbserver 远程调试-CSDN博客 GDB/gdbserver 7.4.1 for Android with NEON support (gnutoolchains.com) sudo apt-get install texinfo$ tar zxvf gdb-7.12.tar.gz $ cd gdb-7.12/$ mkdir build$ cd bu…

简单函数_学分绩点

任务描述 北京大学对本科生的成绩施行平均学分绩点制&#xff08;GPA&#xff09;。既将学生的实际考分根据不同的学科的不同学分按一定的公式进行计算。 公式如下&#xff1a; 实际成绩 绩点 90——100 4.0 85——89 3.7 82——84 3.3 78——81 3.0 75——77 …