数据挖掘 模糊聚类

news/2024/5/20 6:23:13 标签: 数据挖掘, 聚类, 人工智能

格式化之前的代码:

import matplotlib.pyplot as plt#绘图
import pandas as pd#读取数据集
from sklearn.preprocessing import scale
from sklearn.cluster import DBSCAN#聚类
from sklearn import preprocessing#数据预处理的功能,包括缩放、标准化、正则化等
plt.rcParams["font.sans-serif"] = "Microsoft Yahei"#字体
df = pd.read_csv("country.txt",sep="\t")
num_data = df[["面积km^2", "人口"]]
X = preprocessing.minmax_scale(num_data,feature_range=(0,10000))#最小-最大缩放是一种常用的数据预处理方法,它将原始数据线性地缩放到给定的范围内,feature_range=(0,10000)指定了缩放后的特征值范围为0到10000。这意味着最小值将被缩放到0,最大值将被缩放到10000,而其他值将按比例缩放以保持数据的分布。
model = DBSCAN(eps=2000,min_samples=3)#DBSCAN是scikit-learn库中的一个聚类算法模型,eps=2000表示DBSCAN算法中的邻域半径,指定了两个样本被视为同一簇的最大距离。如果两个样本之间的距离小于等于eps,则这两个样本被认为是相邻的,min_samples=3表示DBSCAN算法中的核心点的最小样本数。当一个样本的邻域内包含至少min_samples个样本点时,该样本被认为是核心点。
model.fit(X)
label = model.labels_
plt.figure(figsize=(5,5))
print(label)
for i in df[label == -1].index:
    plt.scatter(df.loc[i,'面积km^2'],df.loc[i,"人口"],color = 'red')#绘图
    plt.annotate(text=df.loc[i,"国家"],xy=(df.loc[i,'面积km^2'],df.loc[i,"人口"]))#注释
for i in df[label == 0].index:
    plt.scatter(df.loc[i,'面积km^2'],df.loc[i,"人口"],color = 'blue')
    plt.annotate(text=df.loc[i,"国家"],xy=(df.loc[i,'面积km^2'],df.loc[i,"人口"]))#df.loc用于按标签进行索引,i是索引值
for i in df[label == 1].index:
    plt.scatter(df.loc[i,'面积km^2'],df.loc[i,"人口"],color = 'yellow')
    plt.annotate(text=df.loc[i,"国家"],xy=(df.loc[i,'面积km^2'],df.loc[i,"人口"]))

plt.show()

格式化之后的代码:

import matplotlib.pyplot as plt  # 绘图
import pandas as pd  # 读取数据集
from sklearn.preprocessing import scale
from sklearn.cluster import DBSCAN  # 聚类
from sklearn import preprocessing  # 数据预处理的功能,包括缩放、标准化、正则化等

plt.rcParams["font.sans-serif"] = "Microsoft Yahei"  # 字体
df = pd.read_csv("country.txt", sep="\t")
num_data = df[["面积km^2", "人口"]]
X = preprocessing.minmax_scale(num_data, feature_range=(0,
                                                        10000))  # 最小-最大缩放是一种常用的数据预处理方法,它将原始数据线性地缩放到给定的范围内,feature_range=(0,10000)指定了缩放后的特征值范围为0到10000。这意味着最小值将被缩放到0,最大值将被缩放到10000,而其他值将按比例缩放以保持数据的分布。
model = DBSCAN(eps=2000,
               min_samples=3)  # DBSCAN是scikit-learn库中的一个聚类算法模型,eps=2000表示DBSCAN算法中的邻域半径,指定了两个样本被视为同一簇的最大距离。如果两个样本之间的距离小于等于eps,则这两个样本被认为是相邻的,min_samples=3表示DBSCAN算法中的核心点的最小样本数。当一个样本的邻域内包含至少min_samples个样本点时,该样本被认为是核心点。
model.fit(X)
label = model.labels_
plt.figure(figsize=(5, 5))
print(label)
for i in df[label == -1].index:
    plt.scatter(df.loc[i, '面积km^2'], df.loc[i, "人口"], color='red')  # 绘图
    plt.annotate(text=df.loc[i, "国家"], xy=(df.loc[i, '面积km^2'], df.loc[i, "人口"]))  # 注释
for i in df[label == 0].index:
    plt.scatter(df.loc[i, '面积km^2'], df.loc[i, "人口"], color='blue')
    plt.annotate(text=df.loc[i, "国家"], xy=(df.loc[i, '面积km^2'], df.loc[i, "人口"]))  # df.loc用于按标签进行索引,i是索引值
for i in df[label == 1].index:
    plt.scatter(df.loc[i, '面积km^2'], df.loc[i, "人口"], color='yellow')
    plt.annotate(text=df.loc[i, "国家"], xy=(df.loc[i, '面积km^2'], df.loc[i, "人口"]))

plt.show()


http://www.niftyadmin.cn/n/5297853.html

相关文章

C++面试宝典第12题:数组元素相除

题目 从控制台输入若干个整数作为数组,将数组中每一个元素除以第一个元素的结果,作为新的数组元素值。比如:可以先输入3,作为数组元素的个数;然后输入3个整数,作为数组元素的值。 解析 这道题本身并不复杂,但里面隐藏了不少“坑点”和“雷区”,主要考察应聘者全面思考问…

构造哈夫曼树(数据结构实训)(难度系数85)

构造哈夫曼树 题目描述&#xff1a; 根据给定的叶结点字符及其对应的权值创建哈夫曼树。 输入&#xff1a; 第一行为叶子结点的数目n(1<n<100)。第二行为一个字符串&#xff0c;包含n个字符&#xff0c;每个字符对应一个叶子结点&#xff0c;第三行为每个叶子结点的概率&…

设计模式:抽象工厂模式(讲故事易懂)

抽象工厂模式 定义&#xff1a;将有关联关系的系列产品放到一个工厂里&#xff0c;通过该工厂生产一系列产品。 设计模式有三大分类&#xff1a;创建型模式、结构型模式、行为型模式 抽象工厂模式属于创建型模式 上篇 工厂方法模式 提到工厂方法模式中每个工厂只生产一种特定…

C语言——float.h文件

在C语言中&#xff0c;float.h 是一个标准库头文件&#xff0c;它定义了一系列与浮点数相关的、依赖于具体实现的宏常量。这些常量提供了有关平台支持的浮点类型&#xff08;如 float、double 和 long double&#xff09;的精度和范围信息&#xff0c;这对于编写跨平台兼容或需…

vue的file-saver

Vue FileSaver 是一个用于在浏览器中保存文件的 Vue.js 插件。它提供了一种简单的方式来将数据以文件的形式下载到用户的计算机上。 使用 Vue FileSaver&#xff0c;你可以将数据保存为常见的文件格式&#xff0c;如文本文件&#xff08;.txt&#xff09;、CSV 文件&#xff0…

Debezium日常分享系列之:向 Debezium 连接器发送信号

Debezium日常分享系列之&#xff1a;向 Debezium 连接器发送信号 一、概述二、激活源信号通道三、信令数据集合的结构四、创建信令数据集合五、激活kafka信号通道六、数据格式七、激活JMX信号通道八、自定义信令通道九、Debezium 核心模块依赖项十、部署自定义信令通道十一、信…

山西电力市场日前价格预测【2024-01-02】

日前价格预测 预测说明&#xff1a; 如上图所示&#xff0c;预测明日&#xff08;2024-01-02&#xff09;山西电力市场全天平均日前电价为92.93元/MWh。其中&#xff0c;最高日前电价为275.90元/MWh&#xff0c;预计出现在18:00。最低日前电价为0.00元/MWh&#xff0c;预计出现…

第5课 使用openCV捕获摄像头并实现预览功能

这节课我们开始利用ffmpeg和opencv来实现一个rtmp推流端。推流端的最基本功能其实就两个:预览画面并将画面和声音合并后推送到rtmp服务器。 一、FFmpeg API 推流的一般过程 1.引入ffmpeg库&#xff1a;在代码中引入ffmpeg库&#xff0c;以便使用其提供的功能。 2.捕获摄像头…