数据挖掘原理与实践 第四章作业

news/2024/5/20 10:37:48 标签: 数据挖掘, 聚类, 机器学习, 大数据

P147

4.2

假设数据挖掘的任务是将如下的8个点(用 (x,y) 代表位置)聚类为三个簇:A1 (2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)。距离函数是 Euclidean 函数。假设初始我们选择 A1、B1 和 C1 为每个簇的中心,用 k-means 算法来给出。
(1) 在第一次循环执行后的三个簇中心。
(2) 最后的三个簇中心及簇包含的对象。

Euclidean 为欧式距离,该距离公式如下:
在这里插入图片描述
初始选择A1、B1和C1为每个簇的中心:
在这里插入图片描述
第一轮
P1(2,10):A1(2,10)
P2(5,8):B1(5,8),A3(8,4),B2(7,5),B3(6,4),C2(4,9)
P3(1,2):C1(1,2),A2(2,5)
对应中心分别是(2,10),(6,6),(1.5,3.5)
在这里插入图片描述
第二轮
P1(2,10):A1(2,10),C2(4,9)
P2(6,6):A2(2,5),C1(1,2)
P3(1.5,3.5):B1(5,8),A3(8,4),B2(7,5),B3(6,4)
对应中心分别是(3,9.5),(1.5,3.5),(6.5,5.25)
在这里插入图片描述
第三轮
P1(3,9.5):A1(2,10),B1(5,8),C2(4,9)
P2(1.5,3.5):A2(2,5),C1(1,2)
P3(6.5,5.25): A3(8,4),B2(7,5),B3(6,4)
对应中心分别是(3.67,9),(1.5,3.5),(7,4.33)
在这里插入图片描述
第四轮
P1(3.67,9):A1(2,10),B1(5,8),C2(4,9)
P2(1.5,3.5):A2(2,5),C1(1,2)
P3(7,4.33): A3(8,4),B2(7,5),B3(6,4)
对应中心分别是(3.67,9),(1.5,3.5),(7,4.33)

答:
(1)在第一次循环执行后的三个簇中心为:(2,10),(6,6),(1.5,3.5);
(2)最后的三个簇中心及簇包含的对象为{A1(2,10),B1(5,8),C2(4,9)},{A3(8,4),B2(7,5),B3(6,4)},{C1(1,2),A2(2,5)};

4.3

聚类被广泛地认为是一种重要的数据挖掘方法,有着广泛的应用。对如下每种情况给出一个应用例子。
(1) 采用聚类作为主要的数据挖掘方法的应用。
(2) 采用聚类作为预处理工具,为其它数据挖掘任务作数据准备的应用。

答:
(1) 如电子商务网站中的客户群划分。根据客户的个人信息、消费习惯、浏览行为等信息,计算客户之间的相似度,然后采用合适的聚类算法对所有客户进行类划分;基于得到的客户群信息,相关的店主可以制定相应的营销策略,如交叉销售,根据某个客户群中的其中一个客户的购买商品推荐给另外一个未曾购买此商品的客户。
(2) 如电子商务网站中的推荐系统。电子商务网站可以根据得到的客户群,采用关联规则或者隐马尔科夫模型对每个客户群生成消费习惯规则,检测客户的消费模式,这些规则或模式可以用于商品推荐。其中客户群可以通过聚类算法来预先处理获取得到。

4.6

总SSE是每个属性的SSE之和。如果对于所有的簇,某变量的 SSE 都很低,这意味什么?如果只对一个簇很低呢?如果对所有的簇都很高?如果仅对一个簇高呢?如何使用每个变量的 SSE 信息改进聚类

SSE(和方差):The sum of squares due to error
描述拟合数据和原始数据对应点的误差的平方和
在这里插入图片描述
SSE越接近于0,说明模型选择和原数据拟合更好,数据预测也越好。

答:
(1) 如果对于所有的簇,某属性的SSE都很低,那么该属性值变化不大,本质上等于常量,对数据的分组没什么用处。
(2) 如果某属性的SSE只对一个簇很低,那么该属性有助于该簇的定义。
(3) 如果对于所有的簇,某属性的SSE都很高,那么意味着该属性是噪声属性。
(4) 如果某属性的SSE仅对一个簇很高,那么该属性与定义该簇的属性提供的信息不一致。在少数情况下,由该属性定义的簇不同于由其他属性定义的簇,但是在某些情况下,这也意味着该属性不利于簇的定义。
(5) 消除簇之间具有小分辨力的属性,比如对于所有簇都是低或高SSE的属性,因为他们对聚类没有帮助。对于所有簇的SSE都高且相对其他属性来说SSE也很高的属性特别麻烦,因为这些属性在SSE的总和计算中引入了很多的噪声。

4.7

使用基于中心、邻近性和密度的方法,识别图 4-19 中的簇。对于每种情况指出簇个数,并简要给出理由。注意,明暗度或点数指明密度。如果有帮助,假定基于中心即 K 均值,基于邻近性即单链,而基于密度为 DBSCAN。
在这里插入图片描述
在这里插入图片描述

答:
a) 基于中心的方法有2个簇。矩形区域被分成两半,同时2个簇里都包含了噪声数据;基于邻近性的方法有1个簇。因为两个圆圈区域受噪声数据影响而形成一个簇;基于密度的方法有2个簇,每个圆圈区域代表一个簇,而噪声数据会被忽略。
b) 基于中心的方法有1个簇,该簇包含图中的一个圆环和一个圆盘;基于邻近性的方法有2个簇,外部圆环代表一个簇,内层圆盘代表一个簇;基于密度的方法有2个簇,外部圆环代表一个簇,内层圆盘代表一个簇。
c) 基于中心的方法有3个簇,每个三角形代表一个簇;基于邻近性的方法有1个簇,三个三角形区域会联合起来因为彼此相互接触;基于密度的方法有3个簇,每个三角形区域代表一个簇。即使三个三角形相互接触,但是所接触的区域的密度比三角形内的密度小。
d) 基于中心的方法有2个簇。两组线被分到两个簇里;基于邻近性的方法有5个簇。相互缠绕的线被分到一个簇中;基于密度的方法有2个簇。这两组线定义了被低密度区域所分割的两个高密度的区域。


http://www.niftyadmin.cn/n/1770110.html

相关文章

图片展示网站源码_小白如何建立免费公司网站

菜鸟自己如何建网站之网站建设教程    很多从来没有做过网站制作的小白都很想知道,如何建设自己的网站,需要准备什么?步骤有哪些?在做网站之前你需要先明白自己要做的网站类型,是做企业网站,还是商城网…

数据挖掘原理与实践 第五章作业

P170 5.1 列举关联规则在不同领域中应用的实例。 答:在医学领域:发现某些症状与某种疾病之间的关联,为医生进行疾病诊断和治疗提供线索;在商业领域:发现商品间的联系,为商场进行商品促销及摆放货架提供辅…

卡尔曼滤波对gps轨迹数据清洗_贝叶斯视角下的卡尔曼滤波

其实,关于卡尔曼滤波,之前已经写过一篇文章,参见《线性动态系统与卡尔曼滤波》,这篇文章从更一般的线性动态系统切入,引入其子问题卡尔曼滤波,并同时介绍了推理和学习两部分内容。因此,该文中的…

数据挖掘原理与实践 第六章作业

6.1 为什么离群点挖掘是重要的? 答:离群点是指与大部分其它对象不同的对象,在数据的散布图中,它们远离其它数据点,其属性值显著地偏离期望的或常见的属性值。 (1) 因为离群点可能是度量或执行错误所导致的&#xff0c…

html在不同电脑上排版不一样怎么办_「零基础」快速掌握前端HTML+CSS

什么是HTML:HTML: 超文本标记语言,标准通用标记语言下的一个应用。“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。超文本标记语言的结构包括“头”部分(英语:Head)、和“主体”部分(英语&…

思科 计算机网络 第10章测试考试 答案

测试 大型网络中为什么首选使用 DHCP? 选择一项: A. 大型网络会比较小网络发送更多的请求来进行域到 IP 地址的解析。 B. DHCP 会使用一种可靠的传输层协议。 C. 它可以防止受版权保护的文件的共享。 D. 在管理 IP 地址方面,它是一种比静态地…

思科 计算机网络 第11章测试考试 答案

测试 下列哪种方法被认为是缓解蠕虫攻击的最有效方法? 选择一项: A. 每 30 天更改一次系统密码。 B. 确保所有系统都有最新的病毒定义。 C. 确保在网络中配置 AAA。 D. 从操作系统供应商处下载安全更新,并为所有存在漏洞的系统应用补丁。 Re…

思科 计算机网络 第1章测试考试 答案

测验 将 Internet 连接类型与对应的描述或特征配对。 (并非所有选项都会用到)。 电缆 - 和电视信号在相同的铜介质或光纤介质上传输信号 移动电话 - 通过移动电话网络访问 卫星 - 提供服务时需要使用卫星天线而且要求视线清晰 SDSL - 商业级服务&#x…