机器学习之聚类算法、随机森林

news/2024/5/20 8:02:50 标签: 机器学习, 算法, 聚类

文章目录

随机森林

决策树

基础

概念:从根节点一步步走到叶子节点(决策);
组成:根节点=第一个选择的节点;叶子节点=最终的决策结果;非叶子节点=中间过程;
训练:除叶子节点之外所有的特征节点,选择节点的过程以及构建树的过程;
测试:已知树的结构,输入数据,得到最终该数据要去哪个叶子节点;
如何选择特征:通过某种衡量标准,计算哪个特征作为根节点;衡量标准是熵;
熵值:表示随机变量的不确定性度量。公式如下:H(X)=-∑ pi* logpi, i=1,2,…n
概率是0-1之间的一个数,某类别概率越大,则logpi就越小,即给定数据中选择该类别对象,选中的概率越大。选不中的概率就越小(即熵值越小);
信息增益:表示特征X使得类Y的不确定性减少的程度。通过选取X作为节点,将所有数据分成两组,每组计算熵值,于初始熵值比较,若熵值减少值最大,则说明该特征X选取合适。
决策树方式:需要采用预训练的方式,即需要带标签的数据。
特征的衡量标准,除了熵值还有GINI系数。某类别概率越大,GINI系数越小。
在这里插入图片描述

特征值问题?

特征有离散和连续,离散特征包含离散情况、类别变量;对于连续值应该如何判断?

聚类算法


http://www.niftyadmin.cn/n/5457869.html

相关文章

Java商城 免 费 搭 建:鸿鹄云商实现多种商业模式,VR全景到SAAS,应有尽有

鸿鹄云商 b2b2c产品概述 【b2b2c平台】,以传统电商行业为基石,鸿鹄云商支持“商家入驻平台自营”多运营模式,积极打造“全新市场,全新 模式”企业级b2b2c电商平台,致力干助力各行/互联网创业腾飞并获取更多的收益。从消…

RTSP客户端的请求格式

2024年3月29日&#xff0c;周五下午 RTSP客户端发送请求时&#xff0c;通常采用类似HTTP的请求格式&#xff0c;但与HTTP略有不同。以下是RTSP客户端请求的基本格式&#xff1a; <Method> <URL> RTSP/<Version> <CSeq>: <SequenceNumber> <H…

ensp中pc机访问不同网络的服务器

拓扑图如下&#xff0c;资源已上传 说明&#xff1a;pc通过2个路由访问server服务器 三条线路分别是192.168.1.0网段&#xff0c;192.168.2.0网段和192.168.3.0网段&#xff0c;在未配置的情况下&#xff0c;pc设备是访问不到server的 具体操作流程 第一&#xff1b;pc设备…

机器学习-生存分析:基于QHScrnomo模型的乳腺癌患者风险评估与个性化预测

一、引言 乳腺癌作为女性常见的恶性肿瘤之一&#xff0c;对女性健康构成威胁。随着医疗技术的不断进步&#xff0c;个性化医疗逐渐成为乳腺癌治疗的重要方向。通过深入研究乳腺癌患者的风险评估和个性化预测&#xff0c;可以帮助医生更准确地制定治疗方案&#xff0c;提高治疗效…

阿里云CentOS7安装Flink1.17

前提条件 阿里云CentOS7安装好jdk&#xff0c;官方文档要求java 11&#xff0c;使用java 8也可以。可参 hadoop安装 的jdk安装部分。 下载安装包 下载安装包 [hadoopnode1 ~]$ cd softinstall/ [hadoopnode1 softinstall]$ wget https://archive.apache.org/dist/flink/flin…

学习笔记(17)递归

目录 定义递归使用递归分类头递归尾递归 注意事项 定义 递归&#xff1a;是一种自己调用自己的算法&#xff0c;将大型的复杂问题&#xff0c;层层转化为一个与原问题相似但规模较小的问题来求解。而在JavaScript中&#xff0c;函数直接或间接的调用自己&#xff0c;则该函数便…

pulsar: kafka on pulsar之把pulsar当kafka用

一、下载协议包&#xff08;要和pulsar版本比较一致&#xff09; https://github.com/streamnative/kop/releases?q2.8.0&expandedtrue二、在pulsar的根目录创建一个protocols目录&#xff0c;将上述包放到这个目录里 三、编辑broker.conf(如果是集群)或者standalone.con…

网络编程(三要素 ,IP、端口、协议)

二、网络三要素&#xff1a; 2.1 IP地址 接下来&#xff0c;我们详细介绍一下IP地址。IP&#xff08;Ineternet Protocol&#xff09;全称互联网协议地址&#xff0c;是分配给网络设备的唯一表示。IP地址分为&#xff1a;IPV4地址、IPV6地址 IPV4地址由32个比特位&#xff0…