机器学习|监督学习|无监督学习|8:20~9:20

news/2024/5/20 6:23:03 标签: 算法, 聚类, 数据挖掘

目录

一、监督学习(Supervised learning)

​​​​​​​2.1分类(classification)

2.2回归(regression)

泛化能力 Generalization Ability 

欠拟合

过拟合

不收敛

2.3 K近邻算法

k近邻分类​

k近邻回归

KNN变种

二、无监督学习(Unsupervised learning)

2.1 聚类(clustering)

簇(或类)cluster

聚类和分类的区别


监督学习:分类、回归

无监督学习:聚类、降维

半监督学习:两者结合

自监督学习:无监督的一个分支

强化学习:基于环境反馈


​​​​​​​一、监督学习(Supervised learning)

有明确的输入/输出对,输入为特征,输出为标签

训练样本带有信息标记,利用已有的训练样本信息学习数据的规律预测未知的新样本标签。

常见场景:垃圾邮件处理、人脸识别、温度测量等分类和回归问题;

常见算法:逻辑回归(Logistic Regression)和神经网络、支持向量机、决策树。

​​​​​​​\bullet2.1分类(classification)

分类是识别出一组数据的所属类别,目标是预测类别标签(Class Label),分类问题可分为二分类和多分类,在两个类别之间进行区分的情况为二分类,在两个以上的类别之间进行区分的情况为多分类。

\bullet2.2回归(regression)

回归的目标是预测一组连续值,编程术语叫作浮点数,数学术语叫作实数。

区分分类和回归有一个简单的方法,就是输出是否具有某种连续性,具有连续性则为回归问题,不存在连续性则为分类问题。

分类与回归的区别是输出空间的度量不同:

监督学习的目标是构建一个泛化精度尽可能高的模型。

泛化能力 Generalization Ability 

指一个机器学习算法对于没有见过的样本的识别能力,也可以形象地称为举一反三的能力,或者称为学以致用的能力。根据测试数据预测的结果对比测试数据的标签,能够检测出此模型的泛化能力。

欠拟合

过拟合

  

不收敛

不收敛一般出现在一些基于梯度下降算法的模型中,收敛是指这个算法有能力找到局部的或者全局的最小值(比如找到使得预测的标签和真实的标签最相近的值,也就是两者距离的最小值),从而得到一个问题的最优解。

2.3 K近邻算法

思路:在特征空间中,如果一个样本附近的K个最近(即特征空间中最邻近)样本的大多属于某一个类别,则该样本也属于这个类别。

k近邻分类

KNN算法选择的邻居都是已经正确分类的对象。

k近邻回归

通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的值。

用KNN算法在连续区间内对数值进行预测,这就是KNN回归。使用sklearn.neighbors.KNeighborsRegressor类。

KNN变种


二、无监督学习(Unsupervised learning)

在无监督学习中,数据只有输入特征,没有输出标签,学习模型是为了推断出数据的一些内在结构。

常见算法:关联规则(Apriori算法)、聚类(K-menas算法)、降维(PCA算法)

训练样本的标记信息是未知的,目的是为了揭露样本的内在属性、结构和信息,为进一步的数据挖掘提供基础。

\bullet2.1 聚类(clustering)

按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不同簇内的数据对象差异性也尽可能大。

簇(或类)cluster

子集合,最大化簇内的相似性,最小化簇与簇之间的相似性。

聚类可以作为一个单独过程,用于寻找数据内在分布结构,也可以作为其他学习任务前驱过程

聚类相似度度量标准:几何距离

\bullet降维(dimensionality reduction)

\bullet异常检测(outlier detection)

\bullet推荐系统(recommendation system)

聚类和分类的区别

聚类是无监督学习任务,不知道真实的样本标记,只把相似度高的样本聚合在一起;分类是监督学习任务,利用已知的样本标记训练学习器预测未知样本的类别。


http://www.niftyadmin.cn/n/428507.html

相关文章

二叉树的非递归遍历2

2023.6.12 三个是统一的遍历思路,只需要修改顺序即可完成遍历 每个节点第一次被添加到堆栈里面,是作为某个节点的左右节点,此时只是在堆栈中记下其处理顺序。 第二次被添加到堆栈里面,是被pop()处理以后,被打上None标记…

电子行业 K 公司对接 Nexperia EDI 项目案例

项目背景 Nexperia 是一家全球领先的半导体制造商,专注于提供高性能、高可靠性和创新性的半导体解决方案。公司成立于2017年,是前飞思卡尔半导体业务的一部分,并在全球范围内拥有多个设计、研发和生产基地。 Nexperia 使用 EDI(…

语法——时态总结

一般现在时 1.概念:经常、反复发生的动作或行为及现在的某种状况。 2.基本结构:①is/am/are;②do/does否定形式:①am/is/are not;②此时态的谓语动词若为行为动词,则在其前加don‘t,如主语为第三人称单数&#xff0…

<Linux开发>驱动开发 -之-内核定时器与中断

<Linux开发>驱动开发 -之-内核定时器与中断 交叉编译环境搭建: <Linux开发> linux开发工具-之-交叉编译环境搭建 uboot移植可参考以下: <Linux开发> -之-系统移植 uboot移植过程详…

微服务学习笔记--高级篇--(Redis主从)

Redis主从 搭建主从架构主从数据同步原理 搭建主从架构 单节点Redis的并发能力是有上限的,要进一步提高Redis的并发能力,就需要搭建主从集群,实现读写分离。 搭建主从架构 1.1集群结构 共包含三个节点,一个主节点&#xff0c…

618什么值得囤?这些刚需数码好物必囤!

​目前,618活动已经正式拉开帷幕了,相信很多小伙伴已经按耐不住想要入手了!但如果目前还没什么头绪,不知道买什么的话,现在就不妨来抄一下作业吧!近期我整理了一份618数码好物清单,都是精心挑选…

mmsegmentation修仙之路-bug篇(3)

合集目录 mmsegmentation修仙之路-bug篇(1)mmsegmentation修仙之路-bug篇(2)mmsegmentation修仙之路-bug篇(3) ValueError: expected 4D input (got 3D input) 这个是在训练swin-t主干网络时遇到的问题&am…

pyqtgraph 获取鼠标位置

获取鼠标位置,打印出来。 import sys from PyQt5.QtWidgets import QApplication, QMainWindow import pyqtgraph as pgclass MainWindow(QMainWindow):def __init__(self):super(MainWindow, self).__init__()# 创建一个pyqtgraph的PlotWidgetself.plot_widget p…